Voici la description des faits techniques du week end du 10 au 12 mai 2008 ainsi que les mesures correctives ou préventives qui ont été apportées.
Namebay a effectué une migration de son architecture de DNS le samedi 3 mai pour répondre à deux objectifs:
-mettre à jour les composants systèmes de ces DNS (systèmes d’exploitation et logiciel DNS),
-permettre aux utilisateurs de saisir de nouveaux champs DNS en réponse aux demandes qui nous ont été faites, en particulier pour un meilleur traitement anti-spam (champ SPF).
Pour garantir homogénéité, pérennité et indépendance fonctionnelle, nos serveurs sont sous Windows 2003 ou 2008, base de données SQL server 2005, avec environnement virtuel VMware pour accueillir des environnements Linux.
Consécutivement à cette migration, une accumulation de circonstances, a priori rares, a créé ce week end deux interruptions de service rapprochées:
-une en fin d’après midi et soirée du samedi 10 mai, avec rétablissement du service vers minuit trente
-la deuxième très tôt dans la matinée de lundi avec rétablissement du service vers 9h30.
Le DNS secondaire avait dû être rapatrié en début de semaine sur le même plateau technique que le DNS primaire, pour une durée limitée au temps de réinstallation de son nouveau serveur sur son plateau distinct (c’est dû à un retard logistique).
Le samedi en fin d’après-midi, les services techniques de nos hébergeurs ont constaté des pertes de paquets sur le réseau local de nos serveurs. Lors de l’intervention, ils ont constaté que le DNS primaire était indisponible et que le second avait du mal à résoudre les requêtes du fait des paquets perdus. Les techniciens d’astreinte ont dû demander le concours d’autres techniciens pour comprendre la cause de ces pertes de paquets et permettre le redémarrage du service, car un gros firewall (de qualité), support de VPN, était passé dans un état d’erreur.
Le lundi matin, les deux DNS qui interrogeaient la base de données centrale sont devenus indisponibles. Les techniciens d’intervention ont alors constaté que le plantage provenait du connecteur ODBC. Les trois serveurs ont été relancés vers 9h30.
A l’analyse a posteriori, nous avons pris plusieurs mesures correctives et préventives:
-il a été constaté qu’un patch correctif ODBC a été publié les jours précédents par Microsoft. Ce patch a été installé et est en observation.
-les moniteurs de surveillance des DNS ont été renforcés avec des sondes d’interrogation capables de redémarrer les DNS en cas de détection de non résolution.
-nous avons demandé à nos hébergeurs de surveiller précisément le firewall qui est passé en erreur, et d’intervenir directement depuis leur service 24/7, pour raccourcir les délais sur ceux de Namebay.
-le DNS secondaire sera réinstallé prochainement sur son plateau technique distinct
Pour conclure, dire que nous regrettons de n’avoir pu éviter ces concours de circonstances serait une expression insuffisante. Nous pensons néanmoins avoir adopté les mesures que nous pouvions prendre pour un retour à la normale.