Redif : Gestion de stress

Dans le cadre des rediffusions estivales, je vous propose ce billet publié en octobre 2010, et dont l’image d’illustration m’a toujours fait sourire (il m’en faut peu). Vous pouvez cliquer dessus pour l’agrandir…

————————————————————————————————

Cet après-midi là, tous les ordinateurs du travail se sont mis à planter
(sauf le mien ;). Mon téléphone a commencé à crépiter et mes voisins de
bureau à venir me voir, goguenards.

Aussitôt, je suis aller rejoindre mon équipe en salle serveurs.

Première chose, redémarrer la production. Comprendre ensuite si
possible, mais arrêter le moins longtemps possible la structure. Et pour
cela, il faut un peu de calme: je prends les téléphones de mon équipe
pour éliminer le plus possible les interférences avec le monde
extérieur. Je deviens le seul point d’entrée du service informatique (je
réponds à tous les appels, poliment mais très succinctement: “Nous
avons un gros problème, nous nous en occupons, merci de votre appel mais
il va falloir patienter”).

Nous commençons une analyse de tous les symptômes du problème. Les
serveurs sont très lents. Seuls les serveurs Windows semblent atteints.
Il est difficile, voire impossible, d’ouvrir une session distante
dessus. Une attaque virale?

Je continue de répondre aux appels et à accueillir les personnes qui se
déplacent jusqu’au service (en général des étudiants envoyés par les
professeurs à la pêche aux informations).

Est-ce une instabilité liée au système de virtualisation? Dans ce cas,
pourquoi les machines virtuelles GNU/Linux ne semblent pas affectées?

Je suis calme et ma sérénité gagne toute l’équipe. Nous sommes en train
de faire un diagnostic différentiel sans canne et sans Vicodin… Les
hypothèses fusent librement et nous les soupesons chacune pour trouver
une piste.

Qu’est-ce qui peut bien mettre tout notre système par terre? Nous lançons iptrafic pour regarder les trames réseaux.

“Tiens, les machines de Casablanca se synchronisent sur notre WSUS local. Pas bon ça!”

“Peut pas être en rapport avec le problème, les débits en jeux sont trop
faibles: 10Mb/s d’un côté, 2Gb/s de l’autre, un rapport de 200 entre
les deux…”

“Un problème de synchro entre les deux annuaires, alors”

“OK, reboote l’un des deux serveurs AD, attend qu’il soit en ligne et reboote le deuxième ensuite, on verra bien”

La situation de crise est bien là. L’école est arrêtée, je sais que l’on
me reprochera d’avoir failli. Mais le moment n’est pas encore à assumer
le problème, le moment est à la recherche d’une solution pour retrouver
un bon fonctionnement…

Nous sommes calmes, les gestes sont précis et les hypothèses, plus ou
moins loufoques, sont passées au crible les unes après les autres.

“Si c’est un problème réseau, on est mal”

“C’est sur, nous n’avons pas de sondes temps-réel, à peine une surveillance snmp des principaux switches.”

“Tous les serveurs Windows fonctionnent au ralenti, plusieurs personnes
n’arrivent pas à s’y connecter, ceux déjà connectés ont des timeouts, et
certaines machines sous XP se figent”

“Regarde la carte réseaux de la console, elle clignote comme une folle.”

“Bon, pas le temps de lancer un Wireshark. On reboote le cœur de réseau.
Si ce n’est pas cela. On débranche tout. On arrête toutes les VM, tous
les serveurs physiques, et on redémarre tout”.

Et comme dans une opération dans un bloc chirurgical, nous arrêtons le
cœur (trois alimentations à mettre sur off), nous comptons jusqu’à dix,
puis l’on remet tout sous tension.

Le cœur de réseau repart… Sur nos écrans, nous lançons différents
tests pour jauger le fonctionnement des serveurs. Je regarde les courbes
de charge. Il faut environ une minute pour que les autotests du cœur de
réseau aboutissent et que le système soit de nouveau opérationnel. Nous
retenons notre souffle.

Les étudiants dans le couloir nous font des petits signes
d’encouragement. Les cours reprennent. Le problème est résolu. Notre
switch principal était en vrille. Pourquoi? Pour l’instant, nous ne
savons pas. J’ai peur d’une attaque virale qui serait passée à travers
les antivirus. Il faudra bien que cela nous arrive, maintenant que l’on a
abandonné Novell…

L’alerte aura durée un quart d’heure. C’est trop, beaucoup trop.
Maintenant il faut que j’explique à 1000 personnes que je n’ai pas été
capable d’empêcher cela. Mais pendant un quart d’heure, l’équipe a fait
corps et travaillé avec une puissance que l’on ne trouve que dans les
situations d’urgence.

Et ça, c’est beau.