Cet après-midi là, tous les ordinateurs du travail se sont mis à planter (sauf le mien;). Mon téléphone a commencé à crépiter et mes voisins de bureau à venir me voir, goguenards.
Aussitôt, je suis aller rejoindre mon équipe en salle serveurs.
Première chose, redémarrer la production. Comprendre ensuite si possible, mais arrêter le moins longtemps possible la structure. Et pour cela, il faut un peu de calme: je prends les téléphones de mon équipe pour éliminer le plus possible les interférences avec le monde extérieur. Je deviens le seul point d’entrée du service informatique (je réponds à tous les appels, poliment mais très succinctement: « Nous avons un gros problème, nous nous en occupons, merci de votre appel mais il va falloir patienter »).
Nous commençons une analyse de tous les symptômes du problème. Les serveurs sont très lents. Seuls les serveurs Windows semblent atteints. Il est difficile, voire impossible, d’ouvrir une session distante dessus. Une attaque virale?
Je continue de répondre aux appels et à accueillir les personnes qui se déplacent jusqu’au service (en général des étudiants envoyés par les professeurs à la pêche aux informations).
Est-ce une instabilité liée au système de virtualisation? Dans ce cas, pourquoi les machines virtuelles GNU/Linux ne semblent pas affectées?
Je suis calme et ma sérénité gagne toute l’équipe. Nous sommes en train de faire un diagnostic différentiel sans canne et sans Vicodin… Les hypothèses fusent librement et nous les soupesons chacune pour trouver une piste.
Qu’est-ce qui peut bien mettre tout notre système par terre? Nous lançons iptrafic pour regarder les trames réseaux.
« Tiens, les machines de Casablanca se synchronisent sur notre WSUS local. Pas bon ça! »
« Peut pas être en rapport avec le problème, les débits en jeux sont trop faibles: 10Mb/s d’un côté, 2Gb/s de l’autre, un rapport de 200 entre les deux… »
« Un problème de synchro entre les deux annuaires, alors »
« OK, reboote l’un des deux serveurs AD, attend qu’il soit en ligne et reboote le deuxième ensuite, on verra bien »
La situation de crise est bien là. L’école est arrêtée, je sais que l’on me reprochera d’avoir failli. Mais le moment n’est pas encore à assumer le problème, le moment est à la recherche d’une solution pour retrouver un bon fonctionnement…
Nous sommes calmes, les gestes sont précis et les hypothèses, plus ou moins loufoques, sont passées au crible les unes après les autres.
« Si c’est un problème réseau, on est mal »
« C’est sur, nous n’avons pas de sondes temps-réel, à peine une surveillance snmp des principaux switches. »
« Tous les serveurs Windows fonctionnent au ralenti, plusieurs personnes n’arrivent pas à s’y connecter, ceux déjà connectés ont des timeouts, et certaines machines sous XP se figent »
« Regarde la carte réseaux de la console, elle clignote comme une folle. »
« Bon, pas le temps de lancer un Wireshark. On reboote le cœur de réseau. Si ce n’est pas cela. On débranche tout. On arrête toutes les VM, tous les serveurs physiques, et on redémarre tout ».
Et comme dans une opération dans un bloc chirurgical, nous arrêtons le cœur (trois alimentations à mettre sur off), nous comptons jusqu’à dix, puis l’on remet tout sous tension.
Le cœur de réseau repart… Sur nos écrans, nous lançons différents tests pour jauger le fonctionnement des serveurs. Je regarde les courbes de charge. Il faut environ une minute pour que les autotests du cœur de réseau aboutissent et que le système soit de nouveau opérationnel. Nous retenons notre souffle.
Les étudiants dans le couloir nous font des petits signes d’encouragement. Les cours reprennent. Le problème est résolu. Notre switch principal était en vrille. Pourquoi? Pour l’instant, nous ne savons pas. J’ai peur d’une attaque virale qui serait passée à travers les antivirus. Il faudra bien que cela nous arrive, maintenant que l’on a abandonné Novell…
L’alerte aura durée un quart d’heure. C’est trop, beaucoup trop. Maintenant il faut que j’explique à 1000 personnes que je n’ai pas été capable d’empêcher cela. Mais pendant un quart d’heure, l’équipe a fait corps et travaillé avec une puissance que l’on ne trouve que dans les situations d’urgence.
Et ça, c’est beau.
Les joies de l'informatique et la hantise de tout admin réseaux… Félicitation pour la détection de la panne car un Switch de niveau III il fallait y pensé à le redémarrer.
Et félicitation pour votre blog que je suis quotidiennement en traquant le nouvelle article.
J'aurais aimé avoir le même admin réseau dans mon ancien IUT. C'était pas 15 minutes mais plutôt 15 heures les serveurs down :/
C'est sûr que c'est plus difficile à expliquer aux utilisateurs que lorsque la raison est
« La fibre optique s'est pris un coup de pelleteuse. »
« Le sol est gorgé d'eau et ça a remonté dans nos machines en sous-sol. »
« L'alimentation du switch principal est fusillée. »
Dis donc ca ressemble fort a une jolie boucle STP ca 😀
idem: spanning tree ?
C'est un lupus !
Ou alors, un problème de boucle. Mais si rien n'a été changé, ça aurait dû/pu apparaître plus tôt. En tous cas, je suis curieux de savoir ce que vous trouverez.
Il y a de grandes chances que les gens fréquentant ce blog connaissent déjà, mais :
https://pages.cs.wisc.edu/~ballard/bofh/bofhserver.pl
C'est ma petite aide pour gérer les reproches.
From this day to the ending of the world,
But we in it shall be remembered-
We few, we happy few, we band of brothers;
For he to-day that sheds his blood with me
Shall be my brother.
William Shakespeare, Henry V.
Lecteur anonyme de ce blog … Ce post m'a beaucoup touché!
En tant qu'admin système, je dois avouer que j'aime beaucoup quand ca bouge …
C'est dans les crises qu'on voit la qualité de l'équipe.
J'ai connu de tout : l'équipe où on te fait passer ton temps à faire de la comm pour te reprocher ensuite de ne pas t'occuper des problèmes … l'équipe où le chef est là uniquement pour t'enfoncer la tête dans la m***e histoire de se couvrir lui et ses copains, et de ne pas s'impliquer … et aussi la vraie Equipe, celle qui fait bloc, qui fait corps, qui se coordonne d'un seul regard et où tout le monde se bouge dans le même sens pour faire avancer le bateau …
Le dernier cas, un vrai bonheur !!
Oui, un tout petit quart d'heure, ça ne paraît pas grand chose en fait (belle réussite de l'équipe !). Mais si on pousse un peu plus loin ! En 2007, un pays qui a poussé très loin la dématérialisation, l'Estonie, s'est arrêté. Une journée entière, urgence des hôpitaux y compris. Je ne me souviens plus exactectement de la cause initiale. Il n'empêche cela a de quoi inquiéter. Et quand on me parle de dématérialisation des procédures expertales !!! il y a encore du boulot !!!!!!!!!
Il aurait peut-être été futé de voir retenir quels étudiants non envoyés par les profs regardaient…
Dans une école d'ingé, y'a de bonnes chances pour que l'auteur ait été lui même observer comment on se dépatouillait de sa sale blague?!
C'est quand même le plus probable, un virus de nos jours ça aime rester discret!
Bon, à mon époque on était quand même plus dans l'attaque ciblée (qui arriverait à piquer le mdp de l'admin de l'école?) et désintéressée (juste pour le délogger et attendre qu'il se pointe en salle de TP observer la tête hilare du coupable!).
Là, le flood/spoof qui fout par terre un switch à la config mal blindée (ou blindable) ou y déclanche un bug de son firmware, c'est pas très malin!
Et si c'est un spanning tree / un souci hard du coeur de réseau par quelle magie les serveurs Unix ont tenu le coup ? disposent-ils d'une configuration les rendant moins sensibles aux erreurs réseau tant qu'elles restent minimes ?
— Ben
Quel professionnalisme !
C'est incroyable de voir que certaines personnes se sentent vraiment concerné par l'accès informatique des étudiants !
Dans ma fac, le parc informatique date en moyenne de 7 ans, les serveurs d'impression plantent un jour sur deux, et le wi-fi emet dans un rayon de 15 mètres…
Sans que personne ne bouge..
Bravo pour votre réaction !
En voyant les symptômes, j'étais certain qu'une mise à jour foireuse de l'antivirus était en cause…
J'ai toujours pas digéré la mise à jour 5217/5218 de nod32…
Yep je viens de voir social network, n'y aurait il pas un nouveau Mark Zuckerberg parmi les étudiants, hé hé…. (film à voir soit dit en passant) surveillons les nerds.
Chapeau, d'autant plus que j'ai eu la même panne Jeudi dernier (120 machines et 20 serveurs) et la cause était la même (switch principal juste avant les serveurs et les VM) sauf que j'ai mis 4 H.00 à trouver la panne, je pensais au switch du 2ème local serveur distant de 100 m. alors que c'était celui qui était tout près de mon bureau qui faisait des siennes. Je l'ai relancé et tout est rentré dans l'ordre mais je ne sais toujours pas pourquoi, il a planté.
Bonjour
Chef d'équipe comme vous, j'ai la chance d'avoir une bonne équipe et je me retrouve dans votre descriptif.
Un truc très très dur, c'est aussi de décider tout le monde à prendre quelques heures de repos sur les coups de deux heures du matin, après une journée entière à batailler dans un stress insoutenable, et se relever à 5.30 sans toujours savoir d'ou vient le problème et si on va pouvoir dépanner !
La qualité du sommeil dans ces cas là est à pleurer ! Et dire que les heures à dormir ne sont pas payées…