Administrateur système : « je suis un genre de médecin… » – Partie 3

Partager sur facebook
Partager sur google
Partager sur twitter
Partager sur linkedin

Nos articles récents

Alors comme ça, un administrateur système n’est pas cet informaticien qui passe son temps à surveiller des écrans où il ne se passe rien ?

Si, il y a une surveillance, heureusement. Mais est-ce qu’un aiguilleur du ciel, dans sa tour de contrôle, passe sa vie devant un écran à ne rien faire ? Comme lui, nous utilisons un « monitoring » sophistiqué, à savoir un suivi d’état qui nous dit en temps réel ou différé, si ça marche ou si ça ne marche pas. Ou même, si bientôt ça ne marchera pas… Mais comme lui, l’administrateur système agit sur l’état des choses. Sinon gare à l’incident…

Comme une Madame Irma des temps contemporains, tu lis l’avenir dans les écrans ?

Je lis des tonnes de choses dans les écrans. Mais il ne faudrait pas pour autant en conclure que, comme dans les films américains, je passe mon temps assis devant une douzaine de TV une revue à la main, en attendant qu’une lumière rouge s’allume. Notre monitoring à nous est aussi un monitoring de mesures, de métriques. Il permet de voir les comportements des machines qui sont en surcharge ou en panne, passées, présentes et même à venir.

Administrateur systèmes dans un datacenter

Mais comment fais-tu pour analyser et reconnaître ces différents comportements ?

OK, démystifions la tâche mais remettons les choses dans leur réalité : ce sont des robots qui font ça pour nous, c’est-à-dire de petits programmes qui surveillent à notre place le parc de serveurs. Sinon tu imagines dans quel état d’ennui avancé nous nous retrouverions chaque soir, face à des milliers de chiffres à gérer à chaque seconde. Personne ne tiendrait et puis cela n’aurait aucun intérêt. Ce serait le métier le plus absurde qu’on puisse imaginer.

Non, grâce à des outils puissants et pertinents, je peux voir en un clin d’œil qui sont les clients en surcharge par exemple, et donc leurs serveurs mal employés, voire les machines down – arrêtées, en panne. Je constate donc immédiatement d’où provient chaque dysfonctionnement, et mieux encore, je peux les anticiper. Je sais que sur un serveur, par exemple, un problème de charge provient d’une sauvegarde défaillante rien qu’à la manière dont les warnings se déclenchent. J’y reviendrai.

Mais ma vie ne se résume pas aux tableaux de bord ou aux indicateurs de fonctionnement.

Alors comment tu fais pour agir au bon moment sans être sans cesse dérangé par des milliers d’informations sans importance, ou qui paraissent en avoir mais qui n’en ont pas. Ou pire, comment fais-tu pour ne pas louper une information qui paraît anodine, mais qui est d’une importance capitale ?

J’ai mis en place un canal spécial dans une messagerie instantanée qui me bombarde, en temps réel, de tout dysfonctionnement. Parfois, ce sont des bips pour prévenir juste. Mais parfois, ce sont des bips impératifs et il faut agir dans l’urgence.

Moi, je sais en temps réel que le site internet d’un client s’est arrêté. Je constate que la charge serveur a été trop forte, mais qu’elle est retombée, et le site s’est remis à fonctionner. J’enquête : une surcharge provoquée par un développement défaillant du site a fait chauffer le serveur, qui s’est mis en sécurité en stoppant. Le site étant arrêté du même coup, le serveur a refroidi. Le site s’est donc réaffiché dès que le serveur a automatiquement redémarré une fois revenu dans les normes. 

Conclusion ? Une erreur de développement du site étant à l’origine de tout ce problème, je le signale et le code est corrigé dans l’heure. Mieux, le site a été restauré automatiquement sur un autre serveur quand il a été down, et l’utilisateur n’a vu de son côté une panne qui n’a duré que deux minutes. Le client n’a pas eu le temps de perdre de chiffre d’affaires. Et pourtant, il aurait bien pu si personne n’avait rien vu ni anticipé. Surtout à 2 heures du matin en France, alors qu’il est 20h aux USA, meilleur moment de la journée pour ce business !

Ce qui veut dire que ton travail d'administrateur système ne s’arrête pas la nuit ?

Tout à fait, je suis capable d’être réveillé la nuit par un problème, et je dois intervenir dans l’urgence. Ainsi, on peut prévoir un problème mais aussi l’empêcher de s’exprimer si on en connaît la provenance. En cacher les symptômes le temps de le réparer. Je suis ici comme un médecin : je lis entre les lignes pour remonter à la source des maux. Et je suis dans l’ombre, avec mon scalpel, pour réparer.

Le plus étrange, c’est que cette métaphore du vivant ne s’arrête pas là… Bien au contraire !