Supervision

Superviser un centre de données

13/01/2025 - 4 min. de lecture

Les outils en ligne de commande sont puissants, hautement personnalisables, et donnent accès à une quantité considérable d’informations, manipulable au seul clavier. Il permettent à l’utilisateur un contrôle total et un accès à une grand profondeur d’information.

Les techniciens auxquels s’adressent le produit présenté ici, sur lequel j’ai travaillé avec Use Design en 2022, sont habitués à ces outils en ligne de commande. Notre objectif est d’augmenter la qualité de l’information, et améliorer la prise de décision, en offrant à ces utilisateurs ce que n’offre pas la ligne de commande : Une synthèse et une consolidation des informations, par un prisme métier ou un prisme technique.

L'interface est utilisée dans une configuration en multi-écrans, avec d'autres applications de supervision

Présentation

L’application prend place dans un dispositif installé dans des centres de surveillance d’espace aérien. L’essentiel de l’information qui y est consultée est fournie par des radars, disséminés sur un territoire. En arrivant dans les centres de données, puis dans les salles opérationnelles, ces données sont traitées par un grand nombre d’applicatifs. Notre objectif est de fournir un outil qui améliore la supervision de cette infrastructure applicative.

Au coeur de l’infrastructure technique existent donc deux grands types d’objet : des interfaces externes, qui créent de la donnée (des radars), et des applications, avec différents niveaux de répllication, qui permettent de l’exploiter. Autour de ces objets en gravitent d’autres : des centres de données et des centres opérationnels, des machines qui permettent de consulter les données. Les données sont accessibles au sein de sessions, qui sont des sessions d’entrainement ou des sessions live.

On le voit : le système implique des objets physiques (des serveurs, des radars, des salles de travail, des connexions, des stations de travail) et virtuels (des sessions, des éxécutables). Des L’interface permettra de superviser l’ensemble de ces objets, de natures différentes, et offrira une vue consolidée de cet état.

Classer et caractériser les différents objets de l'interface est le socle de l'intervention sur l'expérience utilisateur. Une compréhension fine de la structure de la donnée est indispensable pour proposer une amélioration

Un cas critique : l’inondation de données

L’inondation de donnée permet de mesurer l’efficacité de l’outil dans une situation extrême. En cas de défection d’un applicatif clé, d’un problème matériel, d’un disque qui crashe, d’un serveur qui tombe, la configuration du système est là pour permettre à celui-ci de fonctionner, grâce à la réplication des objets softwares et hardware. Mais lorsqu’un objet physique comme un radar connait une défaillance, il inonde le système de données incorrectes. Le système de notification doit donc permettre une isolation rapide du problème.

Le système d’alerte recense tous les messages du système. C’est un journal, est le principe est le même principe que dans l’administration d’un serveur. Un journalctl -f /var/log/apache2 trace tous les messages du système. L’interface apporte ceci de plus qu’un filtre permet d’affiner les entrées du journal, en filtrant par niveau d’erreur. D’abord, les simples messages sont retirés de l’affichage. Ensuite, les erreurs secondaires s’effacent : seules les entrées critiques sont affichées.

Tous les messages sont affichés par défaut. Un filtre rapide permet d'isoler les erreurs en fonction leur niveau de criticité

Le nombre d’occurrences d’une alerte critique doit mettre rapidement sur la piste du problème. L’expertise, évidemment, et aussi l’utilisation de la couleur et du texte. De cette façon, l’affichage de la situation critique donne déjà une indication sur la nature du problème : est-ce un radar qui est tombé en panne ? Est-ce un problème électrique dans un centre de données ? Est-ce un pod qui crashe ? Où y a-t-il corrélation, où y a-t-il causalité ?

La couleur qui traverse l'interface permet d'avoir un premier retour visuel sur les éléments concernés par le problème en cours

Résultat

L’expertise de l’utilisateur est essentielle, et L’interface lui offre une couche supplémentaire de sens pour l’aider dans la compréhension de l’état d’un système constitué d’objets physiques et de programmes informatiques, et répartis sur une vaste zone géographique. L’application permet donc de lier des informations techniques, et les orchestrer de façon à offrir une supervision. Elle offre une meilleure qualité de communication entre les différents rôles des centre de données et des centres opérationnels, et un drill-down plus rapide des erreurs.

Les deux clés de la réussite de ce travail sont

Identifier les objets du système, leur nature, et leurs relations. En faisant ce travail, la compréhension de l’architecture du système est plus fine et permet d’identifier les axes d’amélioration
Une intervention graphique minimale : je vois le résultat comme un terminal, mais avec juste ce qu’il faut de graphisme en plus : l’information est répartie en zones, avec l’aide différents niveaux de gris. La couleur apporte toujours un sens précis : problème d’un objet, et criticité, niveau de réplication, etc.

Du premier travail découle naturellement le second.

Une vue détaillée des applications lancées, et de leur niveau de réplication

Certaines vues permettent de mettre en regard différents niveaux d'information. L'utilisateur peut à la fois visualiser les états des stations de travail, et continuer à avoir une vue générale des événements

Les sessions sont représentées sous forme de cartes qui synthétisent leur état. Les sessions utilisent de façon transverse la couche applicative du système