Qu’est-ce que l’ingénierie de la fiabilité des sites (SRE) ?

Vue aérienne d’un homme travaillant sur un ordinateur

Auteurs

IBM Staff Writer

Staff Editor, Automation & ITOps

IBM Think

Qu’est-ce que l’ingénierie de la fiabilité des sites (SRE) ?

L’ingénierie de la fiabilité des sites (SRE) est une pratique d’ingénierie logicielle qui combine DevOps et les opérations informatiques traditionnelles pour résoudre les problèmes des clients, automatiser les tâches des opérations, accélérer la livraison de logiciels et minimiser les risques informatiques.

L’ingénierie de fiabilité des sites soutient la résilience, la redondance et la fiabilité dans le cycle DevOps et s’occupe de la mise en œuvre quotidienne des programmes logiciels. Les ingénieurs responsables de la fiabilité des sites suivent généralement la règle des 50 % : ils consacrent la moitié de leur temps à résoudre les problèmes des clients, tels que la gestion des escalades et la réponse aux incidents, et l’autre moitié à l’automatisation des opérations informatiques. Ces opérations incluent la gestion du système de production, la gestion du changement, la réponse aux incidents et les interventions d’urgence.

Les équipes SRE comblent le fossé entre la façon dont les développeurs de logiciels souhaitent que les programmes fonctionnent et la façon dont ils fonctionnent dans des situations réelles. Les ingénieurs chargés de la fiabilité des sites travaillent directement avec les clients pour résoudre leurs problèmes et collecter des données sur l’expérience des utilisateurs. Les équipes SRE renvoient ces données aux équipes de développement, leur donnant ainsi des informations plus approfondies des performances du logiciel et des mises à jour à effectuer.

Les SRE comprennent que les défaillances sont inévitables. Leur travail consiste à identifier (par le biais de processus tels que l’analyse des causes profondes) la cause des problèmes immédiats et à utiliser les données de surveillance et d’enregistrement pour prédire de futures défaillances. Ils ont ensuite mis en place des automatisations pour résoudre ces problèmes, renforçant ainsi la résilience et la redondance du système.

Cette surveillance automatisée des systèmes logiciels à grande échelle réduit la nécessité pour les administrateurs de systèmes d’effectuer manuellement les tâches liées aux opérations informatiques. L’élimination des fonctions manuelles permet aux équipes informatiques de gagner du temps, d’exécuter les opérations plus précisément et de se concentrer sur le maintien de la performance.

Comment fonctionne l’ingénierie de la fiabilité des sites ?

Un ingénieur en fiabilité des sites est un poste technique qui nécessite une expérience dans le développement de logiciels et les opérations informatiques. La compréhension de ces postes permet aux équipes SRE de remplir leur rôle de soutien au cycle de vie du développement logiciel. La SRE est basée sur une stratégie de résilience grâce à l’automatisation des processus.

Traditionnellement, les pratiques d’ingénierie de la fiabilité des sites se concentrent sur la réalisation des opérations et des tâches d’administration des systèmes. Ces tâches comprennent l’analyse des enregistrements, l’optimisation des performances, l’application de correctifs, le test des environnements de production, la gestion des incidents et la réalisation d’analyses rétrospectives. Ces tâches étaient initialement effectuées manuellement, ce qui prenait beaucoup de temps et était sujet à des erreurs humaines. La modernisation de l’ingénierie de la fiabilité des sites implique l’automatisation de ces tâches manuelles.

La surveillance et la connexion, l’enregistrement jouent un rôle clé dans l’ingénierie de fiabilité des sites (SRE). Les équipes SRE utilisent des outils de surveillance pour suivre en temps réel ce qui se passe dans les systèmes logiciels. La surveillance permet de résoudre les problèmes techniques immédiats et aide les équipes à anticiper les problèmes futurs et à les résoudre avant qu’ils ne surviennent.

Les enregistrements servent d’archives qui peuvent être analysées pour obtenir des informations sur le fonctionnement des systèmes et améliorer l’observabilité du système. L’enregistrement crée une feuille de route qui aide les équipes SRE à comprendre la série d’événements qui ont provoqué une erreur imprévue. Les ingénieurs peuvent automatiser la résolution de l’erreur et empêcher qu’elle ne se reproduise. La surveillance et l’enregistrement aident les ingénieurs à identifier les points de défaillance et à résoudre les problèmes par programmation grâce à l’automatisation, sans être résolus manuellement.

Les équipes SRE recherchent également les défaillances des systèmes grâce à un processus appelé ingénierie du chaos. L’ingénierie du chaos est une stratégie que les ingénieurs de fiabilité des sites mettent en œuvre pour provoquer intentionnellement des défaillances dans les environnements de production et de pré-production. L’objectif de l’ingénierie du chaos est de comprendre l’impact des défaillances de production sur les systèmes logiciels et de développer des plans plus solides pour atténuer les défaillances à l’avenir.

La SRE se concentre également sur la planification des capacités, un processus qui détermine les ressources nécessaires pour exécuter les fonctions essentielles de l’entreprise, faire évoluer ces fonctions et développer de nouvelles applications et fonctionnalités. En outre, les équipes SRE établissent des indicateurs qui sont utilisés pour évaluer la livraison des mises à jour et la mise en œuvre de nouvelles fonctionnalités.

Gardez la tête dans le cloud  

Recevez la newsletter hebdomadaire Think pour obtenir des conseils d’experts sur l’optimisation des paramètres multicloud à l’ère de l’IA.

Indicateurs d’ingénierie de la fiabilité des sites

Les ingénieurs chargés de la fiabilité des sites utilisent divers indicateurs pour aider à suivre la cohérence de la prestation de services et la fiabilité des systèmes logiciels, y compris :

Accords de niveau de service (SLA)

Les accords de niveau de service définissent les conditions générales entre un fournisseur de services et un client. Ces accords dictent le niveau de performance, les indicateurs convenus pour mesurer les performances et les répercussions en cas de non-fourniture de services. Le temps de fonctionnement, c’est-à-dire le temps pendant lequel un service est disponible, est un service couramment décrit dans un accord de niveau de service.

Budgets d’erreur

Le budget d’erreurs est l’outil utilisé par des équipes SRE pour réconcilier automatiquement la fiabilité des services d’une entreprise avec son rythme de développement de logiciels et d’innovation. Les budgets d’erreur établissent un niveau de risque d’erreur conforme aux accords de niveau de service.

Un objectif de temps de fonctionnement de 99,999 %, connu sous le nom de « disponibilité cinq-neuf », est un seuil de SLA courant. Cela signifie que le budget d’erreurs mensuel, soit la quantité totale de temps d’arrêt autorisée sans conséquence contractuelle pour un mois spécifique, est d’environ 4 minutes et 23 secondes. Si une équipe de développement souhaite implémenter de nouvelles fonctionnalités ou des améliorations dans un système, celui-ci ne doit pas dépasser le budget d’erreur.

Les budgets d’erreur aident les équipes de développement et d’opérations à améliorer la stabilité et la performance des services. Ils aident également à prendre des décisions fondées sur des données concernant le déploiement de nouvelles fonctionnalités ou applications et à maximiser l’innovation en prenant des risques dans des limites acceptables.

Objectifs de niveau de service (SLO)

Les équipes SRE contribuent également à la définition d’objectifs de niveau de service (SLO), un objectif de performance convenu pour un service particulier au cours d’une période donnée. Les SLO définissent l’état attendu des services et aident les parties prenantes à gérer l’état de santé de certains services et à respecter les SLA.

Indicateurs de niveau de service (SLI)

Les SLO sont mesurés par des indicateurs de niveau de service (SLI). Les SLI sont des mesures quantitatives présentées sous forme de pourcentages, de moyennes ou de taux. Ils comprennent la mesure réelle des services tels que le temps de fonctionnement, la latence, le débit et les taux d’erreur.

IBM DevOps

Qu’est-ce que le DevOps ?

Andrea Crawford présente le DevOps, démontre sa valeur, et explique de quelle façon les pratiques et les outils DevOps vous aident à faire progresser vos applications dans l’ensemble du pipeline de livraison logiciel, de l’idéation à la production. Dirigé par des leaders d’opinion d’IBM, le programme a pour but d’aider les chefs d’entreprise à acquérir les connaissances nécessaires pour donner la priorité aux investissements dans l’IA capables de stimuler la croissance.

Découvrir le DevOps

SRE et DevOps

DevOps est une méthodologie de développement logiciel qui accélère la livraison d’applications et de services de meilleure qualité en combinant et en automatisant le travail des équipes de développement logiciel et d’exploitation informatique. DevOps permet d’automatiser le cycle de vie du développement logiciel (SDLC), de partager davantage les responsabilités des équipes de développement et d’apporter leur contribution au SDLC à toutes les parties prenantes concernées.

SRE et DevOps sont des stratégies complémentaires en génie logiciel qui brisent les silos et conduisent à une livraison de logiciels plus efficace et plus fiable.

Pendant que les équipes DevOps se concentrent sur la résolution de la question « Que doit faire ce logiciel ? » Les équipes SRE s’efforcent de répondre à la question suivante : « Comment ce logiciel peut-il être déployé et maintenu pour qu’il fonctionne selon les besoins ? » Les équipes SRE fournissent aux équipes DevOps des données réelles sur les performances des logiciels, apportant ainsi un équilibre entre les données pratiques et le monde théorique du développement logiciel.

Comme la SRE, DevOps rend une entreprise plus agile en équilibrant la nécessité de fournir des applications et de changements plus rapidement avec la nécessité d’éviter de « casser » l’environnement de production. SRE et DevOps visent tous deux à atteindre cet équilibre en établissant un risque d’erreur acceptable. Les équipes DevOps se concentrent sur les mises à jour et le déploiement de nouvelles fonctionnalités, tandis que les pratiques SRE visent à protéger la fiabilité des systèmes au fur et à mesure de leur évolution.

Les équipes DevOps et SRE rationalisent les méthodes de communication et établissent une boucle de commentaires constant. Une telle boucle pourrait fonctionner de la manière suivante : lorsqu’une équipe SRE découvre la cause profonde d’une erreur, elle envoie ses conclusions à l’équipe DevOps qui peut développer une mise à jour pour la prochaine version du logiciel. En attendant, les SRE créent des automatisations pour résoudre le problème et suivent les données de surveillance et d’enregistrement pour s’assurer que le problème a été résolu.

Avantages de la SRE

En plus de contribuer au succès des DevOps, l’ingénierie de la fiabilité des sites peut aider les entreprises :

Gagnez en visibilité sur l’état des services en suivant les indicateurs, les enregistrements et les traces dans tous les services entreprisenels et renforcez les capacités d’analyse des causes profondes.
Améliorez la fiabilité des systèmes logiciels grâce à des interactions quotidiennes avec les clients et au partage collaboratif des données des utilisateurs avec les équipes DevOps.
Développez vos systèmes logiciels en automatisant les processus manuels qui éliminent la pénibilité, réduisent les erreurs et résolvent les problèmes avec plus de précision.
Quantifiez le coût des temps d’arrêt et des interruptions en aidant les équipes de développement et d’exploitation à comprendre le coût des violations des accords de niveau de service, et en aidant la direction à mesurer l’impact de la fiabilité du système sur la production, les ventes, le marketing, le service client et d’autres fonctions de l’entreprise.
à optimiser la réponse aux incidents en élaborant des processus d’astreinte efficaces et en rationalisant les workflows d’alerte ;
Construisez un centre d’opérations réseau moderne en combinant une compréhension approfondie des opérations informatiques avec le machine learning et l’automatisation pour envoyer des alertes directement à la personne chargée de résoudre le problème.

Développement SRE, cloud et cloud natif

Lorsque les entreprises migrent de l’informatique traditionnelle et des centres de données sur site vers le cloud hybride, elles génèrent souvent des volumes plus importants de données opérationnelles. La SRE joue un rôle critique dans l’utilisation de ces données pour automatiser l’administration des systèmes, les opérations et la réponse aux incidents, et pour améliorer la fiabilité de l’entreprise à mesure que l’environnement informatique devient plus complexe.

Une approche de développement cloud natif, à savoir la création d’applications sous forme de microservices et leur déploiement dans des conteneurs, peut simplifier le développement, le déploiement et l’évolutivité des applications. Mais le développement cloud natif crée également un environnement de plus en plus dispersé qui complique l’administration, les opérations et la gestion.

Une équipe SRE peut soutenir le rythme rapide de l’innovation permis par une approche cloud native ou améliorer la fiabilité du système, sans pour autant accroître la pression des opérations sur les équipes DevOps.

Soyez efficace dans la livraison de logiciels

Dans un contexte de ralentissement économique, une livraison de logiciels efficace est primordiale pour les entreprises, et l’automatisation DevOps est le meilleur moyen d’y parvenir.

Ressources

Optimisez vos performances métier grâce à des analyses basées sur l’IA

Inscrivez-vous maintenant pour découvrir comment l’analyse avancée par IA peut ouvrir de nouvelles opportunités de croissance et d’innovation pour votre entreprise. Accédez à des points de vue d’experts et découvrez comment les solutions d’IA peuvent améliorer l’efficacité opérationnelle, optimiser les ressources et générer des résultats métier mesurables.

Modernisez les applications mainframe avec des modèles de cloud hybride

Découvrez la dernière publication des Redbooks IBM sur la modernisation des mainframes pour les environnements de cloud hybride. Découvrez des stratégies, des solutions d’architecture et des techniques d’intégration exploitables pour favoriser l’agilité, l’innovation et la réussite de l’entreprise.

Améliorez vos DevOps z/OS grâce à l’automatisation et à la modernisation

Découvrez comment IBM Wazi Deploy et des fonctionnalités de langage moderne peuvent rationaliser vos DevOps z/OS. Voyez comment l’automatisation et les outils open source améliorent l’efficacité sur toutes les plateformes.

Programme DevOps Acceleration

Commencez votre parcours de transformation DevOps avec le programme IBM DevOps Acceleration. Ce programme guide les entreprises à travers les étapes critiques d’évaluation, de formation, de déploiement et d’adoption du DevOps afin d’assurer une mise en œuvre en douceur.

2024 Gartner Magic Quadrant™ pour les outils d'intégration de données

IBM nommé leader en matière d’outils d’intégration de données, pour la 19e année consécutive, dans l’édition 2024 du rapport Magic Quadrant™ de Gartner.

Solutions connexes

IBM® Instana Observability

Exploitez le pouvoir de l’IA et de l’automatisation pour résoudre de manière proactive les problèmes de la pile d’applications.

Découvrir IBM Instana Observability

Solutions d’AIOps

Découvrez comment l’IA appliquée aux opérations informatiques fournit les informations dont vous avez besoin pour parvenir à des performances métier exceptionnelles.

Découvrir les solutions AIOps

Services de conseil en technologies

Favorisez la transformation numérique évolutive avec l’expertise sectorielle d’IBM Consulting.

Découvrir les services de conseil en technologie

Passez à l’étape suivante

Découvrez comment mettre l’IA au service de vos opérations informatiques pour optimiser l’analyse et atteindre une performance exceptionnelle.