Excellence opérationnelle

Le pilier Excellence opérationnelle comprend capacité de soutenir le développement et de gérer efficacement les charges de travail, de recueillir des informations sur leurs opérations et d'améliorer continuellement les processus et procédures de soutien afin de fournir de la valeur ajoutée.

Le pilier Excellence opérationnelle fournit une vue d'ensemble des principes de conception, des bonnes pratiques et des questions. Vous trouverez des conseils sur la mise en œuvre dans le livre blanc relatif au pilier de l'excellence opérationnelle.

Principes de conception

Il existe five principes de conception pour le pilier excellence opérationnelle dans le cloud :

Définition

Il existe four domaines de bonnes pratiques pour le pilier excellence opérationnelle dans le cloud :

La direction de votre organisation définit les objectifs opérationnels. Votre organisation doit comprendre les besoins et les priorités et les utiliser pour organiser et mener des travaux visant à soutenir l'obtention des résultats opérationnels. Votre charge de travail doit émettre les informations nécessaires pour le prendre en charge. La mise en œuvre de services permettant l'intégration, le déploiement et la distribution de votre charge de travail permettra un flux accru de changements bénéfiques dans la production en automatisant les processus répétitifs.

Il peut exister des risques inhérents à l'exploitation de votre charge de travail. Vous devez comprendre ces risques et prendre une décision avisée lors de la mise en production. Vos équipes doivent pouvoir prendre en charge votre charge de travail. Les métriques économiques et opérationnelles dérivées des résultats économiques souhaités vous permettront de comprendre l’état de votre charge de travail, de vos activités opérationnelles et de réagir aux incidents. Vos priorités évolueront en fonction des besoins de votre entreprise et des changements dans l'environnement de votre entreprise. Utilisez-les comme une boucle de rétroaction afin d'améliorer continuellement votre organisation et le fonctionnement de votre charge de travail.

Bonnes pratiques

Organisation

Vos équipes doivent avoir une compréhension commune de l'ensemble de votre charge de travail, de leur rôle dans celle-ci et de leurs objectifs économiques communs afin de fixer les priorités qui permettent la réussite de l'entreprise. Des priorités bien définies maximiseront les bénéfices tirés de vos efforts. Évaluer les besoins des clients internes et externes en impliquant les principales parties prenantes, notamment les équipes commerciales, de développement et d'exploitation, afin de déterminer où il est nécessaire de concentrer les efforts. L'évaluation des besoins des clients vous permet de vous assurer que vous avez une compréhension approfondie du soutien nécessaire pour atteindre les résultats économiques. Assurez-vous de connaître les lignes directrices ou les obligations définies par la gouvernance de votre organisation, ainsi que les facteurs externes, tels que les exigences de conformité réglementaire et les normes sectorielles, qui peuvent imposer un objectif spécifique ou mettre l'accent sur ce dernier. Vérifiez que vous disposez de mécanismes permettant d'identifier les changements apportés à la gouvernance interne et aux exigences de conformité externe. Si aucune exigence n'est identifiée, assurez-vous d’avoir effectué les vérifications préalables dans cette détermination. Revoyez régulièrement vos priorités afin qu'elles puissent être mises à jour en fonction de l'évolution des besoins.

Évaluez les menaces pesant sur l'entreprise (par exemple, les risques et les responsabilités de l'entreprise, et les menaces sur la sécurité des informations) et conservez ces informations dans un registre des risques. Évaluez l'impact des risques et les compromis entre des intérêts concurrents ou des approches alternatives. Par exemple, l'accélération de la mise sur le marché de nouvelles fonctionnalités peut être privilégiée par rapport à l'optimisation des coûts, ou vous pouvez choisir une base de données relationnelle pour les données non relationnelles afin de simplifier la migration d'un système sans restructuration. Gérez les avantages et les risques afin de prendre des décisions éclairées lorsqu'il s'agit de déterminer où il est nécessaire de concentrer les efforts. Certains risques ou choix peuvent être acceptables pendant un certain temps, il peut être possible d'atténuer les risques associés, ou il peut devenir inacceptable de laisser un risque subsister, auquel cas vous prendrez des mesures pour y remédier.

TRANSLATION REQUIRED

Assurez-vous qu'il existe des propriétaires identifiés pour chaque application, charge de travail, plate-forme et composant d'infrastructure, et que chaque processus et procédure ont un propriétaire identifié responsable de sa définition, et des propriétaires responsables de leur performance. La compréhension de la valeur ajoutée de chaque composant, processus et procédure, de la raison pour laquelle ces ressources sont en place ou ces activités exécutées, et de la raison pour laquelle cette propriété existe, éclaire les actions des membres de votre équipe. Définissez clairement les responsabilités des membres de l'équipe afin qu'ils puissent agir de manière appropriée et disposer de mécanismes permettant d'identifier la responsabilité et la propriété. Mettez en œuvre des mécanismes permettant de demander des ajouts, des modifications et des exceptions afin de ne pas entraver l'innovation. Définissez des accords entre les équipes décrivant la manière dont elles travaillent ensemble pour se soutenir mutuellement et soutenir les résultats de votre entreprise.

Fournissez un soutien aux membres de votre équipe afin qu'ils puissent être plus efficaces dans leur action et soutenir les résultats de votre entreprise. Les dirigeants engagés doivent fixer des attentes et mesurer le succès. Ils doivent être le sponsor, l’avocat et le moteur de l'adoption des bonnes pratiques et de l'évolution de l'organisation. Donnez aux membres de l'équipe les moyens d'agir lorsque les résultats sont menacés afin de minimiser l'impact et de les encourager à remonter jusqu'aux décideurs et aux parties prenantes lorsqu'ils estiment qu'il existe un risque afin de pouvoir le traiter et éviter les incidents. Fournissez en temps utile des communications claires et exploitables sur les risques connus et les événements prévus afin que les membres de l'équipe puissent prendre des mesures appropriées en temps opportun.

TRANSLATION REQUIRED

TRANSLATION REQUIRED

TRANSLATION REQUIRED

TRANSLATION REQUIRED

Les questions suivantes sont axées sur ces quelques considérations relatives au pilier excellence opérationnelle .

OPS 1: Comment déterminer vos priorités ?
OPS 2: Comment structurez-vous votre organisation pour soutenir les résultats de l'entreprise ?
OPS 3: Comment votre culture organisationnelle soutient-elle vos résultats opérationnels ?

TRANSLATION REQUIRED

Préparer

Pour vous préparer à l'excellence opérationnelle, il est nécessaire de comprendre vos charges de travail et les comportements attendus. Vous pourrez ensuite les concevoir pour fournir des informations de leur statut et créer les procédures nécessaires pour les soutenir.

Concevez votre charge de travail de manière à ce qu'elle vous fournisse les informations nécessaires pour comprendre son état interne (par exemple, les mesures, les journaux, les événements et les traces) dans tous ses composants à des fins d’observation et de résolution des problèmes. Itérez pour développer la télémesure nécessaire pour surveiller l’état de votre charge de travail, identifier quand les résultats sont menacés, et répondre efficacement. Lorsque vous instrumentez votre charge de travail, capturez un grand ensemble d'informations pour connaître la situation (par exemple, changements d'état, activité des utilisateurs, accès privilégiés, compteurs d'utilisation), en sachant que vous pouvez utiliser des filtres pour sélectionner les informations les plus utiles dans le temps.

Adoptez des approches qui améliorent le flux des changements en production et qui permettent la restructuration, un retour d'information rapide sur la qualité et la correction des bogues. Ces approches accélèrent l’entrée des modifications bénéfiques dans l’environnement de production, limitent les problèmes déployés et permettent d'identifier et de corriger rapidement les problèmes introduits par les activités de déploiement ou découverts dans vos environnements.

Adoptez des approches qui fournissent un retour d'information rapide sur la qualité et permettent une reprise rapide à la suite de changements qui n'offrent pas les résultats escomptés. L'utilisation de ces pratiques diminue l'impact des problèmes découlant du déploiement des modifications. Prévoyez les modifications qui échouent afin de pouvoir réagir plus rapidement si nécessaire, et testez et validez les changements que vous apportez. Tenez compte des activités planifiées dans vos environnements afin de pouvoir gérer le risque des modifications affectant les activités planifiées. Mettez l'accent sur les modifications fréquentes, minimes et réversibles pour limiter leur portée. Ainsi, vous facilitez la résolution des problèmes et accélérez les corrections avec la possibilité d’annuler une modification. Cela signifie également que vous pouvez tirer profit plus souvent de modifications importantes.

Évaluez l'état de préparation opérationnelle de votre charge de travail, de vos processus, de vos procédures et de votre personnel afin de comprendre les risques opérationnels liés à votre charge de travail. Vous devez utiliser un processus cohérent (y compris des listes de contrôle manuelles ou automatisées) pour déterminer quand vous êtes prêt à mettre en service votre charge de travail ou un changement. Cela vous permet également d'identifier tous les domaines d'amélioration nécessaire. Dotez-vous de runbooks qui documentent vos activités de routine, et de playbooks qui guident vos processus pour la résolution des problèmes.. Déterminez les avantages et les risques afin de prendre des décisions éclairées pour autoriser les changements dans l’environnement de production.

TRANSLATION REQUIRED

Les questions suivantes sont axées sur ces quelques considérations relatives au pilier excellence opérationnelle .

OPS 4: Comment concevoir votre charge de travail de sorte à en comprendre son état ?
OPS 5: Comment réduire les défauts, faciliter les corrections et améliorer le flux dans la production ?
OPS 6: Comment réduisez-vous les risques de déploiement ?
OPS 7: Comment savoir si vous êtes prêt à assurer une charge de travail ?

Investissez dans la mise en œuvre des activités opérationnelles en tant que code pour maximiser la productivité du personnel opérationnel, minimiser les taux d'erreur et automatiser les réponses. Adoptez des « pre-mortems » pour anticiper les échecs, et créez des procédures si nécessaire. Appliquez des métadonnées à l'aide des balises de ressource et d’AWS Resource Groups en suivant une stratégie de balisage cohérente pour permettre l'identification de vos ressources. Balisez vos ressources pour l’organisation, la comptabilité analytique, les contrôles des accès et le ciblage de l'exécution des activités des opérations automatisées. Adoptez des pratiques de déploiement qui tirent parti de l'élasticité du cloud pour faciliter les activités de développement, et le pré-déploiement des systèmes pour accélérer les mises en œuvre. Lorsque vous apportez des modifications aux listes de contrôle que vous utilisez pour évaluer votre charge de travail, planifiez les opérations que vous aller exécuter pour les systèmes en service qui ne sont plus conformes.

Exploiter

TRANSLATION REQUIRED

Une gestion efficace et effective des événements opérationnels est nécessaire pour atteindre l'excellence opérationnelle. Cela s'applique à la fois aux événements opérationnels planifiés et imprévus. Utilisez les runbooks établis pour les événements bien compris, et utilisez les playbooks pour faciliter l'investigation et la résolution des problèmes. Prioriser les réponses aux événements en fonction de leur impact sur l’entreprise et les clients. Assurez-vous que, si une alerte est générée en réponse à un événement, il existe un processus associé à exécuter, avec un propriétaire spécifiquement identifié. Définissez à l'avance le personnel requis pour résoudre un événement et inclure des déclencheurs de remontée pour engager du personnel supplémentaire, si nécessaire, en fonction de l'urgence et de l'impact. Identifiez et engagez des personnes habilitées à prendre une décision sur les mesures à prendre lorsqu'une réponse à un événement non traité auparavant a un impact opérationnel.

Communiquez l'état opérationnel des charges de travail au moyen de tableaux de bord et de notifications adaptés au public cible (par exemple, clients, entreprises, développeurs, opérations) afin qu'il puisse prendre les mesures appropriées, que leurs attentes soient gérées et qu'il soit informé lorsque les opérations normales reprennent.

Dans AWS, vous pouvez générer des vues de tableau de bord de vos métriques collectées à partir des charges de travail et nativement depuis AWS. Vous pouvez tirer profit de CloudWatch ou d’applications tierces pour regrouper et présenter des affaires, une charge de travail, et des perspectives d’activités opérationnelles. AWS fournit des informations de charges de travail par le biais de fonctionnalités de journalisation, notamment, AWS X-Ray, CloudWatch, CloudTrail et VPC Flow Logs, qui permettent d'identifier les problèmes de charge de travail à l'appui de l'analyse des causes racines et de la résolution.

Les questions suivantes sont axées sur ces quelques considérations relatives au pilier excellence opérationnelle .

OPS 8: Comment comprendre l'état de votre charge de travail ?
OPS 9: Comment comprendre l'état de vos opérations ?
OPS 10: Comment gérer les événements relatifs à la charge de travail et aux opérations ?

TRANSLATION REQUIRED

Évoluer

Vous devez apprendre, partager et améliorer continuellement pour maintenir l'excellence opérationnelle. Consacrez des cycles de travail à la réalisation continuelle d’améliorations supplémentaires. Effectuez une analyse post-incident de tous les événements ayant un impact sur le client. Identifiez les facteurs contributifs et les mesures préventives pour limiter ou empêcher la récurrence. Communiquez les facteurs contributifs aux communautés concernées, le cas échéant. Évaluez régulièrement et priorisez les possibilités d'amélioration (par exemple, les demandes de fonctionnalités, la correction des problèmes et les exigences de conformité), y compris la charge de travail et les procédures opérationnelles. Introduisez des boucles de rétroaction au sein de vos procédures pour identifier rapidement les domaines d'amélioration et de tirer des enseignements de l'exécution d'opérations.

Partagez les leçons retenues et leurs avantages entre les équipes. Analysez les tendances dans les leçons apprises et effectuez une analyse rétrospective entre les équipes des opérations de métriques pour identifier les opportunités et les méthodes d'amélioration. Mettez en œuvre les changements destinés à apporter des améliorations et évaluez les résultats pour déterminer le succès.

TRANSLATION REQUIRED

Les questions suivantes sont axées sur ces quelques considérations relatives au pilier excellence opérationnelle .

OPS 11: Comment faire évoluer vos opérations ?

L'évolution réussie des opérations repose sur de fréquentes améliorations minimes, la fourniture d'environnements sûrs et le temps pour expérimenter, développer, tester les améliorations, et les environnements dans lesquels on encourage à tirer les leçons des échecs. La prise en charge des opérations pour les environnements sandbox, de développement, de test et de production, avec un niveau croissant de contrôles opérationnels, facilite le développement et augmente la prévisibilité des résultats positifs des changements déployés en production.

Ressources

Consultez les ressources suivantes pour en savoir plus sur nos bonnes pratiques relatives au pilier Excellence opérationnelle .

Operational Excellence Pillar
DevOps and AWS
DevOps at Amazon