Excellence opérationnelle

Le pilier Excellence opérationnelle comprend capacité de soutenir le développement et de gérer efficacement les charges de travail, de recueillir des informations sur leurs opérations et d'améliorer continuellement les processus et procédures de soutien afin de fournir de la valeur ajoutée.

Le pilier Excellence opérationnelle fournit une vue d'ensemble des principes de conception, des bonnes pratiques et des questions. Vous trouverez des conseils sur la mise en œuvre dans le livre blanc relatif au pilier de l'excellence opérationnelle.

Principes de conception

Il existe five principes de conception pour le pilier excellence opérationnelle dans le cloud :

Définition

Il existe four domaines de bonnes pratiques pour le pilier excellence opérationnelle dans le cloud :

La direction de votre organisation définit les objectifs opérationnels. Votre organisation doit comprendre les besoins et les priorités et les utiliser pour organiser et mener des travaux visant à soutenir l'obtention des résultats opérationnels. Votre charge de travail doit émettre les informations nécessaires pour le prendre en charge. La mise en œuvre de services permettant l'intégration, le déploiement et la distribution de votre charge de travail permettra un flux accru de changements bénéfiques dans la production en automatisant les processus répétitifs.

Il peut exister des risques inhérents à l'exploitation de votre charge de travail. Vous devez comprendre ces risques et prendre une décision avisée lors de la mise en production. Vos équipes doivent pouvoir prendre en charge votre charge de travail. Les métriques économiques et opérationnelles dérivées des résultats économiques souhaités vous permettront de comprendre l’état de votre charge de travail, de vos activités opérationnelles et de réagir aux incidents. Vos priorités évolueront en fonction des besoins de votre entreprise et des changements dans l'environnement de votre entreprise. Utilisez-les comme une boucle de rétroaction afin d'améliorer continuellement votre organisation et le fonctionnement de votre charge de travail.

Bonnes pratiques

Organisation

Vos équipes doivent avoir une compréhension commune de l'ensemble de votre charge de travail, de leur rôle dans celle-ci et de leurs objectifs économiques communs afin de fixer les priorités qui permettent la réussite de l'entreprise. Des priorités bien définies maximiseront les bénéfices tirés de vos efforts. Évaluer les besoins des clients internes et externes en impliquant les principales parties prenantes, notamment les équipes commerciales, de développement et d'exploitation, afin de déterminer où il est nécessaire de concentrer les efforts. L'évaluation des besoins des clients vous permet de vous assurer que vous avez une compréhension approfondie du soutien nécessaire pour atteindre les résultats économiques. Assurez-vous de connaître les lignes directrices ou les obligations définies par la gouvernance de votre organisation, ainsi que les facteurs externes, tels que les exigences de conformité réglementaire et les normes sectorielles, qui peuvent imposer un objectif spécifique ou mettre l'accent sur ce dernier. Vérifiez que vous disposez de mécanismes permettant d'identifier les changements apportés à la gouvernance interne et aux exigences de conformité externe. Si aucune exigence n'est identifiée, assurez-vous d’avoir effectué les vérifications préalables dans cette détermination. Revoyez régulièrement vos priorités afin qu'elles puissent être mises à jour en fonction de l'évolution des besoins.

Évaluez les menaces pesant sur l'entreprise (par exemple, les risques et les responsabilités de l'entreprise, et les menaces sur la sécurité des informations) et conservez ces informations dans un registre des risques. Évaluez l'impact des risques et les compromis entre des intérêts concurrents ou des approches alternatives. Par exemple, l'accélération de la mise sur le marché de nouvelles fonctionnalités peut être privilégiée par rapport à l'optimisation des coûts, ou vous pouvez choisir une base de données relationnelle pour les données non relationnelles afin de simplifier la migration d'un système sans restructuration. Gérez les avantages et les risques afin de prendre des décisions éclairées lorsqu'il s'agit de déterminer où il est nécessaire de concentrer les efforts. Certains risques ou choix peuvent être acceptables pendant un certain temps, il peut être possible d'atténuer les risques associés, ou il peut devenir inacceptable de laisser un risque subsister, auquel cas vous prendrez des mesures pour y remédier.

Vos équipes doivent comprendre leur rôle dans l'obtention des résultats de l’entreprise. Les équipes doivent comprendre leur rôle dans la réussite des autres équipes, le rôle des autres équipes dans leur réussite, et avoir des objectifs communs. Comprendre la responsabilité, la propriété, la manière dont les décisions sont prises et qui a le pouvoir de prendre des décisions vous aide à concentrer les efforts et à maximiser les avantages de vos équipes. Les besoins d'une équipe seront déterminés par le client qu'elle soutient, son organisation, la composition de l'équipe et les caractéristiques de sa charge de travail. Il est déraisonnable de s'attendre à ce qu'un modèle d’exploitation unique puisse soutenir toutes les équipes et leurs charges de travail dans votre organisation.

Assurez-vous qu'il existe des propriétaires identifiés pour chaque application, charge de travail, plate-forme et composant d'infrastructure, et que chaque processus et procédure ont un propriétaire identifié responsable de sa définition, et des propriétaires responsables de leur performance. La compréhension de la valeur ajoutée de chaque composant, processus et procédure, de la raison pour laquelle ces ressources sont en place ou ces activités exécutées, et de la raison pour laquelle cette propriété existe, éclaire les actions des membres de votre équipe. Définissez clairement les responsabilités des membres de l'équipe afin qu'ils puissent agir de manière appropriée et disposer de mécanismes permettant d'identifier la responsabilité et la propriété. Mettez en œuvre des mécanismes permettant de demander des ajouts, des modifications et des exceptions afin de ne pas entraver l'innovation. Définissez des accords entre les équipes décrivant la manière dont elles travaillent ensemble pour se soutenir mutuellement et soutenir les résultats de votre entreprise.

Fournissez un soutien aux membres de votre équipe afin qu'ils puissent être plus efficaces dans leur action et soutenir les résultats de votre entreprise. Les dirigeants engagés doivent fixer des attentes et mesurer le succès. Ils doivent être le sponsor, l’avocat et le moteur de l'adoption des bonnes pratiques et de l'évolution de l'organisation. Donnez aux membres de l'équipe les moyens d'agir lorsque les résultats sont menacés afin de minimiser l'impact et de les encourager à remonter jusqu'aux décideurs et aux parties prenantes lorsqu'ils estiment qu'il existe un risque afin de pouvoir le traiter et éviter les incidents. Fournissez en temps utile des communications claires et exploitables sur les risques connus et les événements prévus afin que les membres de l'équipe puissent prendre des mesures appropriées en temps opportun.

Encouragez l'expérimentation pour accélérer la formation et maintenir l'intérêt et l'engagement des membres de l'équipe. Les équipes doivent développer leurs compétences pour adopter les nouvelles technologies, et pour soutenir l'évolution des besoins et des responsabilités. Soutenez et encouragez cette démarche en accordant du temps structurel à la formation. Assurez-vous que les membres de votre équipe disposent des ressources, à la fois des outils et des membres de l'équipe, nécessaires à la réussite et à la mise à l’échelle pour soutenir les résultats de l’entreprise. Exploitez la diversité inter-organisationnelle pour rechercher des perspectives multiples et uniques. Utilisez cette perspective pour accroître l'innovation, remettre en question vos hypothèses et réduire le risque de biais de confirmation. Développez l'inclusion, la diversité et l'accessibilité au sein de vos équipes afin d'obtenir des perspectives bénéfiques.

Si des exigences réglementaires ou de conformité externes s'appliquent à votre organisation, vous devez utiliser les ressources fournies par AWS Cloud Compliance pour former vos équipes afin qu'elles puissent déterminer l'impact sur vos priorités. Le cadre Well-Architected met l'accent sur la formation, la mesure et l'amélioration. Il vous fournit une approche cohérente pour évaluer les architectures et mettre en œuvre des conceptions qui évoluent dans le temps. AWS fournit AWS Well-Architected Tool pour vous aider à revoir votre approche avant le développement et l'état de vos charges de travail avant la production et en production. Vous pouvez les comparer aux dernières bonnes pratiques architecturales AWS, surveiller l'état général de vos charges de travail et avoir un aperçu des risques potentiels. AWS Trusted Advisor est un outil qui donne accès à un ensemble de contrôles de base qui recommandent des optimisations susceptibles de vous aider à définir vos priorités. Les clients du Business and Enterprise Support ont accès à des contrôles supplémentaires axés sur la sécurité, la fiabilité, les performances et l'optimisation des coûts qui peuvent les aider à définir leurs priorités.

AWS peut vous aider à former vos équipes sur AWS et ses services afin qu'elles comprennent mieux comment leurs choix peuvent avoir un impact sur votre charge de travail. Vous devez utiliser les ressources fournies par AWS Support (AWS Knowledge Center, AWS Discussion Forms et AWS Support Center) et AWS Documentation pour former vos équipes. Contactez AWS Support via le Centre AWS Support pour obtenir des réponses à vos questions. AWS partage également les bonnes et les modèles que nous avons appris grâce à l'exploitation d'AWS dans Amazon Builders' Library. Un grand nombre d'autres informations utiles sont disponibles sur le blog AWS et sur le podcast officiel AWS. AWS Training and Certification offre une formation gratuite par le biais de cours numériques d’auto-formation sur les principes fondamentaux AWS. Vous pouvez également vous inscrire à une formation dirigée par un formateur afin de soutenir le développement des compétences AWS de vos équipes.

Vous devez utiliser des outils ou des services qui permettent de gérer de manière centralisée vos environnements dans plusieurs comptes, comme AWS Organizations, pour gérer vos modèles d'exploitation. Des services tels qu’AWS Control Tower élargissent cette capacité de gestion en vous permettant de définir des plans (soutenant vos modèles d'exploitation) pour la configuration des comptes, d'appliquer une gouvernance continue en utilisant AWS Organizations et d'automatiser l’allocation de nouveaux comptes. Les fournisseurs de services gérés tels qu’AWS Managed Services, AWS Managed Services Partners ou les fournisseurs de services gérés du réseau de partenaires AWS, fournissent une expertise dans la mise en œuvre des environnements cloud, et soutiennent vos exigences de sécurité et de conformité, ainsi que vos objectifs opérationnels. L'ajout de services gérés à votre modèle d’exploitation peut vous faire gagner du temps et économiser des ressources, et maintenir vos équipes internes réduites et concentrées sur les résultats stratégiques qui différencieront votre entreprise, plutôt que de développer de nouvelles compétences et capacités.

Les questions suivantes sont axées sur ces quelques considérations relatives au pilier excellence opérationnelle .

OPS 1: Comment déterminer vos priorités ?
OPS 2: Comment structurez-vous votre organisation pour soutenir les résultats de l'entreprise ?
OPS 3: Comment votre culture organisationnelle soutient-elle vos résultats opérationnels ?

Vous pouvez décider à un moment donné de mettre l'accent sur un petit sous-ensemble de priorités opérationnelles. Utilisez une approche équilibrée sur le long terme pour garantir le développement des capacités nécessaires et de la gestion des risques. Revoyez régulièrement les priorités opérationnelles et mettez-les à jour en fonction de l'évolution de vos besoins. Lorsque la responsabilité et la propriété sont indéfinies ou inconnues, vous risquez à la fois de ne pas effectuer les actions nécessaires en temps utile et de déployer des efforts redondants et potentiellement conflictuels pour répondre à ces besoins. La culture organisationnelle a un impact direct sur la satisfaction professionnelle et la fidélisation des membres de l'équipe. Favorisez l'engagement et l'exploitation des capacités des membres de votre équipe pour assurer la réussite de votre entreprise. L'expérimentation est nécessaire pour que l'innovation se produise et transforme les idées en résultats. Admettez qu'un résultat non désiré est une expérience positive qui a identifié un chemin qui ne mène pas au succès.

Préparer

Pour vous préparer à l'excellence opérationnelle, il est nécessaire de comprendre vos charges de travail et les comportements attendus. Vous pourrez ensuite les concevoir pour fournir des informations de leur statut et créer les procédures nécessaires pour les soutenir.

Concevez votre charge de travail de manière à ce qu'elle vous fournisse les informations nécessaires pour comprendre son état interne (par exemple, les mesures, les journaux, les événements et les traces) dans tous ses composants à des fins d’observation et de résolution des problèmes. Itérez pour développer la télémesure nécessaire pour surveiller l’état de votre charge de travail, identifier quand les résultats sont menacés, et répondre efficacement. Lorsque vous instrumentez votre charge de travail, capturez un grand ensemble d'informations pour connaître la situation (par exemple, changements d'état, activité des utilisateurs, accès privilégiés, compteurs d'utilisation), en sachant que vous pouvez utiliser des filtres pour sélectionner les informations les plus utiles dans le temps.

Adoptez des approches qui améliorent le flux des changements en production et qui permettent la restructuration, un retour d'information rapide sur la qualité et la correction des bogues. Ces approches accélèrent l’entrée des modifications bénéfiques dans l’environnement de production, limitent les problèmes déployés et permettent d'identifier et de corriger rapidement les problèmes introduits par les activités de déploiement ou découverts dans vos environnements.

Adoptez des approches qui fournissent un retour d'information rapide sur la qualité et permettent une reprise rapide à la suite de changements qui n'offrent pas les résultats escomptés. L'utilisation de ces pratiques diminue l'impact des problèmes découlant du déploiement des modifications. Prévoyez les modifications qui échouent afin de pouvoir réagir plus rapidement si nécessaire, et testez et validez les changements que vous apportez. Tenez compte des activités planifiées dans vos environnements afin de pouvoir gérer le risque des modifications affectant les activités planifiées. Mettez l'accent sur les modifications fréquentes, minimes et réversibles pour limiter leur portée. Ainsi, vous facilitez la résolution des problèmes et accélérez les corrections avec la possibilité d’annuler une modification. Cela signifie également que vous pouvez tirer profit plus souvent de modifications importantes.

Évaluez l'état de préparation opérationnelle de votre charge de travail, de vos processus, de vos procédures et de votre personnel afin de comprendre les risques opérationnels liés à votre charge de travail. Vous devez utiliser un processus cohérent (y compris des listes de contrôle manuelles ou automatisées) pour déterminer quand vous êtes prêt à mettre en service votre charge de travail ou un changement. Cela vous permet également d'identifier tous les domaines d'amélioration nécessaire. Dotez-vous de runbooks qui documentent vos activités de routine, et de playbooks qui guident vos processus pour la résolution des problèmes.. Déterminez les avantages et les risques afin de prendre des décisions éclairées pour autoriser les changements dans l’environnement de production.

AWS vous permet de visualiser l'ensemble de votre charge de travail (applications, infrastructure, politique, gouvernance et opérations) en tant que code. Elle peut être définie et mise à jour en utilisant du code. Cela signifie que vous pouvez appliquer la même discipline d'ingénierie que celle vous utilisez pour le code d'application à chaque élément de votre pile et partager ces éléments entre les équipes ou les organisations afin d'amplifier les avantages des efforts de développement. Utilisez les opérations en tant que code dans le cloud et testez-les en toute sécurité pour développer votre charge de travail, vos procédures d'opérations et la pratique de l'échec. L'utilisation d’AWS CloudFormation vous permet de disposer d'environnements de développement, de test et de production cohérents et modélisés, avec des niveaux de contrôle des opérations toujours plus élevés.

Les questions suivantes sont axées sur ces quelques considérations relatives au pilier excellence opérationnelle .

OPS 4: Comment concevoir votre charge de travail de sorte à en comprendre son état ?
OPS 5: Comment réduire les défauts, faciliter les corrections et améliorer le flux dans la production ?
OPS 6: Comment réduisez-vous les risques de déploiement ?
OPS 7: Comment savoir si vous êtes prêt à assurer une charge de travail ?

Investissez dans la mise en œuvre des activités opérationnelles en tant que code pour maximiser la productivité du personnel opérationnel, minimiser les taux d'erreur et automatiser les réponses. Adoptez des « pre-mortems » pour anticiper les échecs, et créez des procédures si nécessaire. Appliquez des métadonnées à l'aide des balises de ressource et d’AWS Resource Groups en suivant une stratégie de balisage cohérente pour permettre l'identification de vos ressources. Balisez vos ressources pour l’organisation, la comptabilité analytique, les contrôles des accès et le ciblage de l'exécution des activités des opérations automatisées. Adoptez des pratiques de déploiement qui tirent parti de l'élasticité du cloud pour faciliter les activités de développement, et le pré-déploiement des systèmes pour accélérer les mises en œuvre. Lorsque vous apportez des modifications aux listes de contrôle que vous utilisez pour évaluer votre charge de travail, planifiez les opérations que vous aller exécuter pour les systèmes en service qui ne sont plus conformes.

Exploiter

Le bon fonctionnement d'une charge de travail se mesure à l'aune des résultats obtenus par les entreprises et les clients. Définissez les résultats attendus, déterminez comment le succès sera mesuré et identifiez les paramètres qui seront utilisés dans ces calculs pour déterminer le succès de votre charge de travail et des opérations. L’état opérationnel comprend à la fois l’état de la charge de travail et l’état et le succès des activités opérationnelles menées pour soutenir la charge de travail (par exemple, déploiement et réponse aux incidents). Établissez des métriques de référence pour l'amélioration, l'investigation et l'intervention, collectez et analysez vos métriques, puis validez votre compréhension du succès des opérations et de leur évolution dans le temps. Utilisez les métriques collectées pour déterminer si vous répondez aux besoins des clients et des utilisateurs, et identifiez les domaines à améliorer.

Une gestion efficace et effective des événements opérationnels est nécessaire pour atteindre l'excellence opérationnelle. Cela s'applique à la fois aux événements opérationnels planifiés et imprévus. Utilisez les runbooks établis pour les événements bien compris, et utilisez les playbooks pour faciliter l'investigation et la résolution des problèmes. Prioriser les réponses aux événements en fonction de leur impact sur l’entreprise et les clients. Assurez-vous que, si une alerte est générée en réponse à un événement, il existe un processus associé à exécuter, avec un propriétaire spécifiquement identifié. Définissez à l'avance le personnel requis pour résoudre un événement et inclure des déclencheurs de remontée pour engager du personnel supplémentaire, si nécessaire, en fonction de l'urgence et de l'impact. Identifiez et engagez des personnes habilitées à prendre une décision sur les mesures à prendre lorsqu'une réponse à un événement non traité auparavant a un impact opérationnel.

Communiquez l'état opérationnel des charges de travail au moyen de tableaux de bord et de notifications adaptés au public cible (par exemple, clients, entreprises, développeurs, opérations) afin qu'il puisse prendre les mesures appropriées, que leurs attentes soient gérées et qu'il soit informé lorsque les opérations normales reprennent.

Dans AWS, vous pouvez générer des vues de tableau de bord de vos métriques collectées à partir des charges de travail et nativement depuis AWS. Vous pouvez tirer profit de CloudWatch ou d’applications tierces pour regrouper et présenter des affaires, une charge de travail, et des perspectives d’activités opérationnelles. AWS fournit des informations de charges de travail par le biais de fonctionnalités de journalisation, notamment, AWS X-Ray, CloudWatch, CloudTrail et VPC Flow Logs, qui permettent d'identifier les problèmes de charge de travail à l'appui de l'analyse des causes racines et de la résolution.

Les questions suivantes sont axées sur ces quelques considérations relatives au pilier excellence opérationnelle .

OPS 8: Comment comprendre l'état de votre charge de travail ?
OPS 9: Comment comprendre l'état de vos opérations ?
OPS 10: Comment gérer les événements relatifs à la charge de travail et aux opérations ?

Toutes les métriques que vous recueillez doivent être alignées sur un besoin opérationnel et les résultats qu'elles prennent en charge. Développez des réponses scriptées aux événements bien compris et automatisez leur exécution en réponse à la reconnaissance de l'événement.

Évoluer

Vous devez apprendre, partager et améliorer continuellement pour maintenir l'excellence opérationnelle. Consacrez des cycles de travail à la réalisation continuelle d’améliorations supplémentaires. Effectuez une analyse post-incident de tous les événements ayant un impact sur le client. Identifiez les facteurs contributifs et les mesures préventives pour limiter ou empêcher la récurrence. Communiquez les facteurs contributifs aux communautés concernées, le cas échéant. Évaluez régulièrement et priorisez les possibilités d'amélioration (par exemple, les demandes de fonctionnalités, la correction des problèmes et les exigences de conformité), y compris la charge de travail et les procédures opérationnelles. Introduisez des boucles de rétroaction au sein de vos procédures pour identifier rapidement les domaines d'amélioration et de tirer des enseignements de l'exécution d'opérations.

Partagez les leçons retenues et leurs avantages entre les équipes. Analysez les tendances dans les leçons apprises et effectuez une analyse rétrospective entre les équipes des opérations de métriques pour identifier les opportunités et les méthodes d'amélioration. Mettez en œuvre les changements destinés à apporter des améliorations et évaluez les résultats pour déterminer le succès.

Sur AWS, vous pouvez exporter vos données de journal vers Amazon S3 ou envoyer les journaux directement vers Amazon S3 pour un stockage longue durée. Avec AWS Glue, vous pouvez découvrir et préparer vos données de journaux dans Amazon S3 pour l'analyse, en stockant les métadonnées associées dans le catalogue de données AWS Glue. Grâce à son intégration native à Glue, vous pouvez ensuite utiliser Amazon Athena pour analyser vos données de journaux, en les interrogeant à l'aide de SQL standard. En utilisant un outil de veille économique comme Amazon QuickSight, vous pouvez visualiser, explorer et analyser vos données. Découvrez les tendances et les événements d'intérêt qui peuvent entraîner une amélioration.

Les questions suivantes sont axées sur ces quelques considérations relatives au pilier excellence opérationnelle .

OPS 11: Comment faire évoluer vos opérations ?

L'évolution réussie des opérations repose sur de fréquentes améliorations minimes, la fourniture d'environnements sûrs et le temps pour expérimenter, développer, tester les améliorations, et les environnements dans lesquels on encourage à tirer les leçons des échecs. La prise en charge des opérations pour les environnements sandbox, de développement, de test et de production, avec un niveau croissant de contrôles opérationnels, facilite le développement et augmente la prévisibilité des résultats positifs des changements déployés en production.

Ressources

Consultez les ressources suivantes pour en savoir plus sur nos bonnes pratiques relatives au pilier Excellence opérationnelle .

Operational Excellence Pillar
DevOps and AWS
DevOps at Amazon