Ce contenu est obsolète. Cette version du cadre Well-Architected se trouve désormais à l'adresse suivante: https://docs.aws.amazon.com/fr_fr/wellarchitected/2022-03-31/framework/operational-excellence.html
OPS 10: Comment gérer les événements relatifs à la charge de travail et aux opérations ?
Préparez et validez des procédures de réponse aux événements afin de réduire leur
effet disruptif sur votre charge de travail.
Ressources
Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?
Bonnes pratiques:
-
Utiliser des processus pour la gestion des événements, des incidents et des problèmes:
Mettez en place des processus pour traiter les événements observés, les événements
qui nécessitent une intervention (incidents) et les événements qui nécessitent une
intervention et qui sont soit récurrents, soit impossibles à résoudre pour l’instant
(problèmes). Utilisez ces processus pour atténuer l'impact de ces événements sur l'entreprise
et vos clients en fournissant des réponses rapides et appropriées.
-
Disposer d'un processus par alerte:
Répondez de manière bien définie (un runbook ou un playbook), avec un responsable
spécifiquement identifié, à tout événement pour lequel vous déclenchez une alerte.
Cela permet de répondre efficacement et rapidement aux événements liés aux opérations
et d'éviter que les événements donnant lieu à une action ne soient occultés par des
notifications de moindre valeur.
-
Prioriser les événements opérationnels en fonction de leur impact sur l'activité:
Assurez-vous que, lorsque plusieurs événements nécessitent une intervention, les plus
importants pour l’activité sont traités en premier. Par exemple, les impacts peuvent
inclure la mort ou une blessure, une perte financière ou l'atteinte à la réputation
ou à la confiance.
-
Définir les chemins de remontée:
Définissez l'acheminement hiérarchique dans vos runbooks et playbooks, y compris ce
qui le déclenche et les procédures à suivre. Identifiez spécifiquement les propriétaires
de chaque action afin de garantir des réponses efficaces et rapides aux événements
liés aux opérations.
-
Activer les notifications push:
Communiquez directement avec vos utilisateurs (par exemple, par courrier électronique
ou par SMS) lorsque les services qu'ils utilisent sont impactés, et de nouveau lorsque
les services refonctionnent normalement, pour permettre aux utilisateurs de prendre
les mesures appropriées.
-
Communiquer les états grâce aux tableaux de bord:
Fournissez des tableaux de bord adaptés à leurs publics cibles (par exemple, équipes
techniques internes, dirigeants et clients) pour communiquer l'état de fonctionnement
actuel de l'entreprise et fournir des métriques d'intérêt.
-
Automatiser les réponses aux événements:
Automatisez les réponses aux événements pour réduire les erreurs causées par les processus
manuels, et pour garantir des réponses rapides et cohérentes.
Plan d'amélioration
Utiliser des processus pour la gestion des événements, des incidents et des problèmes
Utiliser des processus pour la gestion des événements, des incidents et des problèmes:
Mettez en place des processus pour traiter les événements observés, les événements
qui nécessitent une intervention (incidents) et les événements qui nécessitent une
intervention et qui sont soit récurrents, soit impossibles à résoudre pour l’instant
(problèmes). Utilisez ces processus pour atténuer l'impact de ces événements sur l'entreprise
et vos clients en fournissant des réponses rapides et appropriées.
Disposer d'un processus par alerte
Processus par alerte:
Tout événement pour lequel vous déclenchez une alerte doit avoir une réponse bien
définie (un runbook ou un playbook) avec un responsable spécifiquement identifié (par
exemple, une personne, une équipe ou un rôle), garant du bon déroulement du processus.
L’intervention peut être automatisée ou effectuée par une autre équipe, mais le responsable
doit veiller à ce que le processus transmette les résultats attendus. En disposant
de ces processus, vous garantissez des réponses efficaces et rapides aux événements
opérationnels et vous pouvez empêcher que les événements concrets soient masqués par
des notifications moins importantes. Par exemple, la mise à l'échelle automatique
pourrait être appliquée pour mettre à l'échelle un front-end Web, mais l'équipe des
opérations pourrait être responsable de s'assurer que les règles et les limites de
mise à l'échelle automatique sont appropriées aux besoins de la charge de travail.
Prioriser les événements opérationnels en fonction de leur impact sur l'activité
Prioriser les événements opérationnels en fonction de leur impact sur l'activité:
Assurez-vous que, lorsque plusieurs événements nécessitent une intervention, les plus
importants pour l’activité sont traités en premier. Les impacts peuvent inclure, entre
autres, un décès ou une blessure, des pertes financières, des violations réglementaires
ou une atteinte à la réputation ou à la confiance.
Définir les chemins de remontée
Définir les chemins de remontée:
Définissez l'acheminement hiérarchique dans vos runbooks et playbooks, y compris ce
qui le déclenche et les procédures qui le régissent. Par exemple, l'acheminement hiérarchique
d'un problème des ingénieurs support aux ingénieurs support seniors lorsque les runbooks
ne peuvent pas résoudre le problème, ou lorsqu'un laps de temps prédéfini s'est écoulé.
Un autre exemple d'acheminement hiérarchique approprié est l'acheminement des ingénieurs
support seniors à l'équipe de développement pour une charge de travail lorsque les
playbooks ne sont pas en mesure d'identifier une méthode de correction, ou lorsqu'un
laps de temps prédéfini s'est écoulé. Identifiez spécifiquement les propriétaires
de chaque action afin de garantir des réponses efficaces et rapides aux événements
liés aux opérations. Les acheminements hiérarchiques peuvent inclure des tiers. Par
exemple, un fournisseur de connectivité réseau ou un fournisseur de logiciels. Les
acheminements hiérarchiques peuvent inclure des décideurs autorisés identifiés pour
les systèmes impactés.
Activer les notifications push
Activer les notifications push:
Communiquez directement avec vos utilisateurs (par exemple, par e-mail ou SMS) lorsque
les services qu'ils utilisent sont impactés, et lorsque les services reviennent à
la normale, pour permettre aux utilisateurs de prendre des mesures appropriées.
Amazon SES features
What is Amazon SES?
Set up Amazon SNS notifications
Communiquer les états grâce aux tableaux de bord
Communiquer les états grâce aux tableaux de bord:
Fournissez des tableaux de bord adaptés à leurs publics cibles (par exemple, équipes
techniques internes, dirigeants et clients) pour communiquer l'état de fonctionnement
actuel de l'entreprise et fournir des métriques d'intérêt. Fournir une option en libre-service
pour les informations d'état réduit l'impact disruptif lié aux demandes d'état de
la part de l'équipe opérationnelle. Les exemples incluent les tableaux de bord Amazon
CloudWatch et AWS Personal Health Dashboard.
CloudWatch dashboards create and use customized metrics views
Automatiser les réponses aux événements
Automatiser les réponses aux événements:
Automatisez les réponses aux événements pour réduire les erreurs causées par les processus
manuels, et pour garantir des réponses rapides et cohérentes.
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services