Ce contenu est obsolète. Cette version du cadre Well-Architected se trouve désormais à l'adresse suivante: https://docs.aws.amazon.com/fr_fr/wellarchitected/2022-03-31/framework/operational-excellence.html

OPS 10: Comment gérer les événements relatifs à la charge de travail et aux opérations ?

Préparez et validez des procédures de réponse aux événements afin de réduire leur effet disruptif sur votre charge de travail.

Ressources

Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?

Bonnes pratiques:

Utiliser des processus pour la gestion des événements, des incidents et des problèmes: Mettez en place des processus pour traiter les événements observés, les événements qui nécessitent une intervention (incidents) et les événements qui nécessitent une intervention et qui sont soit récurrents, soit impossibles à résoudre pour l’instant (problèmes). Utilisez ces processus pour atténuer l'impact de ces événements sur l'entreprise et vos clients en fournissant des réponses rapides et appropriées.
Disposer d'un processus par alerte: Répondez de manière bien définie (un runbook ou un playbook), avec un responsable spécifiquement identifié, à tout événement pour lequel vous déclenchez une alerte. Cela permet de répondre efficacement et rapidement aux événements liés aux opérations et d'éviter que les événements donnant lieu à une action ne soient occultés par des notifications de moindre valeur.
Prioriser les événements opérationnels en fonction de leur impact sur l'activité: Assurez-vous que, lorsque plusieurs événements nécessitent une intervention, les plus importants pour l’activité sont traités en premier. Par exemple, les impacts peuvent inclure la mort ou une blessure, une perte financière ou l'atteinte à la réputation ou à la confiance.
Définir les chemins de remontée: Définissez l'acheminement hiérarchique dans vos runbooks et playbooks, y compris ce qui le déclenche et les procédures à suivre. Identifiez spécifiquement les propriétaires de chaque action afin de garantir des réponses efficaces et rapides aux événements liés aux opérations.
Activer les notifications push: Communiquez directement avec vos utilisateurs (par exemple, par courrier électronique ou par SMS) lorsque les services qu'ils utilisent sont impactés, et de nouveau lorsque les services refonctionnent normalement, pour permettre aux utilisateurs de prendre les mesures appropriées.
Communiquer les états grâce aux tableaux de bord: Fournissez des tableaux de bord adaptés à leurs publics cibles (par exemple, équipes techniques internes, dirigeants et clients) pour communiquer l'état de fonctionnement actuel de l'entreprise et fournir des métriques d'intérêt.
Automatiser les réponses aux événements: Automatisez les réponses aux événements pour réduire les erreurs causées par les processus manuels, et pour garantir des réponses rapides et cohérentes.

Plan d'amélioration

Utiliser des processus pour la gestion des événements, des incidents et des problèmes

Utiliser des processus pour la gestion des événements, des incidents et des problèmes: Mettez en place des processus pour traiter les événements observés, les événements qui nécessitent une intervention (incidents) et les événements qui nécessitent une intervention et qui sont soit récurrents, soit impossibles à résoudre pour l’instant (problèmes). Utilisez ces processus pour atténuer l'impact de ces événements sur l'entreprise et vos clients en fournissant des réponses rapides et appropriées.

Disposer d'un processus par alerte

Processus par alerte: Tout événement pour lequel vous déclenchez une alerte doit avoir une réponse bien définie (un runbook ou un playbook) avec un responsable spécifiquement identifié (par exemple, une personne, une équipe ou un rôle), garant du bon déroulement du processus. L’intervention peut être automatisée ou effectuée par une autre équipe, mais le responsable doit veiller à ce que le processus transmette les résultats attendus. En disposant de ces processus, vous garantissez des réponses efficaces et rapides aux événements opérationnels et vous pouvez empêcher que les événements concrets soient masqués par des notifications moins importantes. Par exemple, la mise à l'échelle automatique pourrait être appliquée pour mettre à l'échelle un front-end Web, mais l'équipe des opérations pourrait être responsable de s'assurer que les règles et les limites de mise à l'échelle automatique sont appropriées aux besoins de la charge de travail.

Prioriser les événements opérationnels en fonction de leur impact sur l'activité

Prioriser les événements opérationnels en fonction de leur impact sur l'activité: Assurez-vous que, lorsque plusieurs événements nécessitent une intervention, les plus importants pour l’activité sont traités en premier. Les impacts peuvent inclure, entre autres, un décès ou une blessure, des pertes financières, des violations réglementaires ou une atteinte à la réputation ou à la confiance.

Définir les chemins de remontée

Définir les chemins de remontée: Définissez l'acheminement hiérarchique dans vos runbooks et playbooks, y compris ce qui le déclenche et les procédures qui le régissent. Par exemple, l'acheminement hiérarchique d'un problème des ingénieurs support aux ingénieurs support seniors lorsque les runbooks ne peuvent pas résoudre le problème, ou lorsqu'un laps de temps prédéfini s'est écoulé. Un autre exemple d'acheminement hiérarchique approprié est l'acheminement des ingénieurs support seniors à l'équipe de développement pour une charge de travail lorsque les playbooks ne sont pas en mesure d'identifier une méthode de correction, ou lorsqu'un laps de temps prédéfini s'est écoulé. Identifiez spécifiquement les propriétaires de chaque action afin de garantir des réponses efficaces et rapides aux événements liés aux opérations. Les acheminements hiérarchiques peuvent inclure des tiers. Par exemple, un fournisseur de connectivité réseau ou un fournisseur de logiciels. Les acheminements hiérarchiques peuvent inclure des décideurs autorisés identifiés pour les systèmes impactés.

Activer les notifications push

Activer les notifications push: Communiquez directement avec vos utilisateurs (par exemple, par e-mail ou SMS) lorsque les services qu'ils utilisent sont impactés, et lorsque les services reviennent à la normale, pour permettre aux utilisateurs de prendre des mesures appropriées.
Amazon SES features
What is Amazon SES?
Set up Amazon SNS notifications

Communiquer les états grâce aux tableaux de bord

Communiquer les états grâce aux tableaux de bord: Fournissez des tableaux de bord adaptés à leurs publics cibles (par exemple, équipes techniques internes, dirigeants et clients) pour communiquer l'état de fonctionnement actuel de l'entreprise et fournir des métriques d'intérêt. Fournir une option en libre-service pour les informations d'état réduit l'impact disruptif lié aux demandes d'état de la part de l'équipe opérationnelle. Les exemples incluent les tableaux de bord Amazon CloudWatch et AWS Personal Health Dashboard.
CloudWatch dashboards create and use customized metrics views

Automatiser les réponses aux événements

Automatiser les réponses aux événements: Automatisez les réponses aux événements pour réduire les erreurs causées par les processus manuels, et pour garantir des réponses rapides et cohérentes.
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services