Ce contenu est obsolète. Cette version du cadre Well-Architected se trouve désormais à l'adresse suivante:  https://docs.aws.amazon.com/fr_fr/wellarchitected/2022-03-31/framework/operational-excellence.html
     
 
         OPS 10: Comment gérer les événements relatifs à la charge de travail et aux opérations ?
         
          Préparez et validez des procédures de réponse aux événements afin de réduire leur
            effet disruptif sur votre charge de travail.
            
         
         Ressources
          Build a Monitoring Plan
 Amazon CloudWatch Features
 What is Amazon CloudWatch Events?
         Bonnes pratiques:
         
            - 
               Utiliser des processus pour la gestion des événements, des incidents et des problèmes: 
                  Mettez en place des processus pour traiter les événements observés, les événements
                  qui nécessitent une intervention (incidents) et les événements qui nécessitent une
                  intervention et qui sont soit récurrents, soit impossibles à résoudre pour l’instant
                  (problèmes). Utilisez ces processus pour atténuer l'impact de ces événements sur l'entreprise
                  et vos clients en fournissant des réponses rapides et appropriées.
                  
                
- 
               Disposer d'un processus par alerte: 
                  Répondez de manière bien définie (un runbook ou un playbook), avec un responsable
                  spécifiquement identifié, à tout événement pour lequel vous déclenchez une alerte.
                  Cela permet de répondre efficacement et rapidement aux événements liés aux opérations
                  et d'éviter que les événements donnant lieu à une action ne soient occultés par des
                  notifications de moindre valeur.
                  
                
- 
               Prioriser les événements opérationnels en fonction de leur impact sur l'activité: 
                  Assurez-vous que, lorsque plusieurs événements nécessitent une intervention, les plus
                  importants pour l’activité sont traités en premier. Par exemple, les impacts peuvent
                  inclure la mort ou une blessure, une perte financière ou l'atteinte à la réputation
                  ou à la confiance.
                  
                
- 
               Définir les chemins de remontée: 
                  Définissez l'acheminement hiérarchique dans vos runbooks et playbooks, y compris ce
                  qui le déclenche et les procédures à suivre. Identifiez spécifiquement les propriétaires
                  de chaque action afin de garantir des réponses efficaces et rapides aux événements
                  liés aux opérations.
                  
                
- 
               Activer les notifications push: 
                  Communiquez directement avec vos utilisateurs (par exemple, par courrier électronique
                  ou par SMS) lorsque les services qu'ils utilisent sont impactés, et de nouveau lorsque
                  les services refonctionnent normalement, pour permettre aux utilisateurs de prendre
                  les mesures appropriées.
                  
                
- 
               Communiquer les états grâce aux tableaux de bord: 
                  Fournissez des tableaux de bord adaptés à leurs publics cibles (par exemple, équipes
                  techniques internes, dirigeants et clients) pour communiquer l'état de fonctionnement
                  actuel de l'entreprise et fournir des métriques d'intérêt. 
                  
                
- 
               Automatiser les réponses aux événements: 
                  Automatisez les réponses aux événements pour réduire les erreurs causées par les processus
                  manuels, et pour garantir des réponses rapides et cohérentes. 
                  
                
Plan d'amélioration
         Utiliser des processus pour la gestion des événements, des incidents et des problèmes
Utiliser des processus pour la gestion des événements, des incidents et des problèmes: 
               Mettez en place des processus pour traiter les événements observés, les événements
               qui nécessitent une intervention (incidents) et les événements qui nécessitent une
               intervention et qui sont soit récurrents, soit impossibles à résoudre pour l’instant
               (problèmes). Utilisez ces processus pour atténuer l'impact de ces événements sur l'entreprise
               et vos clients en fournissant des réponses rapides et appropriées.
               
            
         
         Disposer d'un processus par alerte
Processus par alerte: 
               Tout événement pour lequel vous déclenchez une alerte doit avoir une réponse bien
               définie (un runbook ou un playbook) avec un responsable spécifiquement identifié (par
               exemple, une personne, une équipe ou un rôle), garant du bon déroulement du processus.
               L’intervention peut être automatisée ou effectuée par une autre équipe, mais le responsable
               doit veiller à ce que le processus transmette les résultats attendus. En disposant
               de ces processus, vous garantissez des réponses efficaces et rapides aux événements
               opérationnels et vous pouvez empêcher que les événements concrets soient masqués par
               des notifications moins importantes. Par exemple, la mise à l'échelle automatique
               pourrait être appliquée pour mettre à l'échelle un front-end Web, mais l'équipe des
               opérations pourrait être responsable de s'assurer que les règles et les limites de
               mise à l'échelle automatique sont appropriées aux besoins de la charge de travail.
               
            
         
         Prioriser les événements opérationnels en fonction de leur impact sur l'activité
Prioriser les événements opérationnels en fonction de leur impact sur l'activité: 
               Assurez-vous que, lorsque plusieurs événements nécessitent une intervention, les plus
               importants pour l’activité sont traités en premier. Les impacts peuvent inclure, entre
               autres, un décès ou une blessure, des pertes financières, des violations réglementaires
               ou une atteinte à la réputation ou à la confiance.
               
            
         
         Définir les chemins de remontée
Définir les chemins de remontée: 
               Définissez l'acheminement hiérarchique dans vos runbooks et playbooks, y compris ce
               qui le déclenche et les procédures qui le régissent. Par exemple, l'acheminement hiérarchique
               d'un problème des ingénieurs support aux ingénieurs support seniors lorsque les runbooks
               ne peuvent pas résoudre le problème, ou lorsqu'un laps de temps prédéfini s'est écoulé.
               Un autre exemple d'acheminement hiérarchique approprié est l'acheminement des ingénieurs
               support seniors à l'équipe de développement pour une charge de travail lorsque les
               playbooks ne sont pas en mesure d'identifier une méthode de correction, ou lorsqu'un
               laps de temps prédéfini s'est écoulé. Identifiez spécifiquement les propriétaires
               de chaque action afin de garantir des réponses efficaces et rapides aux événements
               liés aux opérations. Les acheminements hiérarchiques peuvent inclure des tiers. Par
               exemple, un fournisseur de connectivité réseau ou un fournisseur de logiciels. Les
               acheminements hiérarchiques peuvent inclure des décideurs autorisés identifiés pour
               les systèmes impactés.
               
            
         
         Activer les notifications push
Activer les notifications push: 
               Communiquez directement avec vos utilisateurs (par exemple, par e-mail ou SMS) lorsque
               les services qu'ils utilisent sont impactés, et lorsque les services reviennent à
               la normale, pour permettre aux utilisateurs de prendre des mesures appropriées.
               
 Amazon SES features
 What is Amazon SES?
 Set up Amazon SNS notifications
         
         Communiquer les états grâce aux tableaux de bord
Communiquer les états grâce aux tableaux de bord: 
               Fournissez des tableaux de bord adaptés à leurs publics cibles (par exemple, équipes
               techniques internes, dirigeants et clients) pour communiquer l'état de fonctionnement
               actuel de l'entreprise et fournir des métriques d'intérêt. Fournir une option en libre-service
               pour les informations d'état réduit l'impact disruptif lié aux demandes d'état de
               la part de l'équipe opérationnelle. Les exemples incluent les tableaux de bord Amazon
               CloudWatch et AWS Personal Health Dashboard.
               
  
                  CloudWatch dashboards create and use customized metrics views
         
         Automatiser les réponses aux événements
Automatiser les réponses aux événements: 
               Automatisez les réponses aux événements pour réduire les erreurs causées par les processus
               manuels, et pour garantir des réponses rapides et cohérentes. 
               
 What is Amazon CloudWatch Events?
 Creating a CloudWatch Events rule that triggers on an event
 Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
                  
 CloudWatch Events event examples from supported services