OPS 10: Comment gérer les événements relatifs à la charge de travail et aux opérations ?

Préparez et validez des procédures de réponse aux événements afin de réduire leur effet disruptif sur votre charge de travail.

Ressources

Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?

Bonnes pratiques:

Plan d'amélioration

Utiliser des processus pour la gestion des événements, des incidents et des problèmes

  • Utiliser des processus pour la gestion des événements, des incidents et des problèmes: Mettez en place des processus pour traiter les événements observés, les événements qui nécessitent une intervention (incidents) et les événements qui nécessitent une intervention et qui sont soit récurrents, soit impossibles à résoudre pour l’instant (problèmes). Utilisez ces processus pour atténuer l'impact de ces événements sur l'entreprise et vos clients en fournissant des réponses rapides et appropriées.
  • Disposer d'un processus par alerte

  • Processus par alerte: Tout événement pour lequel vous déclenchez une alerte doit avoir une réponse bien définie (un runbook ou un playbook) avec un responsable spécifiquement identifié (par exemple, une personne, une équipe ou un rôle), garant du bon déroulement du processus. L’intervention peut être automatisée ou effectuée par une autre équipe, mais le responsable doit veiller à ce que le processus transmette les résultats attendus. En disposant de ces processus, vous garantissez des réponses efficaces et rapides aux événements opérationnels et vous pouvez empêcher que les événements concrets soient masqués par des notifications moins importantes. Par exemple, la mise à l'échelle automatique pourrait être appliquée pour mettre à l'échelle un front-end Web, mais l'équipe des opérations pourrait être responsable de s'assurer que les règles et les limites de mise à l'échelle automatique sont appropriées aux besoins de la charge de travail.
  • Prioriser les événements opérationnels en fonction de leur impact sur l'activité

  • Prioriser les événements opérationnels en fonction de leur impact sur l'activité: Assurez-vous que, lorsque plusieurs événements nécessitent une intervention, les plus importants pour l’activité sont traités en premier. Les impacts peuvent inclure, entre autres, un décès ou une blessure, des pertes financières, des violations réglementaires ou une atteinte à la réputation ou à la confiance.
  • Définir les chemins de remontée

  • Définir les chemins de remontée: Définissez l'acheminement hiérarchique dans vos runbooks et playbooks, y compris ce qui le déclenche et les procédures qui le régissent. Par exemple, l'acheminement hiérarchique d'un problème des ingénieurs support aux ingénieurs support seniors lorsque les runbooks ne peuvent pas résoudre le problème, ou lorsqu'un laps de temps prédéfini s'est écoulé. Un autre exemple d'acheminement hiérarchique approprié est l'acheminement des ingénieurs support seniors à l'équipe de développement pour une charge de travail lorsque les playbooks ne sont pas en mesure d'identifier une méthode de correction, ou lorsqu'un laps de temps prédéfini s'est écoulé. Identifiez spécifiquement les propriétaires de chaque action afin de garantir des réponses efficaces et rapides aux événements liés aux opérations. Les acheminements hiérarchiques peuvent inclure des tiers. Par exemple, un fournisseur de connectivité réseau ou un fournisseur de logiciels. Les acheminements hiérarchiques peuvent inclure des décideurs autorisés identifiés pour les systèmes impactés.
  • Activer les notifications push

  • Activer les notifications push: Communiquez directement avec vos utilisateurs (par exemple, par e-mail ou SMS) lorsque les services qu'ils utilisent sont impactés, et lorsque les services reviennent à la normale, pour permettre aux utilisateurs de prendre des mesures appropriées.
    Amazon SES features
    What is Amazon SES?
    Set up Amazon SNS notifications
  • Communiquer les états grâce aux tableaux de bord

  • Communiquer les états grâce aux tableaux de bord: Fournissez des tableaux de bord adaptés à leurs publics cibles (par exemple, équipes techniques internes, dirigeants et clients) pour communiquer l'état de fonctionnement actuel de l'entreprise et fournir des métriques d'intérêt. Fournir une option en libre-service pour les informations d'état réduit l'impact disruptif lié aux demandes d'état de la part de l'équipe opérationnelle. Les exemples incluent les tableaux de bord Amazon CloudWatch et AWS Personal Health Dashboard.
    CloudWatch dashboards create and use customized metrics views
  • Automatiser les réponses aux événements

  • Automatiser les réponses aux événements: Automatisez les réponses aux événements pour réduire les erreurs causées par les processus manuels, et pour garantir des réponses rapides et cohérentes.
    What is Amazon CloudWatch Events?
    Creating a CloudWatch Events rule that triggers on an event
    Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
    CloudWatch Events event examples from supported services