OPS 9: Comment comprendre l'état de vos opérations ?
Définissez, capturez et analysez les métriques des opérations pour obtenir une visibilité sur les événements des opérations afin de pouvoir prendre des mesures appropriées.
Ressources
Build a Monitoring Plan
Detect and React to Changes in Pipeline State with Amazon CloudWatch Events
AWS Answers: Centralized Logging
Bonnes pratiques:
-
Identifier les indicateurs clés de performance: Identifiez les indicateurs clés de performance (KPI) en fonction de l'activité souhaitée (par exemple, nouvelles fonctionnalités fournies) et les résultats pour les clients (par exemple, dossiers de service clientèle). Évaluez les KPI pour déterminer la réussite des opérations.
-
Définir des métriques pour les opérations: Définissez des métriques pour les opérations pour mesurer la réalisation des KPI (par exemple, déploiements réussis et déploiements ayant échoué). Définissez des métriques pour les opérations pour mesurer l’état des activités opérationnelles (par exemple, temps moyen de détection d'un incident (MTTD), et temps moyen de reprise après incident (MTTR)). Évaluez les paramètres pour déterminer si les opérations atteignent les résultats souhaités, et pour comprendre l’état des activités de vos opérations.
-
Collecter et analyser les métriques des opérations: Effectuez des examens réguliers et proactifs des mesures afin d'identifier les tendances et de déterminer les cas où des réponses appropriées sont nécessaires.
-
Établir des bases de références pour les métriques des opérations: Établissez des bases de référence afin de fournir les valeurs attendues comme base de comparaison et d'identification des activités opérationnelles sous et sur-performantes.
-
Apprendre des modèles d'activité attendus des opérations: Définissez des modèles d'activités opérationnelles pour identifier les activités anormales afin de pouvoir réagir de manière appropriée si nécessaire.
-
Signaler les menaces sur les résultats des opérations: Déclenchez une alerte quand une menace pèse sur les résultats des opérations, afin de pouvoir répondre de manière appropriée si nécessaire.
-
Signaler la détection d'anomalies dans les opérations: Déclenchez une alerte quand des anomalies sont détectées dans les opérations, afin de pouvoir répondre de manière appropriée si nécessaire.
-
Valider la réalisation des résultats et l’efficacité des KPI et des métriques : Créez une vue des activités des opérations au niveau de l'entreprise pour vous aider à déterminer si vous répondez aux besoins et permettre d'identifier les domaines ayant besoin d'être améliorés pour atteindre les objectifs commerciaux. Validez l'efficacité des KPI et des métriques et vérifiez-les si nécessaire.
Plan d'amélioration
Identifier les indicateurs clés de performance
Définir des métriques pour les opérations
Publish custom metrics
Searching and filtering log data
Amazon CloudWatch metrics and dimensions reference
Collecter et analyser les métriques des opérations
Using Amazon CloudWatch metrics
Amazon CloudWatch metrics and dimensions reference
Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent
Établir des bases de références pour les métriques des opérations
Apprendre des modèles d'activité attendus des opérations
Signaler les menaces sur les résultats des opérations
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
Signaler la détection d'anomalies dans les opérations
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
Valider la réalisation des résultats et l’efficacité des KPI et des métriques
Using Amazon CloudWatch dashboards
What is log analytics?