PERF 7: Comment surveiller vos ressources pour vous assurer qu'elles fonctionnent ?
Les performances du système peuvent se dégrader au fil du temps. Surveillez-les afin d'identifier cette dégradation et corriger les facteurs internes ou externes tels que le système d'exploitation ou le chargement des applications.
Ressources
Cut through the chaos: Gain operational visibility and insight (MGT301-R1)
X-Ray Documentation
CloudWatch Documentation
Monitoring, Logging, and Performance APN Partners
Bonnes pratiques:
-
Enregistrement des métriques liées à la performance: Utilisez un service de surveillance et d'observabilité pour enregistrer les métriques liées aux performances. Par exemple, enregistrez les transactions de la base de données, les requêtes lentes, la latence d'E/S, la latence de service ou d'autres données clés.
-
Analyse des métriques lorsque des événements ou incidents se produisent: En réponse à un événement/incident ou lors de celui-ci, utilisez les tableaux de bord ou les rapports de supervision pour comprendre et diagnostiquer l'impact. Ces vues permettent d’identifier les portions de la charge de travail qui ne fonctionnent pas comme prévu.
-
Établissement des KPI pour mesurer les performances de la charge de travail: Identifiez les KPI qui indiquent si la charge de travail fonctionne comme prévu. Par exemple, une charge de travail basée sur une API peut utiliser la latence de réponse globale pour évaluer les performances globales. De même, un site de commerce en ligne peut choisir d'utiliser le nombre d'achats comme indicateur de performance clé.
-
Utilisation de la surveillance pour générer des notifications basées sur une alarme: En vous servant des KPI que vous avez définis, utilisez un système de surveillance qui génère des alarmes automatiquement lorsque ces mesures sont situées en dehors des limites attendues.
-
Vérification des métriques à intervalles réguliers: Vérifiez les métriques qui sont collectées au titre de la maintenance de routine ou en réponse à des événements ou des incidents. Utilisez ces évaluations pour identifier les métriques qui ont été essentielles pour traiter les problèmes et les métriques supplémentaires, si elles ont été suivies, qui aideraient à identifier, traiter ou empêcher les problèmes.
-
Surveillance et alarmes proactives: Utilisez les KPI en combinaison avec des systèmes de surveillance et d'alarme pour traiter de manière proactive les problèmes liés aux performances. Utilisez des alarmes pour déclencher des actions automatisées afin de corriger les problèmes dans la mesure du possible. Faites remonter l'alarme aux personnes qui peuvent répondre si une réponse automatique n'est pas possible. Par exemple, vous pourriez disposer d'un système capable de prédire les valeurs attendues de KPI lorsqu'elles dépassent certains seuils d'alarme. Vous pouvez aussi disposer d’un outil capable d'arrêter ou de restaurer automatiquement des déploiements si les valeurs des KPI dépassent celles attendues.
Plan d'amélioration
Enregistrement des métriques liées à la performance
Analyse des métriques lorsque des événements ou incidents se produisent
Établissement des KPI pour mesurer les performances de la charge de travail
Utilisation de la surveillance pour générer des notifications basées sur une alarme
Vérification des métriques à intervalles réguliers
Surveillance et alarmes proactives