OPS 9: Wie können Sie den Zustand Ihrer Operationen beurteilen?
Definieren, erfassen und analysieren Sie Metriken für Operationen, um einen Einblick in Ereignisse rund um Ihre operativen Abläufe zu erhalten. Dies ist wichtig, damit Sie bei Bedarf entsprechende Maßnahmen ergreifen können.
Ressourcen
Build a Monitoring Plan
Detect and React to Changes in Pipeline State with Amazon CloudWatch Events
AWS Answers: Centralized Logging
Bewährte Methoden:
-
Ermitteln wichtiger Leistungskennzahlen: Ermitteln Sie wichtige Leistungskennzahlen (KPIs) anhand der gewünschten Geschäftsergebnisse (z. B. bereitgestellte neue Funktionen) und Kundenergebnisse (z. B. Kundenservice-Anfragen). Bewerten Sie KPIs, um den betrieblichen Erfolg zu messen.
-
Definieren von Betriebsmetriken: Definieren Sie Betriebsmetriken, um den Erfolg von KPIs zu messen (z. B. erfolgreiche und fehlgeschlagene Bereitstellungen). Definieren Sie Betriebsmetriken, um den Zustand von Betriebsaktivitäten zu messen (z. B. mittlere Zeit zur Erkennung eines Vorfalls (MTTD) und mittlere Reparaturzeit (MTTR) nach einem Vorfall). Bewerten Sie Metriken, um festzustellen, ob die Betriebsabläufe die gewünschten Ergebnisse erzielen, und um den Zustand der Betriebsaktivitäten zu beurteilen.
-
Erfassen und Analysieren von Betriebsmetriken: Unterziehen Sie die Metriken regelmäßigen proaktiven Überprüfungen, um Trends zu ermitteln und festzustellen, wo gegebenenfalls Maßnahmen ergriffen werden müssen.
-
Festlegen von Ausgangswerten für Betriebsmetriken: Legen Sie Ausgangswerte für Metriken fest, um erwartete Werte als Grundlage für den Vergleich und die Ermittlung von Betriebsaktivitäten mit unter- oder überdurchschnittlicher Leistung bereitzustellen.
-
Aufzeichnen der erwarteten Aktivitätsmuster für den Betrieb: Legen Sie Betriebsaktivitätsmuster fest, um außergewöhnliche Aktivitäten zu identifizieren, damit Sie bei Bedarf entsprechend reagieren können.
-
Alarm bei gefährdeten Betriebsergebnissen: Lösen Sie einen Alarm aus, wenn die Betriebsergebnisse gefährdet sind, damit Sie bei Bedarf entsprechend reagieren können.
-
Alarm bei festgestellten Betriebsanomalien: Lösen Sie einen Alarm aus, wenn Betriebsanomalien festgestellt werden, damit Sie bei Bedarf angemessen reagieren können.
-
Prüfen der Erreichung von angestrebten Ergebnissen und der Wirksamkeit von KPIs und Metriken : Erstellen Sie eine Ansicht Ihrer operationsspezifischen Aktivitäten auf Geschäftsebene, mit der Sie schnell feststellen können, ob Sie die Anforderungen erfüllen, und welche Bereiche verbessert werden müssen, um die Geschäftsziele zu erreichen. Prüfen Sie die Wirksamkeit von KPIs und Metriken und überarbeiten Sie diese gegebenenfalls.
Verbesserungsplan
Ermitteln wichtiger Leistungskennzahlen
Definieren von Betriebsmetriken
Publish custom metrics
Searching and filtering log data
Amazon CloudWatch metrics and dimensions reference
Erfassen und Analysieren von Betriebsmetriken
Using Amazon CloudWatch metrics
Amazon CloudWatch metrics and dimensions reference
Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent
Festlegen von Ausgangswerten für Betriebsmetriken
Aufzeichnen der erwarteten Aktivitätsmuster für den Betrieb
Alarm bei gefährdeten Betriebsergebnissen
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
Alarm bei festgestellten Betriebsanomalien
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
Prüfen der Erreichung von angestrebten Ergebnissen und der Wirksamkeit von KPIs und
Metriken
Using Amazon CloudWatch dashboards
What is log analytics?