OPS 10: Wie bewältigen Sie Workload- und operationsspezifische Ereignisse?
Erarbeiten und prüfen Sie Verfahren für die Reaktion auf Ereignisse, um Beeinträchtigungen
für Ihren Workload zu minimieren.
Ressourcen
Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?
Bewährte Methoden:
-
Verwenden von Prozessen für die Bewältigung von Ereignissen, Vorfällen und Problemen:
Implementieren Sie Prozesse zur Behandlung von beobachteten Ereignissen, Ereignissen,
die ein Eingreifen erfordern (Vorfälle) und Ereignissen, die ein Eingreifen erfordern
und entweder wiederholt auftreten oder derzeit nicht beseitigt werden können (Probleme).
Verwenden Sie diese Prozesse, um die Auswirkungen dieser Ereignisse auf das Unternehmen
und Ihre Kunden zu minimieren, indem Sie rechtzeitige und zielgerichtete Reaktionen
sicherstellen.
-
Implementieren eines Prozesses für jeden Alarm:
Legen Sie für jedes Ereignis, für das Sie einen Alarm auslösen, eine klar definierte
Reaktion (Runbook oder Playbook) mit einem eigens dafür angegebenen Besitzer fest.
Dies gewährleistet eine effektive und schnelle Reaktion auf Betriebsereignisse und
verhindert, dass aktionsrelevante Ereignisse aufgrund weniger wichtiger Benachrichtigungen
übersehen werden.
-
Priorisieren von betrieblichen Ereignissen auf Basis der Auswirkung auf das Unternehmen:
Stellen Sie sicher, dass bei mehreren Ereignissen, die eine Intervention erfordern,
zuerst diejenigen angegangen werden, die für das Unternehmen die größte Tragweite
haben. Zu den Auswirkungen können beispielsweise Todesfälle oder Verletzungen, finanzielle
Verluste oder Rufschädigung bzw. Vertrauensverlust gehören.
-
Definieren von Eskalationspfaden:
Definieren Sie Eskalationspfade in Ihren Runbooks und Playbooks und legen Sie auch
fest, was eine Eskalation auslöst. Erarbeiten Sie zudem Verfahren für die Eskalation.
Weisen Sie jeder Aktion explizit Besitzer zu, um effektive und schnelle Reaktionen
auf betriebliche Ereignisse zu gewährleisten.
-
Ermöglichen von Push-Benachrichtigungen:
Kommunizieren Sie direkt mit Ihren Benutzern (beispielsweise per E-Mail oder SMS),
wenn die von ihnen genutzten Services betroffen sind oder wenn die Services wieder
ordnungsgemäß funktionieren, damit die Benutzer entsprechende Maßnahmen ergreifen
können.
-
Bekanntgeben des Status über Dashboards:
Stellen Sie Dashboards zur Verfügung, die auf die jeweilige Zielgruppe zugeschnitten
sind (z. B. interne technische Teams, Führungskräfte und Kunden), um diese über den
aktuellen Betriebsstatus des Unternehmens zu informieren und interessante Metriken
bereitzustellen.
-
Automatisieren von Reaktionen auf Ereignisse:
Automatisieren Sie Reaktionen auf Ereignisse, um Fehler zu reduzieren, die durch manuelle
Prozesse entstehen, und um schnelle und konsistente Reaktionen zu gewährleisten.
Verbesserungsplan
Verwenden von Prozessen für die Bewältigung von Ereignissen, Vorfällen und Problemen
Verwenden von Prozessen für die Bewältigung von Ereignissen, Vorfällen und Problemen:
Implementieren Sie Prozesse zur Behandlung von beobachteten Ereignissen, Ereignissen,
die ein Eingreifen erfordern (Vorfälle) und Ereignissen, die ein Eingreifen erfordern
und entweder wiederholt auftreten oder derzeit nicht beseitigt werden können (Probleme).
Verwenden Sie diese Prozesse, um die Auswirkungen dieser Ereignisse auf das Unternehmen
und Ihre Kunden zu minimieren, indem Sie rechtzeitige und zielgerichtete Reaktionen
sicherstellen.
Implementieren eines Prozesses für jeden Alarm
Prozess für jeden Alarm:
Jedem Ereignis, für das Sie eine Warnung auslösen, sollte eine klar definierte Reaktion
(Runbook oder Playbook) mit einem speziellen Besitzer (z. B. eine Person, ein Team
oder eine Rolle) zugewiesen sein, der für die erfolgreiche Ausführung verantwortlich
ist. Die Reaktion kann zwar automatisiert oder von einem anderen Team übernommen werden,
aber der Besitzer trägt die Verantwortung dafür, dass der Prozess die erwarteten Ergebnisse
liefert. Diese Prozesse gewährleisten eine effektive und schnelle Reaktion auf Betriebsereignisse
und verhindern, dass aktionsrelevante Ereignisse aufgrund weniger wichtiger Benachrichtigungen
übersehen werden. Beispielsweise kann eine automatische Skalierung zur Skalierung
eines Web-Frontend-Systems verwendet werden, aber das Betriebsteam könnte dafür verantwortlich
sein, dass die Regeln und Limits der automatischen Skalierung den Anforderungen des
Workloads entsprechen.
Priorisieren von betrieblichen Ereignissen auf Basis der Auswirkung auf das Unternehmen
Priorisieren von betrieblichen Ereignissen auf Basis der Auswirkung auf das Unternehmen:
Stellen Sie sicher, dass bei mehreren Ereignissen, die eine Intervention erfordern,
zuerst diejenigen angegangen werden, die für das Unternehmen die größte Tragweite
haben. Zu den Auswirkungen können beispielsweise Todesfälle oder Verletzungen, finanzielle
Verluste, Verstöße gegen Vorschriften oder Rufschädigung bzw. Vertrauensverlust gehören.
Definieren von Eskalationspfaden
Definieren von Eskalationspfaden:
Definieren Sie Eskalationspfade in Ihren Runbooks und Playbooks und legen Sie auch
fest, was eine Eskalation auslöst. Erarbeiten Sie zudem Verfahren für die Eskalation.
Beispielsweise kann ein Problem von den Support-Technikern eine Stufe höher an leitende
Support-Techniker eskaliert werden, wenn das Problem nicht durch Runbooks gelöst werden
kann oder wenn eine vordefinierte Zeitspanne verstrichen ist. Ein weiteres Beispiel
für einen geeigneten Eskalationspfad bei einem Workload ist die Weiterleitung von
den leitenden Support-Technikern an das Entwicklungsteam, wenn die Playbooks keinen
Korrekturpfad ermitteln können oder wenn eine vordefinierte Zeitspanne verstrichen
ist. Weisen Sie jeder Aktion explizit Besitzer zu, um effektive und schnelle Reaktionen
auf betriebliche Ereignisse zu gewährleisten. Eskalationen können auch Dritte beinhalten.
Beispiele hierfür sind Anbieter von Netzwerkkonnektivität oder Software. Eskalationen
können festgelegte autorisierte Entscheidungsträger für betroffene Systeme einbeziehen.
Ermöglichen von Push-Benachrichtigungen
Ermöglichen von Push-Benachrichtigungen:
Kommunizieren Sie direkt mit Ihren Benutzern (beispielsweise per E-Mail oder SMS),
wenn die von ihnen genutzten Services betroffen sind oder wenn die Services wieder
ordnungsgemäß funktionieren, damit die Benutzer entsprechende Maßnahmen ergreifen
können.
Amazon SES features
What is Amazon SES?
Set up Amazon SNS notifications
Bekanntgeben des Status über Dashboards
Bekanntgeben des Status über Dashboards:
Stellen Sie Dashboards zur Verfügung, die auf die jeweilige Zielgruppe zugeschnitten
sind (z. B. interne technische Teams, Führungskräfte und Kunden), um diese über den
aktuellen Betriebsstatus des Unternehmens zu informieren und interessante Metriken
bereitzustellen. Die Bereitstellung einer Self-Service-Option für Statusinformationen
reduziert Störungen aufgrund von gezielten Statusanfragen durch das Team des operativen
Bereichs. Dies ist zum Beispiel über die Amazon CloudWatch-Dashboards und das AWS
Personal Health Dashboard möglich.
CloudWatch dashboards create and use customized metrics views
Automatisieren von Reaktionen auf Ereignisse
Automatisieren von Reaktionen auf Ereignisse:
Automatisieren Sie Reaktionen auf Ereignisse, um Fehler zu reduzieren, die durch manuelle
Prozesse entstehen, und um schnelle und konsistente Reaktionen zu gewährleisten.
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services