Dieser Inhalt ist veraltet. Diese Version des Well-Architected Framework finden Sie jetzt unter: https://docs.aws.amazon.com/de_de/wellarchitected/2022-03-31/framework/operational-excellence.html

OPS 10: Wie bewältigen Sie Workload- und operationsspezifische Ereignisse?

Erarbeiten und prüfen Sie Verfahren für die Reaktion auf Ereignisse, um Beeinträchtigungen für Ihren Workload zu minimieren.

Ressourcen

Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?

Bewährte Methoden:

Verwenden von Prozessen für die Bewältigung von Ereignissen, Vorfällen und Problemen: Implementieren Sie Prozesse zur Behandlung von beobachteten Ereignissen, Ereignissen, die ein Eingreifen erfordern (Vorfälle) und Ereignissen, die ein Eingreifen erfordern und entweder wiederholt auftreten oder derzeit nicht beseitigt werden können (Probleme). Verwenden Sie diese Prozesse, um die Auswirkungen dieser Ereignisse auf das Unternehmen und Ihre Kunden zu minimieren, indem Sie rechtzeitige und zielgerichtete Reaktionen sicherstellen.
Implementieren eines Prozesses für jeden Alarm: Legen Sie für jedes Ereignis, für das Sie einen Alarm auslösen, eine klar definierte Reaktion (Runbook oder Playbook) mit einem eigens dafür angegebenen Besitzer fest. Dies gewährleistet eine effektive und schnelle Reaktion auf Betriebsereignisse und verhindert, dass aktionsrelevante Ereignisse aufgrund weniger wichtiger Benachrichtigungen übersehen werden.
Priorisieren von betrieblichen Ereignissen auf Basis der Auswirkung auf das Unternehmen: Stellen Sie sicher, dass bei mehreren Ereignissen, die eine Intervention erfordern, zuerst diejenigen angegangen werden, die für das Unternehmen die größte Tragweite haben. Zu den Auswirkungen können beispielsweise Todesfälle oder Verletzungen, finanzielle Verluste oder Rufschädigung bzw. Vertrauensverlust gehören.
Definieren von Eskalationspfaden: Definieren Sie Eskalationspfade in Ihren Runbooks und Playbooks und legen Sie auch fest, was eine Eskalation auslöst. Erarbeiten Sie zudem Verfahren für die Eskalation. Weisen Sie jeder Aktion explizit Besitzer zu, um effektive und schnelle Reaktionen auf betriebliche Ereignisse zu gewährleisten.
Ermöglichen von Push-Benachrichtigungen: Kommunizieren Sie direkt mit Ihren Benutzern (beispielsweise per E-Mail oder SMS), wenn die von ihnen genutzten Services betroffen sind oder wenn die Services wieder ordnungsgemäß funktionieren, damit die Benutzer entsprechende Maßnahmen ergreifen können.
Bekanntgeben des Status über Dashboards: Stellen Sie Dashboards zur Verfügung, die auf die jeweilige Zielgruppe zugeschnitten sind (z. B. interne technische Teams, Führungskräfte und Kunden), um diese über den aktuellen Betriebsstatus des Unternehmens zu informieren und interessante Metriken bereitzustellen.
Automatisieren von Reaktionen auf Ereignisse: Automatisieren Sie Reaktionen auf Ereignisse, um Fehler zu reduzieren, die durch manuelle Prozesse entstehen, und um schnelle und konsistente Reaktionen zu gewährleisten.

Verbesserungsplan

Verwenden von Prozessen für die Bewältigung von Ereignissen, Vorfällen und Problemen

Verwenden von Prozessen für die Bewältigung von Ereignissen, Vorfällen und Problemen: Implementieren Sie Prozesse zur Behandlung von beobachteten Ereignissen, Ereignissen, die ein Eingreifen erfordern (Vorfälle) und Ereignissen, die ein Eingreifen erfordern und entweder wiederholt auftreten oder derzeit nicht beseitigt werden können (Probleme). Verwenden Sie diese Prozesse, um die Auswirkungen dieser Ereignisse auf das Unternehmen und Ihre Kunden zu minimieren, indem Sie rechtzeitige und zielgerichtete Reaktionen sicherstellen.

Implementieren eines Prozesses für jeden Alarm

Prozess für jeden Alarm: Jedem Ereignis, für das Sie eine Warnung auslösen, sollte eine klar definierte Reaktion (Runbook oder Playbook) mit einem speziellen Besitzer (z. B. eine Person, ein Team oder eine Rolle) zugewiesen sein, der für die erfolgreiche Ausführung verantwortlich ist. Die Reaktion kann zwar automatisiert oder von einem anderen Team übernommen werden, aber der Besitzer trägt die Verantwortung dafür, dass der Prozess die erwarteten Ergebnisse liefert. Diese Prozesse gewährleisten eine effektive und schnelle Reaktion auf Betriebsereignisse und verhindern, dass aktionsrelevante Ereignisse aufgrund weniger wichtiger Benachrichtigungen übersehen werden. Beispielsweise kann eine automatische Skalierung zur Skalierung eines Web-Frontend-Systems verwendet werden, aber das Betriebsteam könnte dafür verantwortlich sein, dass die Regeln und Limits der automatischen Skalierung den Anforderungen des Workloads entsprechen.

Priorisieren von betrieblichen Ereignissen auf Basis der Auswirkung auf das Unternehmen

Priorisieren von betrieblichen Ereignissen auf Basis der Auswirkung auf das Unternehmen: Stellen Sie sicher, dass bei mehreren Ereignissen, die eine Intervention erfordern, zuerst diejenigen angegangen werden, die für das Unternehmen die größte Tragweite haben. Zu den Auswirkungen können beispielsweise Todesfälle oder Verletzungen, finanzielle Verluste, Verstöße gegen Vorschriften oder Rufschädigung bzw. Vertrauensverlust gehören.

Definieren von Eskalationspfaden

Definieren von Eskalationspfaden: Definieren Sie Eskalationspfade in Ihren Runbooks und Playbooks und legen Sie auch fest, was eine Eskalation auslöst. Erarbeiten Sie zudem Verfahren für die Eskalation. Beispielsweise kann ein Problem von den Support-Technikern eine Stufe höher an leitende Support-Techniker eskaliert werden, wenn das Problem nicht durch Runbooks gelöst werden kann oder wenn eine vordefinierte Zeitspanne verstrichen ist. Ein weiteres Beispiel für einen geeigneten Eskalationspfad bei einem Workload ist die Weiterleitung von den leitenden Support-Technikern an das Entwicklungsteam, wenn die Playbooks keinen Korrekturpfad ermitteln können oder wenn eine vordefinierte Zeitspanne verstrichen ist. Weisen Sie jeder Aktion explizit Besitzer zu, um effektive und schnelle Reaktionen auf betriebliche Ereignisse zu gewährleisten. Eskalationen können auch Dritte beinhalten. Beispiele hierfür sind Anbieter von Netzwerkkonnektivität oder Software. Eskalationen können festgelegte autorisierte Entscheidungsträger für betroffene Systeme einbeziehen.

Ermöglichen von Push-Benachrichtigungen

Ermöglichen von Push-Benachrichtigungen: Kommunizieren Sie direkt mit Ihren Benutzern (beispielsweise per E-Mail oder SMS), wenn die von ihnen genutzten Services betroffen sind oder wenn die Services wieder ordnungsgemäß funktionieren, damit die Benutzer entsprechende Maßnahmen ergreifen können.
Amazon SES features
What is Amazon SES?
Set up Amazon SNS notifications

Bekanntgeben des Status über Dashboards

Bekanntgeben des Status über Dashboards: Stellen Sie Dashboards zur Verfügung, die auf die jeweilige Zielgruppe zugeschnitten sind (z. B. interne technische Teams, Führungskräfte und Kunden), um diese über den aktuellen Betriebsstatus des Unternehmens zu informieren und interessante Metriken bereitzustellen. Die Bereitstellung einer Self-Service-Option für Statusinformationen reduziert Störungen aufgrund von gezielten Statusanfragen durch das Team des operativen Bereichs. Dies ist zum Beispiel über die Amazon CloudWatch-Dashboards und das AWS Personal Health Dashboard möglich.
CloudWatch dashboards create and use customized metrics views

Automatisieren von Reaktionen auf Ereignisse

Automatisieren von Reaktionen auf Ereignisse: Automatisieren Sie Reaktionen auf Ereignisse, um Fehler zu reduzieren, die durch manuelle Prozesse entstehen, und um schnelle und konsistente Reaktionen zu gewährleisten.
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services