Dieser Inhalt ist veraltet. Diese Version des Well-Architected Framework finden Sie jetzt unter: https://docs.aws.amazon.com/de_de/wellarchitected/2022-03-31/framework/reliability.html

REL 11: Wie lassen sich Workloads so gestalten, dass sie Komponentenausfälle verkraften?

Workloads, für die eine hohe Verfügbarkeit und eine niedrige mittlere Reparaturzeit erforderlich sind, müssen auf Ausfallsicherheit ausgelegt sein.

Ressourcen

Static stability in AWS: AWS re:Invent 2019: Introducing The Amazon Builders’ Library (DOP328)
AWS OpsWorks: Using Auto Healing to Replace Failed Instances
What Is Amazon EventBridge?
Amazon Route 53: Choosing a Routing Policy
What Is AWS Global Accelerator?
The Amazon Builders' Library: Static stability using Availability Zones
The Amazon Builders' Library: Implementing health checks
Well-Architected lab: Level 300: Implementing Health Checks and Managing Dependencies to Improve Reliability
The Berkeley/Stanford Recovery-Oriented Computing (ROC) Project
Multiple data center HA network connectivity
AWS Marketplace: products that can be used for fault tolerance
APN Partner: partners that can help with automation of your fault tolerance

Bewährte Methoden:

Verbesserungsplan

Überwachen aller Komponenten der Workload auf Fehler

  • Bestimmen Sie das Erfassungsintervall für die Komponenten auf Grundlage Ihrer Wiederherstellungsziele.
  • Konfigurieren Sie eine detaillierte Überwachung für die Komponenten.
  • Erstellen benutzerdefinierter Metriken zur Messung geschäftlicher KPIs : Mit Workloads werden wichtige Geschäftsfunktionen implementiert. Diese Funktionen sollten als KPIs verwendet werden, die die Erkennung indirekter Probleme erleichtern.
    Publishing Custom Metrics
  • Überwachen der Benutzererfahrung auf Fehler mithilfe von Benutzer-Canaries: Synthetische Transaktionstests (auch bekannt als "Canary-Tests", die aber nicht mit Canary-Bereitstellungen zu verwechseln sind), mit denen das Kundenverhalten simuliert werden kann, gehören zu den wichtigsten Testprozessen. Führen Sie diese Tests, von verschiedenen Remote-Standorten aus, ständig für Ihre Workload-Endpunkte durch.
    Amazon CloudWatch Synthetics enables you to create user canaries
  • Erstellen benutzerdefinierter Metriken zur Verfolgung der Benutzererfahrung: Wenn Sie die Erfahrung des Kunden instrumentieren können, können Sie deren Verschlechterung feststellen.
    Publishing Custom Metrics
  • Richten Sie Alarme ein, um zu erkennen, wenn ein Teil Ihrer Workload nicht ordnungsgemäß funktioniert, und um anzugeben, wann Ressourcen automatisch skaliert werden müssen. : Alarme können visuell in Dashboards angezeigt werden und es lassen sich bei Alarmen Benachrichtigungen über SNS oder E-Mail versenden. Zudem können Alarme in Verbindung mit Auto Scaling genutzt werden, um die Ressourcen für eine Workload hoch- oder herunterzuskalieren.
    Using Amazon CloudWatch Alarms
  • Erstellen von Dashboards zur Visualisierung von Metriken: In Dashboards lassen sich Trends, Ausreißer und andere Indikatoren für potenzielle Probleme anzeigen. Zudem können sie auf zu untersuchende Probleme hinweisen.
    Using CloudWatch Dashboards
  • Failover zu fehlerfreien Ressourcen

  • Failover zu fehlerfreien Ressourcen: Stellen Sie sicher, dass fehlerfreie Ressourcen weiterhin Anforderungen erfüllen können, wenn ein Ressourcenausfall auftritt. Stellen Sie bei Standortausfällen (z. B. Availability Zone oder AWS-Region) sicher, dass Sie Systeme für ein Failover auf fehlerfreie Ressourcen an nicht beeinträchtigten Standorten eingerichtet haben.
  • Automatisieren der Reparatur auf allen Ebenen

  • Bereitstellen der Ebenen in einer Anwendung mithilfe von Auto Scaling-Gruppen: Auto Scaling kann eine Selbstreparatur von zustandslosen Anwendungen durchführen sowie Kapazität hinzufügen oder entfernen.
    How AWS Auto Scaling Works
  • Implementieren Sie die automatische Wiederherstellung für EC2-Instances, in denen Anwendungen bereitgestellt sind, die sich nicht an mehreren Standorten bereitstellen lassen und die einen Neustart nach Ausfällen tolerieren. : Mithilfe der automatischen Wiederherstellung kann ausgefallene Hardware ersetzt und die Instance neu gestartet werden, wenn die Anwendung sich nicht an mehreren Standorten bereitstellen lässt. Die Metadaten der Instance und die zugehörigen IP-Adressen werden beibehalten, ebenso wie die Amazon EBS-Volumes und Mountingpunkte für Elastic File Systems oder Dateisysteme für Lustre und Windows.
    Amazon EC2 Automatic Recovery
    Amazon Elastic Block Store (Amazon EBS)
    Amazon Elastic File System (Amazon EFS)
    What is Amazon FSx for Lustre?
    What is Amazon FSx for Windows File Server?
  • Implementieren Sie die automatisierte Wiederherstellung mit AWS Step Functions und AWS Lambda, wenn eine automatische Skalierung oder Wiederherstellung nicht möglich ist oder die automatische Wiederherstellung fehlschlägt. : Wenn Sie die automatische Skalierung nicht verwenden können und die automatische Wiederherstellung entweder nicht einsetzbar ist oder fehlschlägt, können Sie die Reparatur mithilfe von AWS Step Functions und AWS Lambda automatisieren.
    What is AWS Step Functions?
    What is AWS Lambda?
  • Verhindern von bimodalem Verhalten mithilfe statischer Stabilität

  • Verhindern von bimodalem Verhalten mithilfe statischer Stabilität: Bimodales Verhalten bedeutet, dass eine Workload im normalen Modus und im Fehlermodus unterschiedliche Verhaltensweisen zeigt, z. B. bei Ausfall einer Availability Zone neue Instances startet.
    The Amazon Builders' Library: Static stability using Availability Zones
    Static stability in AWS: AWS re:Invent 2019: Introducing The Amazon Builders’ Library (DOP328)
  • Benachrichtigungen senden, wenn sich Ereignisse auf die Verfügbarkeit auswirken

  • Alarme zu geschäftlichen KPIs, wenn sie einen niedrigen Schwellenwert überschreiten: Durch einen Alarm mit niedrigem Schwellenwert für Ihre geschäftlichen KPIs können Sie leichter erkennen, wenn die Workload nicht verfügbar oder nicht funktionsfähig ist.
    Creating a CloudWatch Alarm Based on a Static Threshold
  • Alarm für Ereignisse, die eine automatisierte Reparatur auslösen: Sie können eine SNS-API direkt aufrufen, um bei selbst erstellten Automatisierungen Benachrichtigungen zu senden.
    What is Amazon Simple Notification Service?