REL 13: Was ist bei der Planung der Notfallwiederherstellung zu beachten?
Vorhandene Sicherungen und redundante Workload-Komponenten sind der Ausgangspunkt Ihrer Strategie für die Notfallwiederherstellung. RTO und RPO sind die Ziele für die Wiederherstellung der Verfügbarkeit. Legen Sie diese Ziele entsprechend den geschäftlichen Anforderungen fest. Implementieren Sie eine Strategie, um diese Ziele zu erreichen, und berücksichtigen Sie Standorte und Funktionen von Workload-Ressourcen und -Daten.
Ressourcen
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications
(ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery
Bewährte Methoden:
-
Definieren von Wiederherstellungszielen bei Ausfällen und Datenverlusten: Für die Workload gelten ein Recovery Time Objective (RTO, Wiederherstellungsdauer) und ein Recovery Point Objective (RPO, Wiederherstellungszeitpunkt).
-
Erfüllen der Wiederherstellungsziele mit definierten Wiederherstellungsstrategien: Zum Erfüllen der Ziele wurde eine Notfallwiederherstellungsstrategie definiert.
-
Testen der implementierten Notfallwiederherstellung: Testen Sie regelmäßig das Failover zur Notfallwiederherstellung, um sicherzustellen, dass RTO und RPO eingehalten werden.
-
Verwalten der Konfigurationsabweichungen am Standort oder in der Region der Notfallwiederherstellung: Stellen Sie sicher, dass die Infrastruktur, die Daten und die Konfiguration am Standort oder in der Region der Notfallwiederherstellung den Anforderungen entsprechen. Überprüfen Sie beispielsweise, ob AMIs und Servicekontingente auf dem neuesten Stand sind.
-
Automatisieren der Wiederherstellung: Verwenden Sie Tools von AWS oder Drittanbietern, um die Systemwiederherstellung zu automatisieren und Datenverkehr an den Standort oder die Region der Notfallwiederherstellung weiterzuleiten.
Verbesserungsplan
Definieren von Wiederherstellungszielen bei Ausfällen und Datenverlusten
- Identifizieren Sie die geschäftskritischen Workloads, die in der Regel für den Umsatz maßgeblich sind.
- Bestimmen Sie die für das Geschäft wichtigen Workloads. Hierzu zählen vor allem Tools zur Änderung von Workloads zur Laufzeit (wie Content-Management-Systeme).
- Identifizieren Sie die für den Geschäftserfolg nicht maßgeblichen Workloads, deren Daten sich mitunter schwierig wiederherstellen lassen (z. B. Testsysteme mit bereinigten Daten).
- Identifizieren Sie die für den Geschäftserfolg nicht maßgeblichen Workloads, deren Daten sich leichter wiederherstellen lassen (z. B. Entwicklungsumgebungen).
- Bestimmen Sie nach Bedarf weitere Kategorien.
Erfüllen der Wiederherstellungsziele mit definierten Wiederherstellungsstrategien
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
- Sicherung und Wiederherstellung (RPO in Stunden, RTO in höchstens 24 Stunden): Sichern Sie Ihre Daten und Anwendungen in der Region der Notfallwiederherstellung. Nach einem Notfall können Sie diese Daten zur Wiederherstellung nutzen.
- Pilot Light (RPO in Minuten, RTO in Stunden): Führen Sie in der Region der Notfallwiederherstellung eine Minimalversion einer Umgebung mit allen wichtigen Kernelementen Ihres Systems dauerhaft aus. Wenn eine Wiederherstellung erforderlich ist, können Sie um den kritischen Kern herum schnell eine vollständige Produktionsumgebung bereitstellen.
- Warm Standby (RPO in Sekunden, RTO in Minuten): Führen Sie in der Region der Notfallwiederherstellung eine herunterskalierte Version einer voll funktionsfähigen Umgebung dauerhaft aus. Geschäftskritische Systeme sind vollständig dupliziert und ständig aktiv, aber mit herunterskalierter Infrastruktur. Wenn eine Wiederherstellung erforderlich ist, wird das System zur Bewältigung der Produktionslast schnell hochskaliert.
- Aktiv-Aktiv-Bereitstellung in mehreren Regionen (RPO wird sofort oder höchstens in
Sekunden erreicht, RTO in Sekunden): Ihre Workload wird in mehreren AWS-Regionen bereitgestellt und verarbeitet aktiv Datenverkehr
aus mehreren AWS-Regionen. Bei dieser Strategie müssen Sie Benutzer und Daten in den
von Ihnen verwendeten Regionen synchronisieren. Wenn eine Wiederherstellung erforderlich
ist, leiten Sie den Benutzerdatenverkehr mit Services wie Amazon Route 53 oder AWS
Global Accelerator an eine fehlerfreie Workload weiter.
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded
Testen der implementierten Notfallwiederherstellung
The Berkeley/Stanford recovery-oriented computing project
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS
Verwalten der Konfigurationsabweichungen am Standort oder in der Region der Notfallwiederherstellung
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Automatisieren der Wiederherstellung
- Verwenden von CloudEndure Disaster Recovery für automatisiertes Failover und Failback: CloudEndure Disaster Recovery repliziert Ihre Computer (einschließlich Betriebssystem,
Systemstatuskonfiguration, Datenbanken, Anwendungen und Dateien) kontinuierlich in
einen kostengünstigen Staging-Bereich in Ihrem AWS-Zielkonto und in Ihrer bevorzugten
Region. Bei einem Notfall können Sie CloudEndure Disaster Recovery anweisen, innerhalb
weniger Minuten Tausende Ihrer Computer im vollständig bereitgestellten Zustand automatisch
zu starten.
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery