REL 13: Come si pianifica il disaster recovery?
Avere backup e componenti del carico di lavoro ridondanti in loco è l'inizio della strategia di disaster recovery. RTO e RPO sono i tuoi obiettivi per il ripristino della disponibilità. Imposta questi valori in base alle esigenze aziendali. Implementa una strategia per raggiungere questi obiettivi, prendendo in considerazione le posizioni e la funzione delle risorse e dei dati del carico di lavoro.
Risorse
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications
(ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery
Best practice:
-
Definizione degli obiettivi di ripristino in caso di downtime e perdita di dati: Il carico di lavoro ha un Recovery Time Objective (RTO) e Recovery Point Objective (RPO).
-
Utilizzo di strategie di ripristino definite per conseguire gli obiettivi di ripristino: Per conseguire gli obiettivi è stata definita una strategia di Disaster Recovery (DR).
-
Esecuzione di test sull'implementazione del disaster recovery per convalidare l'implementazione: Esegui regolarmente il test di failover su DR per assicurarti che siano soddisfatti RTO e RPO.
-
Gestione della deviazione di configurazione nel sito o nella regione del DR: Assicurati che l'infrastruttura, i dati e la configurazione soddisfino le esigenze del sito o nella regione del DR. Ad esempio, controlla che le AMI e le quote di servizio siano aggiornate.
-
Automatizzazione del ripristino: Utilizza AWS o strumenti di terze parti per automatizzare il ripristino del sistema e instradare il traffico verso il sito o la regione DR.
Piano di miglioramento
Definizione degli obiettivi di ripristino in caso di downtime e perdita di dati
- Identifica i carichi di lavoro mission critical; di solito sono i fattori principali che stimolano o favoriscono il fatturato
- Identifica i carichi di lavoro importanti per l'azienda; di solito sono gli strumenti di modifica dei carichi di lavoro di reportistica e runtime (come i sistemi di gestione dei contenuti)
- Identifica i carichi di lavoro trainanti non aziendali i cui dati difficilmente possono essere ricreati (come i sistemi di test con dati puliti)
- Identifica i carichi di lavoro trainanti non aziendali i cui dati sono meno difficili o facili da ricreare (come gli ambienti di sviluppo)
- Identifica altre categorie secondo necessità
Utilizzo di strategie di ripristino definite per conseguire gli obiettivi di ripristino
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
- Backup e ripristino (RPO in ore, RTO in 24 ore o meno): Esegui il backup dei dati e delle applicazioni nella regione DR. Ripristina questi dati quando necessario per il ripristino in caso di emergenza.
- Fiamma pilota (RPO in minuti, RTO in ore): Mantieni una versione minima di un ambiente che esegue sempre gli elementi principali più critici del sistema nella regione DR. Quando si rende necessario il ripristino, è possibile effettuare rapidamente il provisioning di un ambiente di produzione completo partendo da questi elementi di base più critici.
- Warm standby (RPO in secondi, RTO in minuti): Mantieni una versione ridotta di un ambiente completamente funzionante sempre in esecuzione nella regione DR. I sistemi business critical sono completamente duplicati e sono sempre accesi, ma con un parco istanze ridimensionato. Quando viene il momento del ripristino, il sistema viene dimensionato rapidamente per gestire il carico di produzione.
- Multi-regione attiva-attiva (RPO immediato o possibilmente in secondi, RTO in secondi): Il carico di lavoro viene distribuito in più regioni AWS e serve attivamente il traffico
da esse proveniente. Questa strategia richiede la sincronizzazione di utenti e dati
tra le regioni in uso. Quando si rende necessario il ripristino, utilizza servizi
come Amazon Route 53 o AWS Global Accelerator per instradare il traffico degli utenti
verso il punto in cui il carico di lavoro è integro.
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded
Esecuzione di test sull'implementazione del disaster recovery per convalidare l'implementazione
The Berkeley/Stanford recovery-oriented computing project
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS
Gestione della deviazione di configurazione nel sito o nella regione del DR
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Automatizzazione del ripristino
- Utilizzo di CloudEndure Disaster Recovery per failover e failback automatizzati: CloudEndure Disaster Recovery replica in modo continuo le macchine (tra cui sistema
operativo, configurazione dello stato del sistema, database, applicazioni e file)
in un'area di gestione temporanea a basso costo nell'account AWS di destinazione e
nella regione preferita. In caso di emergenza, è possibile indicare a CloudEndure
Disaster Recovery di avviare automaticamente migliaia di macchine nello stato di provisioning
completo in pochi minuti.
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery