REL 13: Come si pianifica il disaster recovery?
Avere backup e componenti del carico di lavoro ridondanti in loco è l'inizio della strategia di disaster recovery. RTO e RPO sono i tuoi obiettivi per il ripristino della disponibilità. Imposta questi valori in base alle esigenze aziendali. Implementa una strategia per raggiungere questi obiettivi, prendendo in considerazione le posizioni e la funzione delle risorse e dei dati del carico di lavoro.
Risorse
 AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications
               (ARC209-R2)
 AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
 What Is AWS Backup?
 Remediating Noncompliant AWS Resources by AWS Config Rules
 AWS Systems Manager Automation
 AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
 Amazon RDS: Cross-region backup copy
 RDS: Replicating a Read Replica Across Regions
 S3: Cross-Region Replication
 Route 53: Configuring DNS Failover
 CloudEndure Disaster Recovery
 How do I implement an Infrastructure Configuration Management solution on AWS?
 CloudEndure Disaster Recovery to AWS
 AWS Marketplace: products that can be used for disaster recovery
 APN Partner: partners that can help with disaster recovery
Best practice:
- 
               Definizione degli obiettivi di ripristino in caso di downtime e perdita di dati: Il carico di lavoro ha un Recovery Time Objective (RTO) e Recovery Point Objective (RPO). 
- 
               Utilizzo di strategie di ripristino definite per conseguire gli obiettivi di ripristino: Per conseguire gli obiettivi è stata definita una strategia di Disaster Recovery (DR). 
- 
               Esecuzione di test sull'implementazione del disaster recovery per convalidare l'implementazione: Esegui regolarmente il test di failover su DR per assicurarti che siano soddisfatti RTO e RPO. 
- 
               Gestione della deviazione di configurazione nel sito o nella regione del DR: Assicurati che l'infrastruttura, i dati e la configurazione soddisfino le esigenze del sito o nella regione del DR. Ad esempio, controlla che le AMI e le quote di servizio siano aggiornate. 
- 
               Automatizzazione del ripristino: Utilizza AWS o strumenti di terze parti per automatizzare il ripristino del sistema e instradare il traffico verso il sito o la regione DR. 
Piano di miglioramento
Definizione degli obiettivi di ripristino in caso di downtime e perdita di dati
- Identifica i carichi di lavoro mission critical; di solito sono i fattori principali che stimolano o favoriscono il fatturato
- Identifica i carichi di lavoro importanti per l'azienda; di solito sono gli strumenti di modifica dei carichi di lavoro di reportistica e runtime (come i sistemi di gestione dei contenuti)
- Identifica i carichi di lavoro trainanti non aziendali i cui dati difficilmente possono essere ricreati (come i sistemi di test con dati puliti)
- Identifica i carichi di lavoro trainanti non aziendali i cui dati sono meno difficili o facili da ricreare (come gli ambienti di sviluppo)
- Identifica altre categorie secondo necessità
Utilizzo di strategie di ripristino definite per conseguire gli obiettivi di ripristino
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
- Backup e ripristino (RPO in ore, RTO in 24 ore o meno): Esegui il backup dei dati e delle applicazioni nella regione DR. Ripristina questi dati quando necessario per il ripristino in caso di emergenza.
- Fiamma pilota (RPO in minuti, RTO in ore): Mantieni una versione minima di un ambiente che esegue sempre gli elementi principali più critici del sistema nella regione DR. Quando si rende necessario il ripristino, è possibile effettuare rapidamente il provisioning di un ambiente di produzione completo partendo da questi elementi di base più critici.
- Warm standby (RPO in secondi, RTO in minuti): Mantieni una versione ridotta di un ambiente completamente funzionante sempre in esecuzione nella regione DR. I sistemi business critical sono completamente duplicati e sono sempre accesi, ma con un parco istanze ridimensionato. Quando viene il momento del ripristino, il sistema viene dimensionato rapidamente per gestire il carico di produzione.
- Multi-regione attiva-attiva (RPO immediato o possibilmente in secondi, RTO in secondi): Il carico di lavoro viene distribuito in più regioni AWS e serve attivamente il traffico
                     da esse proveniente. Questa strategia richiede la sincronizzazione di utenti e dati
                     tra le regioni in uso. Quando si rende necessario il ripristino, utilizza servizi
                     come Amazon Route 53 o AWS Global Accelerator per instradare il traffico degli utenti
                     verso il punto in cui il carico di lavoro è integro.
 AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
 Build a serverless multi-region, active-active backend solution in an hour
 Multi-region serverless backend — reloaded
Esecuzione di test sull'implementazione del disaster recovery per convalidare l'implementazione
The Berkeley/Stanford recovery-oriented computing project
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS
Gestione della deviazione di configurazione nel sito o nella regione del DR
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Automatizzazione del ripristino
- Utilizzo di CloudEndure Disaster Recovery per failover e failback automatizzati: CloudEndure Disaster Recovery replica in modo continuo le macchine (tra cui sistema
                     operativo, configurazione dello stato del sistema, database, applicazioni e file)
                     in un'area di gestione temporanea a basso costo nell'account AWS di destinazione e
                     nella regione preferita. In caso di emergenza, è possibile indicare a CloudEndure
                     Disaster Recovery di avviare automaticamente migliaia di macchine nello stato di provisioning
                     completo in pochi minuti.
 Performing a Disaster Recovery Failover and Failback
 CloudEndure Disaster Recovery
