Questo contenuto è obsoleto. Questa versione di Framework Well-Architected è ora disponibile all'indirizzo: https://docs.aws.amazon.com/it_it/wellarchitected/2022-03-31/framework/reliability.html

REL 13: Come si pianifica il disaster recovery?

Avere backup e componenti del carico di lavoro ridondanti in loco è l'inizio della strategia di disaster recovery. RTO e RPO sono i tuoi obiettivi per il ripristino della disponibilità. Imposta questi valori in base alle esigenze aziendali. Implementa una strategia per raggiungere questi obiettivi, prendendo in considerazione le posizioni e la funzione delle risorse e dei dati del carico di lavoro.

Risorse

AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery

Best practice:

Definizione degli obiettivi di ripristino in caso di downtime e perdita di dati: Il carico di lavoro ha un Recovery Time Objective (RTO) e Recovery Point Objective (RPO).
Utilizzo di strategie di ripristino definite per conseguire gli obiettivi di ripristino: Per conseguire gli obiettivi è stata definita una strategia di Disaster Recovery (DR).
Esecuzione di test sull'implementazione del disaster recovery per convalidare l'implementazione: Esegui regolarmente il test di failover su DR per assicurarti che siano soddisfatti RTO e RPO.
Gestione della deviazione di configurazione nel sito o nella regione del DR: Assicurati che l'infrastruttura, i dati e la configurazione soddisfino le esigenze del sito o nella regione del DR. Ad esempio, controlla che le AMI e le quote di servizio siano aggiornate.
Automatizzazione del ripristino: Utilizza AWS o strumenti di terze parti per automatizzare il ripristino del sistema e instradare il traffico verso il sito o la regione DR.

Piano di miglioramento

Definizione degli obiettivi di ripristino in caso di downtime e perdita di dati

Definizione di categorie di esigenza per i tuoi carichi di lavoro: Identifica il carico di lavoro che costituisce il principale motore e catalizzatore dell'azienda. Identifica i carichi di lavoro che sono solo strumenti interni e i carichi di lavoro che sono strumenti visibili esternamente. Identifica l'impatto sull'azienda dei tempi di inattività per ogni carico di lavoro. Crea cinque o meno categorie e perfeziona la serie dei tuoi requisiti di Recovery Time Objective (RTO) e Recovery Point Objective (RPO).

Identifica i carichi di lavoro mission critical; di solito sono i fattori principali che stimolano o favoriscono il fatturato
Identifica i carichi di lavoro importanti per l'azienda; di solito sono gli strumenti di modifica dei carichi di lavoro di reportistica e runtime (come i sistemi di gestione dei contenuti)
Identifica i carichi di lavoro trainanti non aziendali i cui dati difficilmente possono essere ricreati (come i sistemi di test con dati puliti)
Identifica i carichi di lavoro trainanti non aziendali i cui dati sono meno difficili o facili da ricreare (come gli ambienti di sviluppo)
Identifica altre categorie secondo necessità

Utilizzo di strategie di ripristino definite per conseguire gli obiettivi di ripristino

Definizione di strategie per raggiungere il recovery time objective (RTO) e il recovery point objective (RPO) per ogni categoria: Se il carico di lavoro necessita di una strategia multi-regione, dovresti scegliere una delle seguenti strategie. Sono elencate in ordine crescente di complessità e in ordine decrescente di RTO e RPO. Il backup e il ripristino in un'altra regione AWS possono garantire ulteriormente che i dati saranno disponibili quando necessario, ma per le altre strategie è necessario valutare la complessità potenziale e confrontare i costi rispetto a ciò che è possibile ottenere utilizzando più zone di disponibilità all'interno di una regione AWS.
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication

Backup e ripristino (RPO in ore, RTO in 24 ore o meno): Esegui il backup dei dati e delle applicazioni nella regione DR. Ripristina questi dati quando necessario per il ripristino in caso di emergenza.
Fiamma pilota (RPO in minuti, RTO in ore): Mantieni una versione minima di un ambiente che esegue sempre gli elementi principali più critici del sistema nella regione DR. Quando si rende necessario il ripristino, è possibile effettuare rapidamente il provisioning di un ambiente di produzione completo partendo da questi elementi di base più critici.
Warm standby (RPO in secondi, RTO in minuti): Mantieni una versione ridotta di un ambiente completamente funzionante sempre in esecuzione nella regione DR. I sistemi business critical sono completamente duplicati e sono sempre accesi, ma con un parco istanze ridimensionato. Quando viene il momento del ripristino, il sistema viene dimensionato rapidamente per gestire il carico di produzione.
Multi-regione attiva-attiva (RPO immediato o possibilmente in secondi, RTO in secondi): Il carico di lavoro viene distribuito in più regioni AWS e serve attivamente il traffico da esse proveniente. Questa strategia richiede la sincronizzazione di utenti e dati tra le regioni in uso. Quando si rende necessario il ripristino, utilizza servizi come Amazon Route 53 o AWS Global Accelerator per instradare il traffico degli utenti verso il punto in cui il carico di lavoro è integro.
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded

Esecuzione di test sull'implementazione del disaster recovery per convalidare l'implementazione

Progetta i carichi di lavoro per il ripristino. Esegui regolarmente test dei tuoi percorsi di ripristino: L'informatica orientata al ripristino (ROC, Recovery Oriented Computing) identifica le caratteristiche nei sistemi che migliorano il ripristino. Queste caratteristiche sono: isolamento e ridondanza, capacità a livello di sistema di ripristinare le modifiche, capacità di monitorare e determinare lo stato, capacità di fornire diagnostica, ripristino automatizzato, progettazione modulare e possibilità di riavvio. Esegui il percorso di ripristino per assicurarti di poter realizzare il ripristino nel tempo specificato allo stato specificato. Usa i tuoi runbook durante questo ripristino per documentare i problemi e trovare le loro soluzioni prima del test successivo.
The Berkeley/Stanford recovery-oriented computing project

Usa CloudEndure Disaster Recovery per implementare e testare la tua strategia di DR
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS

Gestione della deviazione di configurazione nel sito o nella regione del DR

Assicurati che le tue pipeline di distribuzione riforniscano sia i siti principali che di backup.: Le pipeline per la distribuzione di applicazioni in produzione devono essere distribuite in tutte le posizioni della strategia di disaster recovery specificate, inclusi gli ambienti di sviluppo e test.

Abilitazione di AWS Config per monitorare le potenziali posizioni di deviazione: Utilizza AWS Config per creare sistemi che applicano le tue strategie di disaster recovery e generano avvisi quando rilevano una deviazione.
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation

Utilizzo di AWS CloudFormation per distribuire l'infrastruttura: AWS CloudFormation è in grado di rilevare le deviazioni tra ciò che i modelli di CloudFormation specificano e ciò che viene effettivamente distribuito
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack

Automatizzazione del ripristino

Automatizzazione dei percorsi di ripristino: Per tempi di ripristino brevi, non è possibile servirsi del giudizio umano e dell'azione per scenari di disponibilità elevata. Il sistema dovrebbe ripristinarsi automaticamente in ogni situazione.

Utilizzo di CloudEndure Disaster Recovery per failover e failback automatizzati: CloudEndure Disaster Recovery replica in modo continuo le macchine (tra cui sistema operativo, configurazione dello stato del sistema, database, applicazioni e file) in un'area di gestione temporanea a basso costo nell'account AWS di destinazione e nella regione preferita. In caso di emergenza, è possibile indicare a CloudEndure Disaster Recovery di avviare automaticamente migliaia di macchine nello stato di provisioning completo in pochi minuti.
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery