Esse conteúdo está desatualizado. Esta versão da Well-Architected Framework agora pode ser encontrada em: https://docs.aws.amazon.com/pt_br/wellarchitected/2022-03-31/framework/reliability.html

REL 13: Como você planeja a recuperação de desastres (DR)?

Implementar backups e componentes redundantes de carga de trabalho é o ponto de partida da sua estratégia de DR. O RTO e o RPO são os objetivos para restaurar a disponibilidade. Defina-os de acordo com suas necessidades de negócios. Implemente uma estratégia para atender a esses objetivos, considerando os locais e a função dos recursos e dos dados da carga de trabalho.

Recursos

AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery

Melhores práticas:

Defina os objetivos de recuperação para tempo de inatividade e perda de dados: A carga de trabalho tem um Recovery Time Objective (RTO – Objetivo do tempo de recuperação) e um Recovery Point Objective (RPO – Objetivo do ponto de recuperação).
Use estratégias de recuperação definidas para atingir os objetivos de recuperação: Uma estratégia de Disaster Recovery (DR – Recuperação de desastres) foi definida para atingir os objetivos.
Teste a implementação de recuperação de desastres para validá-la: Teste regularmente o failover para DR para garantir que o RTO e o RPO sejam cumpridos.
Gerencie o desvio de configuração para o local ou a região de DR: Certifique-se de que a infraestrutura, os dados e a configuração estejam conforme necessário no local ou na região de DR. Por exemplo, verifique se as AMIs e as cotas de serviço estão atualizadas.
Automatize a recuperação: Use ferramentas da AWS ou de terceiros para automatizar a recuperação do sistema e rotear o tráfego para o local ou a região de DR.

Plano de melhoria

Defina os objetivos de recuperação para tempo de inatividade e perda de dados

Estabeleça categorias de necessidade para suas cargas de trabalho: Identifique as principais cargas de trabalho condutoras e facilitadoras de negócios. Identifique as cargas de trabalho que são ferramentas exclusivamente internas e as que são ferramentas visíveis externamente. Identifique o impacto empresarial do tempo de inatividade para cada carga de trabalho. Crie até cinco categorias e refina o intervalo dos requisitos de RTO e de RPO.

Identifique as cargas de trabalho empresariais de missão crítica que, em geral, são as principais condutoras e facilitadoras de receita
Identifique as cargas de trabalho importantes para os negócios que, em geral, são ferramentas de modificação da carga de trabalho de tempo de execução e de relatórios (como sistemas de gerenciamento de conteúdo)
Identifique as cargas de trabalho que não conduzem os negócios, com dados que podem ser difíceis de recriar (como sistemas de teste com dados apagados)
Identifique as cargas de trabalho que não conduzem os negócios, com dados que são menos difíceis ou fáceis de recriar (como ambientes de desenvolvimento)
Identifique outras categorias conforme necessário

Use estratégias de recuperação definidas para atingir os objetivos de recuperação

Estabeleça estratégias para alcançar o RTO e o RPO em cada categoria: Se uma estratégia multirregional for necessária para sua carga de trabalho, você deverá escolher uma das estratégias a seguir. Elas estão listadas em ordem crescente de complexidade e em ordem decrescente de RTO e RPO. O backup e a restauração em outra região da AWS podem adicionar outra camada de garantia de que os dados estarão disponíveis quando necessário. No entanto, para as outras estratégias, você deve ponderar a complexidade e o custo potenciais em relação ao que é possível atingir ao usar várias zonas de disponibilidade dentro de uma região da AWS.
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication

Backup e restauração (RPO em horas, RTO em no máximo 24 horas): Faça backup dos seus dados e aplicativos na região de DR. Restaure esses dados, quando necessário, para se recuperar de um desastre.
Luz piloto (RPO em minutos, RTO em horas): Mantenha uma versão mínima de um ambiente sempre executando os elementos principais mais críticos do seu sistema na região de DR. No momento de executar a recuperação, você poderá provisionar rapidamente um ambiente de produção em escala completa que inclua esse núcleo crítico.
Standby passivo (RPO em segundos, RTO em minutos): Mantenha uma versão reduzida de um ambiente totalmente funcional sempre em execução na região de DR. Os sistemas críticos para os negócios são totalmente duplicados e estão sempre ativados, mas com uma frota reduzida. Quando chega o momento da recuperação, o sistema é dimensionado rapidamente para processar a carga de produção.
Implantação multirregional ativa-ativa (RPO zero ou possivelmente em segundos; RTO em segundos): Sua carga de trabalho é implantada em várias regiões da AWS e processa ativamente o tráfego delas. Essa estratégia requer que você sincronize os usuários e dados entre as regiões que está usando. Quando chegar o momento da recuperação, use serviços como o Amazon Route 53 ou o AWS Global Accelerator para rotear o tráfego dos usuários ao local da carga de trabalho íntegra.
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded

Teste a implementação de recuperação de desastres para validá-la

Projete suas cargas de trabalho para recuperação. Teste regularmente seus caminhos de recuperação: A Recovery Oriented Computing (ROC – Computação orientada por recuperação) identifica as características nos sistemas que aprimoram a recuperação. Essas características são: isolamento e redundância, capacidade de reverter alterações em todo o sistema, capacidade de monitorar e determinar a integridade, capacidade de realizar diagnósticos, recuperação automatizada, design modular e recurso de reinicialização. Pratique o caminho de recuperação para garantir que possa realizá-la no tempo especificado para o estado determinado. Use seus runbooks durante essa recuperação para documentar problemas e encontrar soluções para eles antes do próximo teste.
The Berkeley/Stanford recovery-oriented computing project

Use o CloudEndure Disaster Recovery para implementar e testar sua estratégia de DR
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS

Gerencie o desvio de configuração para o local ou a região de DR

Garanta que seus pipelines de entrega enviem para seus locais primário e de backup.: Os pipelines de entrega para implantação de aplicativos em produção devem ser distribuídos para todos os locais de estratégia de recuperação de desastres especificados, incluindo os ambientes de desenvolvimento e de teste.

Habilitar o AWS Config para acompanhar possíveis locais de desvio: Use as regras do AWS Config para criar sistemas que aplicam suas estratégias de recuperação de desastres e geram alertas ao detectar desvios.
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation

Use o AWS CloudFormation para implantar sua infraestrutura: O AWS CloudFormation pode detectar desvios entre o que os modelos do CloudFormation especificam e o que é realmente implantado
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack

Automatize a recuperação

Automatize os caminhos de recuperação: No caso de tempos de recuperação curtos, não é possível adotar critério e ação humanos em cenários de alta disponibilidade. O sistema deve recuperar-se automaticamente sob qualquer situação.

Use o CloudEndure Disaster Recovery para failover e failover automatizados: O CloudEndure Disaster Recovery replica continuamente suas máquinas (incluindo sistema operacional, configuração de estado do sistema, bancos de dados, aplicativos e arquivos) em uma área de validação de baixo custo na conta da AWS de destino e na região preferida. Em caso de desastre, você pode instruir o CloudEndure Disaster Recovery a executar automaticamente milhares de máquinas em seu estado totalmente provisionado em minutos.
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery