Esse conteúdo está desatualizado. Esta versão da Well-Architected Framework agora pode ser encontrada em: https://docs.aws.amazon.com/pt_br/wellarchitected/2022-03-31/framework/reliability.html

REL 13: Como você planeja a recuperação de desastres (DR)?

Implementar backups e componentes redundantes de carga de trabalho é o ponto de partida da sua estratégia de DR. O RTO e o RPO são os objetivos para restaurar a disponibilidade. Defina-os de acordo com suas necessidades de negócios. Implemente uma estratégia para atender a esses objetivos, considerando os locais e a função dos recursos e dos dados da carga de trabalho.

Recursos

AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery

Melhores práticas:

Plano de melhoria

Defina os objetivos de recuperação para tempo de inatividade e perda de dados

  • Estabeleça categorias de necessidade para suas cargas de trabalho: Identifique as principais cargas de trabalho condutoras e facilitadoras de negócios. Identifique as cargas de trabalho que são ferramentas exclusivamente internas e as que são ferramentas visíveis externamente. Identifique o impacto empresarial do tempo de inatividade para cada carga de trabalho. Crie até cinco categorias e refina o intervalo dos requisitos de RTO e de RPO.
  • Use estratégias de recuperação definidas para atingir os objetivos de recuperação

  • Estabeleça estratégias para alcançar o RTO e o RPO em cada categoria: Se uma estratégia multirregional for necessária para sua carga de trabalho, você deverá escolher uma das estratégias a seguir. Elas estão listadas em ordem crescente de complexidade e em ordem decrescente de RTO e RPO. O backup e a restauração em outra região da AWS podem adicionar outra camada de garantia de que os dados estarão disponíveis quando necessário. No entanto, para as outras estratégias, você deve ponderar a complexidade e o custo potenciais em relação ao que é possível atingir ao usar várias zonas de disponibilidade dentro de uma região da AWS.
    AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
    Amazon RDS: Cross-region backup copy
    RDS: Replicating a Read Replica Across Regions
    S3: Cross-Region Replication
  • Teste a implementação de recuperação de desastres para validá-la

  • Projete suas cargas de trabalho para recuperação. Teste regularmente seus caminhos de recuperação: A Recovery Oriented Computing (ROC – Computação orientada por recuperação) identifica as características nos sistemas que aprimoram a recuperação. Essas características são: isolamento e redundância, capacidade de reverter alterações em todo o sistema, capacidade de monitorar e determinar a integridade, capacidade de realizar diagnósticos, recuperação automatizada, design modular e recurso de reinicialização. Pratique o caminho de recuperação para garantir que possa realizá-la no tempo especificado para o estado determinado. Use seus runbooks durante essa recuperação para documentar problemas e encontrar soluções para eles antes do próximo teste.
    The Berkeley/Stanford recovery-oriented computing project
  • Use o CloudEndure Disaster Recovery para implementar e testar sua estratégia de DR
    Testing the Disaster Recovery Solution with CloudEndure
    CloudEndure Disaster Recovery
    CloudEndure Disaster Recovery to AWS
  • Gerencie o desvio de configuração para o local ou a região de DR

  • Garanta que seus pipelines de entrega enviem para seus locais primário e de backup.: Os pipelines de entrega para implantação de aplicativos em produção devem ser distribuídos para todos os locais de estratégia de recuperação de desastres especificados, incluindo os ambientes de desenvolvimento e de teste.
  • Habilitar o AWS Config para acompanhar possíveis locais de desvio: Use as regras do AWS Config para criar sistemas que aplicam suas estratégias de recuperação de desastres e geram alertas ao detectar desvios.
    Remediating Noncompliant AWS Resources by AWS Config Rules
    AWS Systems Manager Automation
  • Use o AWS CloudFormation para implantar sua infraestrutura: O AWS CloudFormation pode detectar desvios entre o que os modelos do CloudFormation especificam e o que é realmente implantado
    AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
  • Automatize a recuperação

  • Automatize os caminhos de recuperação: No caso de tempos de recuperação curtos, não é possível adotar critério e ação humanos em cenários de alta disponibilidade. O sistema deve recuperar-se automaticamente sob qualquer situação.