REL 13: Como você planeja a recuperação de desastres (DR)?
Implementar backups e componentes redundantes de carga de trabalho é o ponto de partida da sua estratégia de DR. O RTO e o RPO são os objetivos para restaurar a disponibilidade. Defina-os de acordo com suas necessidades de negócios. Implemente uma estratégia para atender a esses objetivos, considerando os locais e a função dos recursos e dos dados da carga de trabalho.
Recursos
 AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications
               (ARC209-R2)
 AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
 What Is AWS Backup?
 Remediating Noncompliant AWS Resources by AWS Config Rules
 AWS Systems Manager Automation
 AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
 Amazon RDS: Cross-region backup copy
 RDS: Replicating a Read Replica Across Regions
 S3: Cross-Region Replication
 Route 53: Configuring DNS Failover
 CloudEndure Disaster Recovery
 How do I implement an Infrastructure Configuration Management solution on AWS?
 CloudEndure Disaster Recovery to AWS
 AWS Marketplace: products that can be used for disaster recovery
 APN Partner: partners that can help with disaster recovery
Melhores práticas:
- 
               Defina os objetivos de recuperação para tempo de inatividade e perda de dados: A carga de trabalho tem um Recovery Time Objective (RTO – Objetivo do tempo de recuperação) e um Recovery Point Objective (RPO – Objetivo do ponto de recuperação). 
- 
               Use estratégias de recuperação definidas para atingir os objetivos de recuperação: Uma estratégia de Disaster Recovery (DR – Recuperação de desastres) foi definida para atingir os objetivos. 
- 
               Teste a implementação de recuperação de desastres para validá-la: Teste regularmente o failover para DR para garantir que o RTO e o RPO sejam cumpridos. 
- 
               Gerencie o desvio de configuração para o local ou a região de DR: Certifique-se de que a infraestrutura, os dados e a configuração estejam conforme necessário no local ou na região de DR. Por exemplo, verifique se as AMIs e as cotas de serviço estão atualizadas. 
- 
               Automatize a recuperação: Use ferramentas da AWS ou de terceiros para automatizar a recuperação do sistema e rotear o tráfego para o local ou a região de DR. 
Plano de melhoria
Defina os objetivos de recuperação para tempo de inatividade e perda de dados
- Identifique as cargas de trabalho empresariais de missão crítica que, em geral, são as principais condutoras e facilitadoras de receita
- Identifique as cargas de trabalho importantes para os negócios que, em geral, são ferramentas de modificação da carga de trabalho de tempo de execução e de relatórios (como sistemas de gerenciamento de conteúdo)
- Identifique as cargas de trabalho que não conduzem os negócios, com dados que podem ser difíceis de recriar (como sistemas de teste com dados apagados)
- Identifique as cargas de trabalho que não conduzem os negócios, com dados que são menos difíceis ou fáceis de recriar (como ambientes de desenvolvimento)
- Identifique outras categorias conforme necessário
Use estratégias de recuperação definidas para atingir os objetivos de recuperação
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
- Backup e restauração (RPO em horas, RTO em no máximo 24 horas): Faça backup dos seus dados e aplicativos na região de DR. Restaure esses dados, quando necessário, para se recuperar de um desastre.
- Luz piloto (RPO em minutos, RTO em horas): Mantenha uma versão mínima de um ambiente sempre executando os elementos principais mais críticos do seu sistema na região de DR. No momento de executar a recuperação, você poderá provisionar rapidamente um ambiente de produção em escala completa que inclua esse núcleo crítico.
- Standby passivo (RPO em segundos, RTO em minutos): Mantenha uma versão reduzida de um ambiente totalmente funcional sempre em execução na região de DR. Os sistemas críticos para os negócios são totalmente duplicados e estão sempre ativados, mas com uma frota reduzida. Quando chega o momento da recuperação, o sistema é dimensionado rapidamente para processar a carga de produção.
- Implantação multirregional ativa-ativa (RPO zero ou possivelmente em segundos; RTO
                     em segundos): Sua carga de trabalho é implantada em várias regiões da AWS e processa ativamente
                     o tráfego delas. Essa estratégia requer que você sincronize os usuários e dados entre
                     as regiões que está usando. Quando chegar o momento da recuperação, use serviços como
                     o Amazon Route 53 ou o AWS Global Accelerator para rotear o tráfego dos usuários ao
                     local da carga de trabalho íntegra.
 AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
 Build a serverless multi-region, active-active backend solution in an hour
 Multi-region serverless backend — reloaded
Teste a implementação de recuperação de desastres para validá-la
The Berkeley/Stanford recovery-oriented computing project
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS
Gerencie o desvio de configuração para o local ou a região de DR
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Automatize a recuperação
- Use o CloudEndure Disaster Recovery para failover e failover automatizados: O CloudEndure Disaster Recovery replica continuamente suas máquinas (incluindo sistema
                     operacional, configuração de estado do sistema, bancos de dados, aplicativos e arquivos)
                     em uma área de validação de baixo custo na conta da AWS de destino e na região preferida.
                     Em caso de desastre, você pode instruir o CloudEndure Disaster Recovery a executar
                     automaticamente milhares de máquinas em seu estado totalmente provisionado em minutos.
 Performing a Disaster Recovery Failover and Failback
 CloudEndure Disaster Recovery
