REL 13: Como você planeja a recuperação de desastres (DR)?
Implementar backups e componentes redundantes de carga de trabalho é o ponto de partida da sua estratégia de DR. O RTO e o RPO são os objetivos para restaurar a disponibilidade. Defina-os de acordo com suas necessidades de negócios. Implemente uma estratégia para atender a esses objetivos, considerando os locais e a função dos recursos e dos dados da carga de trabalho.
Recursos
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications
(ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery
Melhores práticas:
-
Defina os objetivos de recuperação para tempo de inatividade e perda de dados: A carga de trabalho tem um Recovery Time Objective (RTO – Objetivo do tempo de recuperação) e um Recovery Point Objective (RPO – Objetivo do ponto de recuperação).
-
Use estratégias de recuperação definidas para atingir os objetivos de recuperação: Uma estratégia de Disaster Recovery (DR – Recuperação de desastres) foi definida para atingir os objetivos.
-
Teste a implementação de recuperação de desastres para validá-la: Teste regularmente o failover para DR para garantir que o RTO e o RPO sejam cumpridos.
-
Gerencie o desvio de configuração para o local ou a região de DR: Certifique-se de que a infraestrutura, os dados e a configuração estejam conforme necessário no local ou na região de DR. Por exemplo, verifique se as AMIs e as cotas de serviço estão atualizadas.
-
Automatize a recuperação: Use ferramentas da AWS ou de terceiros para automatizar a recuperação do sistema e rotear o tráfego para o local ou a região de DR.
Plano de melhoria
Defina os objetivos de recuperação para tempo de inatividade e perda de dados
- Identifique as cargas de trabalho empresariais de missão crítica que, em geral, são as principais condutoras e facilitadoras de receita
- Identifique as cargas de trabalho importantes para os negócios que, em geral, são ferramentas de modificação da carga de trabalho de tempo de execução e de relatórios (como sistemas de gerenciamento de conteúdo)
- Identifique as cargas de trabalho que não conduzem os negócios, com dados que podem ser difíceis de recriar (como sistemas de teste com dados apagados)
- Identifique as cargas de trabalho que não conduzem os negócios, com dados que são menos difíceis ou fáceis de recriar (como ambientes de desenvolvimento)
- Identifique outras categorias conforme necessário
Use estratégias de recuperação definidas para atingir os objetivos de recuperação
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
- Backup e restauração (RPO em horas, RTO em no máximo 24 horas): Faça backup dos seus dados e aplicativos na região de DR. Restaure esses dados, quando necessário, para se recuperar de um desastre.
- Luz piloto (RPO em minutos, RTO em horas): Mantenha uma versão mínima de um ambiente sempre executando os elementos principais mais críticos do seu sistema na região de DR. No momento de executar a recuperação, você poderá provisionar rapidamente um ambiente de produção em escala completa que inclua esse núcleo crítico.
- Standby passivo (RPO em segundos, RTO em minutos): Mantenha uma versão reduzida de um ambiente totalmente funcional sempre em execução na região de DR. Os sistemas críticos para os negócios são totalmente duplicados e estão sempre ativados, mas com uma frota reduzida. Quando chega o momento da recuperação, o sistema é dimensionado rapidamente para processar a carga de produção.
- Implantação multirregional ativa-ativa (RPO zero ou possivelmente em segundos; RTO
em segundos): Sua carga de trabalho é implantada em várias regiões da AWS e processa ativamente
o tráfego delas. Essa estratégia requer que você sincronize os usuários e dados entre
as regiões que está usando. Quando chegar o momento da recuperação, use serviços como
o Amazon Route 53 ou o AWS Global Accelerator para rotear o tráfego dos usuários ao
local da carga de trabalho íntegra.
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded
Teste a implementação de recuperação de desastres para validá-la
The Berkeley/Stanford recovery-oriented computing project
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS
Gerencie o desvio de configuração para o local ou a região de DR
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Automatize a recuperação
- Use o CloudEndure Disaster Recovery para failover e failover automatizados: O CloudEndure Disaster Recovery replica continuamente suas máquinas (incluindo sistema
operacional, configuração de estado do sistema, bancos de dados, aplicativos e arquivos)
em uma área de validação de baixo custo na conta da AWS de destino e na região preferida.
Em caso de desastre, você pode instruir o CloudEndure Disaster Recovery a executar
automaticamente milhares de máquinas em seu estado totalmente provisionado em minutos.
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery