REL 13: ¿Cómo planifica la recuperación de desastres (DR)?
Tener copias de seguridad y componentes de carga de trabajo redundantes en las instalaciones es el primer paso de su estrategia de recuperación de desastres (DR). Los objetivos de tiempo y punto de recuperación son los objetivos que debe cumplir para lograr la restauración de la disponibilidad. Debe establecer estos objetivos en función de las necesidades de la empresa. Implemente una estrategia para cumplir estos objetivos, teniendo en cuenta la ubicación y la función de los recursos y los datos de la carga de trabajo.
Recursos
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications
(ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery
Prácticas recomendadas:
-
Defina los objetivos de recuperación para el tiempo de inactividad y la pérdida de datos: La carga de trabajo tiene un objetivo de tiempo (RTO) y un objetivo de punto de recuperación (RPO).
-
Utilice estrategias de recuperación definidas para cumplir los objetivos de recuperación: Se ha definido una estrategia de recuperación de desastres (DR) para cumplir los objetivos.
-
Pruebe la implementación de recuperación de desastres para validar la implementación: Pruebe regularmente la conmutación por error a DR para asegurarse de que se cumplan los RTO y RPO.
-
Administre la desviación de configuración en el sitio o región DR: Asegúrese de que su infraestructura, sus datos y su configuración se encuentren en su sitio o región DR según sea necesario. Por ejemplo, verifique que las cuotas de servicio y de AMI estén actualizadas.
-
Recuperación automática: Utilice AWS o herramientas de terceros para automatizar la recuperación del sistema y el tráfico de datos al sitio o región DR.
Plan de mejora
Defina los objetivos de recuperación para el tiempo de inactividad y la pérdida de
datos
- Identifique las cargas de trabajo críticas de la misión del negocio, generalmente los principales factores de impulso y facilitadores de ingresos
- Identifique las cargas de trabajo importantes del negocio, generalmente herramientas de informes y modificación de la carga de trabajo en tiempo de ejecución (como los sistemas de administración de contenido)
- Identifique las cargas de trabajo de factor de impulso no comercial donde los datos pueden ser difíciles de recrear (como los sistemas de prueba con datos limpios)
- Identifique las cargas de trabajo de factor de impulso no comercial donde los datos son menos difíciles o fáciles de recrear (como los entornos de desarrollo)
- Identifique otras categorías según sea necesario
Utilice estrategias de recuperación definidas para cumplir los objetivos de recuperación
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
- Copia de seguridad y restauración (RPO en horas, RTO en 24 horas o menos): Haga una copia de seguridad de sus datos y aplicaciones en la región DR. Restaure estos datos cuando sea necesario para recuperarse de un desastre.
- Luz piloto (RPO en minutos, RTO en horas): Mantenga siempre en funcionamiento una versión mínima de un entorno para que ejecute los elementos principales más críticos de su sistema en la región DR. Cuando llegue el momento de la recuperación, puede aprovisionar rápidamente un entorno de producción a escala completa alrededor del núcleo crítico.
- Espera en caliente (RPO en segundos, RTO en minutos): Mantenga siempre en funcionamiento una versión reducida de un entorno totalmente funcional en la región DR. Los sistemas críticos para la empresa están completamente duplicados y siempre están en funcionamiento, pero con una flota reducida. Cuando llega el momento de la recuperación, el sistema se amplía rápidamente para manejar la carga de la producción.
- Patrón activo-activo en varias regiones (RPO son unos pocos segundos o nada, RTO en
segundos): Su carga de trabajo se implementa en varias regiones de AWS y atiende activamente
el tráfico de estas regiones. Esta estrategia requiere que sincronice los usuarios
y los datos en las regiones que está utilizando. Cuando llegue el momento de la recuperación,
utilice servicios como Amazon Route 53 o AWS Global Accelerator para dirigir el tráfico
de sus usuarios hacia la ubicación donde su carga de trabajo se encuentre en buen
estado.
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded
Pruebe la implementación de recuperación de desastres para validar la implementación
The Berkeley/Stanford recovery-oriented computing project
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS
Administre la desviación de configuración en el sitio o región DR
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Recuperación automática
- Use CloudEndure Disaster Recovery para conmutación por error y por recuperación automáticas: CloudEndure Disaster Recovery replica continuamente sus máquinas (incluido el sistema
operativo, la configuración del estado del sistema, las bases de datos, las aplicaciones
y los archivos) en un área de ensayo de bajo costo en su cuenta de AWS objetivo y
región preferida. En el caso de un desastre, puede indicarle a CloudEndure Disaster
Recovery que inicie automáticamente miles de sus máquinas en su estado de aprovisionamiento
completo en minutos.
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery