Este contenido está desactualizado. Esta versión de Well-Architected Framework se encuentra ahora en: https://docs.aws.amazon.com/es_es/wellarchitected/2022-03-31/framework/reliability.html

REL 13: ¿Cómo planifica la recuperación de desastres (DR)?

Tener copias de seguridad y componentes de carga de trabajo redundantes en las instalaciones es el primer paso de su estrategia de recuperación de desastres (DR). Los objetivos de tiempo y punto de recuperación son los objetivos que debe cumplir para lograr la restauración de la disponibilidad. Debe establecer estos objetivos en función de las necesidades de la empresa. Implemente una estrategia para cumplir estos objetivos, teniendo en cuenta la ubicación y la función de los recursos y los datos de la carga de trabajo.

Recursos

AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery

Prácticas recomendadas:

Defina los objetivos de recuperación para el tiempo de inactividad y la pérdida de datos: La carga de trabajo tiene un objetivo de tiempo (RTO) y un objetivo de punto de recuperación (RPO).
Utilice estrategias de recuperación definidas para cumplir los objetivos de recuperación: Se ha definido una estrategia de recuperación de desastres (DR) para cumplir los objetivos.
Pruebe la implementación de recuperación de desastres para validar la implementación: Pruebe regularmente la conmutación por error a DR para asegurarse de que se cumplan los RTO y RPO.
Administre la desviación de configuración en el sitio o región DR: Asegúrese de que su infraestructura, sus datos y su configuración se encuentren en su sitio o región DR según sea necesario. Por ejemplo, verifique que las cuotas de servicio y de AMI estén actualizadas.
Recuperación automática: Utilice AWS o herramientas de terceros para automatizar la recuperación del sistema y el tráfico de datos al sitio o región DR.

Plan de mejora

Defina los objetivos de recuperación para el tiempo de inactividad y la pérdida de datos

Establezca categorías de necesidad para sus cargas de trabajo: Identifique las principales cargas de trabajo del factor de impulso y el facilitador de negocios. Identifique las cargas de trabajo que son solo herramientas internas y las cargas de trabajo que son herramientas visibles externamente. Identifique el impacto comercial del tiempo de inactividad para cada carga de trabajo. Cree cinco categorías o menos y refine el rango de sus requisitos de objetivo de tiempo de recuperación (RTO) y objetivo de punto de recuperación (RPO).

Identifique las cargas de trabajo críticas de la misión del negocio, generalmente los principales factores de impulso y facilitadores de ingresos
Identifique las cargas de trabajo importantes del negocio, generalmente herramientas de informes y modificación de la carga de trabajo en tiempo de ejecución (como los sistemas de administración de contenido)
Identifique las cargas de trabajo de factor de impulso no comercial donde los datos pueden ser difíciles de recrear (como los sistemas de prueba con datos limpios)
Identifique las cargas de trabajo de factor de impulso no comercial donde los datos son menos difíciles o fáciles de recrear (como los entornos de desarrollo)
Identifique otras categorías según sea necesario

Utilice estrategias de recuperación definidas para cumplir los objetivos de recuperación

Establezca estrategias para lograr el objetivo de tiempo de recuperación (RTO) y el objetivo de punto de recuperación (RPO) para cada categoría: Si es necesaria una estrategia de varias regiones para su carga de trabajo, debe elegir una de las siguientes estrategias. Las estrategias se enumeran en orden creciente de complejidad y en orden decreciente de RTO y RPO. Realizar copias de seguridad y restaurar en otra región de AWS puede agregar otra capa de seguridad de que los datos estarán disponibles cuando sea necesario, pero para las otras estrategias debe sopesar su complejidad y costo potenciales en comparación con lo que puede lograr mediante el uso de múltiples zonas de disponibilidad dentro de una región de AWS.
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication

Copia de seguridad y restauración (RPO en horas, RTO en 24 horas o menos): Haga una copia de seguridad de sus datos y aplicaciones en la región DR. Restaure estos datos cuando sea necesario para recuperarse de un desastre.
Luz piloto (RPO en minutos, RTO en horas): Mantenga siempre en funcionamiento una versión mínima de un entorno para que ejecute los elementos principales más críticos de su sistema en la región DR. Cuando llegue el momento de la recuperación, puede aprovisionar rápidamente un entorno de producción a escala completa alrededor del núcleo crítico.
Espera en caliente (RPO en segundos, RTO en minutos): Mantenga siempre en funcionamiento una versión reducida de un entorno totalmente funcional en la región DR. Los sistemas críticos para la empresa están completamente duplicados y siempre están en funcionamiento, pero con una flota reducida. Cuando llega el momento de la recuperación, el sistema se amplía rápidamente para manejar la carga de la producción.
Patrón activo-activo en varias regiones (RPO son unos pocos segundos o nada, RTO en segundos): Su carga de trabajo se implementa en varias regiones de AWS y atiende activamente el tráfico de estas regiones. Esta estrategia requiere que sincronice los usuarios y los datos en las regiones que está utilizando. Cuando llegue el momento de la recuperación, utilice servicios como Amazon Route 53 o AWS Global Accelerator para dirigir el tráfico de sus usuarios hacia la ubicación donde su carga de trabajo se encuentre en buen estado.
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded

Pruebe la implementación de recuperación de desastres para validar la implementación

Diseñe sus cargas de trabajo para la recuperación. Pruebe regularmente sus rutas de recuperación: La informática orientada a la recuperación (ROC) identifica las características en los sistemas que mejoran la recuperación. Estas características son: aislamiento y redundancia, capacidad del sistema para revertir los cambios, capacidad para monitorear y determinar el estado, capacidad para proporcionar diagnósticos, recuperación automatizada, diseño modular y capacidad de reinicio. Ejerza la ruta de recuperación para asegurarse de que puede lograr la recuperación en el tiempo especificado al estado especificado. Use sus manuales de procedimientos durante esta recuperación para documentar problemas y encontrar soluciones para ellos antes de la próxima prueba.
The Berkeley/Stanford recovery-oriented computing project

Use CloudEndure Disaster Recovery para implementar y probar su estrategia de DR
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS

Administre la desviación de configuración en el sitio o región DR

Asegúrese de que sus canalizaciones de entrega se entreguen a sus sitios principales y de copia de seguridad.: Las canalizaciones de entrega para implementar aplicaciones en producción deben distribuirse a todas las ubicaciones de estrategia de recuperación de desastres especificadas, incluidos los entornos de desarrollo y prueba.

Habilite AWS Config para rastrear ubicaciones potenciales de desviación: Use las reglas de AWS Config para crear sistemas que apliquen sus estrategias de recuperación de desastres y generen alertas cuando detecten la desviación.
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation

Use AWS CloudFormation para implementar su infraestructura: AWS CloudFormation puede detectar la desviación entre lo que especifican sus plantillas de CloudFormation y lo que realmente se implementa
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack

Recuperación automática

Rutas de recuperación automática: Para tiempos de recuperación cortos, la acción y el juicio humano no se pueden usar para escenarios de alta disponibilidad. El sistema debería recuperarse automáticamente en cualquier situación.

Use CloudEndure Disaster Recovery para conmutación por error y por recuperación automáticas: CloudEndure Disaster Recovery replica continuamente sus máquinas (incluido el sistema operativo, la configuración del estado del sistema, las bases de datos, las aplicaciones y los archivos) en un área de ensayo de bajo costo en su cuenta de AWS objetivo y región preferida. En el caso de un desastre, puede indicarle a CloudEndure Disaster Recovery que inicie automáticamente miles de sus máquinas en su estado de aprovisionamiento completo en minutos.
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery