Este contenido está desactualizado. Esta versión de Well-Architected Framework se encuentra ahora en: https://docs.aws.amazon.com/es_es/wellarchitected/2022-03-31/framework/reliability.html

REL 13: ¿Cómo planifica la recuperación de desastres (DR)?

Tener copias de seguridad y componentes de carga de trabajo redundantes en las instalaciones es el primer paso de su estrategia de recuperación de desastres (DR). Los objetivos de tiempo y punto de recuperación son los objetivos que debe cumplir para lograr la restauración de la disponibilidad. Debe establecer estos objetivos en función de las necesidades de la empresa. Implemente una estrategia para cumplir estos objetivos, teniendo en cuenta la ubicación y la función de los recursos y los datos de la carga de trabajo.

Recursos

AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery

Prácticas recomendadas:

Plan de mejora

Defina los objetivos de recuperación para el tiempo de inactividad y la pérdida de datos

  • Establezca categorías de necesidad para sus cargas de trabajo: Identifique las principales cargas de trabajo del factor de impulso y el facilitador de negocios. Identifique las cargas de trabajo que son solo herramientas internas y las cargas de trabajo que son herramientas visibles externamente. Identifique el impacto comercial del tiempo de inactividad para cada carga de trabajo. Cree cinco categorías o menos y refine el rango de sus requisitos de objetivo de tiempo de recuperación (RTO) y objetivo de punto de recuperación (RPO).
  • Utilice estrategias de recuperación definidas para cumplir los objetivos de recuperación

  • Establezca estrategias para lograr el objetivo de tiempo de recuperación (RTO) y el objetivo de punto de recuperación (RPO) para cada categoría: Si es necesaria una estrategia de varias regiones para su carga de trabajo, debe elegir una de las siguientes estrategias. Las estrategias se enumeran en orden creciente de complejidad y en orden decreciente de RTO y RPO. Realizar copias de seguridad y restaurar en otra región de AWS puede agregar otra capa de seguridad de que los datos estarán disponibles cuando sea necesario, pero para las otras estrategias debe sopesar su complejidad y costo potenciales en comparación con lo que puede lograr mediante el uso de múltiples zonas de disponibilidad dentro de una región de AWS.
    AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
    Amazon RDS: Cross-region backup copy
    RDS: Replicating a Read Replica Across Regions
    S3: Cross-Region Replication
  • Pruebe la implementación de recuperación de desastres para validar la implementación

  • Diseñe sus cargas de trabajo para la recuperación. Pruebe regularmente sus rutas de recuperación: La informática orientada a la recuperación (ROC) identifica las características en los sistemas que mejoran la recuperación. Estas características son: aislamiento y redundancia, capacidad del sistema para revertir los cambios, capacidad para monitorear y determinar el estado, capacidad para proporcionar diagnósticos, recuperación automatizada, diseño modular y capacidad de reinicio. Ejerza la ruta de recuperación para asegurarse de que puede lograr la recuperación en el tiempo especificado al estado especificado. Use sus manuales de procedimientos durante esta recuperación para documentar problemas y encontrar soluciones para ellos antes de la próxima prueba.
    The Berkeley/Stanford recovery-oriented computing project
  • Use CloudEndure Disaster Recovery para implementar y probar su estrategia de DR
    Testing the Disaster Recovery Solution with CloudEndure
    CloudEndure Disaster Recovery
    CloudEndure Disaster Recovery to AWS
  • Administre la desviación de configuración en el sitio o región DR

  • Asegúrese de que sus canalizaciones de entrega se entreguen a sus sitios principales y de copia de seguridad.: Las canalizaciones de entrega para implementar aplicaciones en producción deben distribuirse a todas las ubicaciones de estrategia de recuperación de desastres especificadas, incluidos los entornos de desarrollo y prueba.
  • Habilite AWS Config para rastrear ubicaciones potenciales de desviación: Use las reglas de AWS Config para crear sistemas que apliquen sus estrategias de recuperación de desastres y generen alertas cuando detecten la desviación.
    Remediating Noncompliant AWS Resources by AWS Config Rules
    AWS Systems Manager Automation
  • Use AWS CloudFormation para implementar su infraestructura: AWS CloudFormation puede detectar la desviación entre lo que especifican sus plantillas de CloudFormation y lo que realmente se implementa
    AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
  • Recuperación automática

  • Rutas de recuperación automática: Para tiempos de recuperación cortos, la acción y el juicio humano no se pueden usar para escenarios de alta disponibilidad. El sistema debería recuperarse automáticamente en cualquier situación.