此内容已过时。此版本的架构完善的框架现在可在以下位置找到: https://docs.aws.amazon.com/zh_cn/wellarchitected/2022-03-31/framework/reliability.html

REL 13: 如何规划灾难恢复 (DR)?

拥有适当的备份和冗余工作负载组件是您的 DR 策略的开始。RTO 和 RPO 是您恢复可用性的目标。根据业务需求设置这些目标。通过实施策略来实现这些目标,同时考虑工作负载资源和数据的位置和功能。

资源

AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery

最佳实践:

改进计划

定义停机和数据丢失的恢复目标

  • 确定所需的工作负载类别: 确定主要业务驱动因素和促成因素工作负载。确定仅作为内部工具的工作负载,以及作为外部可见工具的工作负载。确定每个工作负载停机对业务的影响。创建不超过 5 个类别,并细化恢复时间目标 (RTO) 和恢复点目标 (RPO) 要求的范围。
  • 使用定义的恢复策略来实现恢复目标

  • 制定策略以便实现每个类别的恢复时间目标 (RTO) 和恢复点目标 (RPO): 如果您的工作负载需要多区域策略,您应选择下列策略之一。这些策略按照复杂程度升序排列,以及按 RTO 和 RPO 降序排列。备份和还原到另一个 AWS 区域可让您更加确信数据在需要时可用,但是对于其他策略,您应权衡它们的潜在复杂性和成本,以及在一个 AWS 区域中使用多个可用区可以实现的优势。
    AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
    Amazon RDS: Cross-region backup copy
    RDS: Replicating a Read Replica Across Regions
    S3: Cross-Region Replication
  • 测试灾难恢复实现以验证实现效果

  • 为灾难恢复设计工作负载。定期测试恢复路径。: 面向恢复的计算 (ROC) 可识别系统中能够增强恢复功能的特性。这些特性包括:隔离和冗余,系统范围回滚更改的能力,监控并确定运行状况的能力,提供诊断、自动恢复、模块化设计的能力,以及重启的能力。练习恢复路径,以确保您可以在指定时间内恢复到指定状态。在此恢复过程中使用运行手册来记录问题,并在下一次测试之前找到问题的解决方案。
    The Berkeley/Stanford recovery-oriented computing project
  • 使用 CloudEndure Disaster Recovery 来实施和测试您的 DR 策略
    Testing the Disaster Recovery Solution with CloudEndure
    CloudEndure Disaster Recovery
    CloudEndure Disaster Recovery to AWS
  • 管理 DR 站点或区域的配置漂移

  • 确保您的交付管道可交付到主站点和备份站点。: 用于将应用程序部署到生产中的交付管道必须分发到所有指定的灾难恢复策略位置,包括开发和测试环境。
  • 启用 AWS Config 来跟踪潜在漂移位置: 使用 AWS Config 规则来创建可强制实施您的灾难恢复策略,并在检测到漂移时生成提醒的系统。
    Remediating Noncompliant AWS Resources by AWS Config Rules
    AWS Systems Manager Automation
  • 使用 AWS CloudFormation 来部署基础设施: AWS CloudFormation 可以检测您的 CloudFormation 模板指定的内容和实际部署内容之间的漂移
    AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
  • 自动执行恢复

  • 恢复路径自动化: 如果恢复时间很短,人工判断和操作无法用于可用性非常高的场景。在这种情况下,系统每次必须自动进行恢复。