此内容已过时。此版本的架构完善的框架现在可在以下位置找到： https://docs.aws.amazon.com/zh_cn/wellarchitected/2022-03-31/framework/reliability.html

REL 13: 如何规划灾难恢复 (DR)？

拥有适当的备份和冗余工作负载组件是您的 DR 策略的开始。RTO 和 RPO 是您恢复可用性的目标。根据业务需求设置这些目标。通过实施策略来实现这些目标，同时考虑工作负载资源和数据的位置和功能。

资源

AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery

最佳实践:

定义停机和数据丢失的恢复目标: 工作负载具有恢复时间目标 (RTO) 和恢复点目标 (RPO)。
使用定义的恢复策略来实现恢复目标: 定义了灾难恢复 (DR) 策略以满足目标。
测试灾难恢复实现以验证实现效果: 定期测试 DR 故障转移以确保满足 RTO 和 RPO 目标。
管理 DR 站点或区域的配置漂移: 确保 DR 站点或区域的基础设施、数据和配置满足需求。例如，检查 AMI 和服务配额是否为最新。
自动执行恢复: 利用 AWS 或第三方工具自动进行系统恢复，并将流量路由至 DR 站点或区域。

改进计划

定义停机和数据丢失的恢复目标

确定所需的工作负载类别: 确定主要业务驱动因素和促成因素工作负载。确定仅作为内部工具的工作负载，以及作为外部可见工具的工作负载。确定每个工作负载停机对业务的影响。创建不超过 5 个类别，并细化恢复时间目标 (RTO) 和恢复点目标 (RPO) 要求的范围。

确定业务关键任务型工作负载，这些工作负载通常是主要的收入驱动因素和促成因素
确定对业务重要的工作负载，这些工作负载通常是报告和运行时工作负载修改工具（如内容管理系统）
确定其数据可能难以重新创建的非业务推动型工作负载（如包含清理后的数据的测试系统）
确定其数据不难重新创建或可以轻松重新创建的非业务推动型工作负载（如开发环境）
根据需要确定其他类别

使用定义的恢复策略来实现恢复目标

制定策略以便实现每个类别的恢复时间目标 (RTO) 和恢复点目标 (RPO): 如果您的工作负载需要多区域策略，您应选择下列策略之一。这些策略按照复杂程度升序排列，以及按 RTO 和 RPO 降序排列。备份和还原到另一个 AWS 区域可让您更加确信数据在需要时可用，但是对于其他策略，您应权衡它们的潜在复杂性和成本，以及在一个 AWS 区域中使用多个可用区可以实现的优势。
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication

备份和还原（RPO 以小时为单位，RTO 为 24 小时或以内）: 将您的数据和应用程序备份到 DR 区域内。当需要从灾难中恢复时还原这些数据。
指示灯（RPO 以分钟为单位，RTO 以小时为单位）: 维持始终在 DR 区域中运行系统最关键核心元素的最低环境版本。在需要恢复时，您可以围绕关键核心快速预置全面的生产环境。
温备用（RPO 以秒为单位，RTO 以分钟为单位）: 维持始终在 DR 区域中运行的缩减版本全功能环境。业务关键型系统是完全重复，而且始终可用的系统，只是其队列的规模经过缩减。在需要恢复时，系统会快速扩展以处理生产负载。
多区域主动-主动（RPO 为无或可能以秒为单位，RTO 以秒为单位）: 您的工作负载被部署到多个 AWS 区域，并且主动处理来自这些区域的流量。此策略要求您在使用的区域之间对用户和数据进行同步。在需要恢复时，使用诸如 Amazon Route 53 或 AWS Global Accelerator 之类的服务，以便将您的用户流量路由到工作负载运行正常的位置。
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded

测试灾难恢复实现以验证实现效果

为灾难恢复设计工作负载。定期测试恢复路径。: 面向恢复的计算 (ROC) 可识别系统中能够增强恢复功能的特性。这些特性包括：隔离和冗余，系统范围回滚更改的能力，监控并确定运行状况的能力，提供诊断、自动恢复、模块化设计的能力，以及重启的能力。练习恢复路径，以确保您可以在指定时间内恢复到指定状态。在此恢复过程中使用运行手册来记录问题，并在下一次测试之前找到问题的解决方案。
The Berkeley/Stanford recovery-oriented computing project

使用 CloudEndure Disaster Recovery 来实施和测试您的 DR 策略
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS

管理 DR 站点或区域的配置漂移

确保您的交付管道可交付到主站点和备份站点。: 用于将应用程序部署到生产中的交付管道必须分发到所有指定的灾难恢复策略位置，包括开发和测试环境。

启用 AWS Config 来跟踪潜在漂移位置: 使用 AWS Config 规则来创建可强制实施您的灾难恢复策略，并在检测到漂移时生成提醒的系统。
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation

使用 AWS CloudFormation 来部署基础设施: AWS CloudFormation 可以检测您的 CloudFormation 模板指定的内容和实际部署内容之间的漂移
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack

自动执行恢复

恢复路径自动化: 如果恢复时间很短，人工判断和操作无法用于可用性非常高的场景。在这种情况下，系统每次必须自动进行恢复。

使用 CloudEndure Disaster Recovery 进行自动故障转移和故障恢复: CloudEndure Disaster Recovery 可持续将您的计算机（包括操作系统、系统状态配置、数据库、应用程序和文件）复制到目标 AWS 账户和首选区域中的低成本暂存区域。在发生灾难时，您可以指示 CloudEndure Disaster Recovery 在几分钟内自动启动数千台处于完全预置状态的计算机。
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery