REL 13: 如何规划灾难恢复 (DR)?
拥有适当的备份和冗余工作负载组件是您的 DR 策略的开始。RTO 和 RPO 是您恢复可用性的目标。根据业务需求设置这些目标。通过实施策略来实现这些目标,同时考虑工作负载资源和数据的位置和功能。
资源
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications
(ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery
最佳实践:
-
定义停机和数据丢失的恢复目标: 工作负载具有恢复时间目标 (RTO) 和恢复点目标 (RPO)。
-
使用定义的恢复策略来实现恢复目标: 定义了灾难恢复 (DR) 策略以满足目标。
-
测试灾难恢复实现以验证实现效果: 定期测试 DR 故障转移以确保满足 RTO 和 RPO 目标。
-
管理 DR 站点或区域的配置漂移: 确保 DR 站点或区域的基础设施、数据和配置满足需求。例如,检查 AMI 和服务配额是否为最新。
-
自动执行恢复: 利用 AWS 或第三方工具自动进行系统恢复,并将流量路由至 DR 站点或区域。
改进计划
定义停机和数据丢失的恢复目标
- 确定业务关键任务型工作负载,这些工作负载通常是主要的收入驱动因素和促成因素
- 确定对业务重要的工作负载,这些工作负载通常是报告和运行时工作负载修改工具(如内容管理系统)
- 确定其数据可能难以重新创建的非业务推动型工作负载(如包含清理后的数据的测试系统)
- 确定其数据不难重新创建或可以轻松重新创建的非业务推动型工作负载(如开发环境)
- 根据需要确定其他类别
使用定义的恢复策略来实现恢复目标
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
- 备份和还原(RPO 以小时为单位,RTO 为 24 小时或以内): 将您的数据和应用程序备份到 DR 区域内。当需要从灾难中恢复时还原这些数据。
- 指示灯(RPO 以分钟为单位,RTO 以小时为单位): 维持始终在 DR 区域中运行系统最关键核心元素的最低环境版本。在需要恢复时,您可以围绕关键核心快速预置全面的生产环境。
- 温备用(RPO 以秒为单位,RTO 以分钟为单位): 维持始终在 DR 区域中运行的缩减版本全功能环境。业务关键型系统是完全重复,而且始终可用的系统,只是其队列的规模经过缩减。在需要恢复时,系统会快速扩展以处理生产负载。
- 多区域主动-主动(RPO 为无或可能以秒为单位,RTO 以秒为单位): 您的工作负载被部署到多个 AWS 区域,并且主动处理来自这些区域的流量。此策略要求您在使用的区域之间对用户和数据进行同步。在需要恢复时,使用诸如 Amazon Route
53 或 AWS Global Accelerator 之类的服务,以便将您的用户流量路由到工作负载运行正常的位置。
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded
测试灾难恢复实现以验证实现效果
The Berkeley/Stanford recovery-oriented computing project
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS
管理 DR 站点或区域的配置漂移
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
自动执行恢复
- 使用 CloudEndure Disaster Recovery 进行自动故障转移和故障恢复: CloudEndure Disaster Recovery 可持续将您的计算机(包括操作系统、系统状态配置、数据库、应用程序和文件)复制到目标 AWS 账户和首选区域中的低成本暂存区域。在发生灾难时,您可以指示
CloudEndure Disaster Recovery 在几分钟内自动启动数千台处于完全预置状态的计算机。
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery