REL 13: 您如何規劃災難復原 (DR)?
備妥備份和冗餘工作負載元件是 DR 策略的開始。RTO 和 RPO 是您還原可用性的目標。根據業務需求設定這些目標。實作策略以滿足這些目標,考量工作負載資源和資料的位置和功能。
資源
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications
(ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery
最佳實務:
-
定義停機和資料遺失的復原目標: 工作負載具有復原時間目標 (RTO) 和復原點目標 (RPO)。
-
使用定義的復原策略來滿足復原目標: 已經定義了災難復原 (DR) 策略來實現目標。
-
測試災難復原實作以驗證實作: 定期測試容錯移轉到災難復原,以確保滿足 RTO 和 RPO。
-
管理 DR 站點或區域的組態偏移: 確保根據需要在 DR 站點或區域提供基礎設施、資料和組態。例如,檢查 AMI 和服務配額是否為最新版本。
-
自動化復原: 使用 AWS 或第三方工具自動化系統復原,並將流量路由到 DR 站點或區域。
改進方案
定義停機和資料遺失的復原目標
- 識別關鍵業務工作負載 – 通常是主要的收入驅動因素或推動力
- 識別重要的業務工作負載 – 通常是報告和執行階段工作負載修改工具 (例如內容管理系統)
- 識別其資料可能難以重新建立的非業務驅動工作負載 (例如帶有已清理資料的測試系統)
- 識別資料重新建立難度較小或重新建立容易的非業務驅動工作負載 (例如開發環境)
- 根據需要確定其他類別
使用定義的復原策略來滿足復原目標
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
- 備份與還原 (RPO 以小時為單位;RTO 以 24 小時或更低小時數為單位): 將您的資料和應用程式備份到 DR 區域。必要時還原此資料,以從災難中恢復。
- 指示燈 (RPO 以分鐘為單位、RTO 以小時為單位): 維持最低版本的環境,該環境始終在 DR 區域中執行系統最重要的核心元素。當需要復原時,您可以圍繞關鍵核心快速佈建完整規模的生產環境。
- 暖待命 (RPO 以秒為單位,RTO 以分鐘為單位): 維持完整功能環境的縮減版本,該環境持續在 DR 區域中執行。業務關鍵系統會完全複製且持續開啟,但叢集會縮小。當需要復原時,系統會迅速擴展以處理生產負載。
- 多區域主動-主動 (RPO 無單位,也可能以秒為單位;RTO 以秒為單位): 您的工作負載會部署至多個 AWS 區域,並主動處理來自多個 AWS 區域的流量。此策略需要您同步所使用的區域間的使用者和資料。當需要復原時,請使用 Amazon Route
53 或 AWS Global Accelerator 等服務,將使用者流量路由至工作負載運作狀態良好的位置。
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded
測試災難復原實作以驗證實作
The Berkeley/Stanford recovery-oriented computing project
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS
管理 DR 站點或區域的組態偏移
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
自動化復原
- 使用 CloudEndure Disaster Recovery 進行自動化容錯移轉和容錯回復: CloudEndure Disaster Recovery 會持續將您的機器 (包括作業系統、系統狀態組態、資料庫、應用程式和檔案) 複寫至您的目標 AWS 帳戶和慣用區域中的低成本階段區域。發生災難時,您可以指示
CloudEndure Disaster Recovery 在數分鐘內自動啟動處於完全佈建狀態的數千部機器。
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery