此內容已過時。這個版本的 Well-Architected 框架現在可以在以下位置找到： https://docs.aws.amazon.com/zh_tw/wellarchitected/2022-03-31/framework/reliability.html

REL 13: 您如何規劃災難復原 (DR)？

備妥備份和冗餘工作負載元件是 DR 策略的開始。RTO 和 RPO 是您還原可用性的目標。根據業務需求設定這些目標。實作策略以滿足這些目標，考量工作負載資源和資料的位置和功能。

資源

AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery

最佳實務:

定義停機和資料遺失的復原目標: 工作負載具有復原時間目標 (RTO) 和復原點目標 (RPO)。
使用定義的復原策略來滿足復原目標: 已經定義了災難復原 (DR) 策略來實現目標。
測試災難復原實作以驗證實作: 定期測試容錯移轉到災難復原，以確保滿足 RTO 和 RPO。
管理 DR 站點或區域的組態偏移: 確保根據需要在 DR 站點或區域提供基礎設施、資料和組態。例如，檢查 AMI 和服務配額是否為最新版本。
自動化復原: 使用 AWS 或第三方工具自動化系統復原，並將流量路由到 DR 站點或區域。

改進方案

定義停機和資料遺失的復原目標

為工作負載確定需求類別: 識別主要業務驅動因素和推動力的工作負載。識別僅限內部工具的工作負載和外部可見工具的工作負載。識別停機時間對各工作負載的業務影響。建立 5 個或更少的類別，然後縮小復原時間目標 (RTO) 和復原點目標 (RPO) 要求的範圍。

識別關鍵業務工作負載 – 通常是主要的收入驅動因素或推動力
識別重要的業務工作負載 – 通常是報告和執行階段工作負載修改工具 (例如內容管理系統)
識別其資料可能難以重新建立的非業務驅動工作負載 (例如帶有已清理資料的測試系統)
識別資料重新建立難度較小或重新建立容易的非業務驅動工作負載 (例如開發環境)
根據需要確定其他類別

使用定義的復原策略來滿足復原目標

制定可達到每個類別之復原時間目標 (RTO) 和復原點目標 (RPO) 的策略: 如果工作負載需要建構多區域策略，您應該選擇下列其中一個策略。這些策略按複雜度遞增的順序列出，以及按 RTO 和 RPO 的遞減順序列出。備份和還原至另一個 AWS 區域可以進一步確保資料可在需要時使用，但對於其他策略而言，您應將複雜性和成本與使用 AWS 地區內的多個可用區域達成的成果加以衡量。
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication

備份與還原 (RPO 以小時為單位；RTO 以 24 小時或更低小時數為單位): 將您的資料和應用程式備份到 DR 區域。必要時還原此資料，以從災難中恢復。
指示燈 (RPO 以分鐘為單位、RTO 以小時為單位): 維持最低版本的環境，該環境始終在 DR 區域中執行系統最重要的核心元素。當需要復原時，您可以圍繞關鍵核心快速佈建完整規模的生產環境。
暖待命 (RPO 以秒為單位，RTO 以分鐘為單位): 維持完整功能環境的縮減版本，該環境持續在 DR 區域中執行。業務關鍵系統會完全複製且持續開啟，但叢集會縮小。當需要復原時，系統會迅速擴展以處理生產負載。
多區域主動-主動 (RPO 無單位，也可能以秒為單位；RTO 以秒為單位): 您的工作負載會部署至多個 AWS 區域，並主動處理來自多個 AWS 區域的流量。此策略需要您同步所使用的區域間的使用者和資料。當需要復原時，請使用 Amazon Route 53 或 AWS Global Accelerator 等服務，將使用者流量路由至工作負載運作狀態良好的位置。
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded

測試災難復原實作以驗證實作

為復原設計您的工作負載。定期測試您的復原路徑: 復原導向運算 (ROC) 可識別系統中能增強復原能力的特性。這些特性包括：隔離和冗餘，系統範圍內的回復變更能力，監控和確定運行狀態的能力，提供診斷、自動復原和模組化設計的能力，以及重新啟動的能力。練習復原路徑，以確保您可以在指定時間內完成復原到指定狀態。在復原過程中使用您的執行手冊，以記錄問題並在下一次測試前找出其解決方案。
The Berkeley/Stanford recovery-oriented computing project

使用 CloudEndure Disaster Recovery 實作和測試您的 DR 策略
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS

管理 DR 站點或區域的組態偏移

確保您的交付管道同時交付到主要站點和備份站點。: 用於將應用程式部署到生產中的交付管道，應分發到所有指定的災難復原策略位置，包括開發和測試環境。

啟用 AWS Config 追蹤潛在的偏移位置: 使用 AWS Config 規則建立系統，以執行災難復原策略，並在發現偏移時產生提醒。
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation

使用 AWS CloudFormation 部署基礎設施: AWS CloudFormation 可以偵測 CloudFormation 範本指定項目與實際部署項目之間的偏移
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack

自動化復原

自動執行復原路徑: 若復原時間較短，則人為判斷和行動無法用於可用性高的方案。系統應在每種情況下都能自動復原。

使用 CloudEndure Disaster Recovery 進行自動化容錯移轉和容錯回復: CloudEndure Disaster Recovery 會持續將您的機器 (包括作業系統、系統狀態組態、資料庫、應用程式和檔案) 複寫至您的目標 AWS 帳戶和慣用區域中的低成本階段區域。發生災難時，您可以指示 CloudEndure Disaster Recovery 在數分鐘內自動啟動處於完全佈建狀態的數千部機器。
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery