"このコンテンツは古いものです。現在、このバージョンの Well-Architected Framework は、次の場所にあります。 https://docs.aws.amazon.com/ja_jp/wellarchitected/2022-03-31/framework/reliability.html

REL 13: 災害対策 (DR) はどのように計画するのですか?

バックアップと冗長ワークロードコンポーネントを配置することは、DR 戦略の出発点です。RTO と RPO は、可用性を回復するための目標です。これらは、ビジネスニーズに基づいて設定します。ワークロードのリソースとデータのロケーションと機能を考慮して、目標を達成するための戦略を実装します。

リソース

AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery

ベストプラクティス:

ダウンタイムやデータ消失に関する復旧目標を定義する: ワークロードには、目標復旧時間 (RTO) と目標復旧時点 (RTO) が定義されます。
復旧目標を満たすため、定義された復旧戦略を活用する: 目標を達成するために災害対策 (DR) 戦略が定義されています。
災害対策の実装をテストし、検証する: DR へのフェイルオーバーを定期的にテストし、RTO と RPO が満たされていることを確認します。
DR サイトまたはリージョンでの設定ドリフトを管理する: インフラストラクチャ、データ、設定が DR サイトまたはリージョンで必要とされるとおりであることを確認します。たとえば、AMI とサービスクォータが最新であることを確認します。
復旧を自動化する: AWS またはサードパーティー製のツールを使用して、システムの復旧を自動化し、トラフィックを DR サイトまたはリージョンにルーティングします。

改善計画

ダウンタイムやデータ消失に関する復旧目標を定義する

ワークロードの必要性のカテゴリーを定める: 主なビジネス推進要因とイネーブラワークロードを特定します。内部専用のツールであるワークロードと、外部から視認できるツールであるワークロードを特定します。各ワークロードのダウンタイムがビジネスに与える影響を特定します。5 つ以下のカテゴリを作成し、目標復旧時間 (RTO) と目標復旧時点 (RPO) の要件の範囲を絞り込みます。

ミッションクリティカルなビジネス上のワークロードを把握する (通常は、主要なレベニュードライバーと成功要因)
ビジネスに重要なワークロードを把握する (通常は、コンテンツ管理システムなどの報告とランタイムのアプリケーション修正ツール)
ビジネスの推進と関係のない、再現が難しい場合があるワークロードを把握する (修復済みデータのあるテストシステムなど)
ビジネスの推進と関係がなく、データがさほど難しくないか簡単に再現できるワークロードを把握する (開発環境など)
必要に応じて他のカテゴリーを把握する

復旧目標を満たすため、定義された復旧戦略を活用する

カテゴリごとに目標復旧時間 (RTO) と目標復旧時点 (RPO) を達成するための戦略を確立する: ワークロードにマルチリージョン戦略が必要な場合は、以下のいずれかの戦略を選択する必要があります。戦略は、複雑さの昇順、および RTO と RPO の降順でリストされています。別の AWS リージョンへのバックアップと復元により、必要なときにデータが利用可能になるという保証がさらに強化されますが、その他の戦略では、AWS リージョン内の複数のアベイラビリティーゾーンを使用して達成できる事柄と、潜在的な複雑さやコストを比較衡量する必要があります。
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication

バックアップと復元 (RPO (数時間以内)、RTO (24 時間以内)): データとアプリケーションを DR リージョンにバックアップします。障害からの復旧に必要な場合は、このデータを復元します。
パイロットライト (RPO (数分以内)、RTO (数時間以内)): DR リージョンでシステムの最も重要なコア要素を常に実行している環境の最小バージョンを維持します。復旧の必要が生じたときに、重要なコアを中心として完全な本番環境をすばやくプロビジョンすることができます。
ウォームスタンバイ (RPO (数秒以内)、RTO (数分以内)): 常に DR リージョンで実行されている完全に機能する環境の縮小バージョンを維持します。ビジネスクリティカルなシステムは完全に複製され、常に稼働していますが、フリートは縮小されています。復旧時には、システムをすばやくスケールアップして本番環境の負荷を処理できるようにします。
マルチリージョンのアクティブ/アクティブ (RPO はなし、または数秒、RTO (数秒以内)): ワークロードは、複数の AWS リージョンにデプロイされ、複数の AWS リージョンからのトラフィックにアクティブに対応します。この戦略では、使用しているリージョン間でユーザーとデータを同期する必要があります。復旧時には、Amazon Route 53 や AWS Global Accelerator などのサービスを使用して、ワークロードが正常な場所にユーザートラフィックをルーティングします。
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded

災害対策の実装をテストし、検証する

ワークロードを復旧用にエンジニアリングします。復旧経路を定期的にテストする: Recovery Oriented Computing (ROC) は、復旧を強化するシステムの特性を特定します。以下がその特性です。隔離と冗長性、システム全体の変更のロールバック機能、正常性を監視し判断する機能、診断する機能、自動的な復旧、モジュラー設計、そして再起動する機能。復旧経路を訓練して、指定された時間内に指定された状態に復旧できるようにします。この復旧中にランブックを使用して問題を文書化し、次のテストの前に解決策を見つけます。
The Berkeley/Stanford recovery-oriented computing project

CloudEndure Disaster Recovery を使用して DR 戦略を実装し、テストする
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS

DR サイトまたはリージョンでの設定ドリフトを管理する

デリバリーパイプラインがプライマリサイトとバックアップサイトの両方に配信しているようにします。: アプリケーションを本番環境にデプロイするための配信パイプラインは、開発環境やテスト環境など、指定されたすべての災害対策戦略のロケーションに分散する必要があります。

AWS Config で潜在的なドリフトロケーションを追跡できるようにする: AWS Config ルールを使用して、災害対策戦略を適用し、ドリフトを検出したときにアラートを生成するシステムを作成します。
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation

AWS CloudFormation を使用してインフラストラクチャをデプロイする: AWS CloudFormation は、CloudFormation テンプレートが指定するものと実際にデプロイされているものとの間のドリフトを検出できます。
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack

復旧を自動化する

復旧経路の自動化: 復旧時間が短い場合に人が判断して対処する方法は、高い可用性シナリオには利用できません。システムはあらゆる状況下で自動的に復旧する必要があります。

自動フェイルオーバーとフェイルバックのために CloudEndure Disaster Recovery を使用する: CloudEndure Disaster Recovery では、マシン (オペレーティングシステム、システム状態設定、データベース、アプリケーション、ファイルなど) をターゲット AWS アカウントおよび希望するリージョンの低コストのステージングエリアに継続的にレプリケートします。災害が発生した場合、CloudEndure Disaster Recovery に指示して、数千台のマシンを数分で完全にプロビジョニングされた状態で自動的に起動できます。
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery