"このコンテンツは古いものです。現在、このバージョンの Well-Architected Framework は、次の場所にあります。 https://docs.aws.amazon.com/ja_jp/wellarchitected/2022-03-31/framework/reliability.html

REL 13: 災害対策 (DR) はどのように計画するのですか?

バックアップと冗長ワークロードコンポーネントを配置することは、DR 戦略の出発点です。RTO と RPO は、可用性を回復するための目標です。これらは、ビジネスニーズに基づいて設定します。ワークロードのリソースとデータのロケーションと機能を考慮して、目標を達成するための戦略を実装します。

リソース

AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery

ベストプラクティス:

改善計画

ダウンタイムやデータ消失に関する復旧目標を定義する

  • ワークロードの必要性のカテゴリーを定める: 主なビジネス推進要因とイネーブラワークロードを特定します。内部専用のツールであるワークロードと、外部から視認できるツールであるワークロードを特定します。各ワークロードのダウンタイムがビジネスに与える影響を特定します。5 つ以下のカテゴリを作成し、目標復旧時間 (RTO) と目標復旧時点 (RPO) の要件の範囲を絞り込みます。
  • 復旧目標を満たすため、定義された復旧戦略を活用する

  • カテゴリごとに目標復旧時間 (RTO) と目標復旧時点 (RPO) を達成するための戦略を確立する: ワークロードにマルチリージョン戦略が必要な場合は、以下のいずれかの戦略を選択する必要があります。戦略は、複雑さの昇順、および RTO と RPO の降順でリストされています。別の AWS リージョンへのバックアップと復元により、必要なときにデータが利用可能になるという保証がさらに強化されますが、その他の戦略では、AWS リージョン内の複数のアベイラビリティーゾーンを使用して達成できる事柄と、潜在的な複雑さやコストを比較衡量する必要があります。
    AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
    Amazon RDS: Cross-region backup copy
    RDS: Replicating a Read Replica Across Regions
    S3: Cross-Region Replication
  • 災害対策の実装をテストし、検証する

  • ワークロードを復旧用にエンジニアリングします。復旧経路を定期的にテストする: Recovery Oriented Computing (ROC) は、復旧を強化するシステムの特性を特定します。以下がその特性です。隔離と冗長性、システム全体の変更のロールバック機能、正常性を監視し判断する機能、診断する機能、自動的な復旧、モジュラー設計、そして再起動する機能。復旧経路を訓練して、指定された時間内に指定された状態に復旧できるようにします。この復旧中にランブックを使用して問題を文書化し、次のテストの前に解決策を見つけます。
    The Berkeley/Stanford recovery-oriented computing project
  • CloudEndure Disaster Recovery を使用して DR 戦略を実装し、テストする
    Testing the Disaster Recovery Solution with CloudEndure
    CloudEndure Disaster Recovery
    CloudEndure Disaster Recovery to AWS
  • DR サイトまたはリージョンでの設定ドリフトを管理する

  • デリバリーパイプラインがプライマリサイトとバックアップサイトの両方に配信しているようにします。: アプリケーションを本番環境にデプロイするための配信パイプラインは、開発環境やテスト環境など、指定されたすべての災害対策戦略のロケーションに分散する必要があります。
  • AWS Config で潜在的なドリフトロケーションを追跡できるようにする: AWS Config ルールを使用して、災害対策戦略を適用し、ドリフトを検出したときにアラートを生成するシステムを作成します。
    Remediating Noncompliant AWS Resources by AWS Config Rules
    AWS Systems Manager Automation
  • AWS CloudFormation を使用してインフラストラクチャをデプロイする: AWS CloudFormation は、CloudFormation テンプレートが指定するものと実際にデプロイされているものとの間のドリフトを検出できます。
    AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
  • 復旧を自動化する

  • 復旧経路の自動化: 復旧時間が短い場合に人が判断して対処する方法は、高い可用性シナリオには利用できません。システムはあらゆる状況下で自動的に復旧する必要があります。