REL 13: 災害対策 (DR) はどのように計画するのですか?
バックアップと冗長ワークロードコンポーネントを配置することは、DR 戦略の出発点です。RTO と RPO は、可用性を回復するための目標です。これらは、ビジネスニーズに基づいて設定します。ワークロードのリソースとデータのロケーションと機能を考慮して、目標を達成するための戦略を実装します。
リソース
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications
(ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery
ベストプラクティス:
-
ダウンタイムやデータ消失に関する復旧目標を定義する: ワークロードには、目標復旧時間 (RTO) と目標復旧時点 (RTO) が定義されます。
-
復旧目標を満たすため、定義された復旧戦略を活用する: 目標を達成するために災害対策 (DR) 戦略が定義されています。
-
災害対策の実装をテストし、検証する: DR へのフェイルオーバーを定期的にテストし、RTO と RPO が満たされていることを確認します。
-
DR サイトまたはリージョンでの設定ドリフトを管理する: インフラストラクチャ、データ、設定が DR サイトまたはリージョンで必要とされるとおりであることを確認します。たとえば、AMI とサービスクォータが最新であることを確認します。
-
復旧を自動化する: AWS またはサードパーティー製のツールを使用して、システムの復旧を自動化し、トラフィックを DR サイトまたはリージョンにルーティングします。
改善計画
ダウンタイムやデータ消失に関する復旧目標を定義する
- ミッションクリティカルなビジネス上のワークロードを把握する (通常は、主要なレベニュードライバーと成功要因)
- ビジネスに重要なワークロードを把握する (通常は、コンテンツ管理システムなどの報告とランタイムのアプリケーション修正ツール)
- ビジネスの推進と関係のない、再現が難しい場合があるワークロードを把握する (修復済みデータのあるテストシステムなど)
- ビジネスの推進と関係がなく、データがさほど難しくないか簡単に再現できるワークロードを把握する (開発環境など)
- 必要に応じて他のカテゴリーを把握する
復旧目標を満たすため、定義された復旧戦略を活用する
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
- バックアップと復元 (RPO (数時間以内)、RTO (24 時間以内)): データとアプリケーションを DR リージョンにバックアップします。障害からの復旧に必要な場合は、このデータを復元します。
- パイロットライト (RPO (数分以内)、RTO (数時間以内)): DR リージョンでシステムの最も重要なコア要素を常に実行している環境の最小バージョンを維持します。復旧の必要が生じたときに、重要なコアを中心として完全な本番環境をすばやくプロビジョンすることができます。
- ウォームスタンバイ (RPO (数秒以内)、RTO (数分以内)): 常に DR リージョンで実行されている完全に機能する環境の縮小バージョンを維持します。ビジネスクリティカルなシステムは完全に複製され、常に稼働していますが、フリートは縮小されています。復旧時には、システムをすばやくスケールアップして本番環境の負荷を処理できるようにします。
- マルチリージョンのアクティブ/アクティブ (RPO はなし、または数秒、RTO (数秒以内)): ワークロードは、複数の AWS リージョンにデプロイされ、複数の AWS リージョンからのトラフィックにアクティブに対応します。この戦略では、使用しているリージョン間でユーザーとデータを同期する必要があります。復旧時には、Amazon
Route 53 や AWS Global Accelerator などのサービスを使用して、ワークロードが正常な場所にユーザートラフィックをルーティングします。
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded
災害対策の実装をテストし、検証する
The Berkeley/Stanford recovery-oriented computing project
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS
DR サイトまたはリージョンでの設定ドリフトを管理する
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
復旧を自動化する
- 自動フェイルオーバーとフェイルバックのために CloudEndure Disaster Recovery を使用する: CloudEndure Disaster Recovery では、マシン (オペレーティングシステム、システム状態設定、データベース、アプリケーション、ファイルなど)
をターゲット AWS アカウントおよび希望するリージョンの低コストのステージングエリアに継続的にレプリケートします。災害が発生した場合、CloudEndure Disaster
Recovery に指示して、数千台のマシンを数分で完全にプロビジョニングされた状態で自動的に起動できます。
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery