오래된 콘텐츠입니다. 이 버전의 Well-Architected Framework는 현재 다음 위치에서 찾을 수 있습니다. https://docs.aws.amazon.com/ko_kr/wellarchitected/2022-03-31/framework/reliability.html

REL 13: DR(재해 복구)를 어떻게 계획합니까?

DR 전략의 시작은 백업 및 중복 워크로드 구성 요소를 갖추는 것입니다. RTO 및 RPO는 가용성 복원에 대한 목표입니다. 비즈니스 요구 사항에 따라 이러한 목표를 설정하십시오. 워크로드 리소스 및 데이터의 위치와 기능을 고려하여 이러한 목표를 충족하는 전략을 구현합니다.

리소스

AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery

모범 사례:

가동 중단 시간 및 데이터 손실 시의 복구 목표 정의: 워크로드에는 RTO(복구 시간 목표) 및 RPO(복구 시점 목표)가 있습니다.
복구 목표 달성을 위해 정의된 복구 전략 사용: 목표를 달성하기 위한 DR(재해 복구) 전략이 정의되었습니다.
재해 복구 구현을 테스트하여 구현 확인: DR에 대한 장애 조치를 정기적으로 테스트하여 RTO와 RPO를 충족하는지 확인합니다.
DR 사이트 또는 리전에서 구성 드리프트 관리: DR 사이트 또는 리전에 필요한 인프라, 데이터 및 구성이 갖추어져 있는지 확인합니다. 예를 들어 AMI와 서비스 할당량이 최신 상태인지 확인합니다.
복구 자동화: AWS 또는 타사 도구를 사용하여 시스템 복구를 자동화하고 트래픽을 DR 사이트 또는 리전으로 라우팅합니다.

개선 계획

가동 중단 시간 및 데이터 손실 시의 복구 목표 정의

워크로드에 대한 요구 사항의 범주 설정: 주요 비즈니스 동인 및 지원 워크로드를 파악합니다. 내부 전용 도구로 사용되는 워크로드와 외부에 공개되는 도구로 사용되는 워크로드를 식별합니다. 가동 중지 시간이 각 워크로드에 미치는 비즈니스 영향을 파악합니다. 5개 이하의 범주를 생성하고 RTO(복구 시간 목표) 및 RPO(복구 지점 목표) 요구 사항의 범위를 구체화합니다.

비즈니스 미션 크리티컬 워크로드를 식별합니다. 이는 일반적으로 주요 수익의 원동력이자 핵심 요소입니다.
중요한 비즈니스 워크로드를 식별합니다. 이는 일반적으로 보고 및 런타임 워크로드 수정 도구(예: 콘텐츠 관리 시스템)입니다.
재현하기 어려운 데이터가 있을 수 있는 비 비즈니스 중심 워크로드를 식별합니다(정리된 데이터가 있는 테스트 시스템 등).
재현하기 어렵지 않거나 쉬운 데이터가 있을 수 있는 비 비즈니스 중심 워크로드를 식별합니다(개발 환경 등).
필요에 따라 다른 범주를 식별합니다.

복구 목표 달성을 위해 정의된 복구 전략 사용

각 범주의 RTO(복구 시간 목표) 및 RPO(복구 시점 목표)를 달성하기 위한 전략 수립: 워크로드에 다중 리전 전략이 필요한 경우 다음 전략 중 하나를 선택해야 합니다. 이러한 전략은 복잡성이 증가하고 RTO 및 RPO가 감소하는 순서로 나열되어 있습니다. 다른 AWS 리전으로 백업하면 필요할 때 데이터를 사용할 수 있다는 보장이 추가됩니다. 하지만 다른 전략에서는 AWS 리전 내에서 여러 가용 영역을 사용하여 실현되는 이점과 그에 따른 잠재적 복잡성 및 비용을 잘 비교하여 따져보아야 합니다.
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication

백업 및 복원(시간 단위 RPO, 24시간 이하의 RTO): 데이터와 애플리케이션을 DR 리전에 백업합니다. 재해 복구에 필요한 경우 이 데이터를 복원합니다.
파일럿 라이트(분 단위 RPO, 시간 단위 RTO): 시스템의 가장 중요한 핵심 요소를 항상 실행하는 최소 버전의 환경을 DR 리전에 유지합니다. 복구 시기가 되면 중요한 핵심 요소를 중심으로 전체 프로덕션 환경을 신속하게 프로비저닝할 수 있습니다.
웜 대기(초 단위 RPO, 분 단위 RTO): 항상 실행되는 모든 기능을 갖춘 환경의 축소된 버전을 DR 리전에 유지합니다. 비즈니스 크리티컬 시스템은 완전히 복제되고 항상 실행되지만 플릿은 축소됩니다. 복구 시기가 되면 시스템은 프로덕션 로드를 처리하기 위해 신속하게 확장됩니다.
다중 리전 액티브–액티브(초 단위 RPO 또는 RTO 없음, 초 단위 RTO): 워크로드가 여러 AWS 리전에 배포되고 능동적으로 트래픽을 처리합니다. 이 전략에서는 사용 중인 리전 간에 사용자 및 데이터를 동기화해야 합니다. 복구 시기가 되면 Amazon Route 53 또는 AWS Global Accelerator와 같은 서비스를 사용하여 워크로드가 정상인 위치로 사용자 트래픽을 라우팅합니다.
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded

재해 복구 구현을 테스트하여 구현 확인

복구가 가능하도록 워크로드를 설계합니다. 복구 경로를 정기적으로 테스트합니다.: ROC(복구 중심 컴퓨팅)는 복구를 개선하는 시스템의 특성을 식별합니다. 이러한 특성에는 격리 및 중복성, 변경 사항을 롤백하는 시스템 전체 기능, 상태 모니터링 및 확인 기능, 진단 제공 기능, 자동 복구, 모듈식 설계 및 재시작 기능이 포함됩니다. 지정된 시간에 지정한 상태로 복구를 수행할 수 있도록 복구 경로에 대해 실습하십시오. 이 복구 과정에 런북을 사용하여 문제를 문서화하고 다음 테스트 전에 해결 방법을 찾으십시오.
The Berkeley/Stanford recovery-oriented computing project

CloudEndure Disaster Recovery를 사용하여 DR 전략 구현 및 테스트
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS

DR 사이트 또는 리전에서 구성 드리프트 관리

배포 파이프라인이 기본 사이트와 백업 사이트 모두에 제공되는지 확인합니다.: 애플리케이션을 프로덕션에 배포하기 위한 배포 파이프라인은 개발 및 테스트 환경을 포함하여 지정된 모든 재해 복구 전략 위치에 배포해야 합니다.

AWS Config를 활성화하여 잠재적 드리프트 위치 추적: AWS Config 규칙을 사용하여 재해 복구 전략을 실행하고 드리프트가 감지되면 알림을 생성하는 시스템을 구축합니다.
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation

AWS CloudFormation을 사용하여 인프라 배포: AWS CloudFormation은 CloudFormation 템플릿에 명시된 내용과 실제로 배포된 항목 사이의 드리프트를 감지할 수 있습니다.
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack

복구 자동화

복구 경로 자동화: 짧은 복구 시간이 요구되는 고가용성 시나리오에서는 인간의 판단 및 수작업을 사용할 수 없습니다. 모든 상황에서 시스템이 자동으로 복구되어야 합니다.

자동 장애 조치 및 장애 복구를 위해 CloudEndure Disaster Recovery 사용: CloudEndure Disaster Recovery는 시스템(운영 체제, 시스템 상태 구성, 데이터베이스, 애플리케이션 및 파일 포함)을 대상 AWS 계정과 원하는 리전의 저렴한 스테이징 영역으로 지속적으로 복제합니다. 재해가 발생할 경우 몇 분 만에 수천 대의 시스템을 자동으로 완전히 프로비저닝된 상태로 시작하도록 CloudEndure Disaster Recovery에 지시할 수 있습니다.
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery