REL 13: DR(재해 복구)를 어떻게 계획합니까?
DR 전략의 시작은 백업 및 중복 워크로드 구성 요소를 갖추는 것입니다. RTO 및 RPO는 가용성 복원에 대한 목표입니다. 비즈니스 요구 사항에 따라 이러한 목표를 설정하십시오. 워크로드 리소스 및 데이터의 위치와 기능을 고려하여 이러한 목표를 충족하는 전략을 구현합니다.
리소스
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications
(ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery
모범 사례:
-
가동 중단 시간 및 데이터 손실 시의 복구 목표 정의: 워크로드에는 RTO(복구 시간 목표) 및 RPO(복구 시점 목표)가 있습니다.
-
복구 목표 달성을 위해 정의된 복구 전략 사용: 목표를 달성하기 위한 DR(재해 복구) 전략이 정의되었습니다.
-
재해 복구 구현을 테스트하여 구현 확인: DR에 대한 장애 조치를 정기적으로 테스트하여 RTO와 RPO를 충족하는지 확인합니다.
-
DR 사이트 또는 리전에서 구성 드리프트 관리: DR 사이트 또는 리전에 필요한 인프라, 데이터 및 구성이 갖추어져 있는지 확인합니다. 예를 들어 AMI와 서비스 할당량이 최신 상태인지 확인합니다.
-
복구 자동화: AWS 또는 타사 도구를 사용하여 시스템 복구를 자동화하고 트래픽을 DR 사이트 또는 리전으로 라우팅합니다.
개선 계획
가동 중단 시간 및 데이터 손실 시의 복구 목표 정의
- 비즈니스 미션 크리티컬 워크로드를 식별합니다. 이는 일반적으로 주요 수익의 원동력이자 핵심 요소입니다.
- 중요한 비즈니스 워크로드를 식별합니다. 이는 일반적으로 보고 및 런타임 워크로드 수정 도구(예: 콘텐츠 관리 시스템)입니다.
- 재현하기 어려운 데이터가 있을 수 있는 비 비즈니스 중심 워크로드를 식별합니다(정리된 데이터가 있는 테스트 시스템 등).
- 재현하기 어렵지 않거나 쉬운 데이터가 있을 수 있는 비 비즈니스 중심 워크로드를 식별합니다(개발 환경 등).
- 필요에 따라 다른 범주를 식별합니다.
복구 목표 달성을 위해 정의된 복구 전략 사용
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
- 백업 및 복원(시간 단위 RPO, 24시간 이하의 RTO): 데이터와 애플리케이션을 DR 리전에 백업합니다. 재해 복구에 필요한 경우 이 데이터를 복원합니다.
- 파일럿 라이트(분 단위 RPO, 시간 단위 RTO): 시스템의 가장 중요한 핵심 요소를 항상 실행하는 최소 버전의 환경을 DR 리전에 유지합니다. 복구 시기가 되면 중요한 핵심 요소를 중심으로 전체 프로덕션 환경을 신속하게 프로비저닝할 수 있습니다.
- 웜 대기(초 단위 RPO, 분 단위 RTO): 항상 실행되는 모든 기능을 갖춘 환경의 축소된 버전을 DR 리전에 유지합니다. 비즈니스 크리티컬 시스템은 완전히 복제되고 항상 실행되지만 플릿은 축소됩니다. 복구 시기가 되면 시스템은 프로덕션 로드를 처리하기 위해 신속하게 확장됩니다.
- 다중 리전 액티브–액티브(초 단위 RPO 또는 RTO 없음, 초 단위 RTO): 워크로드가 여러 AWS 리전에 배포되고 능동적으로 트래픽을 처리합니다. 이 전략에서는 사용 중인 리전 간에 사용자 및 데이터를 동기화해야 합니다.
복구 시기가 되면 Amazon Route 53 또는 AWS Global Accelerator와 같은 서비스를 사용하여 워크로드가 정상인 위치로 사용자
트래픽을 라우팅합니다.
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded
재해 복구 구현을 테스트하여 구현 확인
The Berkeley/Stanford recovery-oriented computing project
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS
DR 사이트 또는 리전에서 구성 드리프트 관리
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
복구 자동화
- 자동 장애 조치 및 장애 복구를 위해 CloudEndure Disaster Recovery 사용: CloudEndure Disaster Recovery는 시스템(운영 체제, 시스템 상태 구성, 데이터베이스, 애플리케이션 및 파일 포함)을 대상 AWS
계정과 원하는 리전의 저렴한 스테이징 영역으로 지속적으로 복제합니다. 재해가 발생할 경우 몇 분 만에 수천 대의 시스템을 자동으로 완전히 프로비저닝된
상태로 시작하도록 CloudEndure Disaster Recovery에 지시할 수 있습니다.
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery