오래된 콘텐츠입니다. 이 버전의 Well-Architected Framework는 현재 다음 위치에서 찾을 수 있습니다. https://docs.aws.amazon.com/ko_kr/wellarchitected/2022-03-31/framework/reliability.html

REL 13: DR(재해 복구)를 어떻게 계획합니까?

DR 전략의 시작은 백업 및 중복 워크로드 구성 요소를 갖추는 것입니다. RTO 및 RPO는 가용성 복원에 대한 목표입니다. 비즈니스 요구 사항에 따라 이러한 목표를 설정하십시오. 워크로드 리소스 및 데이터의 위치와 기능을 고려하여 이러한 목표를 충족하는 전략을 구현합니다.

리소스

AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery

모범 사례:

개선 계획

가동 중단 시간 및 데이터 손실 시의 복구 목표 정의

  • 워크로드에 대한 요구 사항의 범주 설정: 주요 비즈니스 동인 및 지원 워크로드를 파악합니다. 내부 전용 도구로 사용되는 워크로드와 외부에 공개되는 도구로 사용되는 워크로드를 식별합니다. 가동 중지 시간이 각 워크로드에 미치는 비즈니스 영향을 파악합니다. 5개 이하의 범주를 생성하고 RTO(복구 시간 목표) 및 RPO(복구 지점 목표) 요구 사항의 범위를 구체화합니다.
  • 복구 목표 달성을 위해 정의된 복구 전략 사용

  • 각 범주의 RTO(복구 시간 목표) 및 RPO(복구 시점 목표)를 달성하기 위한 전략 수립: 워크로드에 다중 리전 전략이 필요한 경우 다음 전략 중 하나를 선택해야 합니다. 이러한 전략은 복잡성이 증가하고 RTO 및 RPO가 감소하는 순서로 나열되어 있습니다. 다른 AWS 리전으로 백업하면 필요할 때 데이터를 사용할 수 있다는 보장이 추가됩니다. 하지만 다른 전략에서는 AWS 리전 내에서 여러 가용 영역을 사용하여 실현되는 이점과 그에 따른 잠재적 복잡성 및 비용을 잘 비교하여 따져보아야 합니다.
    AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
    Amazon RDS: Cross-region backup copy
    RDS: Replicating a Read Replica Across Regions
    S3: Cross-Region Replication
  • 재해 복구 구현을 테스트하여 구현 확인

  • 복구가 가능하도록 워크로드를 설계합니다. 복구 경로를 정기적으로 테스트합니다.: ROC(복구 중심 컴퓨팅)는 복구를 개선하는 시스템의 특성을 식별합니다. 이러한 특성에는 격리 및 중복성, 변경 사항을 롤백하는 시스템 전체 기능, 상태 모니터링 및 확인 기능, 진단 제공 기능, 자동 복구, 모듈식 설계 및 재시작 기능이 포함됩니다. 지정된 시간에 지정한 상태로 복구를 수행할 수 있도록 복구 경로에 대해 실습하십시오. 이 복구 과정에 런북을 사용하여 문제를 문서화하고 다음 테스트 전에 해결 방법을 찾으십시오.
    The Berkeley/Stanford recovery-oriented computing project
  • CloudEndure Disaster Recovery를 사용하여 DR 전략 구현 및 테스트
    Testing the Disaster Recovery Solution with CloudEndure
    CloudEndure Disaster Recovery
    CloudEndure Disaster Recovery to AWS
  • DR 사이트 또는 리전에서 구성 드리프트 관리

  • 배포 파이프라인이 기본 사이트와 백업 사이트 모두에 제공되는지 확인합니다.: 애플리케이션을 프로덕션에 배포하기 위한 배포 파이프라인은 개발 및 테스트 환경을 포함하여 지정된 모든 재해 복구 전략 위치에 배포해야 합니다.
  • AWS Config를 활성화하여 잠재적 드리프트 위치 추적: AWS Config 규칙을 사용하여 재해 복구 전략을 실행하고 드리프트가 감지되면 알림을 생성하는 시스템을 구축합니다.
    Remediating Noncompliant AWS Resources by AWS Config Rules
    AWS Systems Manager Automation
  • AWS CloudFormation을 사용하여 인프라 배포: AWS CloudFormation은 CloudFormation 템플릿에 명시된 내용과 실제로 배포된 항목 사이의 드리프트를 감지할 수 있습니다.
    AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
  • 복구 자동화

  • 복구 경로 자동화: 짧은 복구 시간이 요구되는 고가용성 시나리오에서는 인간의 판단 및 수작업을 사용할 수 없습니다. 모든 상황에서 시스템이 자동으로 복구되어야 합니다.