오래된 콘텐츠입니다. 이 버전의 Well-Architected Framework는 현재 다음 위치에서 찾을 수 있습니다. https://docs.aws.amazon.com/ko_kr/wellarchitected/2022-03-31/framework/operational-excellence.html

OPS 10: 서비스/운영 이벤트를 어떻게 관리하나요?

이벤트로 인해 워크로드가 중단될 가능성을 최소화할 수 있도록 이벤트 대응을 위한 절차를 준비/확인합니다.

리소스

Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?

모범 사례:

개선 계획

이벤트, 인시던트 및 문제 관리 프로세스 사용:

  • 이벤트, 인시던트 및 문제 관리 프로세스 사용:: 관찰되는 이벤트, 개입이 필요한 이벤트(인시던트), 개입이 필요하며 반복되거나 현재 해결할 수 없는 이벤트(문제)를 처리하기 위한 프로세스를 마련합니다. 이러한 프로세스를 사용하면 적시에 적절한 대응을 보장하여 비즈니스와 고객에 대한 해당 이벤트의 영향을 완화할 수 있습니다.
  • 알림별 프로세스 마련

  • 알림별 프로세스: 알림 생성 대상 이벤트에 대해서는 런북이나 플레이북을 통해 대응 방법을 적절하게 정의해야 하며, 정상적인 프로세스 실행을 담당하는 이벤트 소유자(예: 개인, 팀, 역할)를 구체적으로 명시해야 합니다. 대응 작업은 자동화되거나 다른 팀이 수행할 수 있지만 프로세스가 예상된 결과를 제공하는지 여부에 대한 책임은 소유자에게 있습니다. 이러한 프로세스를 마련해 두면 운영 이벤트에 빠르고 효과적으로 대응할 수 있으며 중요하지 않은 알림 때문에 실행 가능한 이벤트를 제대로 확인하지 못하는 상황을 방지할 수 있습니다. 예를 들어 웹 프런트 엔드의 크기를 조정하려면 자동 조정 기능을 적용할 수 있지만, 운영 팀은 자동 조정 규칙 및 한도가 워크로드 요구 사항에 적합한지 확인해야 합니다.
  • 비즈니스 영향을 기반으로 운영 이벤트의 우선순위 지정

  • 비즈니스 영향을 기반으로 운영 이벤트의 우선순위 지정: 여러 이벤트에 대해 조치를 취해야 할 때는 실무에 가장 큰 영향을 주는 이벤트를 먼저 해결해야 합니다. 예를 들어 이러한 영향에는 사망 또는 부상, 재정적 손실, 규정 위반 또는 평판이나 신뢰의 손상이 포함될 수 있습니다.
  • 에스컬레이션 경로 정의

  • 에스컬레이션 경로 정의: 에스컬레이션을 트리거하는 요소와 에스컬레이션 절차를 포함한 에스컬레이션 경로를 런북과 플레이북에 정의합니다. 예를 들어 런북을 통해 문제를 해결할 수 없거나 미리 정의된 시간이 지난 경우에는 지원 엔지니어가 수석 지원 엔지니어에게 문제를 에스컬레이션하도록 정의합니다. 플레이북을 통해 문제 해결 경로를 확인할 수 없거나 미리 정의된 시간이 지난 경우에는 수석 지원 엔지니어가 개발 팀에게 문제를 에스컬레이션할 수도 있습니다. 운영 이벤트에 즉시 효율적으로 대응할 수 있도록 각 작업의 소유자를 구체적으로 명시합니다. 에스컬레이션 과정에는 제3자가 포함될 수 있습니다. 제3자의 예로는 네트워크 연결 공급자, 소프트웨어 공급업체 등이 있습니다. 영향을 받는 시스템에 대해 권한이 부여된 의사 결정자가 에스컬레이션 과정에 참여할 수 있습니다.
  • 푸시 알림 활성화

  • 푸시 알림 활성화: 사용자가 사용 중인 서비스가 이벤트의 영향을 받을 때와 정상 작동 상태로 되돌아갈 때 사용자에게 이메일이나 SMS 등을 통해 직접 알립니다. 그러면 사용자가 적절한 조치를 취할 수 있습니다.
    Amazon SES features
    What is Amazon SES?
    Set up Amazon SNS notifications
  • 대시보드를 통한 커뮤니케이션 상태

  • 대시보드를 통한 커뮤니케이션 상태: 목표 대상(예: 내부 기술 팀, 리더십 및 고객)에게 맞춤화된 대시보드를 제공하여 비즈니스의 현재 운영 상태를 전달하고 관심 있는 지표를 제공합니다. 상태 정보 확인을 위한 셀프 서비스 옵션을 제공하면 운영 팀의 필딩 요청이 중단되는 상황을 줄일 수 있습니다. 이러한 옵션의 예로는 Amazon CloudWatch 대시보드, AWS Personal Health Dashboard 등이 있습니다.
    CloudWatch dashboards create and use customized metrics views
  • 이벤트 대응 자동화

  • 이벤트 대응 자동화: 이벤트 대응을 자동화하면 수동 프로세스에서 발생하는 오류를 줄일 수 있으며 일관된 방식으로 즉시 대응할 수 있습니다.
    What is Amazon CloudWatch Events?
    Creating a CloudWatch Events rule that triggers on an event
    Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
    CloudWatch Events event examples from supported services