OPS 10: 서비스/운영 이벤트를 어떻게 관리하나요?
이벤트로 인해 워크로드가 중단될 가능성을 최소화할 수 있도록 이벤트 대응을 위한 절차를 준비/확인합니다.
리소스
Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?
모범 사례:
-
이벤트, 인시던트 및 문제 관리 프로세스 사용:: 관찰되는 이벤트, 개입이 필요한 이벤트(인시던트), 개입이 필요하며 반복되거나 현재 해결할 수 없는 이벤트(문제)를 처리하기 위한 프로세스를 마련합니다. 이러한 프로세스를 사용하면 적시에 적절한 대응을 보장하여 비즈니스와 고객에 대한 해당 이벤트의 영향을 완화할 수 있습니다.
-
알림별 프로세스 마련: 경계심을 갖는 이벤트가 있는 경우, 특정하게 식별된 소유자를 지정함과 동시에 명확하게 정의된 대응 방법(런북 또는 지침서)을 마련합니다. 이렇게 하면 운영 이벤트에 빠르고 효과적으로 대응할 수 있으며 중요하지 않은 알림 때문에 실행 가능한 이벤트를 제대로 확인하지 못하는 상황을 방지할 수 있습니다.
-
비즈니스 영향을 기반으로 운영 이벤트의 우선순위 지정: 여러 이벤트에 대해 조치를 취해야 할 때는 실무에 가장 큰 영향을 주는 이벤트를 먼저 해결해야 합니다. 예를 들어 이러한 영향에는 사망 또는 부상, 재정적 손실, 평판 또는 신뢰의 손상이 포함될 수 있습니다.
-
에스컬레이션 경로 정의: 에스컬레이션을 트리거하는 요소와 에스컬레이션 절차를 포함한 에스컬레이션 경로를 런북과 플레이북에 정의합니다. 운영 이벤트에 즉시 효율적으로 대응할 수 있도록 각 작업의 소유자를 구체적으로 명시합니다.
-
푸시 알림 활성화: 사용 중인 서비스가 이벤트의 영향을 받을 때와 정상 작동 상태로 다시 되돌아갈 때 사용자에게 이메일이나 SMS 등을 통해 직접 알립니다. 그러면 사용자가 적절한 조치를 취할 수 있습니다.
-
대시보드를 통한 커뮤니케이션 상태: 목표 대상(예: 내부 기술 팀, 리더십 및 고객)에게 맞춘 대시보드를 제공하여 비즈니스의 현재 운영 상태를 알리고 관심 있는 지표를 제공합니다.
-
이벤트 대응 자동화: 이벤트 대응을 자동화하면 수동 프로세스에서 발생하는 오류를 줄일 수 있으며 일관된 방식으로 즉시 대응할 수 있습니다.
개선 계획
이벤트, 인시던트 및 문제 관리 프로세스 사용:
알림별 프로세스 마련
비즈니스 영향을 기반으로 운영 이벤트의 우선순위 지정
에스컬레이션 경로 정의
푸시 알림 활성화
Amazon SES features
What is Amazon SES?
Set up Amazon SNS notifications
대시보드를 통한 커뮤니케이션 상태
CloudWatch dashboards create and use customized metrics views
이벤트 대응 자동화
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services