OPS 9: 운영 업무가 정상인지 어떻게 판단하나요?
운영 지표를 정의, 파악 및 분석하면 운영 이벤트를 확인하여 적절한 조치를 취할 수 있습니다.
리소스
Build a Monitoring Plan
Detect and React to Changes in Pipeline State with Amazon CloudWatch Events
AWS Answers: Centralized Logging
모범 사례:
-
핵심 성과 지표 파악: 원하는 비즈니스 성과(예: 새로운 기능 제공)와 고객 성과(예: 고객 지원 사례)를 기반으로 KPI(핵심 성과 지표)를 파악합니다. 그리고 KPI를 평가하여 운영의 성공 여부를 결정합니다.
-
운영 지표 정의: KPI 성과(예: 성공한 배포와 실패한 배포)를 측정하는 데 사용할 운영 지표를 정의합니다. 운영 활동 상태(예: 인시던트의 MTTD(평균 탐지 시간) 및 인시던트의 MTTR(평균 복구 시간))를 측정하는 데 사용할 운영 지표를 정의합니다. 그런 다음, 해당 지표를 평가해 운영 과정에서 적절한 성과를 달성할 수 있는지를 확인하고 운영 활동 상태를 파악합니다.
-
운영 지표 수집 및 분석: 지표를 정기적으로 사전 예방 차원에서 점검하여 추세를 확인하고 어느 부분에 적절한 대응이 필요한지 파악합니다.
-
운영 지표 기준 설정: 지표의 기준을 설정해 성능이 기준보다 높은/낮은 운영 활동을 확인하고 각 프로세스의 성능을 비교할 수 있는 기준으로 필요한 값을 제공합니다.
-
운영의 예상 활동 패턴 파악: 필요한 경우 적절하게 대응할 수 있도록 비정상적인 활동을 식별할 운영 활동 패턴을 설정합니다.
-
운영 성과가 위험한 상태이면 알림 생성: 운영 성과가 위험한 상태이면 필요 시 적절히 대응할 수 있도록 알림을 생성합니다.
-
운영 이상이 감지되면 알림 생성: 운영에서 이상이 감지되면 필요 시 적절히 대응할 수 있도록 알림을 생성합니다.
-
성과 달성 여부와 KPI 및 지표의 효율성 확인: : 운영 활동을 실무 수준에서 확인할 수 있는 보기를 생성합니다. 그러면 요구를 충족하고 있는지를 확인할 수 있으며 업무 목표 달성을 위해 개선해야 하는 영역을 파악할 수 있습니다. 또한 KPI와 지표의 효율성을 확인하고 필요한 경우 KPI/지표를 수정합니다.
개선 계획
핵심 성과 지표 파악
운영 지표 정의
Publish custom metrics
Searching and filtering log data
Amazon CloudWatch metrics and dimensions reference
운영 지표 수집 및 분석
Using Amazon CloudWatch metrics
Amazon CloudWatch metrics and dimensions reference
Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent
운영 지표 기준 설정
운영의 예상 활동 패턴 파악
운영 성과가 위험한 상태이면 알림 생성
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
운영 이상이 감지되면 알림 생성
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
성과 달성 여부와 KPI 및 지표의 효율성 확인:
Using Amazon CloudWatch dashboards
What is log analytics?