PERF 7: 리소스 성능을 모니터링하려면 어떻게 해야 합니까?
시스템 성능은 시간이 지남에 따라 저하될 수 있습니다. 시스템 성능을 모니터링하여 성능 저하 상태를 식별하고 운영 체제 또는 애플리케이션 로드와 같은 내부 또는 외부 요인을 해결합니다.
리소스
Cut through the chaos: Gain operational visibility and insight (MGT301-R1)
X-Ray Documentation
CloudWatch Documentation
Monitoring, Logging, and Performance APN Partners
모범 사례:
-
성능 관련 지표 기록: 모니터링 및 관찰 서비스를 사용하여 성능 관련 지표를 기록합니다. 예를 들어 데이터베이스 트랜잭션, 속도가 느린 쿼리, I/O 지연 시간, HTTP 요청 처리량, 서비스 지연 시간 또는 기타 주요 데이터를 기록할 수 있습니다.
-
이벤트 또는 인시던트 발생 시의 지표 분석: 이벤트나 인시던트에 대응하는 과정에서 모니터링 대시보드나 보고서를 사용해 이벤트/인시던트의 영향을 파악하고 진단합니다. 이러한 대시보드나 보고서에서는 예상 성능을 제공하지 못하는 워크로드의 부분을 파악할 수 있습니다.
-
워크로드 성능을 측정하는 KPI(핵심 성능 지표) 설정: 워크로드가 예상 성능을 제공하는지 여부를 나타내는 KPI를 식별합니다. 예를 들어 API 기반 워크로드에는 전체 응답 지연 시간을 전반적인 성능의 지표로 사용할 수 있으며, 전자상거래 사이트에는 구매 건 수를 KPI로 사용하도록 선택할 수 있습니다.
-
모니터링을 사용하여 경보 기반 알림 생성: 정의한 성능 관련 KPI를 사용하여 측정값이 예상 경계를 벗어나는 경우 경보를 자동으로 생성하는 모니터링 시스템을 사용합니다.
-
정기적인 간격으로 지표 검토: 주기적인 유지 관리의 일환으로 또는 이벤트나 인시던트 대응 과정에서 수집된 지표를 검토합니다. 이러한 검토를 수행하면 문제를 해결하는 데 반드시 필요했던 지표와 문제를 확인/해결/방지하는 데 도움이 되었던 지표(추적한 경우)를 추가로 파악할 수 있습니다.
-
사전 모니터링 및 경보 생성: KPI(핵심 성능 지표)를 모니터링 및 경보 시스템과 함께 사용하여 성능 관련 문제를 선제적으로 해결합니다. 경보를 사용하여 가능한 경우 문제를 해결하는 자동화 작업을 트리거합니다. 자동 대응이 불가능한 경우 대응을 수행할 수 있는 담당자에게 경보를 에스컬레이션합니다. 예를 들어 필요한 KPI(핵심 성능 지표) 값을 예측하고 해당 값이 특정 임계값을 초과하는 경우 경보를 생성할 수 있는 시스템이나, KPI가 필요한 값의 범위를 벗어나는 경우 배포를 자동으로 중지하거나 롤백할 수 있는 도구로 경보를 에스컬레이션할 수 있습니다.
개선 계획
성능 관련 지표 기록
이벤트 또는 인시던트 발생 시의 지표 분석
워크로드 성능을 측정하는 KPI(핵심 성능 지표) 설정
모니터링을 사용하여 경보 기반 알림 생성
정기적인 간격으로 지표 검토
사전 모니터링 및 경보 생성