OPS 9: 您如何了解營運狀況?
定義、擷取和分析營運指標,掌握營運事件,以便採取適當行動。
資源
Build a Monitoring Plan
Detect and React to Changes in Pipeline State with Amazon CloudWatch Events
AWS Answers: Centralized Logging
最佳實務:
-
識別關鍵績效指標: 根據所需的業務 (例如,交付的新功能) 和客戶成果 (例如,客戶支援案例),識別關鍵績效指標 (KPI)。評估 KPI 以確定營運是否成功。
-
定義營運指標: 定義營運指標以衡量 KPI 的實現情況 (例如,成功部署和失敗部署)。定義營運指標以衡量營運活動的運作狀態 (例如,偵測事件所需的平均時間 (MTTD),以及從事件中復原所需的平均時間 (MTTR))。評估指標以判斷營運是否取得理想成果,並了解您的營運活動的運作狀態。
-
收集和分析營運指標: 定期對指標進行主動審查,以確定趨勢並確定需要在哪些地方採取適當回應。
-
建立營運指標基準: 為指標建立基準,以提供期望值,做為比較和識別效能欠佳和過剩的營運活動的基礎。
-
了解營運活動的預期模式: 建立營運活動模式以識別異常活動,以便您可以在必要時做出適當的回應。
-
在營運成果有風險時發出提醒: 當營運成果有風險時發出提醒,以便您可以在必要時做出適當的回應。
-
在偵測到營運異常時發出提醒: 在偵測到營運異常時發出提醒,以便您可以在必要時做出適當的回應。
-
驗證結果的實現以及 KPI 和指標的有效性 : 建立營運活動的業務層級檢視,以幫助您確定需求是否得到滿足,並確定需要改進以實現業務目標的領域。驗證 KPI 和指標的有效性,並在必要時進行修訂。
改進方案
識別關鍵績效指標
定義營運指標
Publish custom metrics
Searching and filtering log data
Amazon CloudWatch metrics and dimensions reference
收集和分析營運指標
Using Amazon CloudWatch metrics
Amazon CloudWatch metrics and dimensions reference
Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent
建立營運指標基準
了解營運活動的預期模式
在營運成果有風險時發出提醒
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
在偵測到營運異常時發出提醒
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
驗證結果的實現以及 KPI 和指標的有效性
Using Amazon CloudWatch dashboards
What is log analytics?