OPS 8: 您如何了解工作負載的運作狀態?
定義、擷取和分析工作負載指標,掌握工作負載事件,以便採取適當行動。
資源
Build a Monitoring Plan
Creating Amazon CloudWatch Alarms
AWS Answers: Centralized Logging
最佳實務:
-
識別關鍵績效指標: 根據所需的業務成果 (例如,訂單率、客戶保留率以及獲利與營運支出的對比) 與客戶成果 (例如,客戶滿意度),識別關鍵績效指標 (KPI)。評估 KPI 以確定工作負載是否成功。
-
定義工作負載指標: 定義工作負載指標以衡量 KPI 的實現情況 (例如,捨棄的購物車、下單的訂單、成本、價格和分配的工作負載支出)。定義工作負載指標以衡量工作負載的運作狀態 (例如,界面回應時間、錯誤率、提出的請求、完成的請求和使用率)。評估指標以判斷工作負載是否取得了預期的成果,並了解工作負載的運作狀態。
-
收集和分析工作負載指標: 定期對指標進行主動審查,以確定趨勢並確定需要在哪些地方採取適當回應。
-
建立工作負載指標基準: 為指標建立基準,以提供期望值,做為比較和識別效能欠佳和過剩的元件的基礎。識別用於改善、調查和介入的閾值。
-
了解工作負載的預期活動模式: 建立工作負載活動模式以識別異常行為,以便您可以在需要時做出適當回應。
-
在工作負載結果有風險時發出提醒: 當工作負載結果有風險時發出提醒,以便您可以在必要時做出適當的回應。
-
在偵測到工作負載異常時發出提醒: 當偵測到工作負載異常時發出提醒,以便您可以在必要時做出適當的回應。
-
驗證結果的實現以及 KPI 和指標的有效性 : 建立工作負載營運的業務層級檢視,以幫助您確定需求是否得到滿足,並確定需要改進以實現業務目標的領域。驗證 KPI 和指標的有效性,並在必要時進行修訂。
改進方案
識別關鍵績效指標
定義工作負載指標
Publish custom metrics
Searching and filtering log data
Amazon CloudWatch metrics and dimensions reference
收集和分析工作負載指標
Using Amazon CloudWatch metrics
Amazon CloudWatch metrics and dimensions reference
Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent
建立工作負載指標基準
Creating Amazon CloudWatch alarms
了解工作負載的預期活動模式
在工作負載結果有風險時發出提醒
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
在偵測到工作負載異常時發出提醒
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
驗證結果的實現以及 KPI 和指標的有效性
Using Amazon CloudWatch dashboards
What is log analytics?