此內容已過時。這個版本的 Well-Architected 框架現在可以在以下位置找到: https://docs.aws.amazon.com/zh_tw/wellarchitected/2022-03-31/framework/operational-excellence.html

OPS 8: 您如何了解工作負載的運作狀態?

定義、擷取和分析工作負載指標,掌握工作負載事件,以便採取適當行動。

資源

Build a Monitoring Plan
Creating Amazon CloudWatch Alarms
AWS Answers: Centralized Logging

最佳實務:

改進方案

識別關鍵績效指標

  • 識別關鍵績效指標: 根據所需的業務和客戶成果確定關鍵績效指標 (KPI)。評估 KPI 以確定工作負載是否成功。
  • 定義工作負載指標

  • 定義工作負載指標: 定義工作負載指標以衡量 KPI 的實現情況。定義工作負載指標,以衡量工作負載及其各個元件的運作狀態。評估指標以判斷工作負載是否取得了預期的成果,並了解工作負載的運作狀態。
    Publish custom metrics
    Searching and filtering log data
    Amazon CloudWatch metrics and dimensions reference
  • 收集和分析工作負載指標

  • 收集和分析工作負載指標: 定期對指標進行主動審查,以確定趨勢並確定需要在哪些地方採取適當回應。
    Using Amazon CloudWatch metrics
    Amazon CloudWatch metrics and dimensions reference
    Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent
  • 建立工作負載指標基準

  • 為工作負載指標建立基準 : 為工作負載指標建立基準,以提供期望值做為比較的基礎。
    Creating Amazon CloudWatch alarms
  • 了解工作負載的預期活動模式

  • 了解工作負載的預期活動模式: 建立工作負載活動模式,以確定行為何時超出預期值,以便您可以在需要時做出適當的回應。
  • 在工作負載結果有風險時發出提醒

  • 在工作負載結果有風險時發出提醒: 當工作負載結果有風險時發出提醒,以便您可以在需要時做出適當的回應。
    What is Amazon CloudWatch Events?
    Creating Amazon CloudWatch alarms
    Invoking Lambda functions using Amazon SNS notifications
  • 在偵測到工作負載異常時發出提醒

  • 在偵測到工作負載異常時發出提醒: 當偵測到工作負載異常時發出提醒,以便您可以在需要時做出適當的回應。
    What is Amazon CloudWatch Events?
    Creating Amazon CloudWatch alarms
    Invoking Lambda functions using Amazon SNS notifications
  • 驗證結果的實現以及 KPI 和指標的有效性

  • 驗證結果的實現以及 KPI 和指標的有效性 : 建立工作負載營運的業務層級檢視,以幫助您確定需求是否得到滿足,並確定需要改進以實現業務目標的領域。驗證 KPI 和指標的有效性,並在必要時進行修訂。
    Using Amazon CloudWatch dashboards
    What is log analytics?