此内容已过时。此版本的架构完善的框架现在可在以下位置找到: https://docs.aws.amazon.com/zh_cn/wellarchitected/2022-03-31/framework/operational-excellence.html

OPS 8: 您如何了解工作负载的运行状况?

定义、记录和分析指标以便了解工作负载事件,从而采取适当的措施。

资源

Build a Monitoring Plan
Creating Amazon CloudWatch Alarms
AWS Answers: Centralized Logging

最佳实践:

改进计划

识别关键性能指标

  • 识别关键性能指标: 根据所需的业务成果和客户成果识别关键性能指标 (KPI)。评估 KPI 以便确定工作负载是否成功。
  • 定义工作负载指标

  • 定义工作负载指标: 定义工作负载指标来衡量 KPI 的实现情况。定义工作负载指标来衡量工作负载及其各个组件的运行状况。评估指标以便确定工作负载是否实现所需成果,并了解工作负载的运行状况。
    Publish custom metrics
    Searching and filtering log data
    Amazon CloudWatch metrics and dimensions reference
  • 收集和分析工作负载指标

  • 收集和分析工作负载指标: 定期主动检查各种指标,以便发现趋势并确定哪里需要做出适当响应。
    Using Amazon CloudWatch metrics
    Amazon CloudWatch metrics and dimensions reference
    Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent
  • 建立工作负载指标基准

  • 建立工作负载指标基准 : 建立工作负载指标基准,以便提供期望值作为比较依据。
    Creating Amazon CloudWatch alarms
  • 了解工作负载的预期活动模式

  • 了解工作负载的预期活动模式: 建立工作负载活动模式以便确定行为何时不符合预期值,从而根据需要做出适当响应。
  • 在工作负载成果面临风险时发出提醒

  • 在工作负载成果面临风险时发出提醒: 在工作负载成果面临风险时发出提醒,从而根据需要做出适当响应。
    What is Amazon CloudWatch Events?
    Creating Amazon CloudWatch alarms
    Invoking Lambda functions using Amazon SNS notifications
  • 在检测到工作负载异常时发出提醒

  • 在检测到工作负载异常时发出提醒: 在检测到工作负载异常时发出提醒,从而根据需要做出适当响应。
    What is Amazon CloudWatch Events?
    Creating Amazon CloudWatch alarms
    Invoking Lambda functions using Amazon SNS notifications
  • 验证实现的成果以及 KPI 和指标的有效性

  • 验证实现的成果以及 KPI 和指标的有效性 : 在业务层面查看工作负载的运行情况,以便确定自己是否满足需求,并确定需要改进哪些方面才能实现业务目标。验证 KPI 和指标的有效性并在需要时进行修改。
    Using Amazon CloudWatch dashboards
    What is log analytics?