OPS 8: 您如何了解工作负载的运行状况?
定义、记录和分析指标以便了解工作负载事件,从而采取适当的措施。
资源
Build a Monitoring Plan
Creating Amazon CloudWatch Alarms
AWS Answers: Centralized Logging
最佳实践:
-
识别关键性能指标: 根据期望的业务成果(例如,订单率、客户保留率和利润与运营开支)和客户成果(例如,客户满意度)识别识别关键性能指标 (KPI)。评估 KPI 以便确定工作负载是否成功。
-
定义工作负载指标: 定义工作负载指标来衡量 KPI(例如,放弃的购物车、下达的订单、成本、价格和分配的工作负载费用)的完成情况。定义工作负载指标以衡量工作负载的运行状况(例如,接口响应时间、错误率、提出的请求数、完成的请求数和利用率)。评估指标以便确定工作负载是否实现所需成果,并了解工作负载的运行状况。
-
收集和分析工作负载指标: 定期主动检查各种指标,以便发现趋势并确定哪里需要做出适当响应。
-
建立工作负载指标基准: 建立指标基准以便提供预期值,作为比较和识别性能不足和性能过剩组件的依据。确定改进、调查和干预的阈值。
-
了解工作负载的预期活动模式: 通过建立工作负载活动的模式来识别异常行为,以便您可以在需要时做出适当的响应。
-
在工作负载成果面临风险时发出提醒: 在工作负载成果面临风险时发出提醒,从而在必要时做出适当响应。
-
在检测到工作负载异常时发出提醒: 在检测到工作负载异常时发出提醒,从而在必要时做出适当响应。
-
验证实现的成果以及 KPI 和指标的有效性 : 在业务层面查看工作负载的运行情况,以便确定自己是否满足需求,并确定需要改进哪些方面才能实现业务目标。验证 KPI 和指标的有效性并在需要时进行修改。
改进计划
识别关键性能指标
定义工作负载指标
Publish custom metrics
Searching and filtering log data
Amazon CloudWatch metrics and dimensions reference
收集和分析工作负载指标
Using Amazon CloudWatch metrics
Amazon CloudWatch metrics and dimensions reference
Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent
建立工作负载指标基准
Creating Amazon CloudWatch alarms
了解工作负载的预期活动模式
在工作负载成果面临风险时发出提醒
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
在检测到工作负载异常时发出提醒
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
验证实现的成果以及 KPI 和指标的有效性
Using Amazon CloudWatch dashboards
What is log analytics?