OPS 9: 您如何了解自己的运营状况?
定义、记录和分析运营指标以便了解运营事件,从而采取适当的措施。
资源
Build a Monitoring Plan
Detect and React to Changes in Pipeline State with Amazon CloudWatch Events
AWS Answers: Centralized Logging
最佳实践:
-
识别关键性能指标: 根据期望的业务成果(如交付新功能)和客户成果(如客户支持案例)识别识别关键性能指标 (KPI)。评估 KPI 以便确定运营是否成功。
-
定义运营指标: 定义运营指标以衡量 KPI 的实现情况(例如,成功的部署和失败的部署)。定义运营指标以衡量运营活动的运行状况(例如,事件的平均检测时间 (MTTD) 和事件的平均恢复时间 (MTTR))。评估指标以便确定运营是否已实现期望的成果,并了解运营活动的运行状况。
-
收集和分析运营指标: 定期主动审核各种指标,以便发现趋势并确定哪里需要做出适当响应。
-
建立运营指标基准: 建立指标基准以便提供预期值,作为比较和识别运营活动执行不足和运营活动执行过度的依据。
-
了解运营的预期活动模式: 建立运营活动的模式来识别异常行为,以便您在必要时做出适当响应。
-
在运营成果面临风险时发出提醒: 在运营成果面临风险时发出提醒,从而在必要时做出适当响应。
-
在检测到运营异常时发出提醒: 在检测到运营异常时发出提醒,从而在必要时做出适当响应。
-
验证实现的成果以及 KPI 和指标的有效性 : 在业务层面查看运营活动,以便帮助您确定自己是否满足需求,并确定需要改进哪些方面才能实现业务目标。验证 KPI 和指标的有效性并在需要时进行修改。
改进计划
识别关键性能指标
定义运营指标
Publish custom metrics
Searching and filtering log data
Amazon CloudWatch metrics and dimensions reference
收集和分析运营指标
Using Amazon CloudWatch metrics
Amazon CloudWatch metrics and dimensions reference
Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent
建立运营指标基准
了解运营的预期活动模式
在运营成果面临风险时发出提醒
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
在检测到运营异常时发出提醒
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
验证实现的成果以及 KPI 和指标的有效性
Using Amazon CloudWatch dashboards
What is log analytics?