PERF 7: 如何监控资源以确保其性能?
系统性能会随着时间的推移而降低。监控系统性能,以发现性能降低的情况,并针对内部或外部因素(例如操作系统或应用程序负载)采取修复措施。
资源
 
               Cut through the chaos: Gain operational visibility and insight (MGT301-R1)
               
 
               X-Ray Documentation
               
 
               CloudWatch Documentation
               
 
               Monitoring, Logging, and Performance APN Partners
               
最佳实践:
- 
               记录与性能相关的指标: 使用监控和可观察性服务来记录性能相关的指标。例如,记录数据库事务、慢查询、I/O 延迟、HTTP 请求吞吐量、服务延迟或其他关键数据。 
- 
               在发生事件或意外事件时分析各项指标: 在某个事件或意外事件发生后(或发生过程中),使用监控控制面板或报告来了解和诊断影响。这些视图可让您了解工作负载哪些部分的性能没有达到预期。 
- 
               建立关键性能指标 (KPI) 来衡量工作负载性能: 确定用于指示工作负载性能是否达到预期的 KPI。例如,基于 API 的工作负载可以使用整体响应延迟来指示整体性能,电子商务网站可以使用购买量作为其 KPI。 
- 
               借助监控来生成基于告警的通知: 根据您定义的与性能相关的关键性能指标 (KPI),使用当测量值超出预期范围时能够自动生成警报的监控系统。 
- 
               定期检查指标: 在例行维护时,或者事件或意外事件发生后,检查收集到了哪些指标。通过这些检查,找出哪些指标对于解决问题至关重要,以及跟踪哪些其他指标会有助于发现、解决问题或预防问题发生。 
- 
               主动监控和警报: 使用关键性能指标 (KPI) 并结合监控和警报系统,主动解决与性能相关的问题。使用警报触发自动操作,以便在可能的情况下修复问题。如果无法实现自动响应,则将告警上报给能够响应的人员。例如,您的系统在关键性能指标 (KPI) 超出特定阈值时,能够预测预期 KPI 值并发出警报;或者您的工具在 KPI 超出预期值时,能够自动停止或回滚部署。 
改进计划
记录与性能相关的指标
在发生事件或意外事件时分析各项指标
建立关键性能指标 (KPI) 来衡量工作负载性能
借助监控来生成基于告警的通知
定期检查指标
主动监控和警报
