此内容已过时。此版本的架构完善的框架现在可在以下位置找到： https://docs.aws.amazon.com/zh_cn/wellarchitected/2022-03-31/framework/performance-efficiency.html

PERF 7: 如何监控资源以确保其性能？

系统性能会随着时间的推移而降低。监控系统性能，以发现性能降低的情况，并针对内部或外部因素（例如操作系统或应用程序负载）采取修复措施。

资源

Cut through the chaos: Gain operational visibility and insight (MGT301-R1)
X-Ray Documentation
CloudWatch Documentation
Monitoring, Logging, and Performance APN Partners

最佳实践:

记录与性能相关的指标: 使用监控和可观察性服务来记录性能相关的指标。例如，记录数据库事务、慢查询、I/O 延迟、HTTP 请求吞吐量、服务延迟或其他关键数据。
在发生事件或意外事件时分析各项指标: 在某个事件或意外事件发生后（或发生过程中），使用监控控制面板或报告来了解和诊断影响。这些视图可让您了解工作负载哪些部分的性能没有达到预期。
建立关键性能指标 (KPI) 来衡量工作负载性能: 确定用于指示工作负载性能是否达到预期的 KPI。例如，基于 API 的工作负载可以使用整体响应延迟来指示整体性能，电子商务网站可以使用购买量作为其 KPI。
借助监控来生成基于告警的通知: 根据您定义的与性能相关的关键性能指标 (KPI)，使用当测量值超出预期范围时能够自动生成警报的监控系统。
定期检查指标: 在例行维护时，或者事件或意外事件发生后，检查收集到了哪些指标。通过这些检查，找出哪些指标对于解决问题至关重要，以及跟踪哪些其他指标会有助于发现、解决问题或预防问题发生。
主动监控和警报: 使用关键性能指标 (KPI) 并结合监控和警报系统，主动解决与性能相关的问题。使用警报触发自动操作，以便在可能的情况下修复问题。如果无法实现自动响应，则将告警上报给能够响应的人员。例如，您的系统在关键性能指标 (KPI) 超出特定阈值时，能够预测预期 KPI 值并发出警报；或者您的工具在 KPI 超出预期值时，能够自动停止或回滚部署。

改进计划

记录与性能相关的指标

记录性能数据: 确定与工作负载相关的性能指标并记录下来。这些数据可以帮助确定哪些组件会影响工作负载的整体性能或效率。

确定性能指标: 根据客户体验来确定最重要的指标。确定每个指标的目标、衡量方式和优先程度。根据这些数据创建告警和通知，以主动解决与性能相关的问题。

在发生事件或意外事件时分析各项指标

优先考虑重要用户案例的体验问题: 针对架构编写重要用户案例时，请纳入性能要求，例如指定每个重要案例应以多快速度执行。对于这些重要案例，实施额外的脚本用户历程，以确保您知道这些用户案例如何根据您的要求执行。

建立关键性能指标 (KPI) 来衡量工作负载性能

定义客户体验: 记录客户要求的性能体验，包括客户对工作负载性能的评价。根据这些要求确定您的 KPI，用于指示系统的整体性能情况。

测试用户体验: 使用合成或净化的生产数据（删除敏感信息或身份识别信息）进行负载测试。在应用程序中大规模使用重演或预先编程的用户体验，从而演练整个架构。

借助监控来生成基于告警的通知

监控指标: Amazon CloudWatch 可以收集架构中各种资源的指标。您可以收集和发布自定义指标，用于显示业务指标或派生指标。可以使用 CloudWatch 或第三方监控服务来设置超出阈值时显示的警报。

定期检查指标

不断改进指标收集和监控: 在响应意外事件或事件的过程中，评估哪些指标有助于解决问题、哪些目前没有跟踪的指标会有助于解决问题。通过这种方法，您可以提高收集的指标的质量，从而预防或更快速地解决未来发生的意外事件。

主动监控和警报

在运行期间监控性能: 实施相应流程，让您在工作负载运行期间了解其性能。构建监控控制面板并建立性能预期基准。