此内容已过时。此版本的架构完善的框架现在可在以下位置找到: https://docs.aws.amazon.com/zh_cn/wellarchitected/2022-03-31/framework/reliability.html

REL 6: 如何监控工作负载资源?

日志和指标是用于了解工作负载运行状况的强大工具。您可以配置工作负载以监控日志和指标,并在超出阈值或发生重大事件时发送通知。监控让您的工作负载可以发现超出低性能阈值和发生故障的情形,从而在响应中自动恢复。

资源

Using Amazon CloudWatch Metrics
Publishing Custom Metrics
Using Amazon CloudWatch Dashboards
Using Canaries (Amazon CloudWatch Synthetics)
Amazon CloudWatch Logs Insights Sample Queries
AWS Systems Manager Automation
What is AWS X-Ray?
Debugging with Amazon CloudWatch Synthetics and AWS X-Ray
The Amazon Builders' Library: Instrumenting distributed systems for operational visibility

最佳实践:

改进计划

为工作负载监控全部组件(生成)

  • 启用日志记录功能(如适用): AWS 有可供使用的监控和日志信息。监控信息和日志可以用于定义警报、更改和恢复流程
  • 使用所有默认指标: 每项服务都生成默认指标。评估这些指标,以便确定每项服务上的哪些指标需要设置警报。
    AWS Services That Publish CloudWatch Metrics
  • 您可通过 CloudWatch Synthetics 设置 Canary 测试
    Amazon CloudWatch Logs Insights Sample Queries
  • 创建您自己使用的自定义指标: AWS 不会生成某些指标或指标组合,但是您可以使用自定义指标来创建
    Publish custom metrics
  • 聚合日志: 日志聚合让您可以在一个位置查看日志记录并设置警报
  • 定义与计算指标(聚合)

  • 定义与计算指标(聚合): 存储日志数据并在必要时应用筛选条件以计算指标,例如,特定日志事件的数量,或从日志事件时间戳计算得到的延迟
  • 发送通知(实时处理和警报)

  • 执行实时处理和报警: 发生重大事件时,需要知晓的组织会收到通知
  • 自动响应(实时处理和警报)

  • 使用 AWS Systems Manager 执行自动化操作: AWS Config 会持续监视和记录您的 AWS 资源配置,还可以触发 AWS Systems Manager Automation 以修正问题
    AWS Systems Manager Automation
  • Amazon CloudWatch 向 Amazon EventBridge 发送警报状态更改事件。创建 EventBridge 规则以自动化响应
    Creating an EventBridge Rule That Triggers on an Event from an AWS Resource
  • 创建和执行自动化响应计划
  • 存储与分析

  • 借助 CloudWatch Logs Insights,您可对 Amazon CloudWatch Logs 中的日志数据进行交互搜索和分析
    Analyzing Log Data with CloudWatch Logs Insights
    Amazon CloudWatch Logs Insights Sample Queries
  • 使用 Amazon CloudWatch Logs 将日志发送到 Amazon S3 以供使用,或发送到 Amazon Athena 以查询数据
    How do I analyze my Amazon S3 server access logs using Athena?
  • 定期进行审核

  • 为工作负载创建多个控制面板: 您必须具有顶级控制面板,其中包含关键业务指标,以及已确定与使用情况发生变化时工作负载的预期运行状况最相关的技术指标。您还应该具有可以检查的各种应用程序层和依赖项的控制面板
    Using Amazon CloudWatch Dashboards
  • 计划和执行工作负载控制面板常规检查: 执行控制面板常规检查。您可能对检查深度具有不同的安排
  • 对通过系统的请求的端到端跟踪进行监控

  • 对通过系统的请求的端到端跟踪进行监控: AWS X-Ray 服务用于收集有关应用程序所服务的请求的数据,并提供工具来供您用来查看、筛选和深入了解该数据,以识别问题和优化机会。对于有关应用程序的任何跟踪请求,您将不仅可以查看有关请求和响应的详细信息,还可以查看应用程序对下游 AWS 资源、微服务、数据库和 HTTP Web API 进行调用的详细信息
    What is AWS X-Ray?
    Debugging with Amazon CloudWatch Synthetics and AWS X-Ray