此内容已过时。此版本的架构完善的框架现在可在以下位置找到: https://docs.aws.amazon.com/zh_cn/wellarchitected/2022-03-31/framework/operational-excellence.html

OPS 10: 您如何应对工作负载事件和运营事件?

制定和验证用于响应事件的程序,以便尽可能减少其对工作负载的干扰。

资源

Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?

最佳实践:

改进计划

使用流程来管理事件、意外事件和问题

  • 使用流程来管理事件、意外事件和问题: 设置流程,用于处理发现的事件、需要干预的事件(意外事件)和需要干预并且要么会重复发生要么当前无法解决的事件(问题)。借助这些流程确保及时恰当的响应,以便减轻这些事件对业务和客户的影响。
  • 针对每个提醒设置一个流程

  • 提醒响应流程: 对于引发提醒的任何事件,都要制定明确的响应措施(运维手册或管理手册),并明确指定负责其成功执行的负责人(例如个人、团队或角色)。响应的执行可能是自动的,也可能由其他团队完成,但是负责人应负责确保响应流程获得预期的成果。设置这些流程可以确保您及时有效地响应运营事件,并防止可以针对其采取措施的事件被不重要的通知所掩盖。例如,可以实施自动扩展来扩展 Web 前端,但是运营团队应负责确保自动扩展规则和限制符合工作负载需求。
  • 根据业务影响确定运营事件的优先顺序

  • 根据业务影响确定运营事件的优先顺序: 确保在多个事件需要干预时,优先处理对业务最为重要的事件。举例来说,影响可能包括人身伤亡、经济损失、违规、名誉或信任损害。
  • 定义上报路径

  • 定义上报路径: 在运维手册和管理手册中定义上报路径,包括触发上报的事件和上报程序。例如,当运维手册无法解决问题或者预定义的时间已经过去时,将问题从支持工程师升级给高级支持工程师。当管理手册无法确定修复路径或者预定义的时间已经过去时,将问题从高级工程师升级给开发团队也是一种正确的升级路径。明确指定每项措施的负责人,以便确保有效而及时地响应运营事件。升级可以涉及第三方。例如某个网络连接提供商或软件供应商。升级可以涉及负责受影响的系统并且获得授权的决策者。
  • 启用推送通知

  • 启用推送通知: 在用户使用的服务受到影响以及这些服务的运行状况恢复正常时,直接与用户联系(例如通过电子邮件或 SMS),确保用户采取相应的措施。
    Amazon SES features
    What is Amazon SES?
    Set up Amazon SNS notifications
  • 通过控制面板展现状况信息

  • 通过控制面板展现状况信息: 提供为目标受众(例如内部技术团队、领导和客户)专门设计的控制面板,以传达业务当前的运营状况并提供值得关注的指标。提供用于获取状态信息的自助选项,可以减少负责处理状态请求的运营团队的中断。例如 Amazon CloudWatch 控制面板和 AWS Personal Health Dashboard。
    CloudWatch dashboards create and use customized metrics views
  • 自动响应事件

  • 自动响应事件: 自动响应事件以便减少由手动流程引起的错误,并确保响应及时并且一致。
    What is Amazon CloudWatch Events?
    Creating a CloudWatch Events rule that triggers on an event
    Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
    CloudWatch Events event examples from supported services