OPS 10: 您如何应对工作负载事件和运营事件?
制定和验证用于响应事件的程序,以便尽可能减少其对工作负载的干扰。
资源
Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?
最佳实践:
-
使用流程来管理事件、意外事件和问题: 设置流程,用于处理发现的事件、需要干预的事件(意外事件)和需要干预并且要么会重复发生要么当前无法解决的事件(问题)。借助这些流程确保及时恰当的响应,以便减轻这些事件对业务和客户的影响。
-
针对每个提醒设置一个流程: 针对引发提醒的任何事件制定明确的响应措施(运维手册或管理手册),并明确指定负责人。这样可以确保您及时有效地响应运营事件,并防止可以针对其采取措施的事件被不重要的通知所掩盖。
-
根据业务影响确定运营事件的优先顺序: 确保在多个事件需要干预时,优先处理对业务最为重要的事件。举例来说,人身伤亡、经济损失、名誉或信任损害都是一种影响。
-
定义上报路径: 在运维手册和管理手册中定义上报路径,包括触发上报的事件和上报程序。明确指定每项措施的负责人,以便确保有效而及时地响应运营事件。
-
启用推送通知: 在用户使用的服务受到影响以及这些服务的运行状况再次恢复正常时,直接与用户联系(例如通过电子邮件或 SMS),确保用户采取适当的措施。
-
通过控制面板展现状况信息: 提供为目标受众(例如内部技术团队、领导和客户)专门设计的控制面板,以传达业务当前的运营状况并提供值得关注的指标。
-
自动响应事件: 自动响应事件以便减少由手动流程引起的错误,并确保响应及时并且一致。
改进计划
使用流程来管理事件、意外事件和问题
针对每个提醒设置一个流程
根据业务影响确定运营事件的优先顺序
定义上报路径
启用推送通知
Amazon SES features
What is Amazon SES?
Set up Amazon SNS notifications
通过控制面板展现状况信息
CloudWatch dashboards create and use customized metrics views
自动响应事件
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services