此内容已过时。此版本的架构完善的框架现在可在以下位置找到: https://docs.aws.amazon.com/zh_cn/wellarchitected/2022-03-31/framework/operational-excellence.html

OPS 11: 如何改进运营?

分配专用的时间和资源用于持续增量改进,以便提高运营的有效性和效率。

最佳实践:

改进计划

设置持续改进流程

  • 定义持续改进流程: 定期评估各种改进机会并确定其优先顺序,以便将精力集中在可以实现最大收益的工作上。实施更改以便改进,并评估成果以便确定是否成功。如果成果不符合目标并且仍然需要改进,则寻求其他行动方案。运营流程中应该分配专用的时间和资源,以便实现持续增量改进。
  • 在意外事件发生后执行分析

  • 通过流程来确定事件成因: 审查所有影响客户的意外事件。设置流程来确定和记录导致意外事件的因素,以便制定缓解措施来限制或防止事件再次发生,并且您还可以据此制定及时有效的应对措施。在适当的情况下向目标受众说明根本原因。
  • 设置反馈环路

  • 反馈环路: 在运营活动中设置各种程序,以便记录来自活动执行过程的反馈,确定需要改进的方面。
  • 执行知识管理

  • 知识管理: 确保制定机制,以方便您的团队成员及时发现和访问他们正在寻找的信息,并确定信息是最新且完整的。维护机制,以确定所需的内容、需要更新的内容以及应存档的内容(以便不再引用它们)。
  • 确定推动改进的因素

  • 了解推动改进的因素: 您只应该在能够实现所需成果的情况下更改某个系统。
  • 验证分析结果

  • 验证分析结果: 与业务负责人和主题专家沟通,以确保对您收集的数据的价值达成共识和一致。确定其他问题、潜在影响并制定行动方案。
  • 审核运营指标

  • 审核运营指标: 定期与来自不同业务领域的跨团队参与者对运营指标进行回顾性分析。与包括业务、开发和运营团队在内的利益相关方共同分析通过即时反馈和回顾性分析得到的发现,并分享经验教训。根据他们的见解来确定改进机会和可能的行动方案。
    Amazon CloudWatch
    Using Amazon CloudWatch metrics
    Publish custom metrics
    Amazon CloudWatch metrics and dimensions reference
  • 记录和分享经验教训

  • 记录和分享经验教训: 设置程序来记录在运营活动执行和回顾性分析过程中获得的经验教训,供其他团队利用。
  • 分配时间进行改进

  • 分配时间进行改进: 流程中专用的时间和资源可以实现持续增量改进。实施更改以便改进,并评估结果以确定是否成功。如果结果不符合目标,并且仍然需要改进,则寻求其他行动方案。