OPS 11: 如何改进运营?
分配专用的时间和资源用于持续增量改进,以便提高运营的有效性和效率。
最佳实践:
-
设置持续改进流程: 定期评估各种改进机会并确定其优先顺序,以便集中精力处理可以实现最大收益的工作。
-
在意外事件发生后执行分析: 审核影响客户的事件,确定导致这些事件的因素和预防措施。利用这些信息来制定缓解措施,以限制或防止再次发生同类事件。制定程序以迅速有效地做出响应。根据目标受众,适当传达事件成因和纠正措施。
-
设置反馈环路: 在程序和工作负载中设置反馈环路,有助于发现问题和需要改进的方面。
-
执行知识管理: 执行机制,以方便您的团队成员及时发现和访问他们正在寻找的信息,并确定信息是最新且完整的。制定适当的机制,以确定所需的内容、需要更新的内容以及应存档的内容(以便不再引用它们)。
-
确定推动改进的因素: 确定推动改进的因素,以便评估各种机会并确定其优先顺序。
-
验证分析结果: 与跨职能团队和业务负责人共同查看分析结果和响应措施。通过这些工作来建立共识、发现其他影响并确定行动方案。适当调整响应措施。
-
审核运营指标: 定期与来自不同业务领域的跨团队参与者对运营指标进行回顾性分析。通过这些分析来确定改进机会和可能的行动方案,并分享经验教训。
-
记录和分享经验教训: 记录和分享在运营活动执行过程中获得的经验教训,以便在内部和不同团队中利用。
-
分配时间进行改进: 流程中专用的时间和资源可以实现持续增量改进。
改进计划
设置持续改进流程
在意外事件发生后执行分析
设置反馈环路
- 即时反馈: 即时反馈来自运营活动的执行过程,在执行过程中分析执行情况和成果,能够发现流程可以改进。反馈可以来自客户、团队成员或某项活动的自动输出。如果改进的工作量较小或者收益非常大,可以考虑立即实施改进。在适当情况下跟踪待办事项或问题系统中的改进机会。例如,如果某个流程将数据暂存在中间设备上,那么可以通过将数据直接放置到目标环境中来优化这一流程。这样可以减少流程中的一个步骤,并消除对中间资源的需求。
- 回顾性分析:
定期进行回顾性分析,可以获得在运营成果审核和指标审核过程中产生的反馈。利用趋势来发现需要改进的方面。例如,分析部署失败率可以发现开发和部署活动中的潜在问题何时出现。
Serverless big data analytics - Amazon Athena and Amazon QuickSight - 2017 AWS Online Tech Talks
View AWS CodeDeploy logs in Amazon CloudWatch console
Analyzing VPC flow logs with Amazon Kinesis Firehose, Amazon Athena, and Amazon QuickSight
执行知识管理
确定推动改进的因素
- 需要的功能:
在评估改进机会时评估需要的特性和功能。
What's New with AWS - 无法接受的问题:
在评估改进机会时评估无法接受的问题、错误和漏洞。
AWS Latest Security Bulletins
AWS Trusted Advisor - 合规性要求:
在分析改进机会时评估保持监管和政策合规性或获取第三方支持所需的更新和更改。
AWS Compliance
AWS Compliance Programs
AWS Compliance Latest News
验证分析结果
审核运营指标
Amazon CloudWatch
Using Amazon CloudWatch metrics
Publish custom metrics
Amazon CloudWatch metrics and dimensions reference
记录和分享经验教训
- 分享经验教训:
设置程序在不同团队中分享经验教训和相关项目。例如,通过可以访问的 Wiki 共享更新后的程序、指南、管理机制和最佳实践;通过公共存储库共享脚本、代码和库。
Delegating access to your AWS environment
Share an AWS CodeCommit repository
Easy authorization of AWS Lambda functions
Sharing an AMI with specific AWS Accounts
Speed template sharing with an AWS CloudFormation designer URL
Using AWS Lambda with Amazon SNS
分配时间进行改进