卓越运营

卓越运营 支柱包括 能够有效地支持发展和运行工作负载,获取对运营的洞察,以及不断改进支持流程和程序以实现业务价值。

卓越运营支柱概述了各种设计原则、最佳实践和问题。如需有关具体实施的说明性指导,请参阅卓越运营支柱白皮书

设计原则

云中的 卓越运营 有 five 项设计原则:

定义

云中的 卓越运营 有 four 个最佳实践领域:

您的组织领导层负责定义业务目标。您的组织必须了解各种要求和重点,并利用它们来组织和开展工作,从而为获得业务成果提供支持。您的工作负载必须发出所需信息以提供支持。采用多种服务来支持工作负载的集成、部署和交付,这将通过自动化重复流程,增加对生产的有益更改。

工作负载的运营可能存在固有风险。您必须了解这些风险并做出明智的生产决策。您的团队必须能够支持您的工作负载。从预期业务成果中得出的业务和运营指标将使您能够了解工作负载的运行状况、运营活动以及对事件的响应。您的重点将随着您的业务需求和业务环境的变化而变化。将这些作为反馈循环,持续推动组织和工作负载运营的改进。

最佳实践

组织

您的团队需要对整个工作负载、他们在其中的角色以及共同的业务目标有一致的理解,以便设置运营重点以实现业务成功。明确运营重点可以让您的工作效益最大化。评估内部和外部客户需求,让包括业务、开发和运营团队在内的主要利益相关方参与进来,以便确定工作重心。评估客户需求将确保您充分了解实现业务成果所需的支持。确保了解组织监管规定的指导原则或义务,以及监管合规性要求和行业标准等可能需要遵循或重视的外部因素。验证您是否具有确定内部监管和外部合规性要求更改的机制。如果未确定要求,请确保您已对此决定进行尽职调查。定期审查您的运营重点,以便在需求发生变化时对其进行更新。

评估业务面临的威胁(例如业务风险和负债以及信息安全威胁),并在风险注册表中维护这些信息。评估风险的影响,在有冲突的利益或替代方法之间做出权衡。例如,新功能的加速上市可能会比成本优化更重要,或者您可以为非关系数据选择关系数据库来简化系统迁移工作,而无需重构。管理收益和风险,以便在确定工作重心时做出明智的决策。有些风险或选择可能在一段时间内可以接受,这可能会降低相关风险,或者允许风险继续存在可能会令人无法接受,在这种情况下,您将采取措施来化解风险。

TRANSLATION REQUIRED

确保每个应用程序、工作负载、平台和基础设施组件都有确定的负责人,并且每个流程和程序都有确定的负责人负责其定义,有负责人负责其性能。了解每个组件、流程和程序的业务价值,了解为什么要配置这些资源或为什么要执行这些活动,以及为什么要拥有该所有权,这些都有助于确定团队成员的行动。清晰定义团队成员的责任以便他们可以适当地采取行动,并制定相关机制,确定责任和所有权。制定用于请求添加、更改和例外的机制,以免限制创新。在团队之间定义协议,描述团队之间如何开展合作以相互支持以及您的业务成果。

为您的团队成员提供支持,以便他们可以更有效地采取行动并为您的业务成果提供支持。参与其中的高层领导应设定期望并衡量是否成功。他们应是采用最佳实践和组织发展的发起人、倡导者和推动者。授权团队成员在成果面临风险时采取行动以尽可能减少影响,并鼓励他们在认为存在风险时向决策者和利益相关者上报,以便解决问题并避免事故。及时、清晰、可行地传达已知风险和计划内事件,以便团队成员可以及时采取适当行动。

TRANSLATION REQUIRED

TRANSLATION REQUIRED

TRANSLATION REQUIRED

TRANSLATION REQUIRED

以下问题主要针对 卓越运营 的准备阶段。

OPS 1: 您如何确定自己的重点?
OPS 2: 如何构建组织结构来为业务成果提供支持?
OPS 3: 组织文化如何为业务成果提供支持?

TRANSLATION REQUIRED

准备

要为卓越运营做好准备,您必须了解您的工作负载及其预期行为。然后,您需要能够针对它们进行设计,以提供对其状态的洞察并构建程序以提供支持。

将工作负载设计成能够提供必要的信息,以便您了解其所有组件的内部状态(例如指标、日志、事件和跟踪信息),为可观测性和调查问题提供支持。迭代开发必要的遥测技术,以监控工作负载的运行状况,确定结果何时面临风险并做出有效响应。在检测工作负载时,请捕获一组广泛的信息以启用情景感知(例如,状态变化、用户活动、特权访问和利用率计数器等的变更),因为您可以随时间变化筛选最有用的信息。

采用改进生产调整流程并支持重构、快速质量反馈和错误修复的方法。这些方法可以加快有益更改进入生产环境的速度、减少产生的问题,并能够快速识别和修复通过部署活动引入的问题或在环境中发现的问题。

采用提供快速质量反馈,并且若更改没有达到目标成效,则支持快速恢复的方法。使用这些实践可以减轻因部署更改而产生的问题的影响。制定计划以防更改不成功,这样在必要时能够更快速的响应,并测试和验证所做的更改。了解环境中的计划活动,以便可以管理更改风险,避免影响计划活动。强调频繁、小规模、可逆更改,以限制更改范围。这样可以简化故障排除工作、加快修复速度,并支持回滚更改。此外,还意味着能够更频繁地从有价值的更改中获益。

评估工作负载、流程和程序以及工作人员的运营准备就绪情况,以了解与工作负载相关的运营风险。您应该使用一致的流程(包括手动或自动化检查清单)来了解何时可运营工作负载或进行更改。这也使您能够发现需要制定计划予以解决的任何问题。准备好记录日常活动的运行手册和指导问题解决流程的行动手册。了解收益和风险,以便做出明智的决策,从而使更改应用到生产环境。

TRANSLATION REQUIRED

以下问题主要针对 卓越运营 的准备阶段。

OPS 4: 如何设计工作负载以便自己了解其状态?
OPS 5: 如何减少缺陷、简化修复和改进生产流程?
OPS 6: 您如何缓解部署风险?
OPS 7: 如何知道您已经准备好支持某种工作负载?

对代码化运营进行投资,以最大限度地提高运营人员的工作效率,最大限度地降低错误率,并实现自动响应。使用“预先检验”来预测故障,并在适当的时候创建程序。使用资源标签和 AWS Resource Groups,按照一致的标记策略应用元数据,以标识您的资源。标记您的资源,以便进行整理、成本核算、访问控制并有针对性地自动执行操作活动。利用云的弹性特点结合相应部署实践,来推动开发活动和系统的预部署,以加快部署速度。当您对用于评估工作负载的检查清单进行更改时,请计划要对不再符合条件的活动系统执行哪些操作。

运营

TRANSLATION REQUIRED

要实现卓越运营,您需要进行高效且有效的运营事件管理。这适用于计划内和计划外的运营事件。使用已确定的运行手册解决易于理解的事件,并使用行动手册来帮助调查和解决问题。您需要根据事件对业务和客户的影响排定其优先级。务必确保在出现事件警报时,会有指定负责人启动相关流程。事先定义解决事件所需的人员,并配备一个上报触发器,以便根据紧急程度和影响在必要时引入额外人员。确定并引入有权决定行动方案的人员,这些行动方案将对之前未解决的事件响应产生业务影响。

通过为目标受众(例如,客户、业务人员、开发人员、运营人员)定制的控制面板和通知来发布工作负载的运行状态,以便他们可以采取相应措施、管理预期,并在恢复正常运营时收到通知。

在 AWS 中,您可以为收集的工作负载指标和 AWS 自带指标生成控制面板视图。您可以利用 CloudWatch 或第三方应用程序来聚合和呈现运营活动的业务、工作负载和运营级别视图。AWS 通过日志记录功能(包括 AWS X-Ray、CloudWatch、CloudTrail 和 VPC 流日志)提供工作负载洞察,从而帮助识别工作负载问题,以支持根本原因分析和修复。

以下问题主要针对 卓越运营 的准备阶段。

OPS 8: 您如何了解工作负载的运行状况?
OPS 9: 您如何了解自己的运营状况?
OPS 10: 您如何应对工作负载事件和运营事件?

TRANSLATION REQUIRED

演进

必须学习、分享和不断改进,以保持卓越运营。专注于工作周期,以持续进行渐进式改进。对影响客户的所有事件执行事件后分析。确定导致这些事件的因素和预防措施,以限制或防止再次发生。根据需要与受影响的团体沟通导致这些事件的因素。定期评估并优先处理改进机会(例如,功能请求、问题修复和合规性要求),包括工作负载和运营程序。将反馈周期纳入您的流程,以快速确定需要改进的领域,并从运营执行中获取经验教训。

在团队中分享得到的经验教训,并从中受益。分析经验教训中的趋势,并对运营指标进行跨团队回顾性分析,以确定改进的机会和方法。实施改进措施,并评估结果以确定是否成功。

TRANSLATION REQUIRED

以下问题主要针对 卓越运营 的准备阶段。

OPS 11: 如何改进运营?

运营的成功演进建立在以下基础上:频繁的小规模改进;提供安全的环境和时间来试验、开发和测试改进;以及鼓励人们从失败中获取经验教训的整体氛围。随着运营控制水平的提高,对于沙箱、开发、测试和生产环境的运营支持促进了开发,并提高了对生产环境中部署的变更结果成功与否的可预测性。

资源

请参阅以下资源,详细了解有关 卓越运营 的最佳实践。

Operational Excellence Pillar
DevOps and AWS
DevOps at Amazon