此内容已过时。此版本的架构完善的框架现在可在以下位置找到: https://docs.aws.amazon.com/zh_cn/wellarchitected/2022-03-31/framework/operational-excellence.html

卓越运营

卓越运营 支柱包括 能够有效地支持发展和运行工作负载,获取对运营的洞察,以及不断改进支持流程和程序以实现业务价值。

卓越运营支柱概述了各种设计原则、最佳实践和问题。如需有关具体实施的说明性指导,请参阅卓越运营支柱白皮书

设计原则

云中的 卓越运营 有 five 项设计原则:

定义

云中的 卓越运营 有 four 个最佳实践领域:

您的组织领导层负责定义业务目标。您的组织必须了解各种要求和重点,并利用它们来组织和开展工作,从而为获得业务成果提供支持。您的工作负载必须发出所需信息以提供支持。采用多种服务来支持工作负载的集成、部署和交付,这将通过自动化重复流程,增加对生产的有益更改。

工作负载的运营可能存在固有风险。您必须了解这些风险并做出明智的生产决策。您的团队必须能够支持您的工作负载。从预期业务成果中得出的业务和运营指标将使您能够了解工作负载的运行状况、运营活动以及对事件的响应。您的重点将随着您的业务需求和业务环境的变化而变化。将这些作为反馈循环,持续推动组织和工作负载运营的改进。

最佳实践

组织

您的团队需要对整个工作负载、他们在其中的角色以及共同的业务目标有一致的理解,以便设置运营重点以实现业务成功。明确运营重点可以让您的工作效益最大化。评估内部和外部客户需求,让包括业务、开发和运营团队在内的主要利益相关方参与进来,以便确定工作重心。评估客户需求将确保您充分了解实现业务成果所需的支持。确保了解组织监管规定的指导原则或义务,以及监管合规性要求和行业标准等可能需要遵循或重视的外部因素。验证您是否具有确定内部监管和外部合规性要求更改的机制。如果未确定要求,请确保您已对此决定进行尽职调查。定期审查您的运营重点,以便在需求发生变化时对其进行更新。

评估业务面临的威胁(例如业务风险和负债以及信息安全威胁),并在风险注册表中维护这些信息。评估风险的影响,在有冲突的利益或替代方法之间做出权衡。例如,新功能的加速上市可能会比成本优化更重要,或者您可以为非关系数据选择关系数据库来简化系统迁移工作,而无需重构。管理收益和风险,以便在确定工作重心时做出明智的决策。有些风险或选择可能在一段时间内可以接受,这可能会降低相关风险,或者允许风险继续存在可能会令人无法接受,在这种情况下,您将采取措施来化解风险。

您的团队必须了解他们在实现业务成果方面所发挥的作用。团队需要了解自己在其他团队获得成功过程中所扮演的角色、其他团队在他们获得成功的过程中所扮演的角色,并设定共同的目标。了解责任分配、所有权归属、决策制定方式以及决策者将有助于集中精力,最大限度地发挥团队的优势。团队的需求将由其所支持的客户、所在组织、团队的组成以及工作负载的特征决定。期望单个运营模式能够支持组织中的所有团队及其工作负载是不合理的。

确保每个应用程序、工作负载、平台和基础设施组件都有确定的负责人,并且每个流程和程序都有确定的负责人负责其定义,有负责人负责其性能。了解每个组件、流程和程序的业务价值,了解为什么要配置这些资源或为什么要执行这些活动,以及为什么要拥有该所有权,这些都有助于确定团队成员的行动。清晰定义团队成员的责任以便他们可以适当地采取行动,并制定相关机制,确定责任和所有权。制定用于请求添加、更改和例外的机制,以免限制创新。在团队之间定义协议,描述团队之间如何开展合作以相互支持以及您的业务成果。

为您的团队成员提供支持,以便他们可以更有效地采取行动并为您的业务成果提供支持。参与其中的高层领导应设定期望并衡量是否成功。他们应是采用最佳实践和组织发展的发起人、倡导者和推动者。授权团队成员在成果面临风险时采取行动以尽可能减少影响,并鼓励他们在认为存在风险时向决策者和利益相关者上报,以便解决问题并避免事故。及时、清晰、可行地传达已知风险和计划内事件,以便团队成员可以及时采取适当行动。

鼓励进行试验,以加快学习速度,并使团队成员保持兴趣和参与热情。团队必须增强自己的技能组合,以采用新技术,并随需求和责任的变化继续提供支持。专门安排学习时间,以提供支持并鼓励参与其中。确保您的团队成员拥有取得成功所需的资源(包括工具和团队成员),并具有支持您的业务成果的规模。利用跨组织的多样性来寻求多种独特的见解。利用这种见解提高创新能力、对您的假设提出质疑,并降低确认偏差的风险。在团队内部提升包容性、多样性和可达性有助于获取有益的见解。

如果存在适用于您组织的外部法规或合规性要求,则应使用 AWS 云合规性提供的资源来帮助培训您的团队,以便他们能够确定运营重点会受到的影响。架构完善的框架强调学习、衡量和改进。它为您提供了一种一致的方法来评估架构,并实施将随着时间推移而扩展的设计。AWS 提供了 AWS 架构完善的工具,可帮助您在开发之前查看方法、生产前的工作负载状态以及生产中的工作负载状态。您可以将其与最新的 AWS 架构最佳实践进行比较,监控工作负载的整体状态,并深入了解潜在风险。AWS Trusted Advisor 是一种工具,让您可以访问一组核心检查,这些检查会提出优化建议,帮助确定您的运营重点。商业支持和企业支持客户可以访问其他检查,这些检查重点关注安全性、可靠性、性能和成本优化,可进一步帮助他们帮助确定运营重点。

AWS 可以帮您向团队介绍 AWS 及其服务,让他们深入了解自己的选择会如何影响工作负载。您应该使用由 AWS Support(AWS 知识中心、AWS 开发论坛和 AWS Support 中心)和 AWS 文档提供的资源来培训您的团队。请通过 AWS Support 中心联系 AWS Support,获取与 AWS 问题有关的帮助。AWS 还分享了我们通过在 Amazon Builders' Library 中的 AWS 运营学到的最佳实践和模式。您可以通过 AWS 博客和 AWS 官方播客,获得各种其他有用信息。AWS Training and Certification 提供了一些免费培训,可以通过自定进度的数字课程,学习 AWS 的基础知识。您还可以注册讲师指导培训,进一步帮助培养您团队的 AWS 技能。

您应使用能够跨 AWS Organizations 等账户集中监管环境的工具或服务帮助管理运营模式。AWS Control Tower 等服务扩展了这一管理功能,使您能够定义账户设置的蓝图(支持您的运营模式),使用 AWS Organizations 进行持续监管以及自动预置新账户。托管服务提供商(如 AWS Managed Services)、AWS Managed Services 合作伙伴)或 AWS 合作伙伴网络中的托管服务提供商会提供实施云环境的专业知识,并为您的安全性和合规性要求以及业务目标提供支持。将托管服务添加到您的运营模式可以节省您的时间和资源,并使您的内部团队保持精干,专注于凸显业务优势的战略成果,而不是开发新的技能和功能。

以下问题主要针对 卓越运营 的准备阶段。

OPS 1: 您如何确定自己的重点?
OPS 2: 如何构建组织结构来为业务成果提供支持?
OPS 3: 组织文化如何为业务成果提供支持?

您可能会发现,您需要在某个时间点侧重于一小部分运营重点。长期使用平衡的方法来确保所需能力的发展和风险管理。定期回顾运营重点,并根据需求变化更新运营重点。当责任和所有权不确定或未知时,您将面临以下风险:没有及时执行必要的活动,以及在处理这些需求时可能出现工作冗余和潜在冲突。组织文化会直接影响团队成员的工作满意度和保留率。增强团队成员的参与度和能力,助力业务成功。创新必须进行试验,才能将创意转化为成果。应认识到,取得非预期结果也算试验成功,因为这种试验发现了无法实现成功的途径。

准备

要为卓越运营做好准备,您必须了解您的工作负载及其预期行为。然后,您需要能够针对它们进行设计,以提供对其状态的洞察并构建程序以提供支持。

将工作负载设计成能够提供必要的信息,以便您了解其所有组件的内部状态(例如指标、日志、事件和跟踪信息),为可观测性和调查问题提供支持。迭代开发必要的遥测技术,以监控工作负载的运行状况,确定结果何时面临风险并做出有效响应。在检测工作负载时,请捕获一组广泛的信息以启用情景感知(例如,状态变化、用户活动、特权访问和利用率计数器等的变更),因为您可以随时间变化筛选最有用的信息。

采用改进生产调整流程并支持重构、快速质量反馈和错误修复的方法。这些方法可以加快有益更改进入生产环境的速度、减少产生的问题,并能够快速识别和修复通过部署活动引入的问题或在环境中发现的问题。

采用提供快速质量反馈,并且若更改没有达到目标成效,则支持快速恢复的方法。使用这些实践可以减轻因部署更改而产生的问题的影响。制定计划以防更改不成功,这样在必要时能够更快速的响应,并测试和验证所做的更改。了解环境中的计划活动,以便可以管理更改风险,避免影响计划活动。强调频繁、小规模、可逆更改,以限制更改范围。这样可以简化故障排除工作、加快修复速度,并支持回滚更改。此外,还意味着能够更频繁地从有价值的更改中获益。

评估工作负载、流程和程序以及工作人员的运营准备就绪情况,以了解与工作负载相关的运营风险。您应该使用一致的流程(包括手动或自动化检查清单)来了解何时可运营工作负载或进行更改。这也使您能够发现需要制定计划予以解决的任何问题。准备好记录日常活动的运行手册和指导问题解决流程的行动手册。了解收益和风险,以便做出明智的决策,从而使更改应用到生产环境。

AWS 使您能够将整个工作负载(应用程序、基础设施、策略、监管和运营)视为代码。这些全部可以使用代码来定义和更新。这意味着,您可以将用于应用程序代码的工程规范应用于堆栈的每个元素,并在团队或组织之间共享,提高开发工作的效益。使用云中的运营即代码功能和安全测试功能开发工作负载、运营流程和故障演练。使用 AWS CloudFormation,您可以实现一致的模板化沙箱开发、测试和生产环境,提高运营管理水平。

以下问题主要针对 卓越运营 的准备阶段。

OPS 4: 如何设计工作负载以便自己了解其状态?
OPS 5: 如何减少缺陷、简化修复和改进生产流程?
OPS 6: 您如何缓解部署风险?
OPS 7: 如何知道您已经准备好支持某种工作负载?

对代码化运营进行投资,以最大限度地提高运营人员的工作效率,最大限度地降低错误率,并实现自动响应。使用“预先检验”来预测故障,并在适当的时候创建程序。使用资源标签和 AWS Resource Groups,按照一致的标记策略应用元数据,以标识您的资源。标记您的资源,以便进行整理、成本核算、访问控制并有针对性地自动执行操作活动。利用云的弹性特点结合相应部署实践,来推动开发活动和系统的预部署,以加快部署速度。当您对用于评估工作负载的检查清单进行更改时,请计划要对不再符合条件的活动系统执行哪些操作。

运营

工作负载运营是否成功通过业务成果和客户结果的实现情况加以衡量。定义预期结果、确定成功的衡量方式,并确定将在这些计算中使用的指标,以确定工作负载和运营是否成功。运营状况包括工作负载的运行状况,以及为支持工作负载而执行的操作的运行状况和成败(例如,部署和事件响应)。设立改进、调查和介入的指标基线,收集和分析您的指标,然后验证您对运营成功的理解及其随时间变化的规律。使用收集的指标确定您是否可以满足客户需求和业务需求,并确定需要改进的领域。

要实现卓越运营,您需要进行高效且有效的运营事件管理。这适用于计划内和计划外的运营事件。使用已确定的运行手册解决易于理解的事件,并使用行动手册来帮助调查和解决问题。您需要根据事件对业务和客户的影响排定其优先级。务必确保在出现事件警报时,会有指定负责人启动相关流程。事先定义解决事件所需的人员,并配备一个上报触发器,以便根据紧急程度和影响在必要时引入额外人员。确定并引入有权决定行动方案的人员,这些行动方案将对之前未解决的事件响应产生业务影响。

通过为目标受众(例如,客户、业务人员、开发人员、运营人员)定制的控制面板和通知来发布工作负载的运行状态,以便他们可以采取相应措施、管理预期,并在恢复正常运营时收到通知。

在 AWS 中,您可以为收集的工作负载指标和 AWS 自带指标生成控制面板视图。您可以利用 CloudWatch 或第三方应用程序来聚合和呈现运营活动的业务、工作负载和运营级别视图。AWS 通过日志记录功能(包括 AWS X-Ray、CloudWatch、CloudTrail 和 VPC 流日志)提供工作负载洞察,从而帮助识别工作负载问题,以支持根本原因分析和修复。

以下问题主要针对 卓越运营 的准备阶段。

OPS 8: 您如何了解工作负载的运行状况?
OPS 9: 您如何了解自己的运营状况?
OPS 10: 您如何应对工作负载事件和运营事件?

您收集的所有指标都应该与业务需求及其支持的结果相符。为充分理解的事件开发脚本式响应,并自动执行响应以识别事件。

演进

必须学习、分享和不断改进,以保持卓越运营。专注于工作周期,以持续进行渐进式改进。对影响客户的所有事件执行事件后分析。确定导致这些事件的因素和预防措施,以限制或防止再次发生。根据需要与受影响的团体沟通导致这些事件的因素。定期评估并优先处理改进机会(例如,功能请求、问题修复和合规性要求),包括工作负载和运营程序。将反馈周期纳入您的流程,以快速确定需要改进的领域,并从运营执行中获取经验教训。

在团队中分享得到的经验教训,并从中受益。分析经验教训中的趋势,并对运营指标进行跨团队回顾性分析,以确定改进的机会和方法。实施改进措施,并评估结果以确定是否成功。

在 AWS 上,您可以将日志数据导出到 Amazon S3 或将日志直接发送到 Amazon S3 以便长期存储。使用 AWS Glue,您可以在 Amazon S3 中发现并准备您的日志数据以供分析,并将相关元数据存储在 AWS Glue 数据目录中。然后,Amazon Athena 通过与 Glue 的原生集成,可用于分析您的日志数据,并使用标准 SQL 进行查询。使用像 Amazon QuickSight 这样的商业智能工具,您可以直观显示、浏览和分析您的数据。发现可能推动改进的相关趋势和活动。

以下问题主要针对 卓越运营 的准备阶段。

OPS 11: 如何改进运营?

运营的成功演进建立在以下基础上:频繁的小规模改进;提供安全的环境和时间来试验、开发和测试改进;以及鼓励人们从失败中获取经验教训的整体氛围。随着运营控制水平的提高,对于沙箱、开发、测试和生产环境的运营支持促进了开发,并提高了对生产环境中部署的变更结果成功与否的可预测性。

资源

请参阅以下资源,详细了解有关 卓越运营 的最佳实践。

Operational Excellence Pillar
DevOps and AWS
DevOps at Amazon