Click here to return to Amazon Web Services homepage
Create an AWS Account
© 2020, Amazon Web Services, Inc. 或其附属公司
运营重点
您如何确定自己的重点?
OPS 1
运营模式
如何构建组织结构来为业务成果提供支持?
OPS 2
组织文化
组织文化如何为业务成果提供支持?
OPS 3
您的团队需要对整个工作负载 他们在其中的角色以及共同的业务目标有一致的理解 以便设置运营重点以实现业务成功 明确运营重点可以让您的工作效益最大化 评估内部和外部客户需求 让包括业务 开发和运营团队在内的主要利益相关方参与进来 以便确定工作重心 评估客户需求将确保您充分了解实现业务成果所需的支持 确保了解组织监管规定的指导原则或义务 以及监管合规性要求和行业标准等可能需要遵循或重视的外部因素 验证您是否具有确定内部监管和外部合规性要求更改的机制 如果未确定要求 请确保您已对此决定进行尽职调查 定期审查您的运营重点 以便在需求发生变化时对其进行更新 评估业务面临的威胁 例如业务风险和负债以及信息安全威胁 并在风险注册表中维护这些信息 评估风险的影响 在有冲突的利益或替代方法之间做出权衡 例如 新功能的加速上市可能会比成本优化更重要 或者您可以为非关系数据选择关系数据库来简化系统迁移工作 而无需重构 管理收益和风险 以便在确定工作重心时做出明智的决策 有些风险或选择可能在一段时间内可以接受 这可能会降低相关风险 或者允许风险继续存在可能会令人无法接受 在这种情况下 您将采取措施来化解风险 您的团队必须了解他们在实现业务成果方面所发挥的作用 团队需要了解自己在其他团队获得成功过程中所扮演的角色 其他团队在他们获得成功的过程中所扮演的角色 并设定共同的目标 了解责任分配 所有权归属 决策制定方式以及决策者将有助于集中精力 最大限度地发挥团队的优势 团队的需求将由其所支持的客户 所在组织 团队的组成以及工作负载的特征决定 期望单个运营模式能够支持组织中的所有团队及其工作负载是不合理的 确保每个应用程序 工作负载 平台和基础设施组件都有确定的负责人 并且每个流程和程序都有确定的负责人负责其定义 有负责人负责其性能 了解每个组件 流程和程序的业务价值 了解为什么要配置这些资源或为什么要执行这些活动 以及为什么要拥有该所有权 这些都有助于确定团队成员的行动 清晰定义团队成员的责任以便他们可以适当地采取行动 并制定相关机制 确定责任和所有权 制定用于请求添加 更改和例外的机制 以免限制创新 在团队之间定义协议 描述团队之间如何开展合作以相互支持以及您的业务成果 为您的团队成员提供支持 以便他们可以更有效地采取行动并为您的业务成果提供支持 参与其中的高层领导应设定期望并衡量是否成功 他们应是采用最佳实践和组织发展的发起人 倡导者和推动者 授权团队成员在成果面临风险时采取行动以尽可能减少影响 并鼓励他们在认为存在风险时向决策者和利益相关者上报 以便解决问题并避免事故 及时 清晰 可行地传达已知风险和计划内事件 以便团队成员可以及时采取适当行动 鼓励进行试验 以加快学习速度 并使团队成员保持兴趣和参与热情 团队必须增强自己的技能组合 以采用新技术 并随需求和责任的变化继续提供支持 专门安排学习时间 以提供支持并鼓励参与其中 确保您的团队成员拥有取得成功所需的资源 包括工具和团队成员 并具有支持您的业务成果的规模 利用跨组织的多样性来寻求多种独特的见解 利用这种见解提高创新能力 对您的假设提出质疑 并降低确认偏差的风险 在团队内部提升包容性 多样性和可达性有助于获取有益的见解 …
组织
通过设计让自己掌握工作负载信息
如何设计工作负载以便自己了解其状态?
OPS 4
开发和集成
如何减少缺陷、简化修复和改进生产流程?
OPS 5
缓解部署风险
您如何缓解部署风险?
OPS 6
操作准备
如何知道您已经准备好支持某种工作负载?
OPS 7
要为卓越运营做好准备 您必须了解您的工作负载及其预期行为 然后 您需要能够针对它们进行设计 以提供对其状态的洞察并构建程序以提供支持 将工作负载设计成能够提供必要的信息 以便您了解其所有组件的内部状态 例如指标 日志 事件和跟踪信息 为可观测性和调查问题提供支持 迭代开发必要的遥测技术 以监控工作负载的运行状况 确定结果何时面临风险并做出有效响应 在检测工作负载时 请捕获一组广泛的信息以启用情景感知 例如 状态变化 用户活动 特权访问和利用率计数器等的变更 因为您可以随时间变化筛选最有用的信息 采用改进生产调整流程并支持重构 快速质量反馈和错误修复的方法 这些方法可以加快有益更改进入生产环境的速度 减少产生的问题 并能够快速识别和修复通过部署活动引入的问题或在环境中发现的问题 采用提供快速质量反馈 并且若更改没有达到目标成效 则支持快速恢复的方法 使用这些实践可以减轻因部署更改而产生的问题的影响 制定计划以防更改不成功 这样在必要时能够更快速的响应 并测试和验证所做的更改 了解环境中的计划活动 以便可以管理更改风险 避免影响计划活动 强调频繁 小规模 可逆更改 以限制更改范围 这样可以简化故障排除工作 加快修复速度 并支持回滚更改 此外 还意味着能够更频繁地从有价值的更改中获益 评估工作负载 流程和程序以及工作人员的运营准备就绪情况 以了解与工作负载相关的运营风险 您应该使用一致的流程 包括手动或自动化检查清单 来了解何时可运营工作负载或进行更改 这也使您能够发现需要制定计划予以解决的任何问题 准备好记录日常活动的运行手册和指导问题解决流程的行动手册 了解收益和风险 以便做出明智的决策 从而使更改应用到生产环境 …
准备
工作负载运行状况
您如何了解工作负载的运行状况?
OPS 8
运营状况
您如何了解自己的运营状况?
OPS 9
事件响应
您如何应对工作负载事件和运营事件?
OPS 10
工作负载运营是否成功通过业务成果和客户结果的实现情况加以衡量 定义预期结果 确定成功的衡量方式 并确定将在这些计算中使用的指标 以确定工作负载和运营是否成功 运营状况包括工作负载的运行状况 以及为支持工作负载而执行的操作的运行状况和成败 例如 部署和事件响应 设立改进 调查和介入的指标基线 收集和分析您的指标 然后验证您对运营成功的理解及其随时间变化的规律 使用收集的指标确定您是否可以满足客户需求和业务需求 并确定需要改进的领域 要实现卓越运营 您需要进行高效且有效的运营事件管理 这适用于计划内和计划外的运营事件 使用已确定的运行手册解决易于理解的事件 并使用行动手册来帮助调查和解决问题 您需要根据事件对业务和客户的影响排定其优先级 务必确保在出现事件警报时 会有指定负责人启动相关流程 事先定义解决事件所需的人员 并配备一个上报触发器 以便根据紧急程度和影响在必要时引入额外人员 确定并引入有权决定行动方案的人员 这些行动方案将对之前未解决的事件响应产生业务影响 通过为目标受众 例如 客户 业务人员 开发人员 运营人员 定制的控制面板和通知来发布工作负载的运行状态 以便他们可以采取相应措施 管理预期 并在恢复正常运营时收到通知 …
运营
运营发展
如何改进运营?
OPS 11
必须学习 分享和不断改进 以保持卓越运营 专注于工作周期 以持续进行渐进式改进 对影响客户的所有事件执行事件后分析 确定导致这些事件的因素和预防措施 以限制或防止再次发生 根据需要与受影响的团体沟通导致这些事件的因素 定期评估并优先处理改进机会 例如 功能请求 问题修复和合规性要求 包括工作负载和运营程序 将反馈周期纳入您的流程 以快速确定需要改进的领域 并从运营执行中获取经验教训 在团队中分享得到的经验教训 并从中受益 分析经验教训中的趋势 并对运营指标进行跨团队回顾性分析 以确定改进的机会和方法 实施改进措施 并评估结果以确定是否成功 …
演进
能够有效地支持发展和运行工作负载,获取对运营的洞察,以及不断改进支持流程和程序以实现业务价值。
卓越运营
安全操作
如何安全地操作您的工作负载?
SEC 1
为了安全地操作您的工作负载 您必须对安全性的各个方面应用总体最佳实践 采用您在组织和工作负载层面的卓越运营中定义的要求和流程 并将它们应用到各个方面 …
安全性
身份验证
如何管理人员和机器的身份?
SEC 2
授权与访问控制
如何管理人员和机器的权限?
SEC 3
身份识别与访问管理是信息安全计划的关键部分 可以确保只有经过授权和通过身份验证的用户和组件才能访问您的资源 并且只能以您要求的方式进行访问 例如 您需要定义一些主体 即可以在您的账户中执行操作的账户 用户 角色和服务 创建与这些主体相匹配的策略 并实施严格的凭证管理 这些权限管理元素构成了身份验证和授权的核心 …
身份识别与访问管理
安全事件
您如何检测和调查安全事件?
SEC 4
您可以使用检测控制来识别潜在的安全威胁或事件 检测控制是管理框架的重要组成部分 并且可以用于支持质量流程 法律或合规 还可以用于威胁识别和响应工作 检测控制分为多种不同类型 例如 编制资产清单及其详细属性有助于更有效地做出决策 以及进行生命周期管理 从而有助于建立运营基准 您可以通过内部审计 是指对信息系统相关的控制措施进行的检查 来确保实践符合策略和要求 并确保您已根据定义的条件设置了正确的自动告警通知 这些控制措施都是重要的响应手段 可以帮助您的组织识别和了解异常活动的范围 …
检测
网络防护
如何保护您的网络资源?
SEC 5
计算资源保护
如何保护计算资源?
SEC 6
基础设施保护包括满足最佳实践和组织 法律及监管义务所必需的控制方法 例如深度防御 使用这些方法对于在云中或本地持续成功运营是至关重要的 …
基础设施保护
数据分级
如何对数据进行分类?
SEC 7
静态数据保护
如何保护静态数据?
SEC 8
动态数据保护
如何保护传输中的数据?
SEC 9
在为任何系统设计架构之前 您应确定可能影响安全性的基本实践 例如 数据分级提供了一种基于敏感程度对组织数据进行分类的方法 加密通过让未经授权的用户无法获知数据的真正内容来保护数据 这些工具和方法非常重要 因为它们有助于实现诸如避免财务损失或遵循法律与合规性要求等一系列目标 …
数据保护
事件响应
如何预测、响应事件以及从事件中恢复?
SEC 10
即使采用极为成熟的预防和检测控制机制 您的组织仍应制定相关流程来响应安全事件并缓解安全事件可能带来的影响 工作负载的架构会极大地影响团队在事件发生期间采取行动 隔离或约束系统并将运行状态恢复到已知的良好状态的能力 在安全事件发生之前确保相关工具部署到位 而后定期进行响应演练 将有助于确保您的架构有能力及时进行调查和恢复 …
事件响应
安全性支柱包括保护数据、系统和资产以利用云技术来改善安全性的能力。
安全性
服务配额和限制
如何管理服务配额和限制?
REL 1
网络拓扑
如何规划网络拓扑?
REL 2
基础要求是指其范围超出单个工作负载或项目的因素 在为任何系统设计架构之前 您应确定影响可靠性的基本要求 例如 您必须为数据中心提供足够的网络带宽 …
基础
服务架构
如何设计工作负载服务架构?
REL 3
设计交互以预防故障
您如何在分布式系统中设计交互以预防发生故障?
REL 4
交互设计以缓解故障
您如何在分布式系统中进行交互设计,从而缓解或经受住故障影响?
REL 5
可靠的工作负载始于前期的软件和基础设施设计决策 您的架构选择将影响所有五个架构完善支柱的工作负载行为 针对可靠性 您必须遵循特定的模式 …
工作负载架构
资源监控
如何监控工作负载资源?
REL 6
需求处理
您如何设计工作负载,以适应不断变化的需求?
REL 7
变更管理
如何实施更改?
REL 8
必须提前为您的工作负载或其环境的更改做好准备 使其可以实现工作负载的可靠操作 此类更改包括 从外部施加到工作负载上的更改 如 需求高峰 以及内部更改 如功能部署和安全补丁 …
变更管理
数据备份
如何备份数据?
REL 9
故障隔离
如何使用故障隔离来保护您的工作负载?
REL 10
实施弹性机制
如何将您的工作负载设计为可承受组件故障的影响?
REL 11
可靠性测试
如何测试可靠性?
REL 12
灾难恢复
如何规划灾难恢复 (DR)?
REL 13
在任何具备一定复杂度的系统中 发生故障在意料之中 可靠性要求您的工作负载知晓故障的发生 并采取相应措施以避免对可用性产生影响 工作负载必须既能承受故障 又能自动解决问题 …
故障管理
工作负载按照预期正确并且一致地执行其预期功能的能力,包括在其整个生命周期内运营和测试工作负载的能力。
可靠性
架构选择
如何选择性能最好的架构?
PERF 1
计算选择
如何选择计算解决方案?
PERF 2
存储选择
如何选择存储解决方案?
PERF 3
选择数据库
如何选择数据库解决方案?
PERF 4
联网选择
如何配置联网解决方案?
PERF 5
针对特定工作负载的最佳解决方案各不相同 而且解决方案通常会结合多种方法 架构完善的工作负载会使用多种解决方案 并且启用各种不同的功能来提高性能 …
选择
改进架构
如何改进工作负载以便利用新的版本?
PERF 6
云技术的发展日新月异 因此您必须确保工作负载组件使用的是最新的技术和方法 以持续提高性能 您必须不断评估工作负载组件并考虑对其进行更改 以确保您能够满足其性能和成本目标 机器学习和人工智能 AI 等新技术可以让您重塑客户体验 并对所有业务工作负载进行创新 …
审核
监控性能
如何监控资源以确保其性能?
PERF 7
实施工作负载后 必须监控其性能 以便在问题对客户造成影响之前进行补救 您应该使用监控指标 确保系统在指标超出阈值时发出告警 …
监控
性能权衡机制
如何使用权衡机制来提高性能?
PERF 8
在架构解决方案时 需要权衡各种因素才能确保获得最佳方案 根据具体情况 您可以在一致性 持久性和空间与时间或延迟之间进行权衡 以便实现更高的性能 …
权衡
高效利用计算资源来满足系统要求,并随着需求变化和技术演进保持这种效率的能力。
性能效率
云财务管理
如何实施云财务管理?
COST 1
采用云后 由于缩短了审批 采购和基础设施部署周期 技术团队的创新速度会更快 要实现业务价值和财务成功 需要实施一种在云中管理财务的新方法 这种方法便是云财务管理 通过实施组织范围的知识构建 计划 资源和流程 在整个组织内培养能力 许多组织由许多不同的单位构成 而这些单位又具有不同的要务 若能让组织遵循一组商定的财务目标并为组织提供实现这些目标的机制 将会打造一个更高效的组织 一个有能力的组织的创新和构建速度更快 更敏捷 并能够适应任何内部或外部因素 …
践行云财务管理
使用情况管理
您如何管理使用情况?
COST 2
使用情况和成本监控
如何监控使用情况和成本?
COST 3
资源停用
您如何停用资源?
COST 4
通过云 您可以获得更大的灵活性和敏捷性 从而支持创新以及快速的开发和部署 这样便节省了自建本地基础设施所需的人工环节和时间 包括确定硬件规格 协商报价 管理购买订单 安排发货和部署资源 然而 要实现这种易用性并利用近乎无限的按需容量 我们需要以新方式考虑支出 很多企业有多个由不同团队运行的系统 将资源成本分摊到各个组织或产品拥有者可以推动更高效的资源使用模式 减少浪费 准确的成本分摊能够帮助您了解哪些产品是真正盈利的 让您能够做出更明智的预算分配决策 …
支出和使用情况意识
选择服务
您在选择服务时如何评估成本?
COST 5
选择资源类型、规模和数量
在选择资源类型、规模和数量时,如何实现成本目标?
COST 6
定价模式选择
您如何使用定价模式来降低成本?
COST 7
数据传输规划
您如何规划数据传输费用?
COST 8
为工作负载使用合适的实例和资源是节约成本的关键 例如 在小型服务器上运行某个报告需要五个小时 而在另一个两倍成本的大型服务器上运行只需要一个小时 虽然两个服务器提供同样的结果 但小型服务器随着时间推移会产生更多成本 良好架构的工作负载会使用最具有成本效益的资源 这样可以产生巨大而积极的经济效益 您还可以使用托管服务降低成本 例如 您可以使用按电子邮件收费的服务 而无需自己维护电子邮件服务器 …
具有成本效益的资源
管理需求和供应资源
如何管理需求和供应资源?
COST 9
在您迁移到云时 您仅为所需内容付费 您可以在需要时供应与工作负载需求匹配的资源 从而消除昂贵且浪费的过度预置需求 还可以通过限流 缓冲区或队列来修改需求 以满足需求并以更少的资源达成目标 从而降低成本 或者在以后使用批处理服务处理需求 …
管理需求和供应资源
新服务评估
如何评估新服务?
COST 10
AWS 不断发布新服务和功能 因此您最好不断审视现有架构决策 以便确保其始终最具成本效益 当您的需求发生变化时 请主动停用不再需要的资源 整体服务和系统 …
随着时间的推移不断优化
以最低价格运行系统来交付业务价值的能力
成本优化