© 2020 年, Amazon Web Services, Inc. 或其附属公司 运营重点 您如何确定自己的重点? OPS 1 运营模式 如何构建组织结构来为业务成果提供支持? OPS 2 组织文化 组织文化如何为业务成果提供支持? OPS 3  您的团队需要对整个工作负载 他们在其中的角色以及共同的业务目标有一致的理解 以便设置运营重点以实现业务成功 明确运营重点可以让您的工作效益最大化 评估内部和外部客户需求 让包括业务 开发和运营团队在内的主要利益相关方参与进来 以便确定工作重心 评估客户需求将确保您充分了解实现业务成果所需的支持 确保了解组织监管规定的指导原则或义务 以及监管合规性要求和行业标准等可能需要遵循或重视的外部因素 验证您是否具有确定内部监管和外部合规性要求更改的机制 如果未确定要求 请确保您已对此决定进行尽职调查 定期审查您的运营重点 以便在需求发生变化时对其进行更新 评估业务面临的威胁 例如业务风险和负债以及信息安全威胁 并在风险注册表中维护这些信息 评估风险的影响 在有冲突的利益或替代方法之间做出权衡 例如 新功能的加速上市可能会比成本优化更重要 或者您可以为非关系数据选择关系数据库来简化系统迁移工作 而无需重构 管理收益和风险 以便在确定工作重心时做出明智的决策 有些风险或选择可能在一段时间内可以接受 这可能会降低相关风险 或者允许风险继续存在可能会令人无法接受 在这种情况下 您将采取措施来化解风险 您的团队必须了解他们在实现业务成果方面所发挥的作用 团队需要了解自己在其他团队获得成功过程中所扮演的角色 其他团队在他们获得成功的过程中所扮演的角色 并设定共同的目标 了解责任分配 所有权归属 决策制定方式以及决策者将有助于集中精力 最大限度地发挥团队的优势 团队的需求将由其所支持的客户 所在组织 团队的组成以及工作负载的特征决定 期望单个运营模式能够支持组织中的所有团队及其工作负载是不合理的 确保每个应用程序 工作负载 平台和基础设施组件都有确定的负责人 并且每个流程和程序都有确定的负责人负责其定义 有负责人负责其性能 了解每个组件 流程和程序的业务价值 了解为什么要配置这些资源或为什么要执行这些活动 以及为什么要拥有该所有权 这些都有助于确定团队成员的行动 清晰定义团队成员的责任以便他们可以适当地采取行动 并制定相关机制 确定责任和所有权 制定用于请求添加 更改和例外的机制 以免限制创新 在团队之间定义协议 描述团队之间如何开展合作以相互支持以及您的业务成果 为您的团队成员提供支持 以便他们可以更有效地采取行动并为您的业务成果提供支持 参与其中的高层领导应设定期望并衡量是否成功 他们应是采用最佳实践和组织发展的发起人 倡导者和推动者 授权团队成员在成果面临风险时采取行动以尽可能减少影响 并鼓励他们在认为存在风险时向决策者和利益相关者上报 以便解决问题并避免事故 及时 清晰 可行地传达已知风险和计划内事件 以便团队成员可以及时采取适当行动 鼓励进行试验 以加快学习速度 并使团队成员保持兴趣和参与热情 团队必须增强自己的技能组合 以采用新技术 并随需求和责任的变化继续提供支持 专门安排学习时间 以提供支持并鼓励参与其中 确保您的团队成员拥有取得成功所需的资源 包括工具和团队成员 并具有支持您的业务成果的规模 利用跨组织的多样性来寻求多种独特的见解 利用这种见解提高创新能力 对您的假设提出质疑 并降低确认偏差的风险 在团队内部提升包容性 多样性和可达性有助于获取有益的见解 … 组织 通过设计让自己掌握工作负载信息 如何设计工作负载以便自己了解其状态? OPS 4 开发和集成 如何减少缺陷、简化修复和改进生产流程? OPS 5 缓解部署风险 您如何缓解部署风险? OPS 6 操作准备 如何知道您已经准备好支持某种工作负载? OPS 7  要为卓越运营做好准备 您必须了解您的工作负载及其预期行为 然后 您需要能够针对它们进行设计 以提供对其状态的洞察并构建程序以提供支持 将工作负载设计成能够提供必要的信息 以便您了解其所有组件的内部状态 例如指标 日志 事件和跟踪信息 为可观测性和调查问题提供支持 迭代开发必要的遥测技术 以监控工作负载的运行状况 确定结果何时面临风险并做出有效响应 在检测工作负载时 请捕获一组广泛的信息以启用情景感知 例如 状态变化 用户活动 特权访问和利用率计数器等的变更 因为您可以随时间变化筛选最有用的信息 采用改进生产调整流程并支持重构 快速质量反馈和错误修复的方法 这些方法可以加快有益更改进入生产环境的速度 减少产生的问题 并能够快速识别和修复通过部署活动引入的问题或在环境中发现的问题 采用提供快速质量反馈 并且若更改没有达到目标成效 则支持快速恢复的方法 使用这些实践可以减轻因部署更改而产生的问题的影响 制定计划以防更改不成功 这样在必要时能够更快速的响应 并测试和验证所做的更改 了解环境中的计划活动 以便可以管理更改风险 避免影响计划活动 强调频繁 小规模 可逆更改 以限制更改范围 这样可以简化故障排除工作 加快修复速度 并支持回滚更改 此外 还意味着能够更频繁地从有价值的更改中获益 评估工作负载 流程和程序以及工作人员的运营准备就绪情况 以了解与工作负载相关的运营风险 您应该使用一致的流程 包括手动或自动化检查清单 来了解何时可运营工作负载或进行更改 这也使您能够发现需要制定计划予以解决的任何问题 准备好记录日常活动的运行手册和指导问题解决流程的行动手册 了解收益和风险 以便做出明智的决策 从而使更改应用到生产环境 … 准备 工作负载运行状况 您如何了解工作负载的运行状况? OPS 8 运营状况 您如何了解自己的运营状况? OPS 9 事件响应 您如何应对工作负载事件和运营事件? OPS 10  工作负载运营是否成功通过业务成果和客户结果的实现情况加以衡量 定义预期结果 确定成功的衡量方式 并确定将在这些计算中使用的指标 以确定工作负载和运营是否成功 运营状况包括工作负载的运行状况 以及为支持工作负载而执行的操作的运行状况和成败 例如 部署和事件响应 设立改进 调查和介入的指标基线 收集和分析您的指标 然后验证您对运营成功的理解及其随时间变化的规律 使用收集的指标确定您是否可以满足客户需求和业务需求 并确定需要改进的领域 要实现卓越运营 您需要进行高效且有效的运营事件管理 这适用于计划内和计划外的运营事件 使用已确定的运行手册解决易于理解的事件 并使用行动手册来帮助调查和解决问题 您需要根据事件对业务和客户的影响排定其优先级 务必确保在出现事件警报时 会有指定负责人启动相关流程 事先定义解决事件所需的人员 并配备一个上报触发器 以便根据紧急程度和影响在必要时引入额外人员 确定并引入有权决定行动方案的人员 这些行动方案将对之前未解决的事件响应产生业务影响 通过为目标受众 例如 客户 业务人员 开发人员 运营人员 定制的控制面板和通知来发布工作负载的运行状态 以便他们可以采取相应措施 管理预期 并在恢复正常运营时收到通知 … 运营 运营发展 如何改进运营? OPS 11  必须学习 分享和不断改进 以保持卓越运营 专注于工作周期 以持续进行渐进式改进 对影响客户的所有事件执行事件后分析 确定导致这些事件的因素和预防措施 以限制或防止再次发生 根据需要与受影响的团体沟通导致这些事件的因素 定期评估并优先处理改进机会 例如 功能请求 问题修复和合规性要求 包括工作负载和运营程序 将反馈周期纳入您的流程 以快速确定需要改进的领域 并从运营执行中获取经验教训 在团队中分享得到的经验教训 并从中受益 分析经验教训中的趋势 并对运营指标进行跨团队回顾性分析 以确定改进的机会和方法 实施改进措施 并评估结果以确定是否成功 … 演进 能够有效地支持发展和运行工作负载,获取对运营的洞察,以及不断改进支持流程和程序以实现业务价值。 卓越运营 安全操作 如何安全地操作工作負載? SEC 1 若要安全地操作工作負載 您必須將總體最佳實務套用到每個安全領域 採用您在組織和工作負載層級所定義的卓越營運要求和程序 將這些要求和程序套用到所有領域 … 安全性 身份驗證 如何管理人員和機器的身分? SEC 2 授權和存取控制 如何管理人員和機器的許可? SEC 3 Identity and Access Management 是資訊安全計畫的關鍵部分 可確保只有經過授權和身分驗證的使用者和元件 才能以您想要的方式存取您的資源 例如 您應定義主體 即為可在您的帳戶內執行動作的帳戶 使用者 角色和服務 建立與這些主體一致的政策 並實作強勢憑證管理 這些權限管理元素構成身份驗證與授權的核心 … 身份和存取管理 安全事件 您如何偵測和調查安全事件? SEC 4 您可以使用偵測控制來識別潛在的安全威脅或事故 它們是管控框架的重要組成部分 可用於支援品質流程 法律或合規義務以及用於威脅識別和回應工作 偵測控制有不同的類型 例如 建立資產及其詳細屬性的詳細目錄可促進更有效的決策 和生命週期控制 以幫助建立營運基準 您還可以使用內部稽核 即檢查與資訊系統相關的控制 以確保實務符合政策和要求 並確保已根據定義的條件設定正確的自動提醒通知 這些控制是重要的反應式因素 可以幫助您的組織識別和了解異常活動的範圍 … 偵測 網路保護 如何保護您的網路資源? SEC 5 運算保護 您如何保護運算資源? SEC 6 基礎設施保護包括符合最佳實務和組織或監管義務所必需的控制方法 例如深度防禦 這些方法的使用對於雲端或內部部署成功持續營運至關重要 … 基礎設施保護 資料分類 您如何分類資料? SEC 7 靜態資料保護 您如何保護靜態資料? SEC 8 保護傳輸中資料 您如何保護傳輸中資料? SEC 9 在設計任何系統之前 應建立影響安全性的基礎實務 例如 資料分類可基於敏感層級將組織的資料分類 加密則能對未經授權的存取將資料呈現為無法辨識 以保護資料 這些工具和技術之所以重要 因為能支援諸多目的 例如防止財務損失或遵循法規義務 … 資料保護 事件回應 您如何預估、回應事件以及從事件中復原? SEC 10 即使採用了非常成熟的預防和偵測控制 您的組織仍應建立適當的流程 來回應和緩和安全事故的潛在影響 工作負載的架構嚴重影響團隊在事故期間有效執行 隔離或控制系統 以及將營運恢復到已知良好狀態的能力 在發生安全事故之前布置好工具和存取權限 然後在演練日期間例行練習事故回應 將幫助您確保架構可以適應即時調查和復原 … 事故回應 安全性支柱包括保护数据、系统和资产以利用云技术来改善安全性的能力。 安全性 服务配额和限制 如何管理服务配额和限制? REL 1 网络拓扑 如何规划网络拓扑? REL 2 基础要求是指其范围超出单个工作负载或项目的因素 在为任何系统设计架构之前 您应确定影响可靠性的基本要求 例如 您必须为数据中心提供足够的网络带宽 … 基础 服务架构 如何设计工作负载服务架构? REL 3 设计交互以预防故障 您如何在分布式系统中设计交互以预防发生故障? REL 4 交互设计以缓解故障 您如何在分布式系统中进行交互设计,从而缓解或经受住故障影响? REL 5 可靠的工作负载始于前期的软件和基础设施设计决策 您的架构选择将影响所有五个架构完善支柱的工作负载行为 针对可靠性 您必须遵循特定的模式 … 工作负载架构 资源监控 如何监控工作负载资源? REL 6 需求处理 您如何设计工作负载,以适应不断变化的需求? REL 7 变更管理 如何实施更改? REL 8 必须提前为您的工作负载或其环境的更改做好准备 使其可以实现工作负载的可靠操作 此类更改包括 从外部施加到工作负载上的更改 如 需求高峰 以及内部更改 如功能部署和安全补丁 … 变更管理 数据备份 如何备份数据? REL 9 故障隔离 如何使用故障隔离来保护您的工作负载? REL 10 实施弹性机制 如何将您的工作负载设计为可承受组件故障的影响? REL 11 可靠性测试 如何测试可靠性? REL 12 灾难恢复 如何规划灾难恢复 (DR)? REL 13 在任何具备一定复杂度的系统中 发生故障在意料之中 可靠性要求您的工作负载知晓故障的发生 并采取相应措施以避免对可用性产生影响 工作负载必须既能承受故障 又能自动解决问题 … 故障管理 工作负载按照计划正确而稳定执行其预期功能的能力。它包括在其全部生命周期内运行和测试工作负载的能力。本白皮书提供了有关在 AWS 中实施可靠工作负载的深入的最佳实践指导。 可靠性 架构选择 如何选择性能最好的架构? PERF 1 计算选择 如何选择计算解决方案? PERF 2 存储选择 如何选择存储解决方案? PERF 3 选择数据库 如何选择数据库解决方案? PERF 4 联网选择 如何配置联网解决方案? PERF 5  针对特定工作负载的最佳解决方案各不相同 而且解决方案通常会结合多种方法 架构完善的工作负载会使用多种解决方案 并且启用各种不同的功能来提高性能 … 选择 改进架构 如何改进工作负载以便利用新的版本? PERF 6 云技术的发展日新月异 因此您必须确保工作负载组件使用的是最新的技术和方法 以持续提高性能 您必须不断评估工作负载组件并考虑对其进行更改 以确保您能够满足其性能和成本目标 机器学习和人工智能 AI 等新技术可以让您重塑客户体验 并对所有业务工作负载进行创新 … 审核 监控性能 如何监控资源以确保其性能? PERF 7  实施工作负载后 必须监控其性能 以便在问题对客户造成影响之前进行补救 您应该使用监控指标 确保系统在指标超出阈值时发出告警 … 监控 性能权衡机制 如何使用权衡机制来提高性能? PERF 8  在架构解决方案时 需要权衡各种因素才能确保获得最佳方案 根据具体情况 您可以在一致性 持久性和空间与时间或延迟之间进行权衡 以便实现更高的性能 … 权衡 高效利用计算资源来满足系统要求,并随着需求变化和技术演进保持这种效率的能力。 性能效率 云财务管理 如何实施云财务管理? COST 1  采用云后 由于缩短了审批 采购和基础设施部署周期 技术团队的创新速度会更快 要实现业务价值和财务成功 需要实施一种在云中管理财务的新方法 这种方法便是云财务管理 通过实施组织范围的知识构建 计划 资源和流程 在整个组织内培养能力 许多组织由许多不同的单位构成 而这些单位又具有不同的要务 若能让组织遵循一组商定的财务目标并为组织提供实现这些目标的机制 将会打造一个更高效的组织 一个有能力的组织的创新和构建速度更快 更敏捷 并能够适应任何内部或外部因素 … 践行云财务管理 使用情况管理 您如何管理使用情况? COST 2 使用情况和成本监控 如何监控使用情况和成本? COST 3 资源停用 您如何停用资源? COST 4 通过云 您可以获得更大的灵活性和敏捷性 从而支持创新以及快速的开发和部署 这样便节省了自建本地基础设施所需的人工环节和时间 包括确定硬件规格 协商报价 管理购买订单 安排发货和部署资源 然而 要实现这种易用性并利用近乎无限的按需容量 我们需要以新方式考虑支出 很多企业有多个由不同团队运行的系统 将资源成本分摊到各个组织或产品拥有者可以推动更高效的资源使用模式 减少浪费 准确的成本分摊能够帮助您了解哪些产品是真正盈利的 让您能够做出更明智的预算分配决策 … 支出和使用情况意识 选择服务 您在选择服务时如何评估成本? COST 5 选择资源类型、规模和数量 在选择资源类型、规模和数量时,如何实现成本目标? COST 6 定价模式选择 您如何使用定价模式来降低成本? COST 7 数据传输规划 您如何规划数据传输费用? COST 8 为工作负载使用合适的实例和资源是节约成本的关键 例如 在小型服务器上运行某个报告需要五个小时 而在另一个两倍成本的大型服务器上运行只需要一个小时 虽然两个服务器提供同样的结果 但小型服务器随着时间推移会产生更多成本 良好架构的工作负载会使用最具有成本效益的资源 这样可以产生巨大而积极的经济效益 您还可以使用托管服务降低成本 例如 您可以使用按电子邮件收费的服务 而无需自己维护电子邮件服务器 … 具有成本效益的资源 管理需求和供应资源 如何管理需求和供应资源? COST 9 在您迁移到云时 您仅为所需内容付费 您可以在需要时供应与工作负载需求匹配的资源 从而消除昂贵且浪费的过度预置需求 还可以通过限流 缓冲区或队列来修改需求 以满足需求并以更少的资源达成目标 从而降低成本 或者在以后使用批处理服务处理需求 … 管理需求和供应资源 新服务评估 如何评估新服务? COST 10 AWS 不断发布新服务和功能 因此您最好不断审视现有架构决策 以便确保其始终最具成本效益 当您的需求发生变化时 请主动停用不再需要的资源 整体服务和系统 … 随着时间的推移不断优化 以最低价格运行系统来交付业务价值的能力 成本优化