Click here to return to Amazon Web Services homepage
Create an AWS Account
© 2020 年, Amazon Web Services, Inc. 或其附属公司
区域选择
您如何为工作负载选择区域?
SUS 1
为工作负载选择区域会显著影响其 KPI 包括性能 成本和碳足迹 为了有效提高这些 KPI 您应该根据业务需求和可持续发展目标为工作负载选择区域 …
区域选择
符合需求
您如何按需协调云资源?
SUS 2
用户和应用程序使用您的工作负载及其他资源的方式可以帮助您确定改进措施 以实现可持续性目标 扩展基础设施以持续匹配需求 并验证您是否仅使用了支持用户所需的最少资源 使服务水平与客户需求保持一致 定位资源以限制用户和应用程序使用这些资源所需的网络 删除未使用的资产 为您的团队成员配备相应的设备 这些设备既能满足他们的需求 又可以最大限度降低他们的可持续性影响 …
符合需求
软件和架构
您如何利用软件和架构模式来支持您的可持续发展目标?
SUS 3
实施用于执行负载平滑和保持已部署资源始终如一的高利用率的模式 以最大限度地减少资源消耗 由于用户行为会随着时间的推移而发生变化 因此组件可能会因缺乏使用而变得空闲 修改模式和架构以整合未充分利用的组件 从而提高整体利用率 停用不再需要的组件 了解工作负载组件的性能 并优化消耗资源最多的组件 注意客户用来访问您服务的设备 并实施相应的模式以最大限度地减少设备升级需要 …
软件和架构
数据
您如何利用数据管理策略和模式来支持您的可持续性目标?
SUS 4
实施数据管理实践以减少支持工作负载所需的预置存储 以及使用存储所需的资源 了解您的数据 并使用最能支持数据的商业价值及其使用方式的存储技术和配置 当需求减少时 将数据移到更高效 性能更低的存储中 并删除不再需要的数据 …
数据
硬件和服务
您如何选择并使用架构中的云硬件和服务来支持您的可持续性目标?
SUS 5
寻找机会 通过更改硬件管理实践来降低工作负载可持续性影响 最大限度地减少预置和部署所需的硬件数量 并为您的各项工作负载选择最高效的硬件和服务 …
硬件和服务
流程和文化
您的组织流程如何为您的可持续性目标提供支持?
SUS 6
寻找机会 通过对开发 测试和部署实践进行更改来降低可持续性影响 …
流程和文化
您的业务活动对环境、经济和社会的长期影响。联合国世界环境与发展委员会将可持续发展定义为“在不损害子孙后代满足其自身需求的能力的前提下,满足当前需求的发展”。 您的企业或组织可能会对环境产生负面影响,例如直接或间接的碳排放、不可回收的废弃物以及对清洁水等共享资源的破坏。
可持续性
云财务管理
如何实施云财务管理?
COST 1
采用云后 由于缩短了审批 采购和基础设施部署周期 技术团队的创新速度会更快 要实现业务价值和财务成功 需要实施一种在云中管理财务的新方法 这种方法便是云财务管理 通过实施组织范围的知识构建 计划 资源和流程 在整个组织内培养能力 许多组织由许多不同的单位构成 而这些单位又具有不同的要务 若能让组织遵循一组商定的财务目标并为组织提供实现这些目标的机制 将会打造一个更高效的组织 一个有能力的组织的创新和构建速度更快 更敏捷 并能够适应任何内部或外部因素 …
践行云财务管理
使用情况管理
您如何管理使用情况?
COST 2
使用情况和成本监控
您如何监控成本和使用情况?
COST 3
资源停用
您如何停用资源?
COST 4
通过云 您可以获得更大的灵活性和敏捷性 从而支持创新以及快速的开发和部署 这样便节省了自建本地基础设施所需的人工环节和时间 包括确定硬件规格 协商报价 管理购买订单 安排发货和部署资源 然而 要实现这种易用性并利用近乎无限的按需容量 我们需要以新方式考虑支出 很多企业有多个由不同团队运行的系统 将资源成本分摊到各个组织或产品拥有者可以推动更高效的资源使用模式 减少浪费 准确的成本分摊能够帮助您了解哪些产品是真正盈利的 让您能够做出更明智的预算分配决策 …
支出和使用情况意识
选择服务
您在选择服务时如何评估成本?
COST 5
选择资源类型、规模和数量
在选择资源类型、规模和数量时,如何实现成本目标?
COST 6
定价模式选择
您如何使用定价模式来降低成本?
COST 7
数据传输规划
您如何规划数据传输费用?
COST 8
为工作负载使用合适的实例和资源是节约成本的关键 例如 在小型服务器上运行某个报告需要五个小时 而在另一个两倍成本的大型服务器上运行只需要一个小时 虽然两个服务器提供同样的结果 但小型服务器会逐渐产生更多成本 良好架构的工作负载会使用最具有成本效益的资源 这样可以产生巨大而积极的经济效益 您还可以使用托管服务降低成本 例如 您可以使用按电子邮件收费的服务 而无需自己维护电子邮件服务器 …
具有成本效益的资源
管理需求和供应资源
如何管理需求和供应资源?
COST 9
在您迁移到云时 您仅为所需内容付费 您可以在需要时供应与工作负载需求匹配的资源 从而消除昂贵且浪费的过度预置需求 还可以通过限流 缓冲区或队列来修改需求 以满足需求并以更少的资源达成目标 从而降低成本 或者在以后使用批处理服务处理需求 …
管理需求和供应资源
新服务评估
如何评估新服务?
COST 10
评估工作量成本
如何评估工作量成本?
COST 11
AWS 不断发布新服务和功能 因此您最好不断审视现有架构决策 以便确保其始终最具成本效益 当您的需求发生变化时 请主动停用不再需要的资源 整体服务和系统 …
持续优化
以最低价格运行系统来交付业务价值的能力。
成本优化
架构选择
如何为您的工作负载选择合适的云资源和架构模式?
PERF 1
针对特定工作负载的最佳解决方案各不相同 而且解决方案通常会结合多种方法 Well Architected 工作负载会使用多种解决方案 并且支持各种不同的功能来提高性能 …
架构选择
计算和硬件
如何在工作负载中选择和使用计算资源?
PERF 2
适合特定工作负载的最佳计算方案会因应用程序设计 使用模式和配置设置而有所不同 架构可能会使用不同的计算方案来支持各种组件 并允许使用不同的功能来提高性能 为架构选择错误的计算方案可能会降低性能效率 …
计算和硬件
数据管理
如何存储、管理和访问工作负载中的数据?
PERF 3
针对特定系统的最佳数据管理解决方案往往取决于数据类型 数据块 文件或对象 访问模式 随机或连续 所需吞吐量 访问频率 在线 离线 归档 更新频率 WORM 动态 以及可用性与持久性限制等因素 Well Architected 工作负载使用专门构建的数据存储 这些存储允许使用不同的功能来提高性能 …
数据管理
联网和内容分发
如何在工作负载中选择和配置网络资源?
PERF 4
适合某个工作负载的最佳网络解决方案会因延迟 吞吐量要求 抖动和带宽而有所不同 物理限制 例如用户资源或本地资源 决定位置选项 这些限制可以通过边缘站点或资源置放来抵消 …
联网和内容分发
流程和文化
您使用什么流程来提高工作负载的性能效率?
PERF 5
在最初构建工作负载时 您可以采用一些原则和实践 来协助您更好地运行高效 高性能的云工作负载 …
流程和文化
有效利用计算资源来满足系统要求,并随着需求变化和技术演进保持这种效率的能力。
性能效率
服务配额和限制
如何管理服务配额和限制?
REL 1
网络拓扑
如何规划网络拓扑?
REL 2
基础要求是指其范围超出单个工作负载或项目的因素 在为任何系统设计架构之前 您应确定影响可靠性的基本要求 例如 您必须为数据中心提供足够的网络带宽 …
基础
服务架构
如何设计工作负载服务架构?
REL 3
设计交互以预防故障
您如何在分布式系统中设计交互以预防发生故障?
REL 4
交互设计以缓解故障
您如何在分布式系统中进行交互设计,从而缓解或经受住故障影响?
REL 5
可靠的工作负载始于前期的软件和基础设施设计决策 您的架构选择将影响所有五个架构完善支柱的工作负载行为 针对可靠性 您必须遵循特定的模式 …
工作负载架构
资源监控
如何监控工作负载资源?
REL 6
需求处理
您如何设计工作负载,以适应不断变化的需求?
REL 7
变更管理
如何实施更改?
REL 8
您必须提前为工作负载或其环境的更改做好准备 从而实现工作负载的可靠操作 此类更改包括 外部因素施加到工作负载上的更改 如 需求高峰 以及内部更改 如功能部署和安全补丁 …
变更管理
数据备份
如何备份数据?
REL 9
故障隔离
如何使用故障隔离来保护您的工作负载?
REL 10
实施弹性机制
如何将您的工作负载设计为可承受组件故障的影响?
REL 11
可靠性测试
如何测试可靠性?
REL 12
灾难恢复
如何规划灾难恢复(DR)?
REL 13
在任何具备一定复杂度的系统中 发生故障在意料之中 可靠性要求您的工作负载知晓故障的发生 并采取相应措施以避免对可用性产生影响 工作负载必须既能承受故障 又能自动解决问题 …
故障管理
包括工作负载按照计划正确而稳定执行其预期功能的能力。它包括在其全部生命周期内运行和测试工作负载的能力。本白皮书提供了有关在 AWS 中实施可靠工作负载的深入的最佳实践指导。
可靠性
运营重点
您如何确定自己的重点?
OPS 1
运营模式
如何构建组织结构来为业务成果提供支持?
OPS 2
组织文化
组织文化如何为业务成果提供支持?
OPS 3
您的团队需要对整个工作负载 他们在其中的角色以及共同的业务目标有一致的理解 以便设置运营重点以实现业务成功 明确运营重点可以让您的工作效益最大化 评估内部和外部客户需求 让包括业务 开发和运营团队在内的主要利益相关方参与进来 以便确定工作重心 评估客户需求将确保您充分了解实现业务成果所需的支持 确保了解组织监管规定的指导原则或义务 以及监管合规性要求和行业标准等可能需要遵循或重视的外部因素 验证您是否具有确定内部监管和外部合规性要求更改的机制 如果未确定要求 请确保您已对此决定进行尽职调查 定期审查您的运营重点 以便在需求发生变化时对其进行更新 评估业务面临的威胁 例如业务风险和负债以及信息安全威胁 并在风险注册表中维护这些信息 评估风险的影响 在有冲突的利益或替代方法之间做出权衡 例如 新功能的加速上市可能会比成本优化更重要 或者您可以为非关系数据选择关系数据库来简化系统迁移工作 而无需重构 管理收益和风险 以便在确定工作重心时做出明智的决策 有些风险或选择可能在一段时间内可以接受 这可能会降低相关风险 或者允许风险继续存在可能会令人无法接受 在这种情况下 您将采取措施来化解风险 您的团队必须了解他们在实现业务成果方面所发挥的作用 团队需要了解自己在其他团队获得成功过程中所扮演的角色 其他团队在他们获得成功的过程中所扮演的角色 并设定共同的目标 了解责任分配 所有权归属 决策制定方式以及决策者将有助于集中精力 最大限度地发挥团队的优势 团队的需求将由其所支持的客户 所在组织 团队的组成以及工作负载的特征决定 期望单个运营模式能够支持组织中的所有团队及其工作负载是不合理的 确保每个应用程序 工作负载 平台和基础设施组件都有确定的负责人 并且每个流程和程序都有确定的负责人负责其定义 有负责人负责其性能 了解每个组件 流程和程序的业务价值 了解为什么要配置这些资源或为什么要执行这些活动 以及为什么要拥有该所有权 这些都有助于确定团队成员的行动 清晰定义团队成员的责任以便他们可以适当地采取行动 并制定相关机制 确定责任和所有权 制定用于请求添加 更改和例外的机制 以免限制创新 在团队之间定义协议 描述团队之间如何开展合作以相互支持以及您的业务成果 为您的团队成员提供支持 以便他们可以更有效地采取行动并为您的业务成果提供支持 参与其中的高层领导应设定期望并衡量是否成功 他们应是采用最佳实践和组织发展的发起人 倡导者和推动者 授权团队成员在成果面临风险时采取行动以尽可能减少影响 并鼓励他们在认为存在风险时向决策者和利益相关者上报 以便解决问题并避免事故 及时 清晰 可行地传达已知风险和计划内事件 以便团队成员可以及时采取适当行动 鼓励进行试验 以加快学习速度 并使团队成员保持兴趣和参与热情 团队必须增强自己的技能组合 以采用新技术 并随需求和责任的变化继续提供支持 专门安排学习时间 以提供支持并鼓励参与其中 确保您的团队成员拥有取得成功所需的资源 包括工具和团队成员 并具有支持您的业务成果的规模 利用跨组织的多样性来寻求多种独特的见解 利用这种见解提高创新能力 对您的假设提出质疑 并降低确认偏差的风险 在团队内部提升包容性 多样性和可达性有助于获取有益的见解 …
组织
实施可观测性
如何在工作负载中实现可观测性?
OPS 4
开发和集成
如何减少缺陷、简化修复和改进生产流程?
OPS 5
缓解部署风险
您如何缓解部署风险?
OPS 6
操作准备
如何知道您已经准备好支持某种工作负载?
OPS 7
要为卓越运营做好准备 您必须了解您的工作负载及其预期行为 然后 您需要能够针对它们进行设计 以提供对其状态的洞察并构建程序以提供支持 将工作负载设计成能够提供必要的信息 以便您了解其所有组件的内部状态 例如指标 日志 事件和跟踪信息 为可观测性和调查问题提供支持 迭代开发必要的遥测技术 以监控工作负载的运行状况 确定结果何时面临风险并做出有效响应 在检测工作负载时 请捕获一组广泛的信息以启用情景感知 例如 状态变化 用户活动 特权访问和利用率计数器等的变更 因为您可以随时间变化筛选最有用的信息 采用改进生产调整流程并支持重构 快速质量反馈和错误修复的方法 这些方法可以加快有益更改进入生产环境的速度 减少产生的问题 并能够快速识别和修复通过部署活动引入的问题或在环境中发现的问题 采用提供快速质量反馈 并且若更改没有达到目标成效 则支持快速恢复的方法 使用这些实践可以减轻因部署更改而产生的问题的影响 制定计划以防更改不成功 这样在必要时能够更快速的响应 并测试和验证所做的更改 了解环境中的计划活动 以便可以管理更改风险 避免影响计划活动 强调频繁 小规模 可逆更改 以限制更改范围 这样可以简化故障排除工作 加快修复速度 并支持回滚更改 此外 还意味着能够更频繁地从有价值的更改中获益 评估工作负载 流程和程序以及工作人员的运营准备就绪情况 以了解与工作负载相关的运营风险 您应该使用一致的流程 包括手动或自动化检查清单 来了解何时可运营工作负载或进行更改 这也使您能够发现需要制定计划予以解决的任何问题 准备好记录日常活动的运行手册和指导问题解决流程的行动手册 了解收益和风险 以便做出明智的决策 从而使更改应用到生产环境 …
准备
工作负载可观测性
如何在组织中利用工作负载可观测性?
OPS 8
运营状况
您如何了解自己的运营状况?
OPS 9
事件响应
您如何应对工作负载事件和运营事件?
OPS 10
工作负载运营是否成功通过业务成果和客户结果的实现情况加以衡量 定义预期结果 确定成功的衡量方式 并确定将在这些计算中使用的指标 以确定工作负载和运营是否成功 运营状况包括工作负载的运行状况 以及为支持工作负载而执行的操作的运行状况和成败 例如 部署和事件响应 设立改进 调查和介入的指标基线 收集和分析您的指标 然后验证您对运营成功的理解及其随时间变化的规律 使用收集的指标来确定您是否可以满足客户需求和业务需求 并确定需要改进的领域 要实现卓越运营 您需要进行有效且高效的运营事件管理 这适用于计划内和计划外的运营事件 使用已确定的运行手册解决易于理解的事件 并使用行动手册来帮助调查和解决问题 您需要根据事件对业务和客户的影响排定其优先级 务必确保在出现事件警报时 会有指定负责人启动相关流程 事先定义解决事件所需的人员 并配备一个上报触发器 以便根据紧急程度和影响在必要时引入额外人员 确定并引入有权决定行动方案的人员 这些行动方案将对之前未解决的事件响应产生业务影响 通过为目标受众 例如 客户 业务人员 开发人员 运营人员 定制的控制面板和通知来发布工作负载的运行状态 以便他们可以采取相应措施 管理预期 并在恢复正常运营时收到通知 …
运营
运营发展
如何改进运营?
OPS 11
必须学习 分享和不断改进 以保持卓越运营 专注于工作周期 以持续进行渐进式改进 对影响客户的所有事件执行事件后分析 确定导致这些事件的因素和预防措施 以限制或防止再次发生 根据需要与受影响的团体沟通导致这些事件的因素 定期评估并优先处理改进机会 例如 功能请求 问题修复和合规性要求 包括工作负载和运营程序 将反馈周期纳入您的流程 以快速确定需要改进的领域 并从运营执行中获取经验教训 在团队中分享得到的经验教训 并从中受益 分析经验教训中的趋势 并对运营指标进行跨团队回顾性分析 以确定改进的机会和方法 实施改进措施 并评估结果以确定是否成功 …
演进
能够有效地支持发展和运行工作负载,获取对运营的洞察,以及不断改进支持流程和程序以实现业务价值。
卓越运营
安全操作
如何安全地操作您的工作负载?
SEC 1
为了安全地操作您的工作负载 您必须对安全性的各个方面应用总体最佳实践 采用您在组织和工作负载层面的卓越运营中定义的要求和流程 并将它们应用到各个方面 …
安全性
身份验证
如何管理人员和机器的身份?
SEC 2
授权与访问控制
如何管理人员和机器的权限?
SEC 3
身份识别与访问管理是信息安全计划的关键部分 可以确保只有经过授权和通过身份验证的用户和组件才能访问您的资源 并且只能以您要求的方式进行访问 例如 您需要定义一些主体 即可以在您的账户中执行操作的账户 用户 角色和服务 创建与这些主体相匹配的策略 并实施严格的凭证管理 这些权限管理元素构成了身份验证和授权的核心 …
身份识别与访问管理
安全事件
您如何检测和调查安全事件?
SEC 4
您可以使用检测控制来识别潜在的安全威胁或事件 检测控制是管理框架的重要组成部分 并且可以用于支持质量流程 法律或合规 还可以用于威胁识别和响应工作 检测控制分为多种不同类型 例如 编制资产清单及其详细属性有助于更有效地做出决策 以及进行生命周期管理 从而有助于建立运营基准 您可以通过内部审计 是指对信息系统相关的控制措施进行的检查 来确保实践符合策略和要求 并确保您已根据定义的条件设置了正确的自动告警通知 这些控制措施都是重要的响应手段 可以帮助您的组织识别和了解异常活动的范围 …
检测
网络防护
如何保护您的网络资源?
SEC 5
计算资源保护
如何保护计算资源?
SEC 6
基础设施保护包括满足最佳实践和组织 法律及监管义务所必需的控制方法 例如深度防御 使用这些方法对于在云中或本地持续成功运营是至关重要的 …
基础设施保护
数据分级
如何对数据进行分类?
SEC 7
静态数据保护
如何保护静态数据?
SEC 8
动态数据保护
如何保护传输中的数据?
SEC 9
在为任何系统设计架构之前 您应确定可能影响安全性的基本实践 例如 数据分级提供了一种基于敏感程度对组织数据进行分类的方法 加密通过让未经授权的用户无法获知数据的真正内容来保护数据 这些工具和方法非常重要 因为它们有助于实现诸如避免财务损失或履行法律规定的义务等一系列目标 …
数据保护
事件响应
如何预测、响应事件以及从事件中恢复?
SEC 10
即使采用成熟的预防和检测性控制措施 您的组织也应实施机制来响应安全事件并缓解安全事件可能带来的影响 您的准备工作会极大地影响团队在事件发生期间采取有效行动 对问题进行隔离 遏制和取证并将运行状态恢复到已知良好状态的能力 在安全事件发生之前确保相关工具和访问权限部署到位 然后通过实际试用定期进行事件响应演练 这样有助于确保您有能力恢复并最大限度避免业务中断 …
事件响应
应用程序安全性
如何在整个设计、开发和部署生命周期中纳入并验证应用程序的安全属性?
SEC 11
应用程序安全性 AppSec 介绍了如何设计 构建和测试所开发工作负载的安全属性的整个过程 您的组织中应该有经过适当培训的人员 了解构建和发布基础设施的安全属性 并使用自动化来识别安全问题 在软件开发生命周期 SDLC 和发布后流程的常规部分采用应用程序安全性测试 有助于确保您拥有一种结构化的机制来识别 修复和防止应用程序安全性问题进入生产环境 在设计 构建 部署和操作工作负载时 应用程序开发方法应该包括安全控制机制 在此过程中 协调流程以持续减少缺陷并尽可能减少技术债务 例如 在设计阶段使用威胁建模有助于及早发现设计缺陷 这使得缺陷更易于修复 修复的成本更低 而不是等到以后再来缓解这些缺陷 在 SDLC 中 越早的阶段 解决缺陷的成本和复杂性通常就会越低 解决问题最简单的方法就是从一开始就不要有问题 所以从威胁模型开始有助于您在设计阶段专注于实现正确的结果 随着 AppSec 计划日渐成熟 您可以增加使用自动化执行的测试数量 提高向构建者提出的反馈的准确性 并减少安全审查所需的时间 所有这些操作都可以提高所构建软件的质量 并加快将新功能推向生产环境的速度 这些实施指南侧重于四个方面 组织和文化 管道本身的安全 管道中的安全以及依赖项管理 每个方面提供了一组可以实施的原则 并提供了有关如何设计 开发 构建 部署和操作工作负载的端到端视图 …
应用程序安全性
保护数据、系统和资产以利用云技术来改善安全性的能力。
安全性