© 2020, Amazon Web Services, Inc. 或其附屬公司 營運優先事項 如何決定您的優先事項? OPS 1 操作模式 如何建構組織以支援業務成果? OPS 2 組織文化 您的組織文化如何支援您的業務成果? OPS 3  您的團隊需要對您的整個工作負載 以及團隊成員在其中的作用達成共識 並且擁有共同的業務目標 以便設定能助力業務成功的優先事項 明確定義的優先事項將實現工作的最大收益 評估內部與外部客戶需求 並讓關鍵利害關係人 包括業務 開發和營運團隊 參與進來 以確定工作的重點領域 評估客戶需求將確保您對實現業務成果所需的支援有透徹的了解 確保您了解由貴組織管控所定義的 可能要求或強調特定重點的準則或義務以及外部因素 例如法規合規要求和產業標準 確認您是否設有識別內部管控和外部合規要求變更的機制 如果未識別要求 請確保您已對此決定進行盡職調查 定期審查您的優先事項 以便在需求變更時更新優先事項 評估對業務的威脅 例如 業務風險和責任 資訊安全威脅 並將此資訊保存在風險登記表內 評估風險 以及在相互衝突的利益或替代方法之間做出權衡的影響 例如 新功能加速上市可能是成本最佳化所強調的重點 或您可以為非關聯式資料選擇關聯式資料庫 以便更輕鬆地遷移系統 而非重構 管理收益和風險 以便在確定工作重點時做出明智的決定 某些風險或選擇可能在一段時間內是可以接受的 相關風險可能得以減輕 也可能出現無法接受風險存在的事實 在此情況下 您將需要採取動作來解決風險 您的團隊必須了解其在達成業務成果中所扮演的角色 團隊需要了解自己在促成其他團隊成功的過程中所扮演的角色 其他團隊在促進其成功的過程中所扮演的角色 以及擁有共同目標 了解責任 擁有權 決策方式 以及誰有權制定決策 將有助於找到工作重點 並充分發揮團隊的優勢 團隊的需求將由其所支援的客戶 組織 團隊組成 以及工作負載的特性形塑而成 合理來說 無法要求單一操作模式支援貴組織中的所有團隊及其工作負載 確保每個應用程式 工作負載 平台和基礎架構元件都有已識別擁有者 而且每個流程和程序都有負責其定義的已識別擁有者 以及負責其執行的擁有者 透過了解每個元件 流程和程序的商業價值 為何部署這些資源或為何執行活動 以及該擁有權為何存在 有助於團隊成員採取適當動作 明確定義團隊成員的責任 以便他們能夠適當採取動作 並具備識別責任和擁有權的機制 設立可請求新增 變更和例外情況的機制 就能避免創新受到限制 在團隊之間制定協議 說明團隊如何共同合作以互相支援和協助達成業務成果 為您的團隊成員提供支援 讓他們能夠更有效地採取動作以及支援業務成果 參與的高階領導層應設定期望並衡量成功 他們是採用最佳實務和組織演進的發起者 倡導者和推動者 給予團隊成員充分授權 讓他們可在成果出現風險時採取動作以將影響降到最低 同時鼓勵他們在遇到風險時 向決策者和利害關係人呈報 以便處理問題並避免事件發生 針對已知風險和計劃事件進行及時 明確且可採取動作的溝通 讓團隊成員能夠及時採取適當的動作 鼓勵試驗以加速學習 讓團隊成員保持興趣並積極參與 團隊必須發展自己的技能集 以採用新技術 並支援需求和責任的變更 提供專門的結構化時間用於學習 以支援並鼓勵這一舉措 確保團隊成員擁有可助力取得成功並進行擴展的資源 包括工具和團隊成員 以協助達成您的業務成果 利用跨組織的多樣性 尋求多種獨特的觀點 使用此觀點來增加創新 挑戰假設 並降低確認偏差的風險 在團隊中增加包容性 多樣性和可及性 以獲得有益的觀點 … 組織 設計時考量如何獲取工作負載洞見 您如何設計工作負載以便了解其狀況? OPS 4 開發與整合 您如何減少缺陷、幫助輕鬆修復,以及改善生產流程? OPS 5 緩解部署風險 您如何緩解部署風險? OPS 6 營運準備度 您如何知道自己準備好支援工作負載? OPS 7  要為卓越營運做好準備 您必須了解您的工作負載及其預期行為 然後 您就能將其設計出來 以了解它們的狀態並建置可提供支援的程序 設計您的工作負載 使其提供必要資訊 讓您了解所有元件的內部狀態 例如 指標 日誌 事件和追蹤 以支援可觀測性和調查問題 透過反覆操作 開發監控工作負載運作狀態所需的遙測 識別成果的風險在何時發生 並實現有效回應 在檢測您的工作負載時 擷取大量資訊以實現狀況認知 例如 狀態變更 使用者活動 權限存取 利用率計數器 從而知道您可使用篩選條件選擇某段時間內最有用的資訊 採用的方法需能夠改善變更進入生產環境的流程 並支援重構 快速提供品質意見回饋及修復錯誤 這會加快有助益的變更進入生產環境的速度 限制部署問題 並快速識別和修復部署活動所導致或在您的環境中所發現的問題 採用可快速提供品質意見回饋 並從成果不盡理想的改變中快速復原的方法 使用這些實務可緩解部署變更所帶來問題的影響 為變更失敗做好規劃 以便在必要時能夠快速回應 同時測試並驗證所做變更 了解環境中的計劃內活動 以便管理會影響計劃內活動的變更風險 強調頻繁 細微 可逆的變更 以限制變更範圍 透過回復變更 可以更輕鬆地進行故障診斷並加快修復速度 這也表示您從有價值變更中受益的頻率會提高 評估工作負載 流程 程序及人員的營運準備度 以了解與工作負載相關的營運風險 您應使用一致的程序 包括手動或自動檢查清單 來獲悉工作負載或變更執行就緒的時間 這樣一來 您也將能尋找任何需要您制定解決方案的領域 具備可記錄例行活動的執行手冊 以及可指引問題解決程序的程序手冊 了解收益和風險 以做出明智決策 讓變更順利進入生產環境 … 準備 工作負載運作狀態 您如何了解工作負載的運作狀態? OPS 8 營運狀況 您如何了解營運狀況? OPS 9 事件回應 您如何管理工作負載和營運事件? OPS 10 我們可根據業務和客戶成果的實現情況 衡量是否成功運作工作負載 定義預期成果 確定如何衡量成功 並識別可用於這些計算的指標 以判斷您的工作負載和營運是否成功 營運運作狀態包括工作負載的運作狀態 以及為支援工作負載所執行營運活動 例如 部署和事件回應 的運作狀態和成功情況 建立指標基準以便進行改善 調查和介入 收集並分析指標 然後 驗證您對營運成功及其隨著時間的變化情況的理解 使用收集的指標來判斷您是否滿足客戶和業務需求 並識別有待改善的領域 要實現卓越營運 必須高效且有效地管理營運事件 這適用於計劃和非計劃中的營運事件 使用已建立的執行手冊處理已充分了解的事件 並使用程序手冊協助調查和解決問題 根據事件對業務和客戶的影響來確定回應事件的優先順序 確保如因回應事件而發出提醒 則將由明確識別的擁有者執行關聯程序 事先定義解決事件所需的人員 並納入向上呈報觸發條件 以在必要時根據緊迫性和影響力 在其中新增額外的參與人員 識別並邀請具有權限的個人來決定行動方案 該方案將受到先前未解決的事件回應的業務影響 透過針對目標受眾 例如 客戶 業務 開發人員 營運 量身定制的儀表板和通知來傳達工作負載的運行狀態 以便他們能採取適當的動作 進而管理他們的期望並在恢復正常營運時得到通知 … 操作 營運演進 您如何改善營運? OPS 11  您必須學習 分享和持續改善以維持卓越營運 投入工作週期以持續逐漸改善 針對所有影響客戶的事件執行事件後分析 確定成因和預防措施 限制或防止其再次發生 視情況與受影響的社群溝通成因 定期評估改進機會 例如 功能請求 問題修復和合規要求 並確定其優先順序 包括工作負載和營運程序 在您的程序中納入回饋迴圈 以快速識別有待改善的領域並從營運執行中獲得經驗 在遊戲日內 可跨團隊分享獲得的經驗 進而分享這些經驗的益處 分析獲得的經驗中的趨勢 並執行營運指標的跨團隊回溯分析 以識別改善機會和方法 實作旨在帶來改善的變更 並評估結果以判斷是否成功 … 演進 可有效支援開發和執行工作負載、深入了解其營運狀況,以及持續改善支援流程和程序以產生商業價值的能力。 卓越營運 安全操作 如何安全地操作您的工作负载? SEC 1 为了安全地操作您的工作负载 您必须对安全性的各个方面应用总体最佳实践 采用您在组织和工作负载层面的卓越运营中定义的要求和流程 并将它们应用到各个方面 … 安全性 身份验证 如何管理人员和机器的身份? SEC 2 授权与访问控制 如何管理人员和机器的权限? SEC 3 身份识别与访问管理是信息安全计划的关键部分 可以确保只有经过授权和通过身份验证的用户和组件才能访问您的资源 并且只能以您要求的方式进行访问 例如 您需要定义一些主体 即可以在您的账户中执行操作的账户 用户 角色和服务 创建与这些主体相匹配的策略 并实施严格的凭证管理 这些权限管理元素构成了身份验证和授权的核心 … 身份识别与访问管理 安全事件 您如何检测和调查安全事件? SEC 4 您可以使用检测控制来识别潜在的安全威胁或事件 检测控制是管理框架的重要组成部分 并且可以用于支持质量流程 法律或合规 还可以用于威胁识别和响应工作 检测控制分为多种不同类型 例如 编制资产清单及其详细属性有助于更有效地做出决策 以及进行生命周期管理 从而有助于建立运营基准 您可以通过内部审计 是指对信息系统相关的控制措施进行的检查 来确保实践符合策略和要求 并确保您已根据定义的条件设置了正确的自动告警通知 这些控制措施都是重要的响应手段 可以帮助您的组织识别和了解异常活动的范围 … 检测 网络防护 如何保护您的网络资源? SEC 5 计算资源保护 如何保护计算资源? SEC 6 基础设施保护包括满足最佳实践和组织 法律及监管义务所必需的控制方法 例如深度防御 使用这些方法对于在云中或本地持续成功运营是至关重要的 … 基础设施保护 数据分级 如何对数据进行分类? SEC 7 静态数据保护 如何保护静态数据? SEC 8 动态数据保护 如何保护传输中的数据? SEC 9 在为任何系统设计架构之前 您应确定可能影响安全性的基本实践 例如 数据分级提供了一种基于敏感程度对组织数据进行分类的方法 加密通过让未经授权的用户无法获知数据的真正内容来保护数据 这些工具和方法非常重要 因为它们有助于实现诸如避免财务损失或遵循法律与合规性要求等一系列目标 … 数据保护 事件响应 如何预测、响应事件以及从事件中恢复? SEC 10 即使采用极为成熟的预防和检测控制机制 您的组织仍应制定相关流程来响应安全事件并缓解安全事件可能带来的影响 工作负载的架构会极大地影响团队在事件发生期间采取行动 隔离或约束系统并将运行状态恢复到已知的良好状态的能力 在安全事件发生之前确保相关工具部署到位 而后定期进行响应演练 将有助于确保您的架构有能力及时进行调查和恢复 … 事件响应 安全性支柱包含能夠保護資料、系統和資產,以利用雲端技術來改善安全性。 安全性 服務配額和限制 您如何管理服務配額和限制? REL 1 網路拓撲 如何規劃您的網路拓撲? REL 2 基礎要求是其範圍超過單一工作負載或專案的要求 在建立任何系統架構之前 應確立會影響可靠性的基本要求 例如 您必須為資料中心提供足夠的網路頻寬 … 基礎 服務架構 如何設計您的工作負載服務架構? REL 3 設計互動以防止失敗 如何在分散式系統中設計防止失敗的互動? REL 4 設計互動以緩解故障 如何設計分散式系統中的互動以緩解或承受故障? REL 5 可靠的工作負載始自於軟體和基礎設施的前期設計決策 您的架構選擇會對所有五大 Well Architected 支柱的工作負載行為產生影響 為求可靠性 您必須依循特定模式 … 工作負載架構 資源監控 如何監控工作負載資源? REL 6 需求處理 如何設計工作負載以適應需求變更? REL 7 變更管理 您如何實作變更? REL 8 必須預期並因應工作負載或其環境的變更 才能實現可靠的工作負載操作 變更包括對工作負載強加的變更 例如需求峰值 以及內部的變更 例如功能部署和安全性修補程式 … 變更管理 資料備份 您如何備份資料? REL 9 故障隔離 如何使用故障隔離來保護您的工作負載? REL 10 彈性實作 如何設計工作負載以承受元件失敗? REL 11 可靠性測試 如何測試可靠性? REL 12 災難復原 您如何規劃災難復原 (DR)? REL 13 在任何合理複雜的系統中 均有可能會發生失敗 為達可靠性要求 您的工作負載應在發生失敗時察覺失敗 並採取行動以免影響可用性響 工作負載必須能夠承受失敗並自動修復問題 … 失敗管理 工作負載如預期般正確而穩定地執行其預期功能,包括在整個生命週期中執行及測試工作負載。本白皮書深入說明在 AWS 上實作可靠工作負載的相關事項,提供最佳實務指導。 可靠性 選擇架構 您如何選擇效能最佳的架構? PERF 1 選擇運算 您如何選擇運算解決方案? PERF 2 選擇儲存體 您如何選擇儲存解決方案? PERF 3 選擇資料庫 您如何選擇資料庫解決方案? PERF 4 選擇網路 您如何設定聯網解決方案? PERF 5  適用於特定工作負載的最佳解決方案各不相同 而解決方案通常會結合多種方法 Well Architected 工作負載會使用多重解決方案 並啟用不同功能以提升效能 … 選擇 不斷演進的架構 您如何發展工作負載,以運用新版本的優勢? PERF 6 雲端技術正在快速發展 您必須確保工作負載元件會使用新技術和方法 來持續改善效能 您必須持續評估並考量工作負載元件的變更 以確保符合其效能和成本目標 機器學習和人工智慧 AI 等新技術可讓您重新構思客戶體驗 並跨所有業務工作負載進行創新 … 審查 監控效能 您如何監控資源來確保達成預期效能? PERF 7  實作工作負載後 您必須監控其效能 以便在其影響客戶前修正任何問題 超過閾值時 應使用監控指標來發出警示 … 監控 效能權衡 您如何採用權衡來增進效能? PERF 8  當您建立架構解決方案時 請考慮權衡 以確保採用了最佳方法 根據您的情況 您可以權衡一致性 耐用性和時間與延遲的空間 進而提高效能 … 權衡 有效率地使用運算資源以滿足系統需求,並隨著需求變更與技術發展來保持該效率需求的能力。 效能達成效率 雲端財務管理 如何實作雲端財務管理? COST 1  採用雲端之後 技術團隊因核准 採購和基礎架構部署週期縮短而加快創新速度 實現商業價值和財務成功需要新的雲端財務管理方法 此方法為雲端財務管理 透過在整個組織實作知識建置 計畫 資源和程序 打造整個組織的能力 許多組織是由許多不同的單位組成 每個單位都具有不同的優先事項 以下能力將協助建立更高效的組織 讓您的組織與一系列約定的財務目標保持一致 並為組織提供達成這些目標所需的機制 有能力的組織將更快速地創新和建立 且面對任何內部或外部因素時更靈活 適應性更強 … 實作雲端財務管理 用量管控 您如何管控用量? COST 2 用量和成本監控 您如何監控用量和成本? COST 3 資源除役 如何進行資源除役? COST 4 雲端提供的增強彈性和敏捷性 可促進創新和快節奏開發和部署 它消除了與佈建內部部署基礎架構相關的手動程序和時間 包括識別硬體規格 協商價格報價 管理採購訂單 安排裝運以及部署資源 然而 欲享有易用性和幾乎無限制的隨需容量 對於支柱需要換上新思維 許多企業是以各種團隊執行多個系統之下所組成 能將資源成本歸因至個別組織或產品擁有者 能帶動高效使用的行為模式 有助於減少浪費 準確的成本歸因可讓您知道哪些產品具有真正的獲利能力 並就預算分配做出更明智的決策 … 支出和用量感知 服務選擇 您選擇服務時如何評估成本? COST 5 資源類型、大小和數量選擇 您選擇資源類型、大小和數量時,如何達成成本目標? COST 6 定價模式選擇 您如何使用定價模式降低成本? COST 7 資料傳輸規劃 您如何規劃資料傳輸費? COST 8 為您的工作負載使用適當的執行個體和資源 是節約成本的關鍵 例如 假設報告程序在較小的伺服器上執行時要花五小時 但在兩倍昂貴的較大伺服器上執行只需一小時 這兩種伺服器產出的結果相同 但較小的伺服器經過一段時間會形成較高成本 架構完善的工作負載會用最具成本效益的資源 帶來明顯正面的經濟影響 您並有機會可利用受管服務來降低成本 例如 與其維護伺服器以遞送電子郵件 可使用以訊息為單位收費的服務 … 具有經濟效益的資源 管理需求與供應資源 如何管理需求和供應資源? COST 9 待您移至雲端後 即可僅為所需付費 您可以在需要時供應資源以符合工作負載需求 避免因過度佈建付出高昂成本和造成浪費 您也可以使用調節 緩衝區或佇列來修改需求 以讓需求變得平緩 並以較少的資源來滿足需求 從而降低成本 或稍後使用批次服務來處理 … 管理需求與供應資源 新服務評估 您如何評估新服務? COST 10 隨著 AWS 推出新服務和功能 最佳實務是檢視現有架構決策 以確保持續發揮最大成本效益 隨著您的要求變更 請主動將不再需要的資源 整項服務和系統加以除役 … 隨時間優化 在最低價格之下執行系統以產生商業價值的能力 成本優化