此內容已過時。這個版本的 Well-Architected 框架現在可以在以下位置找到: https://docs.aws.amazon.com/zh_tw/wellarchitected/2022-03-31/framework/operational-excellence.html

卓越營運

卓越營運 支柱包含 可有效支援開發和執行工作負載、深入了解其營運狀況,以及持續改善支援流程和程序以產生商業價值的能力。

卓越營運支柱概述了設計原則、最佳實務和相關問題。您可以在卓越營運支柱白皮書中找到實作的指引。

設計原則

有 five 項雲端 卓越營運 設計原則:

定義

有 four 個雲端 卓越營運 最佳實務方面:

組織的領導階層定義業務目標。貴組織必須了解要求和優先順序,並運用這些資訊規劃和進行用以幫助達成業務成果的工作。您的工作負載必須提供支援工作負載所需的資訊。透過自動化重複程序的方式,實作整合、部署及交付工作負載的服務,將可讓生產享有更多有利的變更。

工作負載的操作本質上就可能存在著風險。您必須了解這些風險,並做出明智的決策才能進入生產階段。您的團隊必須能夠支援您的工作負載。從所需業務成果衍生的業務和營運指標,將讓您能夠了解工作負載的運作狀態、營運活動,並回應事件。您的優先事項會隨著業務需求和業務環境的變化而改變。運用這些方面做為回饋迴圈,以持續推動貴組織的改善和工作負載的操作。

最佳實務

組織

您的團隊需要對您的整個工作負載,以及團隊成員在其中的作用達成共識,並且擁有共同的業務目標,以便設定能助力業務成功的優先事項。明確定義的優先事項將實現工作的最大收益。評估內部與外部客戶需求,並讓關鍵利害關係人 (包括業務、開發和營運團隊) 參與進來,以確定工作的重點領域。評估客戶需求將確保您對實現業務成果所需的支援有透徹的了解。確保您了解由貴組織管控所定義的、可能要求或強調特定重點的準則或義務以及外部因素,例如法規合規要求和產業標準。確認您是否設有識別內部管控和外部合規要求變更的機制。如果未識別要求,請確保您已對此決定進行盡職調查。定期審查您的優先事項,以便在需求變更時更新優先事項。

評估對業務的威脅 (例如,業務風險和責任、資訊安全威脅),並將此資訊保存在風險登記表內。評估風險,以及在相互衝突的利益或替代方法之間做出權衡的影響。例如,新功能加速上市可能是成本最佳化所強調的重點,或您可以為非關聯式資料選擇關聯式資料庫,以便更輕鬆地遷移系統,而非重構。管理收益和風險,以便在確定工作重點時做出明智的決定。某些風險或選擇可能在一段時間內是可以接受的,相關風險可能得以減輕,也可能出現無法接受風險存在的事實,在此情況下,您將需要採取動作來解決風險。

您的團隊必須了解其在達成業務成果中所扮演的角色。團隊需要了解自己在促成其他團隊成功的過程中所扮演的角色、其他團隊在促進其成功的過程中所扮演的角色,以及擁有共同目標。了解責任、擁有權、決策方式,以及誰有權制定決策,將有助於找到工作重點,並充分發揮團隊的優勢。團隊的需求將由其所支援的客戶、組織、團隊組成,以及工作負載的特性形塑而成。合理來說,無法要求單一操作模式支援貴組織中的所有團隊及其工作負載。

確保每個應用程式、工作負載、平台和基礎架構元件都有已識別擁有者,而且每個流程和程序都有負責其定義的已識別擁有者,以及負責其執行的擁有者。透過了解每個元件、流程和程序的商業價值、為何部署這些資源或為何執行活動,以及該擁有權為何存在,有助於團隊成員採取適當動作。明確定義團隊成員的責任,以便他們能夠適當採取動作,並具備識別責任和擁有權的機制。設立可請求新增、變更和例外情況的機制,就能避免創新受到限制。在團隊之間制定協議,說明團隊如何共同合作以互相支援和協助達成業務成果。

為您的團隊成員提供支援,讓他們能夠更有效地採取動作以及支援業務成果。參與的高階領導層應設定期望並衡量成功。他們是採用最佳實務和組織演進的發起者、倡導者和推動者。給予團隊成員充分授權,讓他們可在成果出現風險時採取動作以將影響降到最低,同時鼓勵他們在遇到風險時,向決策者和利害關係人呈報,以便處理問題並避免事件發生。針對已知風險和計劃事件進行及時、明確且可採取動作的溝通,讓團隊成員能夠及時採取適當的動作。

鼓勵試驗以加速學習,讓團隊成員保持興趣並積極參與。團隊必須發展自己的技能集,以採用新技術,並支援需求和責任的變更。提供專門的結構化時間用於學習,以支援並鼓勵這一舉措。確保團隊成員擁有可助力取得成功並進行擴展的資源 (包括工具和團隊成員),以協助達成您的業務成果。利用跨組織的多樣性,尋求多種獨特的觀點。使用此觀點來增加創新、挑戰假設,並降低確認偏差的風險。在團隊中增加包容性、多樣性和可及性,以獲得有益的觀點。

若有適用於貴組織的外部法規或合規要求,則您應使用 AWS 雲端合規提供的資源來協助教育您的團隊,以便他們可以判斷對您的優先事項的影響。Well-Architected 架構強調學習、衡量和改善。它為您提供可評估架構並實作將隨時間擴展之設計的一致方法。AWS 提供 AWS Well-Architected Tool,以協助您在部署前檢閱方法、在生產前檢閱工作負載狀態,以及檢閱生產中的工作負載狀態。您可以將它們與最新的 AWS 架構最佳實務做比較、監控工作負載的整體狀態,以及深入了解潛在風險。AWS Trusted Advisor 是一款可存取核心檢查集的工具,這些檢查提出了優化建議,可能有助您確定優先事項。商業和企業支援客戶可存取針對安全性、可靠性、效能和成本優化的其他檢查,從而進一步協助確定他們的優先事項。

AWS 可以協助您教育您的團隊有關 AWS 及其服務的知識,從而增進他們對自己的選擇會如何影響工作負載的了解。您應使用 AWS Support (AWS 知識中心、AWS 論壇和 AWS 支援中心) 和 AWS 文件中的資源來教育您的團隊。透過 AWS 支援中心聯絡 AWS Support,以獲取 AWS 相關問題的幫助。AWS 也分享了我們透過在 Amazon Builders' Library 中營運 AWS 所學到的最佳實務和模式。您可透過 AWS 部落格和官方 AWS 播客獲得其他各種實用資訊。AWS Training and Certification 透過 AWS 基礎原理自主進度數位課程提供一些免費培訓。您還可以報名參加講師指導下的培訓,以進一步協助開發團隊的 AWS 技能。

您應該使用能集中管控跨帳戶環境的工具或服務,例如 AWS Organizations,以便協助您管理操作模式。AWS Control Tower 等服務會擴大此管理功能,讓您能定義帳戶設定的藍圖 (支援您的操作模式)、使用 AWS Organizations 套用持續管控,以及自動化新帳戶的佈建作業。AWS Managed Services、AWS Managed Services 合作夥伴等受管服務供應商,或 AWS 合作夥伴網路中的受管服務供應商,都會提供實作雲端環境的專業知識,並支援您的安全和合規要求及業務目標。將受管服務加入操作模式後,便可節省時間和資源,讓您的內部團隊精簡並專注於將使您的企業脫穎而出的策略性成果,而非開發新技能和功能。

下列問題著重於 卓越營運 方面的這些考量。

OPS 1: 如何決定您的優先事項?
OPS 2: 如何建構組織以支援業務成果?
OPS 3: 您的組織文化如何支援您的業務成果?

您可能會發現,您在某個時間點會想要強調一小部分的優先事項。長期利用平衡的方法,以確保開發所需的功能和管理風險。定期審查優先事項,並隨需求的變更,更新您的優先事項。如果責任和擁有權未定義或未知,則您會面臨風險,不僅無法及時執行必要的動作,在解決這些需求時還會出現冗餘和可能相互衝突的工作。組織文化對團隊成員工作滿意度和留任率有直接影響。讓團隊成員參與其中並習得能力,以便讓業務得以成功。必需要經由試驗才能實現創新,並讓想法轉化為成果。認識到不想要的結果是成功的試驗,因其已識別出不會助力成功的路徑。

準備

要為卓越營運做好準備,您必須了解您的工作負載及其預期行為。然後,您就能將其設計出來,以了解它們的狀態並建置可提供支援的程序。

設計您的工作負載,使其提供必要資訊,讓您了解所有元件的內部狀態 (例如,指標、日誌、事件和追蹤),以支援可觀測性和調查問題。透過反覆操作,開發監控工作負載運作狀態所需的遙測、識別成果的風險在何時發生,並實現有效回應。在檢測您的工作負載時,擷取大量資訊以實現狀況認知 (例如,狀態變更、使用者活動、權限存取、利用率計數器),從而知道您可使用篩選條件選擇某段時間內最有用的資訊。

採用的方法需能夠改善變更進入生產環境的流程,並支援重構、快速提供品質意見回饋及修復錯誤。這會加快有助益的變更進入生產環境的速度、限制部署問題,並快速識別和修復部署活動所導致或在您的環境中所發現的問題。

採用可快速提供品質意見回饋,並從成果不盡理想的改變中快速復原的方法。使用這些實務可緩解部署變更所帶來問題的影響。為變更失敗做好規劃,以便在必要時能夠快速回應,同時測試並驗證所做變更。了解環境中的計劃內活動,以便管理會影響計劃內活動的變更風險。強調頻繁、細微、可逆的變更,以限制變更範圍。透過回復變更,可以更輕鬆地進行故障診斷並加快修復速度。這也表示您從有價值變更中受益的頻率會提高。

評估工作負載、流程、程序及人員的營運準備度,以了解與工作負載相關的營運風險。您應使用一致的程序 (包括手動或自動檢查清單) 來獲悉工作負載或變更執行就緒的時間。這樣一來,您也將能尋找任何需要您制定解決方案的領域。具備可記錄例行活動的執行手冊,以及可指引問題解決程序的程序手冊。了解收益和風險,以做出明智決策,讓變更順利進入生產環境。

AWS 讓您能以程式碼檢視您的整個工作負載 (應用程式、基礎架構、原則、管控和營運)。所有這些均可在其中予以定義並使用程式碼進行更新。這表示您可以將用於應用程式程式碼的相同工程規則套用到堆疊的每個元素,並在團隊或組織之間分享這些元素,以擴大開發工作的優勢。在雲端以程式碼執行營運,並利用安全進行試驗的能力,開發工作負載、營運程序以及實務失敗案例。使用 AWS CloudFormation,您將能擁有一致的範本化沙盒開發、測試和生產環境,同時還能提高營運控制等級。

下列問題著重於 卓越營運 方面的這些考量。

OPS 4: 您如何設計工作負載以便了解其狀況?
OPS 5: 您如何減少缺陷、幫助輕鬆修復,以及改善生產流程?
OPS 6: 您如何緩解部署風險?
OPS 7: 您如何知道自己準備好支援工作負載?

對以程式碼實作營運活動進行投資,從而最大程度地提高營運人員的生產力,將錯誤率降至最低以及實現自動回應。使用「事前剖析」可預測失敗並適時建立程序。依照一致的標記策略,使用資源標籤和 AWS Resource Groups 來套用中繼資料,以識別您的資源。標記您的資源,以用於組織、成本會計、存取控制,以及將自動執行營運活動設為目標。採用可利用雲端彈性的部署實務,以促進開發活動和系統的預部署,進而加快實作速度。當您變更您用於評估工作負載的檢查清單時,請計劃如何處理不再合規的即時系統。

操作

我們可根據業務和客戶成果的實現情況,衡量是否成功運作工作負載。定義預期成果,確定如何衡量成功,並識別可用於這些計算的指標,以判斷您的工作負載和營運是否成功。營運運作狀態包括工作負載的運作狀態,以及為支援工作負載所執行營運活動 (例如,部署和事件回應) 的運作狀態和成功情況。建立指標基準以便進行改善、調查和介入;收集並分析指標;然後,驗證您對營運成功及其隨著時間的變化情況的理解。使用收集的指標來判斷您是否滿足客戶和業務需求,並識別有待改善的領域。

要實現卓越營運,必須高效且有效地管理營運事件。這適用於計劃和非計劃中的營運事件。使用已建立的執行手冊處理已充分了解的事件,並使用程序手冊協助調查和解決問題。根據事件對業務和客戶的影響來確定回應事件的優先順序。確保如因回應事件而發出提醒,則將由明確識別的擁有者執行關聯程序。事先定義解決事件所需的人員,並納入向上呈報觸發條件,以在必要時根據緊迫性和影響力,在其中新增額外的參與人員。識別並邀請具有權限的個人來決定行動方案,該方案將受到先前未解決的事件回應的業務影響。

透過針對目標受眾 (例如,客戶、業務、開發人員、營運) 量身定制的儀表板和通知來傳達工作負載的運行狀態,以便他們能採取適當的動作,進而管理他們的期望並在恢復正常營運時得到通知。

在 AWS 中,您可以產生從工作負載或以原生方式從 AWS 收集的指標的儀表板視圖。您可以利用 CloudWatch 或第三方應用程式,來彙總和顯示營運活動的業務、工作負載和營運等級視圖。AWS 可透過記錄功能 (包括 AWS X-Ray、CloudWatch、CloudTrail 和 VPC Flow Logs) 提供工作負載洞見,從而能夠識別工作負載問題,以支援根本原因分析和修復。

下列問題著重於 卓越營運 方面的這些考量。

OPS 8: 您如何了解工作負載的運作狀態?
OPS 9: 您如何了解營運狀況?
OPS 10: 您如何管理工作負載和營運事件?

您收集的所有指標都應該符合業務需求及其支援的結果。開發針對已充分了解之事件的指令碼式回應,並自動化其效能以回應事件辨識。

演進

您必須學習、分享和持續改善以維持卓越營運。投入工作週期以持續逐漸改善。針對所有影響客戶的事件執行事件後分析。確定成因和預防措施,限制或防止其再次發生。視情況與受影響的社群溝通成因。定期評估改進機會 (例如,功能請求、問題修復和合規要求) 並確定其優先順序,包括工作負載和營運程序。在您的程序中納入回饋迴圈,以快速識別有待改善的領域並從營運執行中獲得經驗。

在遊戲日內,可跨團隊分享獲得的經驗,進而分享這些經驗的益處。分析獲得的經驗中的趨勢,並執行營運指標的跨團隊回溯分析,以識別改善機會和方法。實作旨在帶來改善的變更,並評估結果以判斷是否成功。

在 AWS 中,您可以將日誌資料匯出至 Amazon S3 或直接將日誌傳送至 Amazon S3,以便長期儲存。您可以使用 AWS Glue,在 Amazon S3 中探索和準備日誌資料,以進行分析並將關聯的中繼資料儲存在 AWS Glue 資料目錄中。Amazon Athena,透過與 Glue 的原生整合,可用來分析日誌資料,並使用標準 SQL 進行查詢。您可以使用 Amazon QuickSight 這類商業智慧工具來視覺化、探索並分析資料。探索可能推動改善的感興趣趨勢和事件。

下列問題著重於 卓越營運 方面的這些考量。

OPS 11: 您如何改善營運?

成功的營運演進基於:頻繁、細微的改善;提供安全的環境和時間來試驗、開發和測試改善;鼓勵營造從失敗中學習的環境。隨著營運控制等級的提高,對沙盒、開發、測試和生產環境的營運支援可促進開發,並提高將變更部署至生產中後取得成功結果的可預測性。

資源

請參閱以下資源,進一步了解我們的 卓越營運 最佳實務:

Operational Excellence Pillar
DevOps and AWS
DevOps at Amazon