卓越營運

卓越營運 支柱包含 可有效支援開發和執行工作負載、深入了解其營運狀況,以及持續改善支援流程和程序以產生商業價值的能力。

卓越營運支柱概述了設計原則、最佳實務和相關問題。您可以在卓越營運支柱白皮書中找到實作的指引。

設計原則

有 five 項雲端 卓越營運 設計原則:

定義

有 four 個雲端 卓越營運 最佳實務方面:

組織的領導階層定義業務目標。貴組織必須了解要求和優先順序,並運用這些資訊規劃和進行用以幫助達成業務成果的工作。您的工作負載必須提供支援工作負載所需的資訊。透過自動化重複程序的方式,實作整合、部署及交付工作負載的服務,將可讓生產享有更多有利的變更。

工作負載的操作本質上就可能存在著風險。您必須了解這些風險,並做出明智的決策才能進入生產階段。您的團隊必須能夠支援您的工作負載。從所需業務成果衍生的業務和營運指標,將讓您能夠了解工作負載的運作狀態、營運活動,並回應事件。您的優先事項會隨著業務需求和業務環境的變化而改變。運用這些方面做為回饋迴圈,以持續推動貴組織的改善和工作負載的操作。

最佳實務

組織

您的團隊需要對您的整個工作負載,以及團隊成員在其中的作用達成共識,並且擁有共同的業務目標,以便設定能助力業務成功的優先事項。明確定義的優先事項將實現工作的最大收益。評估內部與外部客戶需求,並讓關鍵利害關係人 (包括業務、開發和營運團隊) 參與進來,以確定工作的重點領域。評估客戶需求將確保您對實現業務成果所需的支援有透徹的了解。確保您了解由貴組織管控所定義的、可能要求或強調特定重點的準則或義務以及外部因素,例如法規合規要求和產業標準。確認您是否設有識別內部管控和外部合規要求變更的機制。如果未識別要求,請確保您已對此決定進行盡職調查。定期審查您的優先事項,以便在需求變更時更新優先事項。

評估對業務的威脅 (例如,業務風險和責任、資訊安全威脅),並將此資訊保存在風險登記表內。評估風險,以及在相互衝突的利益或替代方法之間做出權衡的影響。例如,新功能加速上市可能是成本最佳化所強調的重點,或您可以為非關聯式資料選擇關聯式資料庫,以便更輕鬆地遷移系統,而非重構。管理收益和風險,以便在確定工作重點時做出明智的決定。某些風險或選擇可能在一段時間內是可以接受的,相關風險可能得以減輕,也可能出現無法接受風險存在的事實,在此情況下,您將需要採取動作來解決風險。

TRANSLATION REQUIRED

確保每個應用程式、工作負載、平台和基礎架構元件都有已識別擁有者,而且每個流程和程序都有負責其定義的已識別擁有者,以及負責其執行的擁有者。透過了解每個元件、流程和程序的商業價值、為何部署這些資源或為何執行活動,以及該擁有權為何存在,有助於團隊成員採取適當動作。明確定義團隊成員的責任,以便他們能夠適當採取動作,並具備識別責任和擁有權的機制。設立可請求新增、變更和例外情況的機制,就能避免創新受到限制。在團隊之間制定協議,說明團隊如何共同合作以互相支援和協助達成業務成果。

為您的團隊成員提供支援,讓他們能夠更有效地採取動作以及支援業務成果。參與的高階領導層應設定期望並衡量成功。他們是採用最佳實務和組織演進的發起者、倡導者和推動者。給予團隊成員充分授權,讓他們可在成果出現風險時採取動作以將影響降到最低,同時鼓勵他們在遇到風險時,向決策者和利害關係人呈報,以便處理問題並避免事件發生。針對已知風險和計劃事件進行及時、明確且可採取動作的溝通,讓團隊成員能夠及時採取適當的動作。

TRANSLATION REQUIRED

TRANSLATION REQUIRED

TRANSLATION REQUIRED

TRANSLATION REQUIRED

下列問題著重於 卓越營運 方面的這些考量。

OPS 1: 如何決定您的優先事項?
OPS 2: 如何建構組織以支援業務成果?
OPS 3: 您的組織文化如何支援您的業務成果?

TRANSLATION REQUIRED

準備

要為卓越營運做好準備,您必須了解您的工作負載及其預期行為。然後,您就能將其設計出來,以了解它們的狀態並建置可提供支援的程序。

設計您的工作負載,使其提供必要資訊,讓您了解所有元件的內部狀態 (例如,指標、日誌、事件和追蹤),以支援可觀測性和調查問題。透過反覆操作,開發監控工作負載運作狀態所需的遙測、識別成果的風險在何時發生,並實現有效回應。在檢測您的工作負載時,擷取大量資訊以實現狀況認知 (例如,狀態變更、使用者活動、權限存取、利用率計數器),從而知道您可使用篩選條件選擇某段時間內最有用的資訊。

採用的方法需能夠改善變更進入生產環境的流程,並支援重構、快速提供品質意見回饋及修復錯誤。這會加快有助益的變更進入生產環境的速度、限制部署問題,並快速識別和修復部署活動所導致或在您的環境中所發現的問題。

採用可快速提供品質意見回饋,並從成果不盡理想的改變中快速復原的方法。使用這些實務可緩解部署變更所帶來問題的影響。為變更失敗做好規劃,以便在必要時能夠快速回應,同時測試並驗證所做變更。了解環境中的計劃內活動,以便管理會影響計劃內活動的變更風險。強調頻繁、細微、可逆的變更,以限制變更範圍。透過回復變更,可以更輕鬆地進行故障診斷並加快修復速度。這也表示您從有價值變更中受益的頻率會提高。

評估工作負載、流程、程序及人員的營運準備度,以了解與工作負載相關的營運風險。您應使用一致的程序 (包括手動或自動檢查清單) 來獲悉工作負載或變更執行就緒的時間。這樣一來,您也將能尋找任何需要您制定解決方案的領域。具備可記錄例行活動的執行手冊,以及可指引問題解決程序的程序手冊。了解收益和風險,以做出明智決策,讓變更順利進入生產環境。

TRANSLATION REQUIRED

下列問題著重於 卓越營運 方面的這些考量。

OPS 4: 您如何設計工作負載以便了解其狀況?
OPS 5: 您如何減少缺陷、幫助輕鬆修復,以及改善生產流程?
OPS 6: 您如何緩解部署風險?
OPS 7: 您如何知道自己準備好支援工作負載?

對以程式碼實作營運活動進行投資,從而最大程度地提高營運人員的生產力,將錯誤率降至最低以及實現自動回應。使用「事前剖析」可預測失敗並適時建立程序。依照一致的標記策略,使用資源標籤和 AWS Resource Groups 來套用中繼資料,以識別您的資源。標記您的資源,以用於組織、成本會計、存取控制,以及將自動執行營運活動設為目標。採用可利用雲端彈性的部署實務,以促進開發活動和系統的預部署,進而加快實作速度。當您變更您用於評估工作負載的檢查清單時,請計劃如何處理不再合規的即時系統。

操作

TRANSLATION REQUIRED

要實現卓越營運,必須高效且有效地管理營運事件。這適用於計劃和非計劃中的營運事件。使用已建立的執行手冊處理已充分了解的事件,並使用程序手冊協助調查和解決問題。根據事件對業務和客戶的影響來確定回應事件的優先順序。確保如因回應事件而發出提醒,則將由明確識別的擁有者執行關聯程序。事先定義解決事件所需的人員,並納入向上呈報觸發條件,以在必要時根據緊迫性和影響力,在其中新增額外的參與人員。識別並邀請具有權限的個人來決定行動方案,該方案將受到先前未解決的事件回應的業務影響。

透過針對目標受眾 (例如,客戶、業務、開發人員、營運) 量身定制的儀表板和通知來傳達工作負載的運行狀態,以便他們能採取適當的動作,進而管理他們的期望並在恢復正常營運時得到通知。

在 AWS 中,您可以產生從工作負載或以原生方式從 AWS 收集的指標的儀表板視圖。您可以利用 CloudWatch 或第三方應用程式,來彙總和顯示營運活動的業務、工作負載和營運等級視圖。AWS 可透過記錄功能 (包括 AWS X-Ray、CloudWatch、CloudTrail 和 VPC Flow Logs) 提供工作負載洞見,從而能夠識別工作負載問題,以支援根本原因分析和修復。

下列問題著重於 卓越營運 方面的這些考量。

OPS 8: 您如何了解工作負載的運作狀態?
OPS 9: 您如何了解營運狀況?
OPS 10: 您如何管理工作負載和營運事件?

TRANSLATION REQUIRED

演進

您必須學習、分享和持續改善以維持卓越營運。投入工作週期以持續逐漸改善。針對所有影響客戶的事件執行事件後分析。確定成因和預防措施,限制或防止其再次發生。視情況與受影響的社群溝通成因。定期評估改進機會 (例如,功能請求、問題修復和合規要求) 並確定其優先順序,包括工作負載和營運程序。在您的程序中納入回饋迴圈,以快速識別有待改善的領域並從營運執行中獲得經驗。

在遊戲日內,可跨團隊分享獲得的經驗,進而分享這些經驗的益處。分析獲得的經驗中的趨勢,並執行營運指標的跨團隊回溯分析,以識別改善機會和方法。實作旨在帶來改善的變更,並評估結果以判斷是否成功。

TRANSLATION REQUIRED

下列問題著重於 卓越營運 方面的這些考量。

OPS 11: 您如何改善營運?

成功的營運演進基於:頻繁、細微的改善;提供安全的環境和時間來試驗、開發和測試改善;鼓勵營造從失敗中學習的環境。隨著營運控制等級的提高,對沙盒、開發、測試和生產環境的營運支援可促進開發,並提高將變更部署至生產中後取得成功結果的可預測性。

資源

請參閱以下資源,進一步了解我們的 卓越營運 最佳實務:

Operational Excellence Pillar
DevOps and AWS
DevOps at Amazon