OPS 7: 您如何知道自己準備好支援工作負載?
評估工作負載、流程和程序及人員的營運準備度,了解工作負載相關營運風險。
資源
AWS Config
AWS Systems Manager Features
最佳實務:
-
確保人員能力: 建立一種機制,用於驗證您有適當數量受過培訓的人員來為營運需求提供支援。培訓人員並根據需要調整人員能力,以保持有效的支援。
-
確保對營運準備度進行一致的審查: 確保對營運工作負載的準備度進行一致的審查。審查必須至少包括團隊和工作負載的營運準備度,以及安全性要求。在程式碼中實作審查活動,並在適當的情況下觸發自動審查來回應事件,以確保一致性、執行速度並減少由手動程序引起的錯誤。
-
使用執行手冊執行程序: 執行手冊是實現特定結果的書面程序。透過在執行手冊中記錄程序,對熟知的事件做出一致且迅速的回應。將執行手冊實作為程式碼,並在適當的情況下觸發執行手冊的執行來回應事件,以確保一致性、加快回應速度並減少由手動程序引起的錯誤。
-
使用程序手冊來調查問題: 在程序手冊中記錄調查程序,以對未充分了解的問題實現一致且迅速的回應。程序手冊是為識別造成失敗情境的因素所執行的預先定義步驟。在確定或向上呈報問題之前,任何程序步驟的結果都用於確定要採取的後續步驟。
-
做出部署系統和變更的明智決策: 評估團隊支援工作負載的能力以及工作負載對管控的遵從性。在確定是否轉換系統或將系統投入生產時,比照這些評估部署的收益。了解收益和風險,以做出明智決策。
改進方案
確保人員能力
- 團隊規模: 確保擁有足夠且訓練有素的團隊成員,以妥善應對營運活動,包括隨時待命。
- 團隊技能: 確保您的團隊成員就 AWS、工作負載和營運工具獲得足夠培訓,可履行其職責。
AWS Events and Webinars
Welcome to AWS Training and Certification - 審查能力: 隨著營運條件和工作負載變化,審查團隊的規模和技能,以確保有足夠能力維持卓越營運。進行調整以確保團隊規模和技能與團隊支援的工作負載的營運要求相匹配。
確保對營運準備度進行一致的審查
AWS Systems Manager
AWS Config Rules dynamic compliance checking for cloud resources
How to audit your AWS resources for security compliance by using custom AWS Config Rules
How to track configuration changes to CloudFormation stacks using AWS Config
Amazon Inspector update assessment reporting, proxy support, and more
- 建立檢查清單: 確保對營運工作負載的準備度進行一致的審查。建立營運準備度檢查清單,並對照清單驗證您的業務、開發、營運和管控要求。確保它們包含以下內容:管控、最佳實務、組態標準、恢復程序、監控、維護程序、IT 營運程序和人事。
- 使用檢查清單: 使開發人員可以存取檢查清單,以便他們可以按照適當的標准進行開發。在生命週期各階段和環境之間移動時評估檢查清單,以便及早發現問題,降低問題補救的工作量。考慮在環境之間推廣變更時,使用檢查清單的結果考量收益和風險,以做出明智的決策。
- 將檢查清單實現為程式碼,並觸發檢查清單執行來回應事件:
將檢查清單實現為程式碼,並觸發檢查清單執行來回應事件,以提高速度,確保一致性並減少由手動流程引起的錯誤。將自動檢查清單執行整合到部署管道中。
AWS Config
What is AWS Config?
AWS Config: evaluating resources with Rules
使用執行手冊執行程序
- 將執行手冊實現為程式碼:
透過將執行手冊實作為程式碼,將營運作為程式碼來執行,以確保一致性並減少由手動程序引起的錯誤
AWS Systems Manager Run Command
AWS Systems Manager Automation
What is AWS Lambda? - 觸發執行手冊以回應事件:
在適當的時候觸發執行手冊程式碼的執行回應所觀察到的事件。這樣可以提高回應速度,並減少回應工作量。
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services
Using Amazon CloudWatch Alarms
使用程序手冊來調查問題
- 將程序手冊實作為程式碼:
透過編寫程序手冊指令碼,以程式碼形式執行操作,確保一致性並限制和減少手動程序引起的錯誤。程序手冊可由多個指令碼組成,這些指令碼代表識別成因時可能需要的不同步驟。執行手冊活動可以作為程序手冊活動的一部分被觸發或執行,或者在程序手冊中提示執行,以回應已識別的事件。
Automate your operational playbooks with AWS Systems Manager
AWS Systems Manager Run Command
AWS Systems Manager Automation
What is AWS Lambda?
What is Amazon CloudWatch Events?
Using Amazon CloudWatch Alarms
做出部署系統和變更的明智決策