OPS 10: 您如何管理工作負載和營運事件?
準備和驗證回應事件的程序,大幅降低工作負載中斷情形。
資源
Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?
最佳實務:
-
使用程序進行事件、事故和問題管理: 建立處理已觀察到的事件、需要介入的事件 (事故) 和需要介入且重複發生或當前無法解決的事件 (問題) 的程序。透過這些程序,做出及時和適當的回應,以減輕這些事件對業務和客戶的影響。
-
每個提醒建立一個程序: 對於引發提醒的任何事件,建立明確定義的回應 (執行手冊或程序手冊),並指明。此舉可確保對營運事件的有效而迅速的回應,並防止需採取動作的事件被無價值的通知所淹沒。
-
根據業務影響確定營運事件的優先順序: 確保在有多個事件需要介入時,首先解決對業務最重要的事件。例如,影響可能包括人員傷亡、經濟損失或聲譽或信用受損。
-
定義向上呈報路徑: 在您的執行手冊和程序手冊中定義向上呈報路徑,包括觸發向上呈報的條件以及向上呈報的程序。明確確定每個動作的擁有者,以確保對營運事件做出迅速有效的回應。
-
啟用推送通知: 就您的使用者所用之服務受到影響以及服務再次恢復正常,直接與使用者溝通 (例如,透過電子郵件或簡訊),以便使用者能夠採取適當動作。
-
透過儀表板傳達狀態: 提供針對其目標受眾 (例如,內部技術團隊、領導和客戶) 量身定制的儀表板,以傳達業務的當前營運狀態,並提供感興趣的指標。
-
自動回應事件: 自動對事件進行回應,以減少由手動程序引起的錯誤,並確保快速一致的回應。
改進方案
使用程序進行事件、事故和問題管理
每個提醒建立一個程序
根據業務影響確定營運事件的優先順序
定義向上呈報路徑
啟用推送通知
Amazon SES features
What is Amazon SES?
Set up Amazon SNS notifications
透過儀表板傳達狀態
CloudWatch dashboards create and use customized metrics views
自動回應事件
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services