此內容已過時。這個版本的 Well-Architected 框架現在可以在以下位置找到: https://docs.aws.amazon.com/zh_tw/wellarchitected/2022-03-31/framework/operational-excellence.html

OPS 10: 您如何管理工作負載和營運事件?

準備和驗證回應事件的程序,大幅降低工作負載中斷情形。

資源

Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?

最佳實務:

改進方案

使用程序進行事件、事故和問題管理

  • 使用程序進行事件、事故和問題管理: 建立處理已觀察到的事件、需要介入的事件 (事故) 和需要介入且重複發生或當前無法解決的事件 (問題) 的程序。透過這些程序,做出及時和適當的回應,以減輕這些事件對業務和客戶的影響。
  • 每個提醒建立一個程序

  • 每個提醒建立一個程序: 對於引發提醒的任何事件,都應建立明確定義的回應 (執行手冊或程序手冊),並指明負責人 (例如,個人、團隊或角色) 來對成功執行負責。回應的執行可以自動化,也可以由另一個團隊完成,但負責人要對確保流程交付預期結果負責。透過建立這些程序,您可以確保對營運事件做出迅速有效的回應,並防止需採取行動的事件被無價值的通知所淹沒。例如,自動調整規模功能可能應用於調整 Web 前端規模,但營運團隊可能需負責確保自動調整規模規則和限制符合工作負載需求。
  • 根據業務影響確定營運事件的優先順序

  • 根據業務影響確定營運事件的優先順序: 確保在有多個事件需要介入時,首先解決對業務最重要的事件。例如,影響可能包括人員傷亡、經濟損失、違反法規或聲譽或信用受損。
  • 定義向上呈報路徑

  • 定義向上呈報路徑: 在您的執行手冊和程序手冊中定義向上呈報路徑,包括觸發向上呈報的條件以及向上呈報的程序。例如,當執行手冊無法解決問題或經過預定時間,將問題從支援工程師向上呈報給資深支援工程師。適當的向上呈報途徑還有,當程序手冊無法確定工作負載的補救途徑或經過預定時間,從高級支援工程師向上呈報給開發團隊。明確確定每個動作的擁有者,以確保對營運事件做出迅速有效的回應。向上呈報可以包括第三方。例如,網路連接提供商或軟體供應商。向上呈報可以包括受影響系統的指定授權決策者。
  • 啟用推送通知

  • 啟用推送通知: 就服務受到影響以及服務恢復正常,直接與您的使用者溝通 (例如,透過電子郵件或 SMS),以便使用者能夠採取適當措施。
    Amazon SES features
    What is Amazon SES?
    Set up Amazon SNS notifications
  • 透過儀表板傳達狀態

  • 透過儀表板傳達狀態: 提供針對其目標受眾 (例如,內部技術團隊、領導和客戶) 量身定制的儀表板,以傳達業務的當前營運狀態,並提供感興趣的指標。提供自助獲取狀態資訊選項,減少因回應營運團隊狀態請求而造成的干擾。範例包括 Amazon CloudWatch 儀表板和 AWS Personal Health Dashboard。
    CloudWatch dashboards create and use customized metrics views
  • 自動回應事件

  • 自動回應事件: 自動對事件進行回應,以減少由手動程序引起的錯誤,並確保快速一致的回應。
    What is Amazon CloudWatch Events?
    Creating a CloudWatch Events rule that triggers on an event
    Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
    CloudWatch Events event examples from supported services