OPS 10: ワークロードと運用イベントはどのように管理しますか?
イベントに対応するための手順を準備、検証してワークロードの中断を最小限にします。
リソース
Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?
ベストプラクティス:
-
イベント、インシデント、問題に対する管理プロセスを使用する: イベント、介入の必要なイベント (インシデント)、介入が必要であり、かつ再度発生するまたは現時点で解決できないイベント (問題) が見つかったときに対応するためのプロセスを用意しておきます。これらのプロセスを利用することで、適切な時点に適切な対応を取ることが可能になり、イベントがビジネスや顧客に与える影響を緩和できます。
-
アラートごとのプロセスを使用する: アラートを発生させるイベントすべてに対して具体的な対応策 (ランブックやプレイブック) を定め、所有者を明確に指定しておくようにします。こうすることで、運用上のイベントに対する効果的で迅速な対応が可能になり、アクションの必要なイベントが重要度の低い通知に埋もれてしまうことを避けられます。
-
ビジネスへの影響に基づき、運用上のイベントを優先します。: 介入を必要とする複数のイベントが発生したときに、ビジネスにとって最重要なものから対応できるようにしておきます。影響の例として、死亡や傷害、経済的損失、評判や信用の低下などがあります。
-
エスカレーション経路を決定する: ランブックとプレイブックで、エスカレーションをトリガーするものとエスカレーションの手順を含むエスカレーション経路を決定します。特に、各アクションの所有者を特定し、運用イベントに効果的かつすばやく対応できるようにします。
-
プッシュ通知を有効にする: ユーザーの使用するサービスに影響が生じたときに、ユーザーと直接通信し (E メールや SMS など)、再び通常運用状態に復帰したときに再度通信し、ユーザーが適切な対応アクションを起こせるようにします。
-
ダッシュボードでステータスを知らせる: 対象となる利用者 (内部技術チーム、指導部、顧客など) に合わせたダッシュボードを用意して、現在の業務の運用状況と、相手が関心を持つメトリクスを知らせます。
-
イベントへの対応を自動化する: イベントへの対応を自動化し、手動プロセスによって発生するエラーを減らして、迅速かつ一貫した対応を実現します。
改善計画
イベント、インシデント、問題に対する管理プロセスを使用する
アラートごとのプロセスを使用する
ビジネスへの影響に基づき、運用上のイベントを優先します。
エスカレーション経路を決定する
プッシュ通知を有効にする
Amazon SES features
What is Amazon SES?
Set up Amazon SNS notifications
ダッシュボードでステータスを知らせる
CloudWatch dashboards create and use customized metrics views
イベントへの対応を自動化する
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services