"このコンテンツは古いものです。現在、このバージョンの Well-Architected Framework は、次の場所にあります。 https://docs.aws.amazon.com/ja_jp/wellarchitected/2022-03-31/framework/operational-excellence.html

OPS 10: ワークロードと運用イベントはどのように管理しますか?

イベントに対応するための手順を準備、検証してワークロードの中断を最小限にします。

リソース

Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?

ベストプラクティス:

改善計画

イベント、インシデント、問題に対する管理プロセスを使用する

  • イベント、インシデント、問題に対する管理プロセスを使用する: イベント、介入の必要なイベント (インシデント)、介入が必要であり、かつ再度発生するまたは現時点で解決できないイベント (問題) が見つかったときに対応するためのプロセスを用意しておきます。これらのプロセスを利用することで、適切な時点に適切な対応を取ることが可能になり、イベントがビジネスや顧客に与える影響を緩和できます。
  • アラートごとのプロセスを使用する

  • アラートごとのプロセス: アラートを発生させるイベントすべてに対して具体的な対応策 (ランブックやプレイブック) を定め、適切な実行に責任を持つ所有者 (個人、チーム、ロールなど) を明確に指定しておくようにします。対応策が実際には自動で、または別のチームによって実行される場合でも、プロセスによって期待される成果を実現させる責任は所有者が持ちます。こうしたプロセスによって、運用上のイベントに対する効果的で迅速な対応が可能になり、アクションの必要なイベントが重要度の低い通知に埋もれてしまうことを避けられます。例えば、ウェブのフロントエンドをスケールする際にスケーリングが自動的に適用される場合でも、自動スケーリングのルールや制限をワークロードのニーズに適したものにすることは運用チームの責任になります。
  • ビジネスへの影響に基づき、運用上のイベントを優先します。

  • ビジネスへの影響に基づき、運用上のイベントを優先します。: 介入を必要とする複数のイベントが発生したときに、ビジネスにとって最重要なものから対応できるようにしておきます。影響の例として、死亡や傷害、経済的損失、規定違反、評判や信用の低下などがあります。
  • エスカレーション経路を決定する

  • エスカレーション経路を決定する: ランブックとプレイブックで、エスカレーションをトリガーするものとエスカレーションの手順を含むエスカレーション経路を決定します。例えば、ランブックで問題が解決できない場合や、一定期間が経過した場合にサポートエンジニアからシニアサポートエンジニアに向けた問題のエスカレーションがあります。また、プレイブックでは修正経路が特定できない場合や、一定期間が経過した場合に、ワークロードについてシニアサポートエンジニアから開発チームに向けたエスカレーションなども例として挙げられます。特に、各アクションの所有者を特定し、運用イベントに効果的かつすばやく対応できるようにします。エスカレーションには第三者が入る場合があります。例えば、ネットワーク接続プロバイダーまたはソフトウェアベンダーです。エスカレーションには、影響するシステムについて承認を受けた特定の意思決定者を含めることができます。
  • プッシュ通知を有効にする

  • プッシュ通知を有効にする: ユーザーの使用するサービスに影響が生じる場合や、通常運用状態に復帰する場合に、ユーザーと直接通信し (E メールや SMS など)、ユーザーが適切な対応アクションを起こせるようにします。
    Amazon SES features
    What is Amazon SES?
    Set up Amazon SNS notifications
  • ダッシュボードでステータスを知らせる

  • ダッシュボードでステータスを知らせる: 対象となる利用者 (内部技術チーム、指導部、顧客など) に合わせたダッシュボードを用意して、現在の業務の運用状況と、相手が関心を持つメトリクスを知らせます。ステータス情報におけるセルフサービスオプションによって、運用チームによるステータスのリクエスト処理の中断を減らすことができます。例えば、Amazon CloudWatch ダッシュボード、AWS Personal Health Dashboard が含まれます。
    CloudWatch dashboards create and use customized metrics views
  • イベントへの対応を自動化する

  • イベントへの対応を自動化する: イベントへの対応を自動化し、手動プロセスによって発生するエラーを減らして、迅速かつ一貫した対応を実現します。
    What is Amazon CloudWatch Events?
    Creating a CloudWatch Events rule that triggers on an event
    Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
    CloudWatch Events event examples from supported services