PERF 7: リソースが稼働していることを確実にするためのリソースのモニタリングはどのように行いますか?

システムのパフォーマンスは徐々に低下することがあります。劣化を特定し、オペレーティングシステムまたはアプリケーション負荷などの内部および外部の要因を修正するために、システムのパフォーマンスをモニタリングします。

リソース

Cut through the chaos: Gain operational visibility and insight (MGT301-R1)
X-Ray Documentation
CloudWatch Documentation
Monitoring, Logging, and Performance APN Partners

ベストプラクティス:

改善計画

パフォーマンスに関連するメトリクスを記録する

  • パフォーマンスデータを記録する: ワークロードに関連するパフォーマンスメトリクスを特定し、それらを記録します。このデータは、どのコンポーネントがワークロードの全体的なパフォーマンスまたは効率性に影響しているかを特定するのに役立ちます。
  • パフォーマンスメトリクスを特定する: カスタマーエクスペリエンスを使用して、最も重要なメトリクスを特定します。メトリクスごとに、ターゲット、測定アプローチ、および優先順位を特定します。これらのデータポイントを使用してアラームと通知を構築し、パフォーマンス関連の問題に積極的に対応します。
  • イベントやインシデントが発生したときにメトリクスを分析する

  • 重要なユーザーストーリーのエクスペリエンスの懸念事項について優先順位を付ける: アーキテクチャに重要なユーザーストーリーを記述するときは、パフォーマンス要件を含めるようにし、それぞれの重要なストーリーをどの程度迅速に実行する必要があるかといった点を明記します。これらの重要なストーリーには、要件に対してユーザーストーリーがどのように実行されるかを知ることができるように、スクリプト化されたユーザージャーニーを追加で実装してください。
  • ワークロードのパフォーマンスを測定するための主要業績評価指標 (KPI) を確立する

  • カスタマーエクスペリエンスを定義する: お客様がワークロードのパフォーマンスをどのように評価するかを含めた、お客様が必要とするパフォーマンスエクスペリエンスを文書化します。これらの要件を使用して、システムが全体的にどのように機能しているかを示す KPI を確立します。
  • ユーザージャーニーをテストする: 負荷テストには、合成またはサニタイズされたバージョンの本番データを使用します (機密情報や身元がわかる情報は削除してください)。アプリケーション全体で再生またはプログラミング済みのユーザージャーニーを大規模に使用して、アーキテクチャ全体を練習として動かします。
  • モニタリングを使用してアラームベースの通知を生成する

  • メトリクスをモニタリングする: Amazon CloudWatch では、アーキテクチャのリソース全体のメトリクスを収集できます。カスタムメトリクスを収集および発行して、ビジネスメトリクスまたは導出メトリクスを表面化することができます。CloudWatch またはサードパーティーのモニタリングサービスを使用して、しきい値を超過したことを示すアラームを設定します。
  • メトリクスを定期的に見直す

  • メトリクスの収集とモニタリングを継続的に改善する: インシデントやイベントへの対応の一環として、問題解決に役立ったメトリクスと、問題解決に役立った可能性があるものの、現在は追跡されていないメトリクスを評価します。この方法を使用して収集するメトリクスの品質を高め、今後のインシデントを防止、またはより迅速に解決できるようにします。
  • モニタリングしてプロアクティブに警告する

  • 運用中にパフォーマンスをモニタリングする: 実行中のワークロードのパフォーマンスを目で見て確認できるようにするプロセスを実装します。モニタリングダッシュボードを構築し、期待されるパフォーマンスのベースラインを確立します。