PERF 7: リソースが稼働していることを確実にするためのリソースのモニタリングはどのように行いますか?
システムのパフォーマンスは徐々に低下することがあります。劣化を特定し、オペレーティングシステムまたはアプリケーション負荷などの内部および外部の要因を修正するために、システムのパフォーマンスをモニタリングします。
リソース
Cut through the chaos: Gain operational visibility and insight (MGT301-R1)
X-Ray Documentation
CloudWatch Documentation
Monitoring, Logging, and Performance APN Partners
ベストプラクティス:
-
パフォーマンスに関連するメトリクスを記録する: モニタリングとオブザーバビリティサービスを使用して、パフォーマンス関連のメトリクスを記録します。たとえば、データベーストランザクション、実行速度の遅いクエリ、I/O レイテンシー、HTTP リクエストのスループット、サービスレイテンシー、またはその他重要なデータを記録します。
-
イベントやインシデントが発生したときにメトリクスを分析する: イベントやインシデントが発生した後 (または発生中) に、モニタリングダッシュボードやレポートを使用してその影響を把握して診断します。これらのビューは、ワークロードのどの部分が期待通りに機能していないかに関するインサイトを提供します。
-
ワークロードのパフォーマンスを測定するための主要業績評価指標 (KPI) を確立する: ワークロードが意図したとおりに動作しているかどうかを示す KPI を特定します。たとえば、API ベースのワークロードでは、全体的なレスポンスレイテンシーを全体的なパフォーマンスの指標として使用でき、e コマースサイトでは、購入数を KPI として使用できます。
-
モニタリングを使用してアラームベースの通知を生成する: モニタリングシステムを使用し、定義したパフォーマンス関連の主要業績評価指標 (KPI) の測定値が予想された境界線の外側にある場合に自動的にアラームを生成します。
-
メトリクスを定期的に見直す: 定期的なメンテナンスとして、またはイベントやインシデントに応じて、収集対象のメトリクスを見直します。これらのレビューを使用して、どのメトリクスが問題対応の鍵となったか、およびどのメトリクスを追加すると、それらが追跡される場合に問題の特定、対応、または防止に役立つと思われるかを特定します。
-
モニタリングしてプロアクティブに警告する: 主要業績評価指標 (KPI) をモニタリングおよびアラート発行システムと組み合わせて使用し、パフォーマンス関連の問題に積極的に対処します。アラームを使用して、可能な場合に問題を修正する自動化されたアクションをトリガーします。自動化された応答が不可能な場合は、応答できるシステムにアラームをエスカレートします。たとえば、期待される主要業績評価指標 (KPI) 値を予測し、それらが特定のしきい値を超えた場合にアラームを発行できるシステム、または KPI が期待される値の範囲外である場合に、デプロイメントを自動的に停止、またはロールバックできるツールなどが考えられます。
改善計画
パフォーマンスに関連するメトリクスを記録する
イベントやインシデントが発生したときにメトリクスを分析する
ワークロードのパフォーマンスを測定するための主要業績評価指標 (KPI) を確立する
モニタリングを使用してアラームベースの通知を生成する
メトリクスを定期的に見直す
モニタリングしてプロアクティブに警告する