OPS 9: オペレーションの正常性をどのように把握しますか?
オペレーションメトリクスを定義し、キャプチャし、分析することで、オーペレーションイベントの可視性を高め、適切なアクションがとれるようになります。
リソース
Build a Monitoring Plan
Detect and React to Changes in Pipeline State with Amazon CloudWatch Events
AWS Answers: Centralized Logging
ベストプラクティス:
-
主要業績評価指標 (KPI) を特定する: 希望するビジネス (新機能など) と顧客の結果 (カスタマーサポートケースなど) に基づいて、主要業績指標 (KPI) を特定します。KPI を評価して、オペレーションの成功を判別します。
-
運用メトリクスを定義する: 運用メトリクスを定義して、KPI の達成度 (デプロイの成功、失敗したデプロイなど) を測定します。運用アクティビティの正常性を測定する運用メトリクスを定義します (たとえば、インシデントを検出する平均時間 (MTTD)、インシデントからの平均復旧時間 (MTTR) など)。メトリクスを評価して、運用アクティビティが必要な成果に達しているかを判定し、運用の正常性を把握します。
-
運用メトリクスを収集し、分析する: メトリクスのプロアクティブなレビューを定期的に行うと、傾向を把握し、適切な対応が必要な領域を特定できます。
-
運用メトリクスの基準値を設定する: 運用アクティビティのパフォーマンスを比較し、過不足を特定する基準となる期待値として、メトリクスに対する基準値を設定します。
-
運用に対して予想されるアクティビティのパターンを知る: 運用アクティビティのパターンを確立して異常なアクティビティを識別し、必要に応じて適切に対応できるようにします。
-
運用の結果にリスクがある場合に警告する: 運用の結果にリスクがある場合、必要に応じて適切な対応ができるよう、アラートを発生させます。
-
運用の異常が検出された場合に警告する: 運用の異常が検出された場合、必要に応じて適切な対応ができるよう、アラートを発生させます。
-
KPI とメトリクスの成果の達成度と有効性を検証する : オペレーションアクティビティに対するビジネスレベルの視点を確立すると、ニーズを満足しているかどうかを判断したり、ビジネス目標を達成するために改善が必要な領域を特定したりできます。KPI とメトリクスの有効性を検証し、必要に応じて修正します。
改善計画
主要業績評価指標 (KPI) を特定する
運用メトリクスを定義する
Publish custom metrics
Searching and filtering log data
Amazon CloudWatch metrics and dimensions reference
運用メトリクスを収集し、分析する
Using Amazon CloudWatch metrics
Amazon CloudWatch metrics and dimensions reference
Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent
運用メトリクスの基準値を設定する
運用に対して予想されるアクティビティのパターンを知る
運用の結果にリスクがある場合に警告する
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
運用の異常が検出された場合に警告する
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
KPI とメトリクスの成果の達成度と有効性を検証する
Using Amazon CloudWatch dashboards
What is log analytics?