OPS 7: ワークロードをサポートする準備が整っていることはどうすれば確認できるでしょうか?
ワークロード、プロセス、手順、従業員の運用準備状況を評価し、ワークロードに関連する運用上のリスクを理解するようにします。
リソース
AWS Config
AWS Systems Manager Features
ベストプラクティス:
-
従業員の対応力を確保する: 運用上のニーズに対応できるようにトレーニングを受けた、適切な人数の従業員が配置されていることを検証するメカニズムを導入します。効果的なサポートを継続できるように必要に応じて従業員のトレーニングを実施し、従業員の対応力を調整します。
-
運用準備状況の継続的な確認を実現する: ワークロードの運用に関する準備状況を継続的に確認するようにしてください。確認には、チームとワークロードに関する運用準備状況、またセキュリティ上の要件を必ず含める必要があります。必要に応じて確認アクティビティをコードで実装し、イベントへの応答として自動確認をトリガーし、一貫性、実行スピードを確認して、手動プロセスによって発生するエラーを減らします。
-
ランブックを使用して手順を実行する: ランブックは、具体的な成果を達成するための文書化された手順です。ランブックに手順を文書化することにより、一貫性を保ち、汎用イベントにすみやかに対応できるようになります。必要に応じてランブックをコードとして実装し、イベントへの応答としてランブックの実行をトリガーし、一貫性、対応スピードを確認して、手動プロセスによって発生するエラーを減らします。
-
プレイブックを使用して問題を調査する: 調査プロセスをプレイブックに文書化することで、よく理解されていない問題に対する一貫性のある迅速な対応が可能になります。プレイブックは、障害シナリオの原因となる要因を特定するために実行される事前定義されたステップです。プロセスステップの結果は、問題が特定されるか、エスカレーションされるまで、次のステップを決定するために使用されます。
-
システムや変更をデプロイするために十分な情報に基づいて決定を下す: ワークロードと、ワークロードのガバナンスとのコンプライアンスをサポートするためにチームの能力を評価します。システムを移行するか、本番環境に変更するかどうかを判断する際に、これらをデプロイの利点に対して評価します。メリットとリスクを理解し、十分な情報に基づく決定を下します。
改善計画
従業員の対応力を確保する
- チームの規模: オンコールを含め、運用アクティビティに対応できるだけの十分なチームのメンバーを確保します。
- チームのスキル: チームのメンバーが、AWS、ワークロード、業務を遂行するために使用する運用ツールに関して十分なトレーニングを受けていることを確認します。
AWS Events and Webinars
Welcome to AWS Training and Certification - 対応力の見直し: 運用条件とワークロードは変化するため、チームの規模とスキルを見直して、運用上の優秀性を維持できる十分な対応力があることを確認します。調整を行い、チームの規模とスキルが、そのチームでサポートするワークロードの運用要件に一致するようにします。
運用準備状況の継続的な確認を実現する
AWS Systems Manager
AWS Config Rules dynamic compliance checking for cloud resources
How to audit your AWS resources for security compliance by using custom AWS Config Rules
How to track configuration changes to CloudFormation stacks using AWS Config
Amazon Inspector update assessment reporting, proxy support, and more
- チェックリストの作成: ワークロードの運用に関する準備状況を継続的に確認するようにしてください。運用準備状況のチェックリストを作成し、ビジネス、開発、運用、ガバナンス要件に照らしてそのチェックリストを検証します。チェックリストには、ガバナンス、ベストプラクティス、設定基準、復元手順、モニタリング、メンテナンス手順、IT 運用手順、人員の配置といった項目を含めます。
- チェックリストの使用: 適切な基準に合わせて開発できるように、開発者がチェックリストを入手できるようにします。ライフサイクルの段階を進めたり、環境を移行したりするときはチェックリストを評価し、早期に問題を特定できるようにします。早期に特定することで、わずかな作業で問題を修復できます。環境間で変更を進めることを検討するときは、チェックリストの結果を参照して十分な情報に基づいてメリットとリスクに関する意思決定を行います。
- チェックリストをコードとして実装し、イベントに対応してチェックリストの実行をトリガーします。:
必要に応じてチェックリストをコードとして実装し、イベントに対応してチェックリストの実行をトリガーし、スピードを向上させ、一貫性を保ち、手動プロセスによって発生するエラーを減らします。自動化したチェックリストの実行をデプロイのパイプラインに統合します。
AWS Config
What is AWS Config?
AWS Config: evaluating resources with Rules
ランブックを使用して手順を実行する
- ランブックをコードとして実装する:
ランブックをコードとして実装することにより、運用をコードとして実行し、一貫性を保ち、手動プロセスによって発生するエラーを減らします。
AWS Systems Manager Run Command
AWS Systems Manager Automation
What is AWS Lambda? - イベントに対応してランブックをトリガーする:
必要に応じて、確認されたイベントに対応してランブックコードの実行をトリガーします。これにより対応速度が上がり、対応にかかわる労力を減らすことができます。
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services
Using Amazon CloudWatch Alarms
プレイブックを使用して問題を調査する
- プレイブックをコードとして実装する:
プレイブックをスクリプト化することにより、運用をコードとして実行し、一貫性を保ち、手動プロセスによって発生するエラーを抑制または低減します。プレイブックは、問題に寄与する要因を特定するために必要となり得るさまざまなステップを表す複数のスクリプトで構成できます。ランブックのアクティビティは、プレイブックのアクティビティの一部としてトリガーまたは実行するか、特定されたイベントへの応答としてプレイブックの実行を引き起こす場合があります。
Automate your operational playbooks with AWS Systems Manager
AWS Systems Manager Run Command
AWS Systems Manager Automation
What is AWS Lambda?
What is Amazon CloudWatch Events?
Using Amazon CloudWatch Alarms
システムや変更をデプロイするために十分な情報に基づいて決定を下す