OPS 7: 서비스 운영을 지원할 준비가 되어있는지를 어떻게 알 수 있나요?
워크로드, 프로세스, 절차 및 직원의 운영 준비 상태를 평가하여 워크로드와 관련된 운영 위험을 파악합니다.
리소스
AWS Config
AWS Systems Manager Features
모범 사례:
-
직원의 역량 확보: 운영상의 요구 사항에 대해 지원하기 위해 적절한 수의 숙련된 인력이 있는지 확인하는 메커니즘을 확보합니다. 효과적인 지원을 유지하기 위해 필요한 경우 직원을 교육하고 직원의 역량을 조정합니다.
-
일관된 방식으로 운영 준비 검토: 워크로드를 운영할 준비가 되었는지를 일관된 방식으로 검토합니다. 검토에서는 최소한 팀 및 워크로드의 운영 준비 상태와 보안 요구 사항을 파악해야 합니다. 코드에서 검토 활동을 구현하고 해당하는 경우 이벤트 대응 과정에서 자동화된 검토를 트리거하면 일관성을 유지하고, 실행 속도를 높이고, 수동 프로세스에서 발생하는 오류를 줄일 수 있습니다.
-
런북을 사용하여 절차 수행:: 런북은 특정 결과를 달성하기 위한 문서화된 절차입니다. 절차를 런북으로 문서화하면 적절하게 파악한 이벤트에 일관된 방식으로 신속하게 대응할 수 있습니다. 런북을 코드로 구현하고, 해당하는 경우 이벤트 대응 과정에서 런북 실행을 트리거하면 일관성을 유지하고, 대응 속도를 높이고, 수동 프로세스에서 발생하는 오류를 줄일 수 있습니다.
-
플레이북을 사용하여 문제 조사: 잘 알려지지 않은 문제에 일관되고 신속하게 대응할 수 있도록 플레이북에 조사 프로세스를 문서화합니다. 플레이북은 장애 시나리오에 영향을 미치는 요인을 식별하기 위해 수행되는 사전 정의된 단계입니다. 문제가 확인되거나 에스컬레이션될 때까지 각 프로세스 단계의 결과를 사용하여 다음에 수행할 단계를 결정합니다.
-
정보에 입각하여 시스템 및 변경 사항 배포 결정 내리기: 워크로드를 지원할 수 있는 팀의 능력과 워크로드의 거버넌스 준수 여부를 평가합니다. 배포의 이점을 기준으로 하여 이러한 평가를 수행해 시스템 또는 변경 사항을 프로덕션 환경으로 전환할지 여부를 결정합니다. 이점과 위험을 파악하면 정보에 입각한 결정을 내릴 수 있습니다.
개선 계획
직원의 역량 확보
- 팀 규모: 직무 대기 중인 인력을 포함하여 운영 활동을 충분히 다룰 수 있는 팀원이 있는지 확인합니다.
- 팀 기술: 팀원이 AWS, 워크로드 및 운영 도구에 대해 충분한 교육을 받고 직무를 수행할 수 있도록 합니다.
AWS Events and Webinars
Welcome to AWS Training and Certification - 기능 검토: 운영 조건 및 워크로드의 변화에 따라 팀 규모와 기술을 검토하여 운영 우수성을 유지할 수 있는 충분한 역량을 확보합니다. 팀 규모와 기술이 팀이 지원하는 워크로드의 운영 요구 사항과 일치하도록 조정합니다.
일관된 방식으로 운영 준비 검토
AWS Systems Manager
AWS Config Rules dynamic compliance checking for cloud resources
How to audit your AWS resources for security compliance by using custom AWS Config Rules
How to track configuration changes to CloudFormation stacks using AWS Config
Amazon Inspector update assessment reporting, proxy support, and more
- 체크리스트 생성: 워크로드를 운영할 준비가 되었는지를 일관된 방식으로 검토합니다. 운영 준비 체크리스트를 생성한 다음 비즈니스/개발/운영/거버넌스 요구 사항을 기준으로 하여 체크리스트를 확인합니다. 이 체크리스트에 거버넌스, 모범 사례, 구성 표준, 복원 절차, 모니터링, 유지 관리 절차, IT 운영 절차 및 인력에 대한 내용이 있는지 확인합니다.
- 체크리스트 사용: 개발자가 체크리스트에 액세스하여 적절한 표준에 따라 개발할 수 있도록 합니다. 수명 주기 단계와 환경 간을 전환하면서 체크리스트를 평가하면 문제 해결을 위한 작업량이 적은 경우 문제를 조기에 파악할 수 있습니다. 여러 환경 간에 변경을 원활하게 수행하려는 경우에는 체크리스트의 결과를 참조하여 정보에 입각해 이점과 위험에 대한 결정을 내립니다.
- 체크리스트를 코드로 구현하고 이벤트 대응 과정에서 체크리스트 실행 트리거::
체크리스트를 코드로 구현하고, 가능한 경우 이벤트 대응 과정에서 체크리스트 실행을 트리거하면 체크리스트 실행 속도를 높이고, 일관성을 유지하고, 수동
프로세스에서 발생하는 오류를 줄일 수 있습니다. 자동화된 체크리스트 실행을 배포 파이프라인에 통합합니다.
AWS Config
What is AWS Config?
AWS Config: evaluating resources with Rules
런북을 사용하여 절차 수행:
- 코드로 런북 구현::
런북을 코드로 구현하여 작업을 코드로 수행하면 일관성을 유지하고 수동 프로세스에서 발생하는 오류를 줄일 수 있습니다.
AWS Systems Manager Run Command
AWS Systems Manager Automation
What is AWS Lambda? - 이벤트 대응 과정에서 런북 트리거::
해당하는 경우 관찰된 이벤트 대응 과정에서 런북 코드의 실행을 트리거합니다. 그러면 이벤트에 더 빠르게 대응할 수 있으며 대응을 위한 작업량을 줄일
수 있습니다.
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services
Using Amazon CloudWatch Alarms
플레이북을 사용하여 문제 조사
- 코드로 플레이북 구현:
플레이북을 스크립트로 작성하여 작업을 코드로 수행하면 일관성을 유지하고 수동 프로세스에서 발생하는 오류를 최소화할 수 있습니다. 플레이북은 문제의
발생 요인을 식별하는 데 필요할 수 있는 다양한 단계를 나타내는 여러 스크립트로 구성할 수 있습니다. 플레이북 활동의 일부분으로 런북 활동을 트리거하거나
수행할 수도 있고, 확인된 이벤트 대응 과정에서 플레이북 실행 여부를 묻는 메시지를 표시할 수도 있습니다.
Automate your operational playbooks with AWS Systems Manager
AWS Systems Manager Run Command
AWS Systems Manager Automation
What is AWS Lambda?
What is Amazon CloudWatch Events?
Using Amazon CloudWatch Alarms
정보에 입각하여 시스템 및 변경 사항 배포 결정 내리기