운영 우수성

운영 우수성 원칙에는 시스템을 운영하고 모니터링하여 비즈니스 가치를 제공하고 지원 프로세스와 절차를 지속적으로 개선하는 능력이 포함됩니다.이(가) 포함됩니다.

운영 우수성 부문에서는 설계 원리 개요, 모범 사례 및 질문 사항을 제공합니다. 구현 방법에 대한 선제적 가이드는 운영 우수성 부문 백서에서 확인할 수 있습니다.

설계 원칙

클라우드에는 운영 우수성에 대한 six개의 설계 원칙이 있습니다.

정의

클라우드에는 운영 우수성에 대한 three개의 모범 사례 영역이 있습니다.

운영 팀은 비즈니스 및 고객의 요구 사항을 이해하여야 하고 이를 통해 비즈니스 성과를 효과적이고 효율적으로 지원할 수 있어야 합니다. 운영상 이벤트 대응을 위한 운영 절차를 생성하고, 비즈니스 요구 사항 지원을 위한 효율성을 검증합니다. 운영 단계에서는 원하는 비즈니스 성과 달성을 측정하는 데 사용되는 지표를 수집합니다. 비즈니스 컨텍스트, 비즈니스 우선순위, 고객 요구 사항 등 모든 요소는 계속해서 변화합니다. 시간에 따른 변화에 대응하여 개선 사항을 반영하고 성과를 통해 파악한 내용을 통합하도록 운영 단계를 설계하는 것이 중요합니다.

모범 사례

준비

운영 우수성을 달성하려면 효과적인 준비가 필요합니다. 비즈니스 성공은 비즈니스, 개발 및 운영 단계 전반에 걸쳐 공유된 이해와 목표를 통해 이루어집니다. 표준화는 워크로드 설계와 관리를 간소화하면서 운영 성공을 달성하게 해 줍니다. 애플리케이션, 플랫폼 및 인프라 구성 요소뿐만 아니라 고객 경험 및 행동 양식에 대한 인사이트를 확보하고 모니터링하는 메커니즘이 포함된 워크로드를 설계합니다.

워크로드나 변경이 프로덕션 단계와 운영 준비로 이동할 준비가 되어 있는지 검증할 메커니즘을 생성합니다. 운영 준비를 통해 워크로드가 정의된 표준을 충족하는지, 필요한 절차가 적절하게 런북 및 플레이북에서 캡처되었는지 여부를 체크리스트를 통해 검증합니다. 워크로드를 효과적으로 지원할 훈련을 받은 인력이 충분히 있는지 검증합니다. 이전하기 전에 운영상 이벤트 및 실패에 대한 응답을 테스트합니다. 실패 주입 및 게임 데이 이벤트를 통해 지원되는 환경에서 대응을 실습합니다.

AWS는 클라우드에서 코드기반 운영을 활성화하고 운영 절차를 안전하게 실험, 개발하고 실패를 실습하는 기능을 제공합니다. AWS CloudFormation을 사용하면 운영 제어 수준이 점점 증가하는 일관된 템플릿 형식의 샌드박스 개발, 테스트 및 생산 환경을 갖출 수 있습니다. AWS는 다양한 로그 수집 및 기능 모니터링을 통해 모든 계층의 워크로드에 대한 가시성을 활성화합니다. Amazon CloudWatch, AWS CloudTrail 및 VPC 흐름 로그를 사용하여 리소스, 애플리케이션 프로그래밍 인터페이스(API) 및 네트워크 흐름 로그 사용 데이터를 수집할 수 있습니다. 수집된 플러그인 또는 CloudWatch Logs 에이전트를 사용하여 운영 체제에 대한 정보를 CloudWatch로 집계합니다.

다음 질문은 운영 우수성에 대한 이러한 고려 사항을 중점적으로 다룹니다.

OPS 1: 운영 우선순위를 결정하는 요인은 무엇입니까?
OPS 2: 서비스 설계 시 어떻게 운영상태를 파악할 수 있도록 준비하나요?
OPS 3: 결함 없이 빠르고 쉽게 상품화가 가능하도록 변경관리를 어떻게 설계하나요?
OPS 4: 배포 위험을 최소화하기 위해 어떻게 노력하나요?
OPS 5: 서비스 운영을 지원할 준비가 되어있는지를 어떻게 알 수 있나요?

워크로드에 대한 최소 아키텍처 표준을 구현합니다. 워크로드에 대한 이점 및 운영상 부담과 표준을 구현하기 위한 비용 사이에서 균형을 찾습니다. 지원되는 표준 수를 줄임으로써 수용할 수 있는 수준보다 낮은 표준이 오류로 인해 적용될 가능성을 낮출 수 있습니다. 운영 인력은 제한된 리소스인 경우가 많습니다.

운영 활동을 코드로 구현하여 운영 인력의 생산성을 최대화하고, 오류율을 최소화하고, 자동화된 응답을 사용할 수 있습니다. 클라우드의 탄력성을 활용하는 배포 실습을 도입하여 시스템을 사전 배포할 수 있도록 함으로써 보다 빠른 구현을 달성합니다.

운영

워크로드 운영의 성공은 비즈니스 및 고객 성과 달성에 따라 측정됩니다. 예상 결과를 정의하고, 성공을 측정하는 방법을 결정하고 이러한 계산에 사용될 워크로드 및 운영 지표를 식별하여 운영이 성공적인지 여부를 결정합니다. 운영 상태에는 워크로드 상태, 워크로드에 대한 운영 상태와 성공이 모두 포함됩니다(예: 배포 및 인시던트 응답). 식별되는 운영 개선 또는 운영 저하 상태로 기준선을 설정하고, 지표를 수집 및 분석한 후 운영 성공에 대한 이해 및 시간에 따라 어떻게 변하는지를 확인합니다. 수집된 지표를 사용하여 고객과 비즈니스 요구 사항을 충족하는지 여부를 확인하고 개선 영역을 식별합니다.

운영 우수성을 달성하려면 효과적이고 효율적인 운영 이벤트 관리가 필요합니다. 이는 계획된 운영 이벤트 및 계획되지 않은 운영 이벤트 모두에 적용됩니다. 사전에 파악된 이벤트에 대해 런북을 작성하여 사용하고, 파악되지 않은 다른 이벤트의 해결책을 지원하는 데는 플레이북을 사용합니다. 비즈니스 및 고객 영향을 기반으로 이벤트 응답의 우선순위를 지정합니다. 이벤트 응답에 대해 알람이 발생하는지, 연결된 실행 프로세스가 있는지 여부를 식별된 담당자와 함께 확인합니다. 이벤트를 해결하는 데 필요한 인력을 미리 정의하고 에스컬레이션 트리거를 포함하여 필요할 경우 영향(예: 기간, 규모 및 범위)을 기반으로 추가 인력의 참여를 유도합니다. 권한이 있는 개인을 식별하고 참여시켜 이전에 해결되지 않은 이벤트 대응에 대해 대응 과정이 비즈니스에 영향을 미쳤는지 확인합니다.

타겟(예: 고객, 비즈니스, 개발자, 운영)에 맞는 알림 및 대시보드를 통해 워크로드 운영 상태를 전달하여 적절한 조치를 취하고 기대 사항을 관리하고 정상 운영이 다시 시작될 때 알림을 받을 수 있도록 합니다.

계획되지 않은 이벤트 및 계획된 이벤트의 예측하지 못한 영향의 근본 원인을 확인합니다. 이 정보는 이후 이벤트 발생을 완화하기 위해 절차를 업데이트하는 데 사용됩니다. 해당하는 경우 영향을 받은 커뮤니티에 근본 원인을 전달합니다.

AWS에서는 AWS의 기본 지표 및 워크로드로부터 수집된 지표에 대한 대시보드 보기를 생성할 수 있습니다. CloudWatch 또는 타사 애플리케이션을 활용하여 운영 활동의 비즈니스, 워크로드 및 운영 수준 보기를 표시하고 집계할 수 있습니다. AWS는 근본 원인 분석 및 해결 지원을 통해 워크로드 문제를 식별할 수 있는 AWS X-Ray, CloudWatch, CloudTrail, VPC 흐름 로그 등의 로그 기능을 통해 워크로드 인사이트를 제공합니다.

다음 질문은 운영 우수성에 대한 이러한 고려 사항을 중점적으로 다룹니다.

OPS 6: 워크로드가 정상인지 어떻게 판단하나요?
OPS 7: 운영 업무가 정상인지 어떻게 판단하나요?

OPS 8: 서비스/운영 이벤트를 어떻게 관리하나요?

정기 운영 및 계획되지 않은 이벤트에 대한 대응이 자동화되어야 합니다. 배포, 릴리스 관리, 변경 사항, 롤백에 대한 수동 프로세스는 사용해서는 안 됩니다. 릴리스는 수행 빈도가 높지 않은 대량 배치가 아니어야 합니다. 변경 사항이 대량인 경우 롤백이 더 까다롭습니다. 롤백 계획 또는 장애 영향 완화에 실패할 경우 운영 연속성이 중단됩니다. 대응이 비즈니스 연속성 유지에 효과적이도록 지표를 비즈니스 요구 사항에 부합하도록 합니다. 일시적인 수동 대응과 분산된 지표는 계획되지 않은 이벤트 발생 시 더 큰 운영 중단을 유발합니다.

개선

운영 우수성을 유지하려면 운영 개선이 필요합니다. 연속적이고 증분적 개선을 이뤄내는 데에 주력하여 작업 주기를 조절합니다. 워크로드 및 운영 절차 모두를 포함하여 개선의 여지(예: 기능 요청, 문제 해결, 규정 준수 요구 사항)를 정기적으로 평가하고 우선순위를 조정합니다. 절차 내에 피드백 루프를 포함시켜 개선할 영역을 빠르게 식별하고 운영 실행을 통해 학습한 내용을 파악합니다.

팀 전반에 걸쳐 파악한 내용을 공유하여 이러한 내용의 이점도 함께 공유합니다. 파악한 내용 내의 추세를 분석하고 운영 지표에 대해 팀 교차 후행 분석을 수행하여 개선할 여지 및 방법을 식별합니다. 개선하려는 변경 사항을 적용하고 결과를 평가하여 성공 여부를 확정합니다.

AWS 개발자 도구를 사용하면 AWS 및 타사의 다양한 소스 코드, 빌드, 테스트 및 개발 도구와 연동하여 연속적인 구축, 테스트 및 개발 활동을 구현할 수 있습니다. 배포 활동 결과는 배포 및 개발 모두에 대해 개선할 여지를 식별하는 데 사용할 수 있습니다. 운영 및 배포 활동의 데이터를 통합하는 지표 데이터에 대한 분석을 수행하여 비즈니스 및 고객 성과에 대한 해당 활동의 영향을 분석할 수 있습니다. 이 데이터는 개선할 여지 및 방법을 식별하기 위한 팀 교차 후행 분석에 활용할 수 있습니다.

다음 질문은 운영 우수성에 대한 이러한 고려 사항을 중점적으로 다룹니다.

OPS 9: 운영을 어떻게 개선 시키나요?

성공적인 운영 개선은 잦은 소규모 개선, 안전한 환경 및 실험, 개발, 테스트 개선에 대한 시간 제공, 그리고 실패로부터 학습 독려하는 환경을 통해 이루어집니다. 샌드박스, 개발, 테스트 및 생산 환경에 대한 운영 지원을 통해 운영 제어 수준을 점점 높아지도록 하고, 개발을 촉진하며, 생산 단계에 배포된 변경에서 성공적인 결과가 예측 가능하도록 합니다.

주요 AWS 서비스

운영 우수성에 필수적인 AWS 서비스은(는) AWS CloudFormation, 모범 사례를 기반으로 템플릿을 생성하는 데 사용할 수 있습니다. AWS CloudFormation을 사용하면 순서에 따라 일관된 방식으로 개발 단계부터 생산 환경에 이르기까지 리소스를 프로비저닝할 수 있으며, 이며, 다음 서비스 및 기능이 운영 우수성의 three개 영역을 지원합니다.

리소스

운영 우수성 관련 AWS 모범 사례에 대해 자세히 알아보려면 다음 리소스를 참조하십시오.

Operational Excellence Pillar
DevOps and AWS
DevOps at Amazon