OPS 9: Como você compreende a integridade de suas operações?
Defina, capture e analise as métricas de operações para obter visibilidade dos eventos de operações, para que você possa tomar as ações apropriadas.
Recursos
Build a Monitoring Plan
Detect and React to Changes in Pipeline State with Amazon CloudWatch Events
AWS Answers: Centralized Logging
Melhores práticas:
-
Identifique os indicadores-chave de performance: Identifique os indicadores-chave de performance (KPIs) com base nos negócios desejados (por exemplo, novos recursos entregues) e nos resultados do cliente (por exemplo, casos de suporte ao cliente). Avalie KPIs para determinar o sucesso das operações.
-
Defina as métricas de operações: Defina métricas de operações para medir a realização de KPIs (por exemplo, implantações com êxito e implantações com falha). Defina métricas de operações para medir a integridade das atividades de operações (por exemplo, tempo médio para detectar um incidente (MTTD) e tempo médio para recuperação (MTTR) de um incidente). Avalie as métricas para determinar se as operações estão alcançando os resultados desejados e para entender a integridade das atividades operacionais.
-
Colete e analise as métricas de operações: Faça revisões proativas regulares das métricas para identificar tendências e determine onde as respostas apropriadas são necessárias.
-
Estabeleça as linhas de base das métricas de operações: Estabeleça as linhas de base das métricas para fornecer valores esperados como base para comparação e identificação de atividades operacionais com performance inferior e superior.
-
Aprenda os padrões esperados de atividade para operações: Estabeleça padrões de atividades de operações para identificar atividades anômalas para poder responder adequadamente, se necessário.
-
Atente para quando os resultados das operações estiverem em risco: Emita um alerta quando os resultados das operações estiverem em risco para que você possa responder adequadamente, se necessário.
-
Atente para quando anomalias de operações forem detectadas: Emita um alerta quando forem detectadas anomalias de operações para que você possa responder adequadamente, se necessário.
-
Valide a obtenção de resultados e a eficácia de KPIs e métricas. : Crie uma visualização em nível de negócios de suas atividades operacionais para ajudá-lo a determinar se você está satisfazendo estas necessidades e para identificar áreas que precisam de melhorias para atingir as metas de negócios. Valide a eficácia dos KPIs e métricas e revise-os, se necessário.
Plano de melhoria
Identifique os indicadores-chave de performance
Defina as métricas de operações
Publish custom metrics
Searching and filtering log data
Amazon CloudWatch metrics and dimensions reference
Colete e analise as métricas de operações
Using Amazon CloudWatch metrics
Amazon CloudWatch metrics and dimensions reference
Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent
Estabeleça as linhas de base das métricas de operações
Aprenda os padrões esperados de atividade para operações
Atente para quando os resultados das operações estiverem em risco
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
Atente para quando anomalias de operações forem detectadas
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
Valide a obtenção de resultados e a eficácia de KPIs e métricas.
Using Amazon CloudWatch dashboards
What is log analytics?