OPS 9: ¿Cómo comprende el estado de sus operaciones?
Defina, registre y analice las métricas de las operaciones para obtener visibilidad en los eventos operativos y poder tomar las medidas adecuadas.
Recursos
Build a Monitoring Plan
Detect and React to Changes in Pipeline State with Amazon CloudWatch Events
AWS Answers: Centralized Logging
Prácticas recomendadas:
-
Identifique los indicadores clave de rendimiento: Identifique los indicadores clave de rendimiento (KPI) en función de la actividad comercial deseada (por ejemplo, entrega de nuevas características) y los resultados del cliente (por ejemplo, casos de servicio de atención al cliente). Evalúe los KPI para determinar el éxito de las operaciones.
-
Defina las métricas de las operaciones: Defina las métricas de las operaciones para medir el logro de los KPI (por ejemplo, implementaciones correctas e implementaciones con errores). Defina las métricas de las operaciones para medir el estado de las actividades de dichas operaciones (por ejemplo, el tiempo promedio para la detección de un incidente [MTTD] y el tiempo promedio para la recuperación [MTTR] de un incidente). Evalúe las métricas para determinar si las operaciones logran los resultados deseados y para comprender el estado de sus actividades operativas.
-
Recopile y analice las métricas de las operaciones: Lleve a cabo revisiones proactivas y regulares de las métricas para identificar tendencias y determinar dónde se necesitan las respuestas adecuadas.
-
Establezca puntos de referencia de las métricas de las operaciones: Establezca puntos de referencia para las métricas con el fin de ofrecer valores esperados como base para la comparación e identificación de actividades operativas de rendimiento alto y bajo.
-
Conozca los patrones esperados de actividad para las operaciones: Establezca los patrones de actividades operativas para identificar actividades anómalas, así puede responder adecuadamente si es necesario.
-
Genere una alerta cuando los resultados de las operaciones estén en riesgo: Genere una alerta cuando los resultados de las operaciones estén en riesgo para que pueda responder adecuadamente si es necesario.
-
Genere una alerta cuando se detecten anomalías en las operaciones: Genere una alerta cuando se detecten anomalías en las operaciones para que pueda responder adecuadamente si es necesario.
-
Valide el logro de los resultados y la efectividad de los KPI y las métricas : Cree una vista de nivel empresarial de las actividades operativas para ayudarlo a determinar si satisface las necesidades y para identificar las áreas que necesitan mejoras con el fin de alcanzar los objetivos comerciales. Valide la efectividad de los KPI y de las métricas y revíselos si es necesario.
Plan de mejora
Identifique los indicadores clave de rendimiento
Defina las métricas de las operaciones
Publish custom metrics
Searching and filtering log data
Amazon CloudWatch metrics and dimensions reference
Recopile y analice las métricas de las operaciones
Using Amazon CloudWatch metrics
Amazon CloudWatch metrics and dimensions reference
Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent
Establezca puntos de referencia de las métricas de las operaciones
Conozca los patrones esperados de actividad para las operaciones
Genere una alerta cuando los resultados de las operaciones estén en riesgo
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
Genere una alerta cuando se detecten anomalías en las operaciones
What is Amazon CloudWatch Events?
Creating Amazon CloudWatch alarms
Invoking Lambda functions using Amazon SNS notifications
Valide el logro de los resultados y la efectividad de los KPI y las métricas
Using Amazon CloudWatch dashboards
What is log analytics?