Este contenido está desactualizado. Esta versión de Well-Architected Framework se encuentra ahora en:  https://docs.aws.amazon.com/es_es/wellarchitected/2022-03-31/framework/operational-excellence.html
     
 
         OPS 10: ¿Cómo administra los eventos de carga de trabajo y operaciones?
         
          Prepare y valide procedimientos para responder a los eventos con el fin de minimizar
            la interrupción de su carga de trabajo.
            
         
         Recursos
          Build a Monitoring Plan
 Amazon CloudWatch Features
 What is Amazon CloudWatch Events?
         Prácticas recomendadas:
         
            - 
               Utilizar procesos para la administración de eventos, incidentes y problemas: 
                  Disponga de procesos para abordar eventos observados, eventos que necesitan intervención
                  (incidentes) y eventos que necesitan intervención y que pueden repetirse o no se pueden
                  resolver actualmente (problemas). Además, utilice estos procesos para mitigar el impacto
                  que dichos eventos pueden causar en la empresa y sus clientes a través de respuestas
                  adecuadas y oportunas.
                  
                
- 
               Disponer de un proceso por alerta: 
                  Disponga de una respuesta clara (manual de procedimientos o de estrategias), que cuente
                  con un propietario específicamente identificado, ante cualquier evento en el que se
                  genere una alerta. De esta forma, garantiza respuestas rápidas y efectivas ante eventos
                  operativos y evita que las notificaciones menos importantes oculten a los eventos
                  que se pueden corregir.
                  
                
- 
               Priorizar los eventos operativos según el impacto empresarial: 
                  Cuando varios eventos necesiten intervención, garantice que se traten en primer lugar
                  los eventos más importantes para la empresa. Por ejemplo, los impactos pueden incluir
                  la pérdida de la vida o lesiones, pérdidas financieras o daños a la reputación o la
                  confianza.
                  
                
- 
               Definir rutas de escalamiento: 
                  Defina rutas de escalamiento en su manual de procedimientos y de estrategias, incluido
                  aquello que impulsa el escalamiento y los procedimientos que se necesitan para ello.
                  Identifique propietarios específicos para cada acción y, de esta forma, garantice
                  respuestas efectivas y rápidas para los eventos operativos.
                  
                
- 
               Habilitar las notificaciones push: 
                  Comuníquese directamente con los usuarios (por ejemplo, a través de un correo electrónico
                  o un SMS) cuando los servicios que utilizan se vean afectados y, nuevamente, cuando
                  los servicios regresen a las condiciones operativas habituales. De esta forma, les
                  permitirá que tomen las medidas adecuadas.
                  
                
- 
               Comunicar su estado a través de paneles: 
                  Proporcione paneles que se ajusten a sus audiencias de destino (por ejemplo, equipos
                  técnicos internos, líderes y clientes) para comunicar el estado operativo actual de
                  la empresa y proporcionar métricas de interés. 
                  
                
- 
               Automatizar las respuestas a eventos: 
                  Automatice las respuestas a eventos para reducir los errores ocasionados por los procesos
                  manuales, así como para garantizar las respuestas rápidas y coherentes. 
                  
                
Plan de mejora
         Utilizar procesos para la administración de eventos, incidentes y problemas
Utilizar procesos para la administración de eventos, incidentes y problemas: 
               Disponga de procesos para abordar eventos observados, eventos que necesitan intervención
               (incidentes) y eventos que necesitan intervención y que pueden repetirse o no se pueden
               resolver actualmente (problemas). Además, utilice estos procesos para mitigar el impacto
               que dichos eventos pueden causar en la empresa y sus clientes a través de respuestas
               adecuadas y oportunas.
               
            
         
         Disponer de un proceso por alerta
Proceso por alerta: 
               Cualquier evento para el que genere una alerta debe tener una respuesta clara (manual
               de procedimientos o de estrategias), que cuente con un propietario específicamente
               identificado (por ejemplo, persona, equipo o rol) responsable de la correcta ejecución.
               La respuesta se puede llevar a cabo de forma automática o mediante otro equipo, pero
               el propietario es responsable de garantizar que el proceso genere los resultados esperados.
               Si cuenta con estos procesos, garantiza respuestas rápidas y efectivas ante eventos
               operativos y evita que las notificaciones menos importantes oculten a los eventos
               que se pueden corregir. Por ejemplo, el escalado automático puede aplicarse para escalar
               frontend de web, pero el equipo de operaciones puede ser responsable de garantizar
               que las reglas y los límites de escalado automático sean adecuados para las necesidades
               de la carga de trabajo.
               
            
         
         Priorizar los eventos operativos según el impacto empresarial
Priorizar los eventos operativos según el impacto empresarial: 
               Cuando varios eventos necesiten intervención, garantice que se traten en primer lugar
               los eventos más importantes para la empresa. Por ejemplo, los impactos pueden incluir
               la pérdida de la vida o lesiones, pérdidas financieras, infracciones normativas o
               daños a la reputación o la confianza.
               
            
         
         Definir rutas de escalamiento
Definir rutas de escalamiento: 
               Defina rutas de escalamiento en su manual de procedimientos y de estrategias, incluido
               aquello que impulsa el escalamiento y los procedimientos que se necesitan para ello.
               Por ejemplo, el escalamiento de un problema de los ingenieros de soporte a los ingenieros
               sénior de soporte cuando no se puede resolver dicho problema con los manuales de procedimientos
               o cuando ha transcurrido un periodo predefinido. Otro ejemplo de una vía de escalamiento
               adecuada es el de los ingenieros sénior de soporte al equipo de desarrollo para una
               carga de trabajo cuando no se puede identificar una ruta para la corrección con los
               manuales de estrategias o cuando ha transcurrido un periodo predefinido. Identifique
               propietarios específicos para cada acción y, de esta forma, garantice respuestas efectivas
               y rápidas para los eventos operativos. Los escalamientos pueden incluir a terceros.
               Por ejemplo, un proveedor de conectividad a la red o un proveedor de software. Los
               escalamientos pueden incluir a encargados de la toma de decisiones autorizados identificados
               para los sistemas que se vieron afectados.
               
            
         
         Habilitar las notificaciones push
Habilitar las notificaciones push: 
               Comuníquese directamente con los usuarios (por ejemplo, a través de un correo electrónico
               o SMS) cuando los servicios que utilizan se vean afectados, así como cuando los servicios
               regresen a las condiciones operativas habituales. De esta forma, les permitirá que
               tomen las medidas adecuadas.
               
 Amazon SES features
 What is Amazon SES?
 Set up Amazon SNS notifications
         
         Comunicar su estado a través de paneles
Comunicar su estado a través de paneles: 
               Proporcione paneles que se ajusten a sus audiencias de destino (por ejemplo, equipos
               técnicos internos, líderes y clientes) para comunicar el estado operativo actual de
               la empresa y proporcionar métricas de interés. Proporcionar una opción de autoservicio
               para obtener información sobre el estado reduce la interrupción de la respuesta de
               solicitudes de estado por parte del equipo de operaciones. Algunos ejemplos son los
               paneles de Amazon CloudWatch y AWS Personal Health Dashboard.
               
  
                  CloudWatch dashboards create and use customized metrics views
         
         Automatizar las respuestas a eventos
Automatizar las respuestas a eventos: 
               Automatice las respuestas a eventos para reducir los errores ocasionados por los procesos
               manuales, así como para garantizar las respuestas rápidas y coherentes. 
               
 What is Amazon CloudWatch Events?
 Creating a CloudWatch Events rule that triggers on an event
 Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
                  
 CloudWatch Events event examples from supported services