Excelencia operativa
El pilar (pilar) incluye (descripción)
El pilar de la excelencia operativa proporciona una descripción general de los principios de diseño, las prácticas recomendadas y las preguntas. Puede encontrar orientación normativa sobre la implementación en el documento técnico Pilar de la excelencia operativa.
Principios de diseño
Hay (recuento) principios de diseño de (pilar-inferior) en la nube:
-
Realizar operaciones como código: En la nube, puede aplicar la misma disciplina de ingeniería que utiliza para el código de aplicaciones en todo su entorno. Puede definir toda la carga de trabajo (aplicaciones, infraestructura) como código y actualizarla con código. Puede implementar sus procedimientos operativos como código y automatizar la ejecución si los activa en respuesta a eventos. Si realiza operaciones como código, limita la posibilidad de error humano y habilita respuestas coherentes a los eventos.
-
Realizar cambios reversibles, pequeños y frecuentes: Diseñe cargas de trabajo para permitir que los componentes se actualicen de forma regular. Realice cambios en incrementos pequeños que puedan revertirse si se producen errores (sin afectar a los clientes cuando sea posible).
-
Mejorar los procedimientos operativos con frecuencia: A medida que utilice los procedimientos operativos, busque oportunidades para mejorarlos. Mientras su carga de trabajo evoluciona, haga que sus procedimientos también lo hagan de forma adecuada. Configure días de práctica regulares para revisar todos los procedimientos y validar que sean efectivos y que los equipos los conozcan.
-
Anticipar los errores: Realice ejercicios “premortem” para identificar los posibles orígenes de errores de manera que se puedan eliminar o mitigar. Pruebe las situaciones de error y compruebe que entiende sus efectos. Pruebe los procedimientos de respuesta para asegurarse de que sean efectivos y que los equipos conozcan su ejecución. Configure días de práctica con regularidad para probar las respuestas de la carga de trabajo y del equipo a eventos simulados.
-
Aprender de todos los errores operativos: Implemente mejoras a partir de las lecciones aprendidas de todos los eventos y los errores operativos. Comparta lo aprendido con los equipos y toda la organización.
Definición
Hay (recuento) áreas de prácticas recomendadas de (pilar-inferior) en la nube:
Los líderes de su organización definen los objetivos empresariales. Su organización debe comprender los requisitos y las prioridades, además de utilizarlos para organizar y realizar trabajos que respalden el logro de los resultados empresariales. Su carga de trabajo debe brindar la información necesaria para poder respaldarla. Implementar servicios para habilitar la integración, la implementación y la entrega de su carga de trabajo permitirá aumentar el flujo de cambios beneficiosos en la fase de producción mediante la automatización de los procesos repetitivos.
Pueden existir riesgos inherentes a la operación de la carga de trabajo. Debe comprender esos riesgos y tomar una decisión con fundamentos para avanzar a la fase de producción. Sus equipos deben ser capaces de brindar soporte a su carga de trabajo. Las métricas comerciales y operativas que derivan de los resultados empresariales deseados le permitirán comprender el estado de la carga de trabajo y las actividades operativas, además de responder a incidentes. Sus prioridades cambiarán a medida que se modifiquen las necesidades empresariales y el entorno de negocio. Utilice estos aspectos como un bucle de retroalimentación para mejorar de manera continua la organización y el funcionamiento de su carga de trabajo.
Prácticas recomendadas
Organización
Los equipos deben comprender de la misma manera toda la carga de trabajo, su rol en ella y los objetivos empresariales compartidos para establecer las prioridades que permitirán el éxito empresarial. Las prioridades claras maximizan los beneficios de sus esfuerzos. Evalúe las necesidades internas y externas de los clientes que involucran a las partes interesadas clave, incluidos los equipos de negocio, desarrollo y operaciones, para determinar dónde se deben concentrar los esfuerzos. La evaluación de las necesidades de los clientes garantizará que comprenda por completo el respaldo que se necesita para alcanzar los resultados empresariales. Asegúrese de conocer las directrices o las obligaciones definidas por la gobernanza de su organización, y los factores externos, como los requisitos de conformidad normativa y los estándares del sector, para asegurarse que pueden exigir o enfatizar un enfoque específico. Compruebe que cuenta con los mecanismos necesarios para identificar los cambios en los requisitos de gobernanza interna y de conformidad externa. Si no se identifican requisitos, asegúrese de haber aplicado la debida diligencia a esta tarea. Revise sus prioridades con regularidad de manera que se puedan actualizar a medida que cambian las necesidades.
Evalúe las amenazas a su negocio (por ejemplo, riesgos y obligaciones empresariales y amenazas a la seguridad de la información) y guarde esta información en un registro de riesgos. Evalúe el impacto de los riesgos y las compensaciones entre intereses opuestos o enfoques alternativos. Por ejemplo, se puede enfatizar la aceleración de la comercialización de características nuevas por encima de la optimización de costos, o puede elegir una base de datos relacional para datos no relacionales con el fin de simplificar el esfuerzo de migración de un sistema sin refactorización. Administre los beneficios y los riesgos para tomar decisiones con fundamentos al momento de determinar dónde concentrar los esfuerzos. Algunos riesgos u opciones pueden ser aceptables por un tiempo. Tal vez sea posible mitigar los riesgos asociados o quizás se vuelva inaceptable permitir que un riesgo permanezca, en cuyo caso tendrá que tomar medidas para abordarlo.
Los equipos deben comprender el rol que juegan en el logro de los resultados empresariales. Los equipos deben comprender el rol que tienen en el éxito de otros equipos, conocer el rol de los demás equipos en su propio éxito y tener objetivos en común. Comprender la responsabilidad, la propiedad, la manera en que se toman las decisiones y quién tiene la autoridad para hacerlo ayudará a concentrar los esfuerzos y a maximizar los beneficios de sus equipos. Las necesidades de un equipo dependerán del cliente al que brinden soporte, la organización, la conformación del equipo y las características de su carga de trabajo. Es poco razonable esperar que un solo modelo operativo pueda respaldar a todos los equipos y las cargas de trabajo en su organización.
Asegúrese de que haya propietarios identificados para cada aplicación, carga de trabajo, plataforma y componente de infraestructura, y que cada proceso y procedimiento tenga un propietario definido responsable de su definición y propietarios responsables de su rendimiento. Comprender el valor de negocio de cada componente, proceso y procedimiento, el motivo por el que se establecieron esos recursos o se realizan las actividades y la razón por la que esa propiedad existe informará las acciones de los miembros de su equipo. Defina claramente las responsabilidades de los miembros del equipo de manera que actúen de forma adecuada y tengan mecanismos para identificar la responsabilidad y la propiedad. Cuente con mecanismos para solicitar incorporaciones, cambios y excepciones de manera que no restrinja la innovación. Defina acuerdos entre los equipos donde se describa cómo trabajan juntos para respaldarse entre sí y respaldar los resultados empresariales.
Apoye a los miembros del equipo para que puedan ser más eficaces a la hora de actuar y de respaldar los resultados empresariales. Los líderes principales comprometidos deben establecer expectativas y medir el éxito. Deben ser los patrocinadores, los defensores y los impulsores de la adopción de las prácticas recomendadas y de la evolución de la organización. Permita a los miembros del equipo actuar cuando los resultados estén en riesgo para minimizar el impacto y aliéntelos a realizar escalamientos hacia los responsables de la toma de decisiones y las partes interesadas cuando crean que exista un riesgo, de manera que pueda abordarse y se eviten los incidentes. Proporcione comunicaciones oportunas, claras y factibles sobre los riesgos conocidos y los eventos planificados para que los miembros del equipo puedan actuar de manera oportuna y adecuada.
Fomente la experimentación para acelerar el aprendizaje y mantener a los miembros del equipo interesados y comprometidos. Los equipos deben mejorar sus conjuntos de habilidades para adoptar nuevas tecnologías y admitir cambios en la demanda y las responsabilidades. Respalde y fomente esto proporcionando tiempo de estructura dedicado para el aprendizaje. Asegúrese de que los miembros de su equipo tengan los recursos, tanto herramientas como miembros del equipo, para tener éxito y realizar escalamientos con el fin de respaldar los resultados empresariales. Aproveche la diversidad entre las organizaciones para buscar varias perspectivas únicas. Utilice esta perspectiva para aumentar el nivel de innovación, desafiar sus suposiciones y reducir el riesgo de sesgo de confirmación. Aumente los niveles de inclusión, diversidad y accesibilidad dentro de sus equipos para obtener perspectivas beneficiosas.
Si existen requisitos normativos o de conformidad externos que correspondan a su organización, debe utilizar los recursos que ofrece la Conformidad en la nube de AWS para ayudar a instruir a sus equipos, de manera que puedan determinar el impacto en sus prioridades. El Marco de Buena Arquitectura hace énfasis en el aprendizaje, la medición y la mejora. Ofrece un enfoque uniforme para evaluar arquitecturas e implementar diseños que se puedan escalar con el paso del tiempo. AWS ofrece AWS Well-Architected Tool para ayudarlo a revisar el enfoque antes del desarrollo, el estado de las cargas de trabajo antes de la producción y el estado de las cargas de trabajo durante la producción. Puede compararlas con las últimas prácticas recomendadas de arquitectura de AWS, monitorear el estado general de sus cargas de trabajo y obtener información acerca de los posibles riesgos. AWS Trusted Advisor es una herramienta que proporciona acceso a un conjunto básico de comprobaciones que recomiendan optimizaciones, las cuales pueden ayudar a definir sus prioridades. Los clientes de Business Support y Enterprise Support tienen acceso a comprobaciones adicionales centradas en la seguridad, la fiabilidad, el rendimiento y la optimización de costos, que pueden ayudar a definir aún más sus prioridades.
AWS puede ayudarlo a instruir a sus equipos acerca de AWS y sus servicios para que entiendan mejor de qué manera sus elecciones pueden afectar a la carga de trabajo. Debe utilizar los recursos que ofrece AWS Support (el Centro de conocimiento de AWS, los foros de debate de AWS y el Centro de soporte de AWS) y la documentación de AWS para instruir a sus equipos. Póngase en contacto con AWS Support a través del Centro de soporte de AWS para obtener respuestas a sus preguntas sobre AWS. AWS también comparte los patrones y las prácticas recomendadas que hemos aprendido a través del funcionamiento de AWS en la Biblioteca de creadores de Amazon. Existe una gran variedad de más información útil disponible en el blog de AWS y el podcast oficial de AWS. AWS Training and Certification proporciona formación técnica gratuita a través de cursos digitales autoguiados acerca de los aspectos fundamentales de AWS. También puede registrarse para obtener formación técnica impartida por instructores a fin de respaldar aún más el desarrollo de las habilidades en AWS de sus equipos.
Debe usar herramientas o servicios que le permitan controlar de manera centralizada los entornos en todas las cuentas, como AWS Organizations, para ayudar a administrar los modelos operativos. Los servicios similares a AWS Control Tower amplían esta capacidad de administración, lo que le permite definir diseños (que respalden sus modelos operativos) para la configuración de cuentas, la aplicación de gobernanza continua con AWS Organizations y la automatización del aprovisionamiento de nuevas cuentas. Los proveedores de servicios administrados, como AWS Managed Services, los socios de AWS Managed Services, o los proveedores de servicios administrados en la red de socios de AWS, ofrecen experiencia en la implementación de entornos en la nube y admiten los requisitos de seguridad y conformidad, además de sus objetivos empresariales. Agregar servicios administrados a su modelo operativo puede ayudarlo a ahorrar tiempo y recursos. Además, permite que sus equipos internos no carguen con tantas responsabilidades y permanezcan centrados en los resultados estratégicos que destacarán su negocio, en lugar de seguir concentrados en desarrollar nuevas habilidades y capacidades.
Las siguientes preguntas se enfocan en estas consideraciones para (pilar inferior).
Es posible que desee destacar un pequeño subconjunto de prioridades en algún momento. Utilice un enfoque equilibrado a largo plazo para garantizar el desarrollo de las capacidades necesarias y la administración de riesgos. Revise sus prioridades con regularidad y actualícelas a medida que cambien las necesidades. Cuando la responsabilidad y la propiedad no están definidas o no se conocen, se corre el riesgo de no tomar las medidas necesarias a tiempo y de que surjan esfuerzos redundantes y potencialmente contradictorios a la hora de abordar esas necesidades. La cultura organizativa tiene un efecto directo en la satisfacción laboral y la retención de los miembros del equipo. Facilite el compromiso y las capacidades de los miembros de su equipo para lograr el éxito de su negocio. Es necesario experimentar para dar lugar a la innovación y para que las ideas se transformen en resultados. Reconozca que un resultado no deseado es un experimento exitoso que identificó un camino que no conduce al éxito.
Preparación
Si desea prepararse para la excelencia operativa, debe comprender las cargas de trabajo y sus comportamientos esperados. Luego, podrá diseñarlas para que ofrezcan información sobre su estado y podrá crear procedimientos para respaldarlas.
Diseñe su carga de trabajo de manera que brinde la información necesaria para comprender su estado interno (por ejemplo, métricas, registros, eventos y seguimientos) en todos los componentes a fin de respaldar los problemas de investigación y observación. Itere a fin de desarrollar la telemetría necesaria para monitorear el estado de la carga de trabajo, identificar el momento en que los resultados corren riesgo y habilitar respuestas efectivas. Cuando instrumente su carga de trabajo, capture una gran cantidad de información que le permita conocer la situación (por ejemplo, cambios de estado, actividad del usuario, acceso con privilegios, contadores del uso) y tenga en cuenta que puede utilizar filtros para seleccionar la información más útil con el paso del tiempo.
Adopte enfoques que mejoren el flujo de los cambios en la fase de producción y que permitan la refactorización, la valoración rápida sobre la calidad y la corrección de errores. Estos enfoques aceleran los cambios beneficiosos que se aplican a la fase de producción, limitan los problemas implementados y permiten una rápida identificación y solución de los problemas que acarrearon las actividades de implementación o se detectaron en sus entornos.
Adopte enfoques que ofrezcan una rápida valoración acerca de la calidad y permitan una rápida recuperación de aquellos cambios que no tengan los resultados deseados. La aplicación de estas prácticas mitiga el impacto de los problemas que surgen como consecuencia de la implementación de cambios. Planifique los cambios incorrectos de manera que pueda responder más rápido si es necesario, y evalúe y valide los cambios que haga. Tenga conocimiento de las actividades planeadas en sus entornos de manera que pueda administrar el riesgo de cambios que tengan un impacto en dichas actividades planeadas. Destaque los cambios reversibles, pequeños y frecuentes para limitar su alcance. Esto permite que la resolución de problemas sea más sencilla y que las correcciones sean más rápidas, además de la posibilidad de revertir el cambio. Esto también implica que pueda obtener el beneficio de cambios valiosos con mayor frecuencia.
Evalúe la disposición operativa de sus cargas de trabajo, procesos, procedimientos y personal con el fin de comprender los riesgos operativos relacionados con su carga de trabajo. Debe utilizar un proceso consistente (que incluya listas de verificación manuales o automatizadas) a fin de saber cuándo estará listo para trabajar con su carga de trabajo o un cambio. Esto también le permitirá encontrar algunas áreas que necesitan planificación para poder abordarse. Cuente con manuales de procedimientos que documenten sus actividades de rutina y con manuales de estrategias que lo guíen en los procesos de resolución de problemas. Comprenda los beneficios y los riesgos para tomar decisiones con fundamentos que permitan que los cambios avancen a la fase de producción.
AWS le permite ver toda su carga de trabajo (aplicaciones, infraestructura, política, gobernanza y operaciones) como código. Todo se puede definir y actualizar con código. Esto significa que puede aplicar la misma disciplina de ingeniería que se utiliza para el código de aplicaciones en todos los elementos de su pila y compartirlos con los equipos o las organizaciones con el fin de aumentar los beneficios de los esfuerzos de desarrollo. Use las operaciones como código en la nuble y la capacidad de experimentar de manera segura para desarrollar la carga de trabajo, los procedimientos operativos y los errores de prueba. Usar AWS CloudFormation le permite tener entornos consistentes, con plantillas, de desarrollo en un entorno de pruebas, de prueba y de producción con un crecimiento de los niveles de control de operaciones.
Las siguientes preguntas se enfocan en estas consideraciones para (pilar inferior).
Invierta en la implementación de actividades de operaciones como código para maximizar la productividad del personal de operaciones, minimizar las tasas de error y habilitar las respuestas automáticas. Realice análisis “pre-mortem” para anticipar los errores y crear procedimientos cuando sea adecuado. Aplique metadatos usando etiquetas de recursos y grupos de recursos de AWS mediante una estrategia de etiquetado consistente a fin de permitir la identificación de sus recursos. Etiquete sus recursos para la organización, la contabilidad de costos y los controles de accesos, con el objetivo de ejecutar actividades de operaciones automatizadas. Adopte prácticas de implementación que aprovechen la elasticidad de la nube para facilitar las actividades de desarrollo y la implementación previa de sistemas con el fin de lograr implementaciones más rápidas. Cuando realice cambios en las listas de verificación que utiliza para evaluar sus cargas de trabajo, planifique lo que hará con los sistemas activos que ya no presentan conformidad.
Operación
El funcionamiento correcto de una carga de trabajo se mide a través del logro de los resultados de la empresa y de los clientes. Defina los resultados esperados, determine cómo se medirá el éxito e identifique las métricas que se usarán en esos cálculos con el fin de determinar si la carga de trabajo y el funcionamiento son correctos. El estado operativo incluye el estado de la carga de trabajo y el estado y el éxito de las actividades operativas realizadas para admitir la carga de trabajo (por ejemplo, la implementación y la respuesta a incidentes). Establezca puntos de referencia para las métricas respecto de las mejoras, la investigación y la intervención, recopile y analice las métricas y, luego, valide la comprensión del éxito de las operaciones y cómo cambia con el paso del tiempo. Use las métricas recopiladas para determinar si satisface las necesidades del cliente y empresariales e identifique las áreas que necesitan mejoras.
Se requiere una administración eficaz y efectiva de los eventos operativos para lograr la excelencia operativa. Esto se aplica a los eventos operativos planificados y no planificados. Use manuales de procedimientos para eventos ya conocidos y use manuales de estrategias para ayudar en la investigación y la resolución de problemas. Priorice las respuestas a los eventos basados en el impacto de la empresa y del cliente. Asegúrese de que si se genera una alerta en respuesta a un evento, exista un proceso asociado para ejecutar, con un propietario identificado de forma específica. Defina con anticipación el personal que se requiere para resolver un evento e incluya desencadenadores de escalamiento para involucrar a personal adicional, según sea necesario, en función de la urgencia y el impacto. Identifique e involucre a personas con la autoridad de tomar decisiones sobre procedimientos a seguir donde habrá un impacto empresarial a partir de una respuesta a un evento que no se abordó anteriormente.
Comunique el estado operativo de las cargas de trabajo a través de paneles y notificaciones adaptadas a la audiencia de destino (por ejemplo, clientes, empresas, desarrolladores, operaciones) para que se puedan tomar las medidas adecuadas, se puedan administrar las expectativas y se los informe cuando se reanuden las operaciones normales.
En AWS, puede generar vistas del panel de las métricas recopiladas de las cargas de trabajo y de manera nativa de AWS. Puede aprovechar CloudWatch o aplicaciones de terceros para agregar y presentar vistas de niveles de empresas, cargas de trabajo y operaciones de las actividades operativas. AWS proporciona información sobre la carga de trabajo a través de funciones de registro, que incluye AWS X-Ray, CloudWatch, CloudTrail y registros de flujo de VPC, lo que permite la identificación de problemas de la carga de trabajo para el análisis y la corrección de la causa raíz.
Las siguientes preguntas se enfocan en estas consideraciones para (pilar inferior).
OPS 8: ¿Cómo comprende el estado de su carga de trabajo? |
OPS 9: ¿Cómo comprende el estado de sus operaciones? |
OPS 10: ¿Cómo administra los eventos de carga de trabajo y operaciones? |
Todas las métricas que recopile deben alinearse a la necesidad empresarial y a los resultados que respaldan. Desarrolle respuestas con scripts a los eventos ya conocidos y automatice su rendimiento en respuesta al reconocimiento del evento.
Evolución
Debe aprender, compartir y mejorar continuamente para mantener la excelencia operativa. Dedique los ciclos de trabajo a hacer mejoras graduales continuas. Realice análisis posteriores a los incidentes de todos los eventos que afecten a los clientes. Identifique los factores que contribuyeron a los incidentes y las acciones preventivas para limitar o prevenir que se repitan. Comunique los factores que contribuyeron a los incidentes a las comunidades afectadas según corresponda. Evalúe de forma regular y priorice las oportunidades de mejora (por ejemplo, solicitudes de características, corrección de problemas y requisitos de conformidad), que incluye los procedimientos de la carga de trabajo y de las operaciones. Incluya bucles de retroalimentación en sus procedimientos para identificar rápidamente áreas que requieren mejora y capture los aprendizajes de la ejecución de las operaciones.
Comparta las lecciones aprendidas con los equipos para compartir los beneficios de dichas lecciones. Analice las tendencias en las lecciones aprendidas y realice análisis retrospectivo entre equipos de las métricas de las operaciones con el fin de identificar las oportunidades y los métodos para lograr mejoras. Implemente cambios diseñados para producir mejoras y evaluar los resultados para determinar el éxito.
En AWS, puede exportar sus datos de registro a Amazon S3 o enviar registros directamente a Amazon S3 para su almacenamiento a largo plazo. Con AWS Glue, puede detectar sus datos de registro en Amazon S3 y prepararlos para la analítica, y almacenar metadatos asociados en el Catálogo de datos de AWS Glue. Amazon Athena, a través de su integración nativa en Glue, puede utilizarse para analizar sus datos de registro y consultarlos utilizando SQL estándar. Con una herramienta de inteligencia empresarial como Amazon QuickSight, puede visualizar, explorar y analizar los datos. Descubrimiento de tendencias y eventos de interés que pueden implementar mejoras.
Las siguientes preguntas se enfocan en estas consideraciones para (pilar inferior).
OPS 11: ¿Cómo impulsa el progreso de las operaciones? |
La evolución exitosa de las operaciones está fundamentada en lo siguiente: las mejoras pequeñas y frecuentes; el suministro de entornos seguros y tiempo para experimentar, desarrollar y probar las mejoras; y entornos en los que se alienta al aprendizaje a partir de los errores. El respaldo de operaciones de los entornos de pruebas, de desarrollo y producción, con un aumento del nivel de controles operativos, facilita el desarrollo y aumenta la capacidad de predicción de los resultados exitosos de los cambios implementados en fase de producción.
Recursos
Consulte los siguientes recursos para obtener más información sobre nuestras prácticas recomendadas de (pilar).
Operational Excellence PillarDevOps and AWS
DevOps at Amazon