Esse conteúdo está desatualizado. Esta versão da Well-Architected Framework agora pode ser encontrada em: https://docs.aws.amazon.com/pt_br/wellarchitected/2022-03-31/framework/operational-excellence.html

OPS 10: Como você gerencia os eventos de carga de trabalho e operações?

Prepare e valide procedimentos para responder a eventos, com o objetivo de minimizar a interrupção de sua carga de trabalho.

Recursos

Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?

Melhores práticas:

Use processos para gerenciamento de eventos, incidentes e problemas: Tenha processos para tratar de eventos observados, eventos que exijam intervenção (incidentes) e eventos que exijam intervenção e que se repitam ou que não possam ser resolvidos no momento (problemas). Use esses processos para mitigar o impacto desses eventos nos negócios e em seus clientes, garantindo respostas oportunas e apropriadas.
Ter um processo por alerta: Tenha uma resposta bem-definida (runbook ou playbook), com um proprietário especificamente identificado, para qualquer evento para o qual você acione um alerta. Isso garante respostas eficazes e rápidas aos eventos de operações e evita que eventos acionáveis sejam ocultados por notificações menos valiosas.
Priorizar eventos operacionais com base no impacto nos negócios: Quando vários eventos demandarem intervenção, aborde primeiro os mais significativos para os negócios. Os impactos, por exemplo, podem incluir perda de vidas ou ferimentos, perda financeira ou danos à reputação ou confiança.
Defina caminhos de escalação: Defina caminhos de escalação em seus runbooks e playbooks, incluindo o que aciona a escalação e os procedimentos para escalação. Identifique especificamente os proprietários de cada ação para garantir respostas eficazes e rápidas aos eventos de operações.
Habilitar notificações por push: Comunique-se diretamente com seus usuários (e-mail ou SMS, por exemplo) quando os serviços que eles usam são afetados e novamente quando os serviços retornam às condições operacionais normais, para permitir que os usuários tomem as medidas apropriadas.
Comunique o status por meio de painéis: Forneça painéis personalizados para os públicos-alvo (por exemplo, equipes técnicas internas, liderança e clientes) para comunicar o status operacional atual dos negócios e fornecer métricas de interesse.
Automatizar respostas a eventos: Automatize as respostas aos eventos para reduzir os erros causados por processos manuais e garantir respostas rápidas e consistentes.

Plano de melhoria

Use processos para gerenciamento de eventos, incidentes e problemas

Use processos para gerenciamento de eventos, incidentes e problemas: Tenha processos para tratar de eventos observados, eventos que exijam intervenção (incidentes) e eventos que exijam intervenção e que se repitam ou que não possam ser resolvidos no momento (problemas). Use esses processos para mitigar o impacto desses eventos nos negócios e em seus clientes, garantindo respostas oportunas e apropriadas.

Ter um processo por alerta

Processar por alerta: Qualquer evento para o qual você dispara um alerta deve ter uma resposta bem-definida (runbook ou playbook) com um proprietário especificamente identificado (por exemplo, indivíduo, equipe ou função) responsável pela execução bem-sucedida. O desempenho da resposta pode ser automatizado ou conduzido por outra equipe, mas o proprietário é responsável por garantir que o processo ofereça os resultados esperados. Ao ter esses processos, você garante respostas eficazes e rápidas aos eventos de operações e pode impedir que eventos acionáveis sejam ocultados por notificações menos valiosas. Por exemplo, o auto scaling pode ser aplicado para dimensionar um front-end da web, mas a equipe de operações pode ser responsável por garantir que as regras e os limites de auto scaling sejam adequados para as necessidades de carga de trabalho.

Priorizar eventos operacionais com base no impacto nos negócios

Priorizar eventos operacionais com base no impacto nos negócios: Quando vários eventos demandarem intervenção, aborde primeiro os mais significativos para os negócios. Por exemplo, os impactos podem incluir perda de vidas ou ferimentos, perda financeira, violações regulatórias ou danos à reputação ou confiança.

Defina caminhos de escalação

Defina caminhos de escalação: Defina caminhos de escalação em seus runbooks e playbooks, incluindo o que aciona a escalação e os procedimentos para escalação. Por exemplo, escalação de um problema de engenheiros de suporte para engenheiros de suporte seniores quando a resolução do problema não estiver nos runbooks ou quando um período de tempo predefinido tiver decorrido. Outro exemplo de um caminho de escalação apropriado é dos engenheiros de suporte sênior à equipe de desenvolvimento para uma carga de trabalho quando os playbooks não conseguem identificar um caminho para a correção ou quando um período de tempo predefinido decorre. Identifique especificamente os proprietários de cada ação para garantir respostas eficazes e rápidas aos eventos de operações. Os escalonamentos podem incluir terceiros. Por exemplo, um provedor de conectividade de rede ou um fornecedor de software. Os escalonamentos podem incluir tomadores de decisão autorizados identificados para sistemas impactados.

Habilitar notificações por push

Habilitar notificações por push: Comunique-se diretamente com seus usuários (e-mail ou SMS, por exemplo) quando os serviços que eles usam são afetados e quando os serviços retornam às condições operacionais normais, para permitir que os usuários tomem as medidas apropriadas.
Amazon SES features
What is Amazon SES?
Set up Amazon SNS notifications

Comunique o status por meio de painéis

Comunique o status por meio de painéis: Forneça painéis personalizados para seus públicos-alvo (por exemplo, equipes técnicas internas, liderança e clientes) para comunicar o status operacional atual dos negócios e fornecer métricas de interesse. Fornecer uma opção de autoatendimento para informações de status reduz a interrupção das solicitações de status de campo pela equipe de operações. Os exemplos incluem os painéis do Amazon CloudWatch e o AWS Personal Health Dashboard.
CloudWatch dashboards create and use customized metrics views

Automatizar respostas a eventos

Automatizar respostas a eventos: Automatize as respostas aos eventos para reduzir os erros causados por processos manuais e garantir respostas rápidas e consistentes.
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services