Esse conteúdo está desatualizado. Esta versão da Well-Architected Framework agora pode ser encontrada em: https://docs.aws.amazon.com/pt_br/wellarchitected/2022-03-31/framework/operational-excellence.html
OPS 10: Como você gerencia os eventos de carga de trabalho e operações?
Prepare e valide procedimentos para responder a eventos, com o objetivo de minimizar
a interrupção de sua carga de trabalho.
Recursos
Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?
Melhores práticas:
-
Use processos para gerenciamento de eventos, incidentes e problemas:
Tenha processos para tratar de eventos observados, eventos que exijam intervenção
(incidentes) e eventos que exijam intervenção e que se repitam ou que não possam ser
resolvidos no momento (problemas). Use esses processos para mitigar o impacto desses
eventos nos negócios e em seus clientes, garantindo respostas oportunas e apropriadas.
-
Ter um processo por alerta:
Tenha uma resposta bem-definida (runbook ou playbook), com um proprietário especificamente
identificado, para qualquer evento para o qual você acione um alerta. Isso garante
respostas eficazes e rápidas aos eventos de operações e evita que eventos acionáveis
sejam ocultados por notificações menos valiosas.
-
Priorizar eventos operacionais com base no impacto nos negócios:
Quando vários eventos demandarem intervenção, aborde primeiro os mais significativos
para os negócios. Os impactos, por exemplo, podem incluir perda de vidas ou ferimentos,
perda financeira ou danos à reputação ou confiança.
-
Defina caminhos de escalação:
Defina caminhos de escalação em seus runbooks e playbooks, incluindo o que aciona
a escalação e os procedimentos para escalação. Identifique especificamente os proprietários
de cada ação para garantir respostas eficazes e rápidas aos eventos de operações.
-
Habilitar notificações por push:
Comunique-se diretamente com seus usuários (e-mail ou SMS, por exemplo) quando os
serviços que eles usam são afetados e novamente quando os serviços retornam às condições
operacionais normais, para permitir que os usuários tomem as medidas apropriadas.
-
Comunique o status por meio de painéis:
Forneça painéis personalizados para os públicos-alvo (por exemplo, equipes técnicas
internas, liderança e clientes) para comunicar o status operacional atual dos negócios
e fornecer métricas de interesse.
-
Automatizar respostas a eventos:
Automatize as respostas aos eventos para reduzir os erros causados por processos manuais
e garantir respostas rápidas e consistentes.
Plano de melhoria
Use processos para gerenciamento de eventos, incidentes e problemas
Use processos para gerenciamento de eventos, incidentes e problemas:
Tenha processos para tratar de eventos observados, eventos que exijam intervenção
(incidentes) e eventos que exijam intervenção e que se repitam ou que não possam ser
resolvidos no momento (problemas). Use esses processos para mitigar o impacto desses
eventos nos negócios e em seus clientes, garantindo respostas oportunas e apropriadas.
Ter um processo por alerta
Processar por alerta:
Qualquer evento para o qual você dispara um alerta deve ter uma resposta bem-definida
(runbook ou playbook) com um proprietário especificamente identificado (por exemplo,
indivíduo, equipe ou função) responsável pela execução bem-sucedida. O desempenho
da resposta pode ser automatizado ou conduzido por outra equipe, mas o proprietário
é responsável por garantir que o processo ofereça os resultados esperados. Ao ter
esses processos, você garante respostas eficazes e rápidas aos eventos de operações
e pode impedir que eventos acionáveis sejam ocultados por notificações menos valiosas.
Por exemplo, o auto scaling pode ser aplicado para dimensionar um front-end da web,
mas a equipe de operações pode ser responsável por garantir que as regras e os limites
de auto scaling sejam adequados para as necessidades de carga de trabalho.
Priorizar eventos operacionais com base no impacto nos negócios
Priorizar eventos operacionais com base no impacto nos negócios:
Quando vários eventos demandarem intervenção, aborde primeiro os mais significativos
para os negócios. Por exemplo, os impactos podem incluir perda de vidas ou ferimentos,
perda financeira, violações regulatórias ou danos à reputação ou confiança.
Defina caminhos de escalação
Defina caminhos de escalação:
Defina caminhos de escalação em seus runbooks e playbooks, incluindo o que aciona
a escalação e os procedimentos para escalação. Por exemplo, escalação de um problema
de engenheiros de suporte para engenheiros de suporte seniores quando a resolução
do problema não estiver nos runbooks ou quando um período de tempo predefinido tiver
decorrido. Outro exemplo de um caminho de escalação apropriado é dos engenheiros de
suporte sênior à equipe de desenvolvimento para uma carga de trabalho quando os playbooks
não conseguem identificar um caminho para a correção ou quando um período de tempo
predefinido decorre. Identifique especificamente os proprietários de cada ação para
garantir respostas eficazes e rápidas aos eventos de operações. Os escalonamentos
podem incluir terceiros. Por exemplo, um provedor de conectividade de rede ou um fornecedor
de software. Os escalonamentos podem incluir tomadores de decisão autorizados identificados
para sistemas impactados.
Habilitar notificações por push
Habilitar notificações por push:
Comunique-se diretamente com seus usuários (e-mail ou SMS, por exemplo) quando os
serviços que eles usam são afetados e quando os serviços retornam às condições operacionais
normais, para permitir que os usuários tomem as medidas apropriadas.
Amazon SES features
What is Amazon SES?
Set up Amazon SNS notifications
Comunique o status por meio de painéis
Comunique o status por meio de painéis:
Forneça painéis personalizados para seus públicos-alvo (por exemplo, equipes técnicas
internas, liderança e clientes) para comunicar o status operacional atual dos negócios
e fornecer métricas de interesse. Fornecer uma opção de autoatendimento para informações
de status reduz a interrupção das solicitações de status de campo pela equipe de operações.
Os exemplos incluem os painéis do Amazon CloudWatch e o AWS Personal Health Dashboard.
CloudWatch dashboards create and use customized metrics views
Automatizar respostas a eventos
Automatizar respostas a eventos:
Automatize as respostas aos eventos para reduzir os erros causados por processos manuais
e garantir respostas rápidas e consistentes.
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services