OPS 7: Como você sabe que está pronto para oferecer suporte a uma carga de trabalho?
Avalie a prontidão operacional de sua carga de trabalho, processos/procedimentos e pessoal para entender os riscos operacionais relacionados.
Recursos
AWS Config
AWS Systems Manager Features
Melhores práticas:
-
Garanta a capacidade de pessoal: Tenha um mecanismo para validar que você tem o número adequado de pessoal treinado para fornecer suporte às necessidades operacionais. Treine e ajuste a capacidade de pessoal conforme necessário para manter o suporte eficiente.
-
Garanta uma análise consistente da prontidão operacional: Verifique se você tem uma análise consistente de sua prontidão para operar uma carga de trabalho. As análises devem incluir, no mínimo, a prontidão operacional das equipes e da carga de trabalho e as considerações de segurança. Implemente atividades de análise em código e acione a análise automatizada em resposta a eventos, quando adequado, para garantir consistência, velocidade de execução e reduzir erros causados por processos manuais.
-
Use runbooks para executar procedimentos: Os runbooks são os procedimentos documentados para alcançar resultados específicos. Habilite respostas consistentes e rápidas para eventos bem conhecidos, documentando procedimentos nos runbooks. Implemente runbooks como código e acione a execução de runbooks em resposta a eventos, quando adequado, para garantir consistência, agilizar as respostas e reduzir erros causados por processos manuais.
-
Usar playbooks para investigar problemas: Habilite respostas consistentes e rápidas a problemas que não são bem compreendidos, documentando o processo de investigação nos playbooks. Playbooks são as etapas predefinidas executadas para identificar os fatores que contribuem para um cenário de falha. Os resultados de qualquer etapa do processo são usados para determinar as próximas etapas a serem seguidas até que o problema seja identificado ou encaminhado.
-
Tome decisões informadas para implantar sistemas e mudanças: Avalie os recursos da equipe para oferecer suporte à carga de trabalho e à conformidade da carga de trabalho com a governança. Avalie isso em relação aos benefícios da implantação ao determinar se deseja fazer a transição para um sistema ou mudar para produção. Compreenda os benefícios e riscos para tomar decisões informadas.
Plano de melhoria
Garanta a capacidade de pessoal
- Tamanho da equipe: Verifique se você tem membros da equipe suficientes para cobrir as atividades operacionais, incluindo tarefas de plantão.
- Habilidade da equipe: Certifique-se de que os membros da equipe tenham treinamento suficiente na AWS, carga
de trabalho e ferramentas operacionais para realizar suas tarefas.
AWS Events and Webinars
Welcome to AWS Training and Certification - Analise os recursos: Analise o tamanho e a habilidade da equipe conforme as condições operacionais e as cargas de trabalho mudam, para garantir que haja capacidade suficiente para manter a excelência operacional. Faça ajustes para garantir que o tamanho e a habilidade da equipe correspondam aos requisitos operacionais para as cargas de trabalho para as quais a equipe fornece suporte.
Garanta uma análise consistente da prontidão operacional
AWS Systems Manager
AWS Config Rules dynamic compliance checking for cloud resources
How to audit your AWS resources for security compliance by using custom AWS Config Rules
How to track configuration changes to CloudFormation stacks using AWS Config
Amazon Inspector update assessment reporting, proxy support, and more
- Crie listas de verificação: Verifique se você tem uma análise consistente de sua prontidão para operar uma carga de trabalho. Crie listas de verificação de prontidão operacional e valide-as de acordo com os requisitos, desenvolvimento, operações e governança da empresa. Certifique-se de que eles abordem: governança, melhores práticas, padrões de configuração, procedimentos de restauração, monitoramento, procedimentos de manutenção, procedimentos de operações de TI e equipe.
- Use listas de verificação: Torne as listas de verificação acessíveis aos desenvolvedores para que eles possam desenvolver os padrões adequados. Avalie as listas de verificação ao alternar entre os estágios e ambientes do ciclo de vida, para que você possa identificar os problemas mais cedo, quando o nível de esforço para corrigir problemas for menor. Use os resultados das listas de verificação para tomar decisões informadas sobre benefícios e riscos ao considerar a promoção de mudanças entre ambientes.
- Implemente listas de verificação como código e acione a execução da lista de verificação
em resposta a eventos:
Implemente listas de verificação como código e acione a execução da lista de verificação
em resposta a eventos sempre que possível, para aumentar a velocidade, garantir consistência
e reduzir erros causados por processos manuais. Integre a execução automatizada da
lista de verificação nos pipelines de implantação.
AWS Config
What is AWS Config?
AWS Config: evaluating resources with Rules
Use runbooks para executar procedimentos
- Implemente runbooks como código:
Execute as operações como código implementando os runbooks como código para garantir
consistência e reduzir erros causados por processos manuais
AWS Systems Manager Run Command
AWS Systems Manager Automation
What is AWS Lambda? - Acione runbooks em resposta a eventos:
Acione a execução do código do runbook em resposta a eventos observados quando adequado.
Isso aumenta a velocidade da resposta e reduz o nível de esforço para responder.
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services
Using Amazon CloudWatch Alarms
Usar playbooks para investigar problemas
- Implementar playbooks como código:
Execute suas operações como código ao criar scripts de seus playbooks para garantir
a consistência e reduzir os erros causados por processos manuais. Os playbooks podem
ser compostos por vários scripts representando as diferentes etapas que podem ser
necessárias para identificar os fatores que contribuem para um problema. As atividades
do runbook podem ser acionadas ou executadas como parte das atividades do playbook,
ou podem solicitar a execução de um playbook em resposta a eventos identificados.
Automate your operational playbooks with AWS Systems Manager
AWS Systems Manager Run Command
AWS Systems Manager Automation
What is AWS Lambda?
What is Amazon CloudWatch Events?
Using Amazon CloudWatch Alarms
Tome decisões informadas para implantar sistemas e mudanças