OPS 7: Come fai a sapere che sei pronto a supportare un carico di lavoro?
Valuta la disponibilità operativa del carico di lavoro, dei processi e delle procedure, nonché del personale per comprendere i rischi operativi correlati al carico di lavoro.
Risorse
AWS Config
AWS Systems Manager Features
Best practice:
-
Verifica della capacità del personale: Predisponi un meccanismo per stabilire se disponi del numero appropriato di risorse qualificate per supportare le esigenze operative. Forma il personale e adegua la dotazione di personale, se necessario, per mantenere un supporto efficace.
-
Revisione costante della prontezza operativa: Assicurati di effettuare una revisione costante della capacità di gestire un carico di lavoro. La revisione deve includere come minimo la prontezza operativa dei team e del carico di lavoro, nonché i requisiti per la sicurezza. Implementa le attività di revisione nel codice e attiva revisioni automatizzate in risposta agli eventi, se del caso, per assicurare coerenza e velocità di esecuzione e per ridurre gli errori causati dai processi manuali.
-
Utilizzo di runbook per eseguire le procedure: I runbook sono procedure documentate per raggiungere determinati risultati. Abilita risposte coerenti e tempestive a eventi noti documentando le procedure nei runbook. Implementa i runbook come codice e attiva l'esecuzione dei runbook in risposta agli eventi, se del caso, per assicurare coerenza e velocità di risposta e per ridurre gli errori causati dai processi manuali.
-
Utilizzo dei playbook per analizzare i problemi: Abilita risposte coerenti e tempestive a problemi poco chiari, documentando il processo di verifica nei playbook. I playbook sono le fasi predefinite eseguite per identificare i fattori che contribuiscono a uno scenario di guasto. I risultati provenienti da un passaggio del processo vengono utilizzati per stabilire i passaggi successivi da intraprendere fino all'identificazione o alla risoluzione del problema.
-
Adozione di decisioni informate per distribuire sistemi e modifiche: Valuta la capacità del team di supportare il carico di lavoro e la conformità del carico di lavoro alla governance. Confronta questi aspetti con i vantaggi della distribuzione quando decidi se eseguire il passaggio di un sistema o di una modifica in produzione. Per prendere decisioni informate, tieni conto dei rischi e dei benefici.
Piano di miglioramento
Verifica della capacità del personale
- Dimensione del team:: Assicurati che il numero di membri del team di cui disponi sia sufficiente per coprire le attività operative, inclusa la reperibilità.
- Competenze del team:: Assicurati che i membri del team abbiano una formazione sufficiente su AWS, sul carico
di lavoro e sugli strumenti operativi per svolgere il proprio lavoro.
AWS Events and Webinars
Welcome to AWS Training and Certification - Revisione delle capacità: Rivedi la dimensione e le competenze del team man mano che cambiano le condizioni operative e i carichi di lavoro, per assicurarti di disporre di capacità sufficienti per mantenere l'eccellenza operativa. Effettua gli aggiustamenti necessari per garantire che la dimensione e le competenze del team siano in linea con i requisiti operativi per i carichi di lavoro supportati dal team.
Revisione costante della prontezza operativa
AWS Systems Manager
AWS Config Rules dynamic compliance checking for cloud resources
How to audit your AWS resources for security compliance by using custom AWS Config Rules
How to track configuration changes to CloudFormation stacks using AWS Config
Amazon Inspector update assessment reporting, proxy support, and more
- Creazione di elenchi di controllo: Assicurati di effettuare una revisione costante della capacità di gestire un carico di lavoro. Crea elenchi di controllo per la prontezza operativa e convalidali a fronte dei tuoi requisiti di business, sviluppo, operatività e governance. Assicurati che prendano in considerazione: governance, best practice, standard di configurazione, procedure di ripristino, monitoraggio, procedure di manutenzione, operazioni IT e staff.
- Utilizzo di elenchi di controllo: Metti gli elenchi di controllo a disposizione degli sviluppatori affinché possano sviluppare in base agli standard appropriati. Valuta gli elenchi di controllo nei passaggi tra fasi del ciclo di vita e ambienti, in modo da identificare precocemente i problemi, quando il livello di impegno richiesto per correggerli è minore. Utilizza i risultati degli elenchi di controllo per prendere decisioni informate sui rischi e benefici quando decidi se promuovere le modifiche nei vari ambienti.
- Implementazione degli elenchi di controllo come codice e attivazione dell'esecuzione
degli elenchi di controllo in risposta agli eventi:
Implementa gli elenchi di controllo come codice e attiva l'esecuzione degli elenchi
di controllo in risposta agli eventi, se possibile, per aumentare la velocità, assicurare
coerenza e ridurre gli errori causati dai processi manuali. Integra l'esecuzione automatica
degli elenchi di controllo nelle pipeline di distribuzione.
AWS Config
What is AWS Config?
AWS Config: evaluating resources with Rules
Utilizzo di runbook per eseguire le procedure
- Implementazione dei runbook come codice:
Esegui le operazioni come codice implementando i runbook come codice per assicurare
coerenza e ridurre gli errori causati dai processi manuali.
AWS Systems Manager Run Command
AWS Systems Manager Automation
What is AWS Lambda? - Attivazione dei runbook in risposta agli eventi:
Attiva l'esecuzione del codice dei runbook in risposta agli eventi che si verificano,
se necessario. In tal modo si aumenta la velocità di risposta e si riduce il livello
di impegno richiesto per rispondere.
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services
Using Amazon CloudWatch Alarms
Utilizzo dei playbook per analizzare i problemi
- Implementazione dei playbook come codice:
Esegui le operazioni come codice mediante lo scripting dei playbook per assicurare
coerenza e ridurre gli errori causati dai processi manuali. I playbook possono essere
composti da più script che rappresentano le diverse fasi che potrebbero essere necessarie
per identificare i fattori che contribuiscono all'origine di un problema. Le attività
dei runbook possono essere attivate o eseguite nell'ambito delle attività dei playbook
oppure possono richiedere l'esecuzione di un playbook in risposta agli eventi identificati.
Automate your operational playbooks with AWS Systems Manager
AWS Systems Manager Run Command
AWS Systems Manager Automation
What is AWS Lambda?
What is Amazon CloudWatch Events?
Using Amazon CloudWatch Alarms
Adozione di decisioni informate per distribuire sistemi e modifiche