Questo contenuto è obsoleto. Questa versione di Framework Well-Architected è ora disponibile all'indirizzo: https://docs.aws.amazon.com/it_it/wellarchitected/2022-03-31/framework/operational-excellence.html
OPS 10: In che modo gestisci gli eventi del carico di lavoro e delle operazioni?
Prepara e convalida le procedure in risposta agli eventi per ridurre al minimo il
loro impatto sul tuo carico di lavoro.
Risorse
Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?
Best practice:
-
Utilizzo di processi per la gestione di eventi, incidenti e problemi:
Predisponi processi per affrontare gli eventi osservati, gli eventi che richiedono
un intervento (incidenti) e gli eventi che richiedono un intervento e si verificano
nuovamente oppure non possono essere risolti al momento (problemi). Utilizza questi
processi per mitigare l'impatto di questi eventi sull'azienda e sui clienti con risposte
tempestive e adeguate.
-
Definizione di un processo per ogni avviso:
Predisponi una risposta specifica (runbook o playbook), con un proprietario espressamente
identificato, per ogni evento per cui viene generato un avviso. Questo consente di
rispondere agli eventi operativi in modo rapido ed efficace, evitando che gli eventi
che richiedono un'azione vengano oscurati da notifiche meno importanti.
-
Prioritizzazione degli eventi operativi in base all'impatto aziendale:
Quando più eventi richiedono un intervento, assicurati che quelli più significativi
per il business vengano affrontati per primi. Ad esempio, gli impatti possono includere
decesso e infortunio, perdite finanziarie o danni alla reputazione o alla fiducia.
-
Definizione dei percorsi di escalation:
Definisci percorsi di escalation nei tuoi runbook e playbook, compresi gli eventi
che attivano l'escalation e le procedure di escalation. In particolare, identifica
i proprietari per ogni azione per assicurare risposte rapide ed efficaci agli eventi
operativi.
-
Abilitazione delle notifiche push:
Informa direttamente gli utenti (ad esempio tramite e-mail o SMS) quando i servizi
che utilizzano sono interessati e quando vengono ripristinate le normali condizioni
operative, per consentire loro di adottare le misure appropriate.
-
Comunicazione dello stato tramite pannelli di controllo:
Fornisci pannelli di controllo personalizzati in base ai destinatari, ad esempio i
team tecnici interni, la dirigenza e i clienti, per comunicare lo stato operativo
corrente del business e fornire i parametri desiderati.
-
Automazione delle risposte agli eventi:
Automatizza le risposte agli eventi per ridurre gli errori causati dai processi manuali
e assicurare risposte rapide e coerenti.
Piano di miglioramento
Utilizzo di processi per la gestione di eventi, incidenti e problemi
Utilizzo di processi per la gestione di eventi, incidenti e problemi:
Predisponi processi per affrontare gli eventi osservati, gli eventi che richiedono
un intervento (incidenti) e gli eventi che richiedono un intervento e si verificano
nuovamente oppure non possono essere risolti al momento (problemi). Utilizza questi
processi per mitigare l'impatto di questi eventi sull'azienda e sui clienti con risposte
tempestive e adeguate.
Definizione di un processo per ogni avviso
Un processo per ogni avviso:
A ogni evento per cui viene generato un avviso deve corrispondere una risposta specifica
(runbook o playbook) con un proprietario appositamente identificato (ad esempio, una
persona, un team o un ruolo) a cui spetta il compito dell'esecuzione corretta. L'esecuzione
della risposta può essere automatizzata o condotta da un altro team, ma il proprietario
è tenuto ad assicurarsi che il processo produca i risultati previsti. Questi processi
consentono di rispondere agli eventi operativi in modo rapido ed efficace, evitando
che gli eventi che richiedono un'azione vengano oscurati da notifiche meno importanti.
Ad esempio, è possibile applicare l'auto scaling per ridimensionare un front-end Web,
ma il team operativo può essere tenuto a garantire che le regole e i limiti di auto
scaling siano appropriati per le esigenze del carico di lavoro.
Prioritizzazione degli eventi operativi in base all'impatto aziendale
Prioritizzazione degli eventi operativi in base all'impatto aziendale:
Quando più eventi richiedono un intervento, assicurati che quelli più significativi
per il business vengano affrontati per primi. Ad esempio, gli impatti possono includere
decesso e infortunio, perdite finanziarie, violazione di normative o danni alla reputazione
o alla fiducia.
Definizione dei percorsi di escalation
Definizione dei percorsi di escalation:
Definisci percorsi di escalation nei tuoi runbook e playbook, compresi gli eventi
che attivano l'escalation e le procedure di escalation. Ad esempio, l'escalation di
un problema dai tecnici del supporto ai tecnici del supporto senior quando i runbook
non riescono a risolvere il problema o quando è trascorso un determinato periodo di
tempo. Un altro esempio di percorso di escalation appropriato è l'inoltro dai tecnici
del supporto senior al team di sviluppo per un carico di lavoro quando i playbook
non sono in grado di identificare un percorso di correzione o quando è trascorso un
determinato periodo di tempo. In particolare, identifica i proprietari per ogni azione
per assicurare risposte rapide ed efficaci agli eventi operativi. Le escalation possono
includere terze parti, ad esempio un provider di connettività di rete o un produttore
di software. Possono anche includere i responsabili decisionali autorizzati identificati
per i sistemi interessati.
Abilitazione delle notifiche push
Abilitazione delle notifiche push:
Informa direttamente gli utenti (ad esempio tramite e-mail o SMS) quando i servizi
che utilizzano sono interessati e quando vengono ripristinate le normali condizioni
operative, per consentire loro di adottare le misure appropriate.
Amazon SES features
What is Amazon SES?
Set up Amazon SNS notifications
Comunicazione dello stato tramite pannelli di controllo
Comunicazione dello stato tramite pannelli di controllo:
Fornisci pannelli di controllo personalizzati in base ai destinatari, ad esempio i
team tecnici interni, la dirigenza e i clienti, per comunicare lo stato operativo
corrente del business e fornire i parametri desiderati. Offrire un'opzione self-service
per le informazioni di stato riduce le interruzioni derivanti dalla gestione delle
richieste di stato da parte dei team operativi. Gli esempi includono pannelli di controllo
di Amazon CloudWatch e AWS Personal Health Dashboard.
CloudWatch dashboards create and use customized metrics views
Automazione delle risposte agli eventi
Automazione delle risposte agli eventi:
Automatizza le risposte agli eventi per ridurre gli errori causati dai processi manuali
e assicurare risposte rapide e coerenti.
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services