Questo contenuto è obsoleto. Questa versione di Framework Well-Architected è ora disponibile all'indirizzo: https://docs.aws.amazon.com/it_it/wellarchitected/2022-03-31/framework/operational-excellence.html

OPS 10: In che modo gestisci gli eventi del carico di lavoro e delle operazioni?

Prepara e convalida le procedure in risposta agli eventi per ridurre al minimo il loro impatto sul tuo carico di lavoro.

Risorse

Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?

Best practice:

Utilizzo di processi per la gestione di eventi, incidenti e problemi: Predisponi processi per affrontare gli eventi osservati, gli eventi che richiedono un intervento (incidenti) e gli eventi che richiedono un intervento e si verificano nuovamente oppure non possono essere risolti al momento (problemi). Utilizza questi processi per mitigare l'impatto di questi eventi sull'azienda e sui clienti con risposte tempestive e adeguate.
Definizione di un processo per ogni avviso: Predisponi una risposta specifica (runbook o playbook), con un proprietario espressamente identificato, per ogni evento per cui viene generato un avviso. Questo consente di rispondere agli eventi operativi in modo rapido ed efficace, evitando che gli eventi che richiedono un'azione vengano oscurati da notifiche meno importanti.
Prioritizzazione degli eventi operativi in base all'impatto aziendale: Quando più eventi richiedono un intervento, assicurati che quelli più significativi per il business vengano affrontati per primi. Ad esempio, gli impatti possono includere decesso e infortunio, perdite finanziarie o danni alla reputazione o alla fiducia.
Definizione dei percorsi di escalation: Definisci percorsi di escalation nei tuoi runbook e playbook, compresi gli eventi che attivano l'escalation e le procedure di escalation. In particolare, identifica i proprietari per ogni azione per assicurare risposte rapide ed efficaci agli eventi operativi.
Abilitazione delle notifiche push: Informa direttamente gli utenti (ad esempio tramite e-mail o SMS) quando i servizi che utilizzano sono interessati e quando vengono ripristinate le normali condizioni operative, per consentire loro di adottare le misure appropriate.
Comunicazione dello stato tramite pannelli di controllo: Fornisci pannelli di controllo personalizzati in base ai destinatari, ad esempio i team tecnici interni, la dirigenza e i clienti, per comunicare lo stato operativo corrente del business e fornire i parametri desiderati.
Automazione delle risposte agli eventi: Automatizza le risposte agli eventi per ridurre gli errori causati dai processi manuali e assicurare risposte rapide e coerenti.

Piano di miglioramento

Utilizzo di processi per la gestione di eventi, incidenti e problemi

Utilizzo di processi per la gestione di eventi, incidenti e problemi: Predisponi processi per affrontare gli eventi osservati, gli eventi che richiedono un intervento (incidenti) e gli eventi che richiedono un intervento e si verificano nuovamente oppure non possono essere risolti al momento (problemi). Utilizza questi processi per mitigare l'impatto di questi eventi sull'azienda e sui clienti con risposte tempestive e adeguate.

Definizione di un processo per ogni avviso

Un processo per ogni avviso: A ogni evento per cui viene generato un avviso deve corrispondere una risposta specifica (runbook o playbook) con un proprietario appositamente identificato (ad esempio, una persona, un team o un ruolo) a cui spetta il compito dell'esecuzione corretta. L'esecuzione della risposta può essere automatizzata o condotta da un altro team, ma il proprietario è tenuto ad assicurarsi che il processo produca i risultati previsti. Questi processi consentono di rispondere agli eventi operativi in modo rapido ed efficace, evitando che gli eventi che richiedono un'azione vengano oscurati da notifiche meno importanti. Ad esempio, è possibile applicare l'auto scaling per ridimensionare un front-end Web, ma il team operativo può essere tenuto a garantire che le regole e i limiti di auto scaling siano appropriati per le esigenze del carico di lavoro.

Prioritizzazione degli eventi operativi in base all'impatto aziendale

Prioritizzazione degli eventi operativi in base all'impatto aziendale: Quando più eventi richiedono un intervento, assicurati che quelli più significativi per il business vengano affrontati per primi. Ad esempio, gli impatti possono includere decesso e infortunio, perdite finanziarie, violazione di normative o danni alla reputazione o alla fiducia.

Definizione dei percorsi di escalation

Definizione dei percorsi di escalation: Definisci percorsi di escalation nei tuoi runbook e playbook, compresi gli eventi che attivano l'escalation e le procedure di escalation. Ad esempio, l'escalation di un problema dai tecnici del supporto ai tecnici del supporto senior quando i runbook non riescono a risolvere il problema o quando è trascorso un determinato periodo di tempo. Un altro esempio di percorso di escalation appropriato è l'inoltro dai tecnici del supporto senior al team di sviluppo per un carico di lavoro quando i playbook non sono in grado di identificare un percorso di correzione o quando è trascorso un determinato periodo di tempo. In particolare, identifica i proprietari per ogni azione per assicurare risposte rapide ed efficaci agli eventi operativi. Le escalation possono includere terze parti, ad esempio un provider di connettività di rete o un produttore di software. Possono anche includere i responsabili decisionali autorizzati identificati per i sistemi interessati.

Abilitazione delle notifiche push

Abilitazione delle notifiche push: Informa direttamente gli utenti (ad esempio tramite e-mail o SMS) quando i servizi che utilizzano sono interessati e quando vengono ripristinate le normali condizioni operative, per consentire loro di adottare le misure appropriate.
Amazon SES features
What is Amazon SES?
Set up Amazon SNS notifications

Comunicazione dello stato tramite pannelli di controllo

Comunicazione dello stato tramite pannelli di controllo: Fornisci pannelli di controllo personalizzati in base ai destinatari, ad esempio i team tecnici interni, la dirigenza e i clienti, per comunicare lo stato operativo corrente del business e fornire i parametri desiderati. Offrire un'opzione self-service per le informazioni di stato riduce le interruzioni derivanti dalla gestione delle richieste di stato da parte dei team operativi. Gli esempi includono pannelli di controllo di Amazon CloudWatch e AWS Personal Health Dashboard.
CloudWatch dashboards create and use customized metrics views

Automazione delle risposte agli eventi

Automazione delle risposte agli eventi: Automatizza le risposte agli eventi per ridurre gli errori causati dai processi manuali e assicurare risposte rapide e coerenti.
What is Amazon CloudWatch Events?
Creating a CloudWatch Events rule that triggers on an event
Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
CloudWatch Events event examples from supported services