Questo contenuto è obsoleto. Questa versione di Framework Well-Architected è ora disponibile all'indirizzo: https://docs.aws.amazon.com/it_it/wellarchitected/2022-03-31/framework/operational-excellence.html

OPS 10: In che modo gestisci gli eventi del carico di lavoro e delle operazioni?

Prepara e convalida le procedure in risposta agli eventi per ridurre al minimo il loro impatto sul tuo carico di lavoro.

Risorse

Build a Monitoring Plan
Amazon CloudWatch Features
What is Amazon CloudWatch Events?

Best practice:

Piano di miglioramento

Utilizzo di processi per la gestione di eventi, incidenti e problemi

  • Utilizzo di processi per la gestione di eventi, incidenti e problemi: Predisponi processi per affrontare gli eventi osservati, gli eventi che richiedono un intervento (incidenti) e gli eventi che richiedono un intervento e si verificano nuovamente oppure non possono essere risolti al momento (problemi). Utilizza questi processi per mitigare l'impatto di questi eventi sull'azienda e sui clienti con risposte tempestive e adeguate.
  • Definizione di un processo per ogni avviso

  • Un processo per ogni avviso: A ogni evento per cui viene generato un avviso deve corrispondere una risposta specifica (runbook o playbook) con un proprietario appositamente identificato (ad esempio, una persona, un team o un ruolo) a cui spetta il compito dell'esecuzione corretta. L'esecuzione della risposta può essere automatizzata o condotta da un altro team, ma il proprietario è tenuto ad assicurarsi che il processo produca i risultati previsti. Questi processi consentono di rispondere agli eventi operativi in modo rapido ed efficace, evitando che gli eventi che richiedono un'azione vengano oscurati da notifiche meno importanti. Ad esempio, è possibile applicare l'auto scaling per ridimensionare un front-end Web, ma il team operativo può essere tenuto a garantire che le regole e i limiti di auto scaling siano appropriati per le esigenze del carico di lavoro.
  • Prioritizzazione degli eventi operativi in base all'impatto aziendale

  • Prioritizzazione degli eventi operativi in base all'impatto aziendale: Quando più eventi richiedono un intervento, assicurati che quelli più significativi per il business vengano affrontati per primi. Ad esempio, gli impatti possono includere decesso e infortunio, perdite finanziarie, violazione di normative o danni alla reputazione o alla fiducia.
  • Definizione dei percorsi di escalation

  • Definizione dei percorsi di escalation: Definisci percorsi di escalation nei tuoi runbook e playbook, compresi gli eventi che attivano l'escalation e le procedure di escalation. Ad esempio, l'escalation di un problema dai tecnici del supporto ai tecnici del supporto senior quando i runbook non riescono a risolvere il problema o quando è trascorso un determinato periodo di tempo. Un altro esempio di percorso di escalation appropriato è l'inoltro dai tecnici del supporto senior al team di sviluppo per un carico di lavoro quando i playbook non sono in grado di identificare un percorso di correzione o quando è trascorso un determinato periodo di tempo. In particolare, identifica i proprietari per ogni azione per assicurare risposte rapide ed efficaci agli eventi operativi. Le escalation possono includere terze parti, ad esempio un provider di connettività di rete o un produttore di software. Possono anche includere i responsabili decisionali autorizzati identificati per i sistemi interessati.
  • Abilitazione delle notifiche push

  • Abilitazione delle notifiche push: Informa direttamente gli utenti (ad esempio tramite e-mail o SMS) quando i servizi che utilizzano sono interessati e quando vengono ripristinate le normali condizioni operative, per consentire loro di adottare le misure appropriate.
    Amazon SES features
    What is Amazon SES?
    Set up Amazon SNS notifications
  • Comunicazione dello stato tramite pannelli di controllo

  • Comunicazione dello stato tramite pannelli di controllo: Fornisci pannelli di controllo personalizzati in base ai destinatari, ad esempio i team tecnici interni, la dirigenza e i clienti, per comunicare lo stato operativo corrente del business e fornire i parametri desiderati. Offrire un'opzione self-service per le informazioni di stato riduce le interruzioni derivanti dalla gestione delle richieste di stato da parte dei team operativi. Gli esempi includono pannelli di controllo di Amazon CloudWatch e AWS Personal Health Dashboard.
    CloudWatch dashboards create and use customized metrics views
  • Automazione delle risposte agli eventi

  • Automazione delle risposte agli eventi: Automatizza le risposte agli eventi per ridurre gli errori causati dai processi manuali e assicurare risposte rapide e coerenti.
    What is Amazon CloudWatch Events?
    Creating a CloudWatch Events rule that triggers on an event
    Creating a CloudWatch Events rule that triggers on an AWS API call using AWS CloudTrail
    CloudWatch Events event examples from supported services