Questo contenuto è obsoleto. Questa versione di Framework Well-Architected è ora disponibile all'indirizzo: https://docs.aws.amazon.com/it_it/wellarchitected/2022-03-31/framework/reliability.html

REL 11: Come si progetta il carico di lavoro affinché resista ai guasti dei componenti?

I carichi di lavoro con requisiti di disponibilità elevata e MTTR (Mean Time To Recovery) basso devono essere progettati per garantire la resilienza.

Risorse

Static stability in AWS: AWS re:Invent 2019: Introducing The Amazon Builders’ Library (DOP328)
AWS OpsWorks: Using Auto Healing to Replace Failed Instances
What Is Amazon EventBridge?
Amazon Route 53: Choosing a Routing Policy
What Is AWS Global Accelerator?
The Amazon Builders' Library: Static stability using Availability Zones
The Amazon Builders' Library: Implementing health checks
Well-Architected lab: Level 300: Implementing Health Checks and Managing Dependencies to Improve Reliability
The Berkeley/Stanford Recovery-Oriented Computing (ROC) Project
Multiple data center HA network connectivity
AWS Marketplace: products that can be used for fault tolerance
APN Partner: partners that can help with automation of your fault tolerance

Best practice:

Piano di miglioramento

Monitoraggio di tutti i componenti del carico di lavoro per rilevare i guasti

  • Determina l'intervallo di raccolta per i componenti in base agli obiettivi di ripristino.
  • Configura il monitoraggio dettagliato per i componenti.
  • Creazione di parametri personalizzati per misurare indicatori chiave di prestazione (KPI) aziendali : I carichi di lavoro implementano funzioni aziendali chiave. Queste funzioni devono essere utilizzate come KPI che aiutano a identificare quando si verifica un problema indiretto.
    Publishing Custom Metrics
  • Monitoraggio della presenza di errori nell'esperienza utente tramite le canary degli utenti: Il test sintetico delle transazioni (noto anche come "test canary", ma da non confondere con le distribuzioni canary) in grado di eseguire e simulare il comportamento dei clienti è uno dei processi di test più importanti. Esegui questi test costantemente sugli endpoint del carico di lavoro da diverse posizioni remote.
    Amazon CloudWatch Synthetics enables you to create user canaries
  • Creazione di parametri personalizzati che monitorino l'esperienza dell'utente: Dotare l'esperienza del cliente di strumenti consente di determinare quando essa peggiora.
    Publishing Custom Metrics
  • Imposta gli allarmi per rilevare quando una qualsiasi parte del carico di lavoro non funziona correttamente e per indicare quando effettuare l'Auto Scaling delle risorse. : Gli allarmi possono essere visualizzati sui pannelli di controllo, possono essere inviati avvisi tramite SNS o e-mail e può essere utilizzato l'Auto Scaling per aumentare o ridurre le risorse per un carico di lavoro.
    Using Amazon CloudWatch Alarms
  • Creazione di pannelli di controllo per visualizzare i parametri: I pannelli di controllo possono essere utilizzati per visualizzare tendenze, valori anomali e altri indicatori di potenziali problemi, oppure per fornire un'indicazione dei problemi che potresti voler esaminare.
    Using CloudWatch Dashboards
  • Failover e passaggio a risorse integre

  • Failover e passaggio a risorse integre: Garantisce che laddove si verifichi un errore con una risorsa, le risorse integre possano continuare a soddisfare le richieste. Per gli errori legati alle posizioni (ad esempio una zona di disponibilità o una regione AWS), assicurati di disporre di sistemi che possano eseguire il failover e passare a risorse integre in posizioni non danneggiate.
  • Automatizzazione del risanamento a tutti i livelli

  • Utilizzo dei gruppi Auto Scaling per distribuire livelli in un'applicazione: Auto Scaling è in grado di eseguire il risanamento automatico sulle applicazioni stateless e aggiungere e rimuovere capacità.
    How AWS Auto Scaling Works
  • Implementa il ripristino automatico sulle istanze EC2 che includono applicazioni distribuite non distribuibili in più posizioni e possono tollerare il riavvio in caso di guasti. : Il ripristino automatico può essere utilizzato per sostituire l'hardware guasto e riavviare l'istanza quando l'applicazione non è in grado di essere distribuita in più posizioni. Vengono conservati i metadati dell'istanza e gli indirizzi IP associati, nonché i volumi Amazon EBS e i punti di montaggio su Elastic File System o file system per Lustre e Windows.
    Amazon EC2 Automatic Recovery
    Amazon Elastic Block Store (Amazon EBS)
    Amazon Elastic File System (Amazon EFS)
    What is Amazon FSx for Lustre?
    What is Amazon FSx for Windows File Server?
  • Implementa il ripristino automatico utilizzando AWS Step Functions e AWS Lambda quando non è possibile utilizzare l'Auto Scaling o il ripristino automatico oppure quando il ripristino automatico non riesce. : Quando non è possibile utilizzare l'Auto Scaling né il ripristino automatico o il ripristino automatico non riesce, è possibile automatizzare il risanamento utilizzando AWS Step Functions e AWS Lambda.
    What is AWS Step Functions?
    What is AWS Lambda?
  • Utilizzo della stabilità statica per evitare un comportamento bimodale

  • Utilizzo della stabilità statica per evitare un comportamento bimodale: Si ha un comportamento bimodale quando il carico di lavoro mostra un comportamento diverso in modalità normale e di guasto, ad esempio facendo affidamento sull'avvio di nuove istanze se una zona di disponibilità ha esito negativo
    The Amazon Builders' Library: Static stability using Availability Zones
    Static stability in AWS: AWS re:Invent 2019: Introducing The Amazon Builders’ Library (DOP328)
  • Invio di notifiche quando gli eventi influiscono sulla disponibilità

  • Allarmi su indicatori chiave di prestazione aziendali al superamento di una soglia minima: Avere un allarme di soglia minima sui KPI aziendali ti aiuta a sapere quando il carico di lavoro non è disponibile o non funziona.
    Creating a CloudWatch Alarm Based on a Static Threshold
  • Allarme su eventi che invocano l'automazione del risanamento: Puoi invocare direttamente un'API SNS per inviare notifiche con qualsiasi automazione creata.
    What is Amazon Simple Notification Service?