Este contenido está desactualizado. Esta versión de Well-Architected Framework se encuentra ahora en: https://docs.aws.amazon.com/es_es/wellarchitected/2022-03-31/framework/reliability.html

REL 11: ¿Cómo diseña la carga de trabajo para tolerar errores de componentes?

Las cargas de trabajo que presenten requisitos de alta disponibilidad y tiempo medio de recuperación (MTTR) bajo se deben diseñar de forma que sean resistentes.

Recursos

Static stability in AWS: AWS re:Invent 2019: Introducing The Amazon Builders’ Library (DOP328)
AWS OpsWorks: Using Auto Healing to Replace Failed Instances
What Is Amazon EventBridge?
Amazon Route 53: Choosing a Routing Policy
What Is AWS Global Accelerator?
The Amazon Builders' Library: Static stability using Availability Zones
The Amazon Builders' Library: Implementing health checks
Well-Architected lab: Level 300: Implementing Health Checks and Managing Dependencies to Improve Reliability
The Berkeley/Stanford Recovery-Oriented Computing (ROC) Project
Multiple data center HA network connectivity
AWS Marketplace: products that can be used for fault tolerance
APN Partner: partners that can help with automation of your fault tolerance

Prácticas recomendadas:

Plan de mejora

Monitoree todos los componentes de la carga de trabajo para detectar errores

  • Determine el intervalo de recopilación de sus componentes en función de sus objetivos de recuperación.
  • Configure el monitoreo detallado para los componentes.
  • Cree métricas personalizadas para medir los indicadores clave de rendimiento (KPI) comerciales : Las cargas de trabajo implementan funciones comerciales clave. Estas funciones deben usarse como KPI que ayudan a identificar cuándo ocurre un problema indirecto.
    Publishing Custom Metrics
  • Monitoree la experiencia del usuario en busca de errores con pruebas de valores controlados del usuario: Las pruebas de transacciones sintéticas (también conocidas como “pruebas de valor controlado”, pero que no deben confundirse con las implementaciones de valor controlado) que pueden ejecutar y simular el comportamiento del cliente se encuentran entre los procesos de prueba más importantes. Ejecute estas pruebas de forma constante en los puntos de enlace de su carga de trabajo desde diferentes ubicaciones remotas.
    Amazon CloudWatch Synthetics enables you to create user canaries
  • Cree métricas personalizadas que monitoreen la experiencia del usuario: Si puede instrumentar la experiencia del cliente, puede determinar cuándo se degrada la experiencia del consumidor.
    Publishing Custom Metrics
  • Configure alarmas para detectar cuándo alguna parte de su carga de trabajo no funciona correctamente e indicar cuándo escalar automáticamente los recursos. : Las alarmas pueden mostrarse visualmente en paneles, enviar alertas a través de SNS o correo electrónico y trabajar con Auto Scaling para escalar o reducir los recursos para una carga de trabajo.
    Using Amazon CloudWatch Alarms
  • Cree paneles para visualizar las métricas: Los paneles se pueden usar para ver visualmente tendencias, valores atípicos y otros indicadores de posibles problemas o para proporcionar una indicación de los problemas que tal vez desee investigar.
    Using CloudWatch Dashboards
  • Conmutación por error a recursos en buen estado

  • Conmutación por error a recursos en buen estado: Asegúrese de que si se produce un error en un recurso, los recursos en buen estado puedan atender las solicitudes. En caso de errores de ubicación (como la zona de disponibilidad o la región de AWS), asegúrese de que dispone de sistemas para realizar una conmutación por error a recursos en buen estado en ubicaciones no dañadas.
  • Automatización de la recuperación en todas las capas

  • Use grupos de Auto Scaling para implementar niveles en una aplicación: El escalado automático puede realizar la autoreparación en aplicaciones sin estado, además de agregar y quitar capacidad.
    How AWS Auto Scaling Works
  • Implemente la recuperación automática en instancias EC2 que tienen aplicaciones implementadas que no se pueden implementar en varias ubicaciones y pueden tolerar el reinicio ante errores. : La recuperación automática se puede utilizar para reemplazar el hardware fallido y reiniciar la instancia cuando la aplicación no puede implementarse en varias ubicaciones. Se conservan los metadatos de la instancia y las direcciones IP asociadas, así como los volúmenes de Amazon EBS y los puntos de montaje en Elastic File Systems o File Systems para Lustre y Windows.
    Amazon EC2 Automatic Recovery
    Amazon Elastic Block Store (Amazon EBS)
    Amazon Elastic File System (Amazon EFS)
    What is Amazon FSx for Lustre?
    What is Amazon FSx for Windows File Server?
  • Implemente la recuperación automatizada con AWS Step Functions y AWS Lambda cuando no pueda usar el escalado automático o la recuperación automática o cuando la recuperación automática falle. : Cuando no puede usar el escalado automático y tampoco puede usar la recuperación automática o la recuperación automática falla, puede automatizar la reparación con AWS Step Functions y AWS Lambda.
    What is AWS Step Functions?
    What is AWS Lambda?
  • Utilización de la estabilidad estática para prevenir el comportamiento bimodal

  • Utilización de la estabilidad estática para prevenir el comportamiento bimodal: El comportamiento bimodal se produce cuando su carga de trabajo exhibe una conducta diferente en los modos normal y de error, por ejemplo, depender de lanzar nuevas instancias si falla una zona de disponibilidad
    The Amazon Builders' Library: Static stability using Availability Zones
    Static stability in AWS: AWS re:Invent 2019: Introducing The Amazon Builders’ Library (DOP328)
  • Envío de notificaciones cuando los eventos afectan la disponibilidad

  • Alarmas en los indicadores clave de rendimiento comerciales cuando superan un umbral bajo: Tener una alarma de umbral bajo en sus KPI comerciales le permite saber cuándo su carga de trabajo no está disponible o no funciona.
    Creating a CloudWatch Alarm Based on a Static Threshold
  • Alarma sobre eventos que invocan la automatización de la reparación: Puede invocar directamente una API de SNS para enviar notificaciones con cualquier automatización que cree.
    What is Amazon Simple Notification Service?