Este contenido está desactualizado. Esta versión de Well-Architected Framework se encuentra ahora en: https://docs.aws.amazon.com/es_es/wellarchitected/2022-03-31/framework/reliability.html

REL 11: ¿Cómo diseña la carga de trabajo para tolerar errores de componentes?

Las cargas de trabajo que presenten requisitos de alta disponibilidad y tiempo medio de recuperación (MTTR) bajo se deben diseñar de forma que sean resistentes.

Recursos

Static stability in AWS: AWS re:Invent 2019: Introducing The Amazon Builders’ Library (DOP328)
AWS OpsWorks: Using Auto Healing to Replace Failed Instances
What Is Amazon EventBridge?
Amazon Route 53: Choosing a Routing Policy
What Is AWS Global Accelerator?
The Amazon Builders' Library: Static stability using Availability Zones
The Amazon Builders' Library: Implementing health checks
Well-Architected lab: Level 300: Implementing Health Checks and Managing Dependencies to Improve Reliability
The Berkeley/Stanford Recovery-Oriented Computing (ROC) Project
Multiple data center HA network connectivity
AWS Marketplace: products that can be used for fault tolerance
APN Partner: partners that can help with automation of your fault tolerance

Prácticas recomendadas:

Monitoree todos los componentes de la carga de trabajo para detectar errores: Monitoree continuamente el estado de su carga de trabajo para que usted y sus sistemas automatizados estén informados de la degradación o del error total tan pronto como ocurran. Monitoree los indicadores de rendimiento clave (KPI) en función del valor de negocio.
Conmutación por error a recursos en buen estado: Asegúrese de que si se produce un error en un recurso, los recursos en buen estado puedan atender las solicitudes. En caso de errores de ubicación (como la zona de disponibilidad o la región de AWS), asegúrese de que dispone de sistemas para realizar una conmutación por error a recursos en buen estado en ubicaciones no dañadas.
Automatización de la recuperación en todas las capas: Cuando detecta un error, utilice las capacidades automatizadas para realizar acciones para corregirlo.
Utilización de la estabilidad estática para prevenir el comportamiento bimodal: El comportamiento bimodal se produce cuando su carga de trabajo exhibe una conducta diferente en los modos normal y de error, por ejemplo, depender de lanzar nuevas instancias si falla una zona de disponibilidad. En su lugar, debe crear cargas de trabajo que sean estáticamente estables y que funcionen en un solo modo. En este caso, aprovisione suficientes instancias en cada zona de disponibilidad para manejar la carga de la carga de trabajo si se eliminó una zona de disponibilidad y luego use las comprobaciones de estado de Elastic Load Balancing o de Amazon Route 53 para mover la carga de las instancias dañadas.
Envío de notificaciones cuando los eventos afectan la disponibilidad: Las notificaciones se envían cuando se detectan eventos importantes, incluso si el problema causado por el evento se resolvió automáticamente.

Plan de mejora

Monitoree todos los componentes de la carga de trabajo para detectar errores

Determine el intervalo de recopilación de sus componentes en función de sus objetivos de recuperación.

Su intervalo de monitoreo depende de qué tan rápido debe recuperarse: El tiempo de recuperación depende del tiempo que toma recuperarse, por lo que debe determinar la frecuencia de recolección contabilizando este tiempo y su objetivo de tiempo de recuperación (RTO).

Configure el monitoreo detallado para los componentes.

Determine si es necesario un monitoreo detallado de las instancias EC2 y Auto Scaling: El monitoreo detallado proporciona métricas de intervalos de 1 minuto y el monitoreo predeterminado proporciona métricas de intervalos de 5 minutos.
Enable or Disable Detailed Monitoring for Your Instance
Monitoring Your Auto Scaling Groups and Instances Using Amazon CloudWatch
Determine si es necesario un monitoreo mejorado para RDS: El monitoreo mejorado utiliza un agente en las instancias de RDS para obtener información útil sobre diferentes procesos o subprocesos en una instancia de RDS.
Enhanced Monitoring

Cree métricas personalizadas para medir los indicadores clave de rendimiento (KPI) comerciales : Las cargas de trabajo implementan funciones comerciales clave. Estas funciones deben usarse como KPI que ayudan a identificar cuándo ocurre un problema indirecto.
Publishing Custom Metrics

Monitoree la experiencia del usuario en busca de errores con pruebas de valores controlados del usuario: Las pruebas de transacciones sintéticas (también conocidas como “pruebas de valor controlado”, pero que no deben confundirse con las implementaciones de valor controlado) que pueden ejecutar y simular el comportamiento del cliente se encuentran entre los procesos de prueba más importantes. Ejecute estas pruebas de forma constante en los puntos de enlace de su carga de trabajo desde diferentes ubicaciones remotas.
Amazon CloudWatch Synthetics enables you to create user canaries

Cree métricas personalizadas que monitoreen la experiencia del usuario: Si puede instrumentar la experiencia del cliente, puede determinar cuándo se degrada la experiencia del consumidor.
Publishing Custom Metrics

Configure alarmas para detectar cuándo alguna parte de su carga de trabajo no funciona correctamente e indicar cuándo escalar automáticamente los recursos. : Las alarmas pueden mostrarse visualmente en paneles, enviar alertas a través de SNS o correo electrónico y trabajar con Auto Scaling para escalar o reducir los recursos para una carga de trabajo.
Using Amazon CloudWatch Alarms

Cree paneles para visualizar las métricas: Los paneles se pueden usar para ver visualmente tendencias, valores atípicos y otros indicadores de posibles problemas o para proporcionar una indicación de los problemas que tal vez desee investigar.
Using CloudWatch Dashboards

Conmutación por error a recursos en buen estado

Conmutación por error a recursos en buen estado: Asegúrese de que si se produce un error en un recurso, los recursos en buen estado puedan atender las solicitudes. En caso de errores de ubicación (como la zona de disponibilidad o la región de AWS), asegúrese de que dispone de sistemas para realizar una conmutación por error a recursos en buen estado en ubicaciones no dañadas.

Si su carga de trabajo utiliza servicios de AWS, como Amazon S3 o Amazon DynamoDB, estos se implementan automáticamente en múltiples zonas de disponibilidad. En caso de que surjan errores, el plano de control de AWS dirige automáticamente el tráfico por usted a las ubicaciones en buen estado.
Para Amazon RDS, debe elegir Multi-AZ como opción de configuración y luego, en caso de que surjan errores, AWS dirige automáticamente el tráfico a la instancia en buen estado.
High Availability (Multi-AZ) for Amazon RDS
Para las instancias de Amazon EC2 o las tareas de Amazon ECS, debe elegir qué zonas de disponibilidad desea implementar. Elastic Load Balancing ofrece la solución para detectar instancias en las zonas que se encuentran en mal estado y dirige el tráfico hacia las zonas en buen estado. Además, Elastic Load Balancing puede dirigir el tráfico a los componentes en su centro de datos en las instalaciones.
TRANSLATION REQUIRED
- TRANSLATION REQUIRED
  Overview of Amazon RDS Read Replicas
- TRANSLATION REQUIRED
  Amazon Route 53: Choosing a Routing Policy
  What Is AWS Global Accelerator?

Automatización de la recuperación en todas las capas

Use grupos de Auto Scaling para implementar niveles en una aplicación: El escalado automático puede realizar la autoreparación en aplicaciones sin estado, además de agregar y quitar capacidad.
How AWS Auto Scaling Works

Implemente la recuperación automática en instancias EC2 que tienen aplicaciones implementadas que no se pueden implementar en varias ubicaciones y pueden tolerar el reinicio ante errores. : La recuperación automática se puede utilizar para reemplazar el hardware fallido y reiniciar la instancia cuando la aplicación no puede implementarse en varias ubicaciones. Se conservan los metadatos de la instancia y las direcciones IP asociadas, así como los volúmenes de Amazon EBS y los puntos de montaje en Elastic File Systems o File Systems para Lustre y Windows.
Amazon EC2 Automatic Recovery
Amazon Elastic Block Store (Amazon EBS)
Amazon Elastic File System (Amazon EFS)
What is Amazon FSx for Lustre?
What is Amazon FSx for Windows File Server?

Con AWS OpsWorks, puede configurar la recuperación automática de instancias EC2 a nivel de capa
AWS OpsWorks: Using Auto Healing to Replace Failed Instances

Implemente la recuperación automatizada con AWS Step Functions y AWS Lambda cuando no pueda usar el escalado automático o la recuperación automática o cuando la recuperación automática falle. : Cuando no puede usar el escalado automático y tampoco puede usar la recuperación automática o la recuperación automática falla, puede automatizar la reparación con AWS Step Functions y AWS Lambda.
What is AWS Step Functions?
What is AWS Lambda?

Amazon EventBridge se puede utilizar para monitorear y filtrar los eventos, como las alarmas de CloudWatch o los cambios de estado en otros servicios de AWS. En función de la información del evento, puede activar AWS Lambda (u otros objetivos) para ejecutar una lógica de corrección personalizada en su carga de trabajo.
What Is Amazon EventBridge?
Using Amazon CloudWatch Alarms

Utilización de la estabilidad estática para prevenir el comportamiento bimodal

Utilización de la estabilidad estática para prevenir el comportamiento bimodal: El comportamiento bimodal se produce cuando su carga de trabajo exhibe una conducta diferente en los modos normal y de error, por ejemplo, depender de lanzar nuevas instancias si falla una zona de disponibilidad
The Amazon Builders' Library: Static stability using Availability Zones
Static stability in AWS: AWS re:Invent 2019: Introducing The Amazon Builders’ Library (DOP328)

En su lugar, debe crear sistemas que sean estáticamente estables y que funcionen en un solo modo. En este caso, aprovisione suficientes instancias en cada zona como para tratar la carga que conlleva la carga de trabajo si se eliminó una zona de disponibilidad y, luego, utilice las comprobaciones de estado de Elastic Load Balancing o de Amazon Route 53 para trasladar la carga de las instancias dañadas.
Otro ejemplo de comportamiento bimodal es permitir que los clientes ignoren la memoria caché de la carga de trabajo cuando surgen errores. Esto podría parecer una solución que se adapta a las necesidades del cliente, pero no debería permitirse, ya que cambiaría considerablemente las demandas de su carga de trabajo y es probable que produzca errores.

Envío de notificaciones cuando los eventos afectan la disponibilidad

Alarmas en los indicadores clave de rendimiento comerciales cuando superan un umbral bajo: Tener una alarma de umbral bajo en sus KPI comerciales le permite saber cuándo su carga de trabajo no está disponible o no funciona.
Creating a CloudWatch Alarm Based on a Static Threshold

Alarma sobre eventos que invocan la automatización de la reparación: Puede invocar directamente una API de SNS para enviar notificaciones con cualquier automatización que cree.
What is Amazon Simple Notification Service?