REL 13: Comment planifier la reprise après sinistre (DR) ?

La mise en place de sauvegardes et de composants de charge de travail redondants constitue le début de votre stratégie de DR. RTO et RPO sont vos objectifs pour la restauration de la disponibilité. Définissez-les en fonction des besoins de l'entreprise. Mettez en œuvre une stratégie pour atteindre ces objectifs, en particulier en tenant compte de l'emplacement et de la fonction des données et des ressources de charge de travail.

Ressources

AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery

Bonnes pratiques:

Plan d'amélioration

Définition des objectifs de reprise pour les temps d'arrêt et les pertes de données

  • Établissement de catégories de besoin pour vos charges de travail: Identifiez le principal moteur de l'activité et les charges de travail des facilitateurs. Identifiez les charges de travail qui sont des outils visibles uniquement en interne et des charges de travail visibles en externe. Identifiez l'impact commercial des temps d'arrêt pour chaque charge de travail. Créez cinq catégories ou moins et affinez la plage de vos objectifs de temps de récupération (RTO) et de point de récupération (RPO).
  • Utilisation de stratégies de reprise définies pour répondre aux objectifs de reprise

  • Définition des stratégies pour atteindre l'objectif de temps de récupération (RTO) et l'objectif de point de récupération (RPO) pour chaque catégorie: Vous devez choisir l'une des stratégies suivantes si une stratégie sur plusieurs régions est nécessaire pour votre charge de travail. Elles sont répertoriées par ordre croissant de complexité et ordre décroissant de RTO et RPO. La sauvegarde et la restauration dans une autre région AWS peuvent rassurer davantage que les données seront disponibles lorsque cela est nécessaire. Cependant, pour les autres stratégies, vous devez évaluer leur complexité potentielle et leur coût par rapport à ce que vous pouvez réaliser à l'aide de plusieurs zones de disponibilité au sein d'une région AWS.
    AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
    Amazon RDS: Cross-region backup copy
    RDS: Replicating a Read Replica Across Regions
    S3: Cross-Region Replication
  • Test de validation de la mise en œuvre de la DR

  • Préparez vos charges de travail pour la reprise. Testez régulièrement vos chemins de reprise.: Le calcul orienté récupération (ROC) identifie les caractéristiques des systèmes qui améliorent la reprise. Ces caractéristiques sont les suivantes : isolation et redondance, capacité de l'ensemble du système à réduire les modifications, capacité à surveiller et déterminer l'état de santé, capacité à fournir des diagnostics, reprise automatique, conception modulaire et capacité à redémarrer. Entraînez votre chemin de reprise pour vous assurer qu'elle peut s'effectuer au moment et à l'état spécifiés. Utilisez vos runbooks au cours de cette reprise pour documenter les problèmes et trouver des solutions pour les résoudre avant le prochain test.
    The Berkeley/Stanford recovery-oriented computing project
  • Utilisation de CloudEndure Disaster Recovery pour implémenter et tester votre stratégie de DR
    Testing the Disaster Recovery Solution with CloudEndure
    CloudEndure Disaster Recovery
    CloudEndure Disaster Recovery to AWS
  • Gestion de l'écart de configuration au niveau du site ou de la région de DR

  • Assurez-vous que vos pipelines de diffusion assurent effectivement cette diffusion au niveau de votre site principal ainsi qu'au niveau de vos sites de sauvegarde.: Les pipelines de diffusion pour le déploiement d'applications en production doivent être distribués à tous les emplacements spécifiés de la stratégie de DR, y compris les environnements de développement et de test.
  • Activer AWS Config pour suivre les emplacements d'écart potentiels: Utilisez les règles AWS Config pour créer des systèmes qui appliquent vos stratégies de DR et génèrent des alertes lorsqu'elles détectent un écart.
    Remediating Noncompliant AWS Resources by AWS Config Rules
    AWS Systems Manager Automation
  • Utilisation d'AWS CloudFormation pour le déploiement de votre infrastructure: AWS CloudFormation peut détecter l'écart entre ce que vos modèles CloudFormation spécifient et ce qui est réellement déployé.
    AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
  • Automatisation de la reprise

  • Automatisation des chemins de reprise: Pour les temps de reprise courts, le jugement et les actions de l'humain ne peuvent pas être utilisés pour des scénarios à haute disponibilité. Le système doit absolument reprendre automatiquement, quelle que soit la situation.