REL 13: Comment planifier la reprise après sinistre (DR) ?
La mise en place de sauvegardes et de composants de charge de travail redondants constitue le début de votre stratégie de DR. RTO et RPO sont vos objectifs pour la restauration de la disponibilité. Définissez-les en fonction des besoins de l'entreprise. Mettez en œuvre une stratégie pour atteindre ces objectifs, en particulier en tenant compte de l'emplacement et de la fonction des données et des ressources de charge de travail.
Ressources
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications
(ARC209-R2)
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
What Is AWS Backup?
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
Route 53: Configuring DNS Failover
CloudEndure Disaster Recovery
How do I implement an Infrastructure Configuration Management solution on AWS?
CloudEndure Disaster Recovery to AWS
AWS Marketplace: products that can be used for disaster recovery
APN Partner: partners that can help with disaster recovery
Bonnes pratiques:
-
Définition des objectifs de reprise pour les temps d'arrêt et les pertes de données: La charge de travail est associée à une durée maximale d'interruption admissible (RTO) et à un objectif de point de récupération (RPO).
-
Utilisation de stratégies de reprise définies pour répondre aux objectifs de reprise: Une stratégie de DR a été définie pour répondre aux objectifs.
-
Test de validation de la mise en œuvre de la DR: Testez régulièrement le basculement vers la région de DR pour vous assurer que les objectifs RTO et RPO sont bien atteints.
-
Gestion de l'écart de configuration au niveau du site ou de la région de DR: S'assurer que l'infrastructure, les données et la configuration sont conformes aux besoins du site ou de la région de RD. Par exemple, vérifiez que les AMI et les quotas de service sont à jour.
-
Automatisation de la reprise: Utilisez AWS ou des outils tiers pour automatiser la reprise du système et acheminer le trafic vers le site ou la région de DR.
Plan d'amélioration
Définition des objectifs de reprise pour les temps d'arrêt et les pertes de données
- Identifiez les charges de travail essentielles à vos missions d'entreprise, notamment celles qui favorisent et facilitent généralement le plus l'obtention d'un bon chiffre d'affaires.
- Identifiez les charges de travail d'entreprise les plus importantes, notamment ce sont généralement les outils de rapport et de modification de l'exécution des applications (comme les systèmes de gestion du contenu).
- Identifiez les charges de travail qui ne favorisent pas vos activités et dont les données pourraient être difficiles à recréer (comme les systèmes de test avec des données nettoyées).
- Identifiez les charges de travail qui ne favorisent pas vos activités et dont les données sont moins difficiles, voire faciles à recréer (comme les environnements de développement).
- Identification d'autres catégories en fonction de vos besoins
Utilisation de stratégies de reprise définies pour répondre aux objectifs de reprise
AWS re:Invent 2019: Backup-and-restore and disaster-recovery solutions with AWS (STG208)
Amazon RDS: Cross-region backup copy
RDS: Replicating a Read Replica Across Regions
S3: Cross-Region Replication
- Sauvegarde et restauration (RPO en heures, RTO en 24 heures ou moins: Sauvegardez vos données et applications dans la région de DR. Restaurez ces données si nécessaire aux fins de DR.
- Pilot Light (RPO en minutes, RTO en heures): Maintenez une version minimale d'un environnement exécutant toujours les éléments principaux les plus critiques de votre système dans la région de DR. Lorsque vient le moment de la reprise, vous pouvez rapidement mettre en service un environnement de production à grande échelle autour du cœur critique.
- Warm Standby (RPO en secondes, RTO en minutes): Tenez à jour une version réduite d'un environnement entièrement fonctionnel en cours d'exécution dans la région de DR. Les systèmes stratégiques sont entièrement dupliqués et sont toujours opérationnels, mais avec une flotte réduite. Lorsque vient le moment de la reprise, le système est rapidement mis à l'échelle pour gérer la charge de production.
- Actif-actif multirégion (RPO correspond à zéro seconde ou éventuellement à une seconde,
RTO en secondes): Votre charge de travail est déployée vers plusieurs régions AWS d'où elle traite activement
le trafic. Pour que cette stratégie fonctionne, vous devez synchroniser les utilisateurs
et les données entre les régions que vous utilisez. Lorsque vient le moment de la
reprise, utilisez des services tels qu'Amazon Route 53 ou AWS Global Accelerator pour
acheminer le trafic utilisateur là où votre charge de travail est saine.
AWS re:Invent 2018: Architecture Patterns for Multi-Region Active-Active Applications (ARC209-R2)
Build a serverless multi-region, active-active backend solution in an hour
Multi-region serverless backend — reloaded
Test de validation de la mise en œuvre de la DR
The Berkeley/Stanford recovery-oriented computing project
Testing the Disaster Recovery Solution with CloudEndure
CloudEndure Disaster Recovery
CloudEndure Disaster Recovery to AWS
Gestion de l'écart de configuration au niveau du site ou de la région de DR
Remediating Noncompliant AWS Resources by AWS Config Rules
AWS Systems Manager Automation
AWS CloudFormation: Detect Drift on an Entire CloudFormation Stack
Automatisation de la reprise
- Utilisation CloudEndure Disaster Recovery pour le basculement et la restauration automatisés: CloudEndure Disaster Recovery réplique en continu vos machines (notamment le système
d'exploitation, la configuration d'état du système, les bases de données, les applications
et les fichiers) dans une zone intermédiaire économique de votre compte AWS cible
et de votre région préférée. En cas de sinistre, vous pouvez demander à CloudEndure
Disaster Recovery de lancer automatiquement des milliers de vos machines dans leur
état entièrement mis en service en quelques minutes.
Performing a Disaster Recovery Failover and Failback
CloudEndure Disaster Recovery