Qu'est-ce que le RPO et le RTO avec des exemples ?
Evidian SafeKit
Qu'est-ce que le RPO et le RTO avec des exemples de solutions de haute disponibilité et de sauvegarde ?
Aperçu
Cet article étudie le RTO (Recovery Time Objective) et le RPO (Recovery Point Objective) avec des exemples de solutions de haute disponibilité et de sauvegarde.
Les solutions de haute disponibilité et de sauvegarde sont complémentaires. La première est pour le basculement automatique en cas de panne et la seconde est pour la récupération des données en cas de sinistre tel qu'un ransomware cryptant toutes les données.
L'article explique en détail le RTO et le RPO de SafeKit, un produit logiciel de haute disponibilité.
Qu'est-ce que le RPO ?
Le RPO (Recovery Point Objective) reflète la perte de données en cas de panne.
Si vous recherchez un cluster de haute disponibilité avec basculement automatique, alors le RPO doit être de 0. L'application est ainsi redémarrée sans perte de données. Soit vous pouvez choisir un cluster de haute disponibilité matériel avec disque partagé. Ou vous pouvez choisir un cluster de haute disponibilité logiciel avec réplication synchrone en temps réel pour avoir 0 perte de données.
Si vous mettez en place des solutions de sauvegarde, alors le RPO est supérieur à 0 et la récupération n'est pas automatique. Les administrateurs décident de la fréquence de réplication et du nombre de sauvegardes à conserver.
Qu'est-ce que le RTO ?
Le RTO (Recovery Time Objective) est le temps pendant lequel une application est indisponible en cas de panne.
Pour une application critique, le RTO doit être minimal. Pour cela, une solution de haute disponibilité est nécessaire avec redémarrage automatique de l'application en cas de panne matérielle ou logicielle. Le RTO est alors d'environ une minute : le temps de détection plus le temps de redémarrage automatique de l'application.
Avec une solution de sauvegarde, le RTO est généralement supérieur à plusieurs heures. Les administrateurs tenteront d'abord de réparer le matériel et de redémarrer l'application avec des données à jour. Le redémarrage à partir d'une sauvegarde est la dernière décision lorsque les actions précédentes ne fonctionnent pas, car ça entraîne une perte de données.
RTO avec l'exemple du cluster miroir de SafeKit
Le cluster miroir de SafeKit est un cluster logiciel de haute disponibilité avec réplication synchrone en temps réel des données et basculement applicatif automatique.
Le RTO du cluster miroir de SafeKit est de l'ordre de 1 mn et peut être diminué si vous configurez le timeout des heartbeats.
Pour une panne matérielle dans un cluster miroir, RTO = timeout des heartbeats (par défaut 30 s) + délai pour redémarrer l'application.
Pour une défaillance logicielle ou un basculement administrateur, RTO = temps d'arrêter l'application + temps de la redémarrer.
Avec les solutions qui redémarrent une machine virtuelle complète en cas de panne, le RTO inclut le temps de reboot de la machine virtuelle.
RTO avec l'exemple du cluster ferme de SafeKit
Le cluster ferme SafeKit est un cluster logiciel de haute disponibilité avec équilibrage de charge réseau et reprise applicative automatique.
Le RTO du cluster ferme de SafeKit est de l'ordre de quelques secondes.
Pour une panne matérielle, RTO = timeout sur la détection de panne via les voies de surveillance (par défaut quelques secondes). Après le timeout, les filtres de load balancing sont reconfigurés.
Pour une défaillance logicielle ou une relance administrateur, RTO = temps d'arrêter l'application + temps de la redémarrer.
RPO avec l'exemple du cluster miroir de SafeKit
Le RPO du cluster miroir de SafeKit est 0 car la réplication est synchrone et temps réel.
Attention, avec la réplication asynchrone, le RPO n'est pas 0 et il y a perte de données en cas de panne lorsque l'application redémarre sur le serveur secondaire.
RPO avec l'exemple du cluster ferme de SafeKit
N/R. Il n'y a pas de réplication de données dans un cluster ferme.
Quels sont les avantages d'un cluster miroir ?
- Faible complexité
- Déploiement Plug & Play sans compétences spécifiques
- Convient aux déploiements sur de nombreux sites (très simple à déployer)
- 2 nœuds virtuels ou physiques
- Aucune exigence de stockage partagé
- Aucune exigence de contrôleur de domaine
- Même solution sous Windows et Linux
- Supporte les éditions OS Windows Server et Client
- API et support bien documentés
- Réplication synchrone des données (aucune perte de données en cas de panne)
- Les répertoires répliqués peuvent être dans le disque système
- Multiples heartbeats et adresses IP virtuelles supportés
- Offre des checkers logiciels, matériels et réseaux configurables
- Pour le problème de split brain et de quorum, ne nécessite pas de disque spécial ou de troisième machine ou de lien spécifique entre les 2 serveurs
- Basculement automatique de l'application avec un temps de reprise de l'ordre d'une minute
- Réintégration automatique d'un serveur après panne (aucune opération manuelle)
- Une console très simple pour déployer la solution et la maintenir ensuite pour le client final
- Supporte les défaillances du matériel et de son environnement (20% des causes d'indisponibilité), y compris la panne complète d'une salle informatique avec 2 nœuds dans deux sites distants
- Supporte les défaillances logicielles (40% des causes d'indisponibilité) : bug logiciel, régression sur les mises à jour logicielles (les versions N et N+1 peuvent coexister)
- Supporte les erreurs humaines (40% des causes d'indisponibilité) : la simplicité d'utilisation évite l'erreur d'administration de l'application critique
Quels sont les avantages d'un cluster ferme ?
- Faible complexité
- Déploiement Plug & Play sans compétences spécifiques
- Convient aux déploiements sur de nombreux sites (très simple à déployer)
- 2 nœuds ou plus
- Aucune exigence sur des load balancers réseaux
- Aucune exigence sur des serveurs proxy (au dessus du cluster ferme)
- Aucune exigence de contrôleur de domaine
- Aucune restriction dans VMware dûe à une adresse multicast ou unicast
- Même solution sur Windows et Linux
- Supporte les éditions OS Windows Server et Client
- API et support bien documentés
- Supporte de multiples voies de surveillance sur de multiples réseaux pour détecter la panne d'un serveur
- Supporte de multiples adresse IP virtuelles
- Offre des checkers logiciel, matériel et réseau configurables
- Offre le cluster miroir avec réplication temps réel synchrone et reprise sur panne pour mettre en œuvre une architecture 3-tiers ferme+miroir
- Basculement automatique avec un temps de reprise de l'ordre de quelques secondes
- Réintégration automatique d'un serveur après panne (aucune opération manuelle)
- Une console très simple pour déployer la solution et la maintenir ensuite pour le client final
- Supporte les défaillances du matériel et de son environnement (20% des causes d'indisponibilité), y compris la panne complète d'une salle informatique avec 2 nœuds dans deux sites distants
- Supporte les défaillances logicielles (40% des causes d'indisponibilité) : bug logiciel, régression sur les mises à jour logicielles (les versions N et N+1 peuvent coexister)
- Supporte les erreurs humaines (40% des causes d'indisponibilité) : la simplicité d'utilisation évite les erreurs d'administration de l'application critique
Nouvelle application (réplication en temps réel et basculement)
- Windows (mirror.safe)
- Linux (mirror.safe)
Nouvelle application (répartition de charge réseau et basculement)
Base de données (réplication en temps réel et basculement)
- Microsoft SQL Server (sqlserver.safe)
- PostgreSQL (postgresql.safe)
- MySQL (mysql.safe)
- Oracle (oracle.safe)
- MariaDB (sqlserver.safe)
- Firebird (firebird.safe)
Web (répartition de charge réseau et basculement)
- Apache (apache_farm.safe)
- IIS (iis_farm.safe)
- NGINX (farm.safe)
Réplication en temps réel et basculement de VM ou de conteneur complet
- Hyper-V (hyperv.safe)
- KVM (kvm.safe)
- Docker (mirror.safe)
- Podman (mirror.safe)
- Kubernetes K3S (k3s.safe)
Amazon AWS
- AWS (mirror.safe)
- AWS (farm.safe)
Google GCP
- GCP (mirror.safe)
- GCP (farm.safe)
Microsoft Azure
- Azure (mirror.safe)
- Azure (farm.safe)
Autres clouds
- Toutes les solutions Cloud
- Générique (mirror.safe)
- Générique (farm.safe)
Sécurité physique (réplication en temps réel et basculement)
- Milestone XProtect (milestone.safe)
- Nedap AEOS (nedap.safe)
- Genetec SQL Server (sqlserver.safe)
- Bosch AMS (hyperv.safe)
- Bosch BIS (hyperv.safe)
- Bosch BVMS (hyperv.safe)
- Hanwha Vision (hyperv.safe)
- Hanwha Wisenet (hyperv.safe)
Siemens (réplication en temps réel et basculement)
- Siemens Siveillance suite (hyperv.safe)
- Siemens Desigo CC (hyperv.safe)
- Siemens Siveillance VMS (SiveillanceVMS.safe)
- Siemens SiPass (hyperv.safe)
- Siemens SIPORT (hyperv.safe)
- Siemens SIMATIC PCS 7 (hyperv.safe)
- Siemens SIMATIC WinCC (hyperv.safe)
HA de VMs avec le module Hyper-V ou KVM de SafeKit | HA d'application avec les modules applicatifs de SafeKit |
SafeKit dans 2 hyperviseurs: réplication et reprise de VM complète |
SafeKit dans 2 machines virtuelles ou physiques: réplication et reprise au niveau applicatif |
Réplique plus de données (App+OS) | Réplique seulement les données applicatives |
Reboot de la machine virtuelle sur l'hyperviseur 2 si l'hyperviseur 1 crash Temps de reprise dépendant du reboot de l'OS Checker de VM et reprise sur panne (la machine virtuelle ne répond pas, est tombée en panne ou a cessé de fonctionner) |
Temps de reprise rapide avec redémarrage de l'application sur OS2 en cas de panne du serveur 1 Autour d'1 mn ou moins (voir RTO/RPO ici) Checker applicatif et reprise sur panne logicielle |
Solution générique pour n'importe quelle application / OS | Scripts de redémarrage à écrire dans des modules applicatifs |
Fonctionne avec Windows/Hyper-V et Linux/KVM mais pas avec VMware | Indépendant de la plateforme, fonctionne avec les machines physiques ou virtuelles, une infrastructure cloud et tout hyperviseur, y compris VMware |
SafeKit avec le module Hyper-V ou le module KVM | Microsoft Hyper-V Cluster & VMware HA |
Pas de disque partagé - réplication temps réel synchrone à la place avec 0 perte de données | Disque partagé et baie de disques externe spécifique |
Sites distants = pas de SAN pour la réplication | Sites distants = baies de disques répliquées à travers un SAN |
Aucune compétence informatique spécifique pour configurer le système (avec hyperv.safe et kvm.safe) | Compétence informatique spécifique pour configurer le système |
Notez que les solutions Hyper-V/SafeKit et KVM/SafeKit sont limitées à la réplication et au basculement de 32 machines virtuelles. | Notez que la réplication intégrée à Hyper-V ne peut pas être considérée comme une solution de haute disponibilité. En effet, la réplication est asynchrone, ce qui peut entraîner une perte de données en cas de panne, et elle ne dispose pas de fonctionnalités de basculement et de restauration automatiques. |
Cluster miroir d'Evidian SafeKit avec réplication de fichiers temps réel et reprise sur panne |
|
Économisez avec 3 produits en 1 En savoir plus > |
|
Configuration très simple En savoir plus > |
|
Réplication synchrone En savoir plus > |
|
Retour d'un serveur tombé en panne totalement automatisé (failback) En savoir plus > |
|
Réplication de n'importe quel type de données En savoir plus > |
|
Réplication de fichiers vs réplication de disque En savoir plus > |
|
Réplication de fichiers vs disque partagé En savoir plus > |
|
Sites distants et adresse IP virtuelle En savoir plus > |
|
Split brain et quorum En savoir plus > |
|
Cluster actif/actif En savoir plus > |
|
Solution de haute disponibilité uniforme En savoir plus > |
|
RTO / RPO En savoir plus > |
|
Cluster ferme d'Evidian SafeKit avec load balancing et reprise sur panne |
|
Pas de load balancer, ni de serveur proxy dédié, ni d'adresse Ethernet multicast spéciale En savoir plus > |
|
Toutes les fonctionnalités de clustering En savoir plus > |
|
Sites distants et adresse IP virtuelle En savoir plus > |
|
Solution de haute disponibilité uniforme En savoir plus > |
|
|
|
Cluster de type "shared nothing"" vs cluster à disque partagé En savoir plus > |
|
|
|
|
|
Haute disponibilité vs tolérance aux fautes En savoir plus > |
|
|
|
Réplication synchrone vs réplication asynchrone En savoir plus > |
|
|
|
Réplication de fichiers au niveau octet vs réplication de disque au niveau du bloc En savoir plus > |
|
|
|
Heartbeat, reprise sur panne et quorum pour éviter 2 serveurs maîtres En savoir plus > |
|
|
|
|
|