eviden-logo

Evidian > Produits > Logiciel de haute disponibilité - Zéro surcoût matériel > Qu'est-ce que le RPO et le RTO avec des exemples ?

Qu'est-ce que le RPO et le RTO avec des exemples ?

Evidian SafeKit

Qu'est-ce que le RPO et le RTO avec des exemples de solutions de haute disponibilité et de sauvegarde ?

Aperçu

Cet article étudie le RTO (Recovery Time Objective) et le RPO (Recovery Point Objective) avec des exemples de solutions de haute disponibilité et de sauvegarde.

Qu'est-ce que le RPO et le RTO avec des exemples ?

Les solutions de haute disponibilité et de sauvegarde sont complémentaires. La première est pour le basculement automatique en cas de panne et la seconde est pour la récupération des données en cas de sinistre tel qu'un ransomware cryptant toutes les données.

L'article explique en détail le RTO et le RPO de SafeKit, un produit logiciel de haute disponibilité.

Qu'est-ce que le RPO ?

Le RPO (Recovery Point Objective) reflète la perte de données en cas de panne.

Si vous recherchez un cluster de haute disponibilité avec basculement automatique, alors le RPO doit être de 0. L'application est ainsi redémarrée sans perte de données. Soit vous pouvez choisir un cluster de haute disponibilité matériel avec disque partagé. Ou vous pouvez choisir un cluster de haute disponibilité logiciel avec réplication synchrone en temps réel pour avoir 0 perte de données.

Si vous mettez en place des solutions de sauvegarde, alors le RPO est supérieur à 0 et la récupération n'est pas automatique. Les administrateurs décident de la fréquence de réplication et du nombre de sauvegardes à conserver.

Qu'est-ce que le RTO ?

Le RTO (Recovery Time Objective) est le temps pendant lequel une application est indisponible en cas de panne.

Pour une application critique, le RTO doit être minimal. Pour cela, une solution de haute disponibilité est nécessaire avec redémarrage automatique de l'application en cas de panne matérielle ou logicielle. Le RTO est alors d'environ une minute : le temps de détection plus le temps de redémarrage automatique de l'application.

Avec une solution de sauvegarde, le RTO est généralement supérieur à plusieurs heures. Les administrateurs tenteront d'abord de réparer le matériel et de redémarrer l'application avec des données à jour. Le redémarrage à partir d'une sauvegarde est la dernière décision lorsque les actions précédentes ne fonctionnent pas, car ça entraîne une perte de données.

RTO avec l'exemple du cluster miroir de SafeKit

Le cluster miroir de SafeKit est un cluster logiciel de haute disponibilité avec réplication synchrone en temps réel des données et basculement applicatif automatique.

Le RTO du cluster miroir de SafeKit est de l'ordre de 1 mn et peut être diminué si vous configurez le timeout des heartbeats.

Pour une panne matérielle dans un cluster miroir, RTO = timeout des heartbeats (par défaut 30 s) + délai pour redémarrer l'application.

Pour une défaillance logicielle ou un basculement administrateur, RTO = temps d'arrêter l'application + temps de la redémarrer.

Avec les solutions qui redémarrent une machine virtuelle complète en cas de panne, le RTO inclut le temps de reboot de la machine virtuelle.

RTO avec l'exemple du cluster ferme de SafeKit

Le cluster ferme SafeKit est un cluster logiciel de haute disponibilité avec équilibrage de charge réseau et reprise applicative automatique.

Le RTO du cluster ferme de SafeKit est de l'ordre de quelques secondes.

Pour une panne matérielle, RTO = timeout sur la détection de panne via les voies de surveillance (par défaut quelques secondes). Après le timeout, les filtres de load balancing sont reconfigurés.

Pour une défaillance logicielle ou une relance administrateur, RTO = temps d'arrêter l'application + temps de la redémarrer.

RPO avec l'exemple du cluster miroir de SafeKit

Le RPO du cluster miroir de SafeKit est 0 car la réplication est synchrone et temps réel.

Attention, avec la réplication asynchrone, le RPO n'est pas 0 et il y a perte de données en cas de panne lorsque l'application redémarre sur le serveur secondaire.

RPO avec l'exemple du cluster ferme de SafeKit

N/R. Il n'y a pas de réplication de données dans un cluster ferme.

Quels sont les avantages d'un cluster miroir ?

  • Faible complexité
  • Déploiement Plug & Play sans compétences spécifiques
  • Convient aux déploiements sur de nombreux sites (très simple à déployer)
  • 2 nœuds virtuels ou physiques
  • Aucune exigence de stockage partagé
  • Aucune exigence de contrôleur de domaine
  • Même solution sous Windows et Linux
  • Supporte les éditions OS Windows Server et Client
  • API et support bien documentés
  • Réplication synchrone des données (aucune perte de données en cas de panne)
  • Les répertoires répliqués peuvent être dans le disque système
  • Multiples heartbeats et adresses IP virtuelles supportés
  • Offre des checkers logiciels, matériels et réseaux configurables
  • Pour le problème de split brain et de quorum, ne nécessite pas de disque spécial ou de troisième machine ou de lien spécifique entre les 2 serveurs
  • Basculement automatique de l'application avec un temps de reprise de l'ordre d'une minute
  • Réintégration automatique d'un serveur après panne (aucune opération manuelle)
  • Une console très simple pour déployer la solution et la maintenir ensuite pour le client final
  • Supporte les défaillances du matériel et de son environnement (20% des causes d'indisponibilité), y compris la panne complète d'une salle informatique avec 2 nœuds dans deux sites distants
  • Supporte les défaillances logicielles (40% des causes d'indisponibilité) : bug logiciel, régression sur les mises à jour logicielles (les versions N et N+1 peuvent coexister)
  • Supporte les erreurs humaines (40% des causes d'indisponibilité) : la simplicité d'utilisation évite l'erreur d'administration de l'application critique

Quels sont les avantages d'un cluster ferme ?

  • Faible complexité
  • Déploiement Plug & Play sans compétences spécifiques
  • Convient aux déploiements sur de nombreux sites (très simple à déployer)
  • 2 nœuds ou plus
  • Aucune exigence sur des load balancers réseaux
  • Aucune exigence sur des serveurs proxy (au dessus du cluster ferme)
  • Aucune exigence de contrôleur de domaine
  • Aucune restriction dans VMware dûe à une adresse multicast ou unicast
  • Même solution sur Windows et Linux
  • Supporte les éditions OS Windows Server et Client
  • API et support bien documentés
  • Supporte de multiples voies de surveillance sur de multiples réseaux pour détecter la panne d'un serveur
  • Supporte de multiples adresse IP virtuelles
  • Offre des checkers logiciel, matériel et réseau configurables
  • Offre le cluster miroir avec réplication temps réel synchrone et reprise sur panne pour mettre en œuvre une architecture 3-tiers ferme+miroir
  • Basculement automatique avec un temps de reprise de l'ordre de quelques secondes
  • Réintégration automatique d'un serveur après panne (aucune opération manuelle)
  • Une console très simple pour déployer la solution et la maintenir ensuite pour le client final
  • Supporte les défaillances du matériel et de son environnement (20% des causes d'indisponibilité), y compris la panne complète d'une salle informatique avec 2 nœuds dans deux sites distants
  • Supporte les défaillances logicielles (40% des causes d'indisponibilité) : bug logiciel, régression sur les mises à jour logicielles (les versions N et N+1 peuvent coexister)
  • Supporte les erreurs humaines (40% des causes d'indisponibilité) : la simplicité d'utilisation évite les erreurs d'administration de l'application critique

SafeKit Quick Installation Guides

New application (real-time replication and failover)


New application (network load balancing and failover)


Database (real-time replication and failover)


Web (network load balancing and failover)


Full VM or container real-time replication and failover


Amazon AWS


Google GCP


Microsoft Azure


Other clouds


Physical security (real-time replication and failover)


Siemens (real-time replication and failover)


Différentiateurs de la solution de haute disponibilité SafeKit