Aperçu

Cet article étudie le RTO (Recovery Time Objective) et le RPO (Recovery Point Objective) avec des exemples de solutions de haute disponibilité et de sauvegarde.

Les solutions de haute disponibilité et de sauvegarde sont complémentaires. La première est pour le basculement automatique en cas de panne et la seconde est pour la récupération des données en cas de sinistre tel qu'un ransomware cryptant toutes les données.

L'article explique en détail le RTO et le RPO de SafeKit, un produit logiciel de haute disponibilité.

Qu'est-ce que le RPO ?

Le RPO (Recovery Point Objective) reflète la perte de données en cas de panne.

Si vous recherchez un cluster de haute disponibilité avec basculement automatique, alors le RPO doit être de 0. L'application est ainsi redémarrée sans perte de données. Soit vous pouvez choisir un cluster de haute disponibilité matériel avec disque partagé. Ou vous pouvez choisir un cluster de haute disponibilité logiciel avec réplication synchrone en temps réel pour avoir 0 perte de données.

Si vous mettez en place des solutions de sauvegarde, alors le RPO est supérieur à 0 et la récupération n'est pas automatique. Les administrateurs décident de la fréquence de réplication et du nombre de sauvegardes à conserver.

Qu'est-ce que le RTO ?

Le RTO (Recovery Time Objective) est le temps pendant lequel une application est indisponible en cas de panne.

Pour une application critique, le RTO doit être minimal. Pour cela, une solution de haute disponibilité est nécessaire avec redémarrage automatique de l'application en cas de panne matérielle ou logicielle. Le RTO est alors d'environ une minute : le temps de détection plus le temps de redémarrage automatique de l'application.

Avec une solution de sauvegarde, le RTO est généralement supérieur à plusieurs heures. Les administrateurs tenteront d'abord de réparer le matériel et de redémarrer l'application avec des données à jour. Le redémarrage à partir d'une sauvegarde est la dernière décision lorsque les actions précédentes ne fonctionnent pas, car ça entraîne une perte de données.

RTO avec l'exemple du cluster miroir de SafeKit

Le cluster miroir de SafeKit est un cluster logiciel de haute disponibilité avec réplication synchrone en temps réel des données et basculement applicatif automatique.

Le RTO du cluster miroir de SafeKit est de l'ordre de 1 mn et peut être diminué si vous configurez le timeout des heartbeats.

Pour une panne matérielle dans un cluster miroir, RTO = timeout des heartbeats (par défaut 30 s) + délai pour redémarrer l'application.

Pour une défaillance logicielle ou un basculement administrateur, RTO = temps d'arrêter l'application + temps de la redémarrer.

Avec les solutions qui redémarrent une machine virtuelle complète en cas de panne, le RTO inclut le temps de reboot de la machine virtuelle.

RTO avec l'exemple du cluster ferme de SafeKit

Le cluster ferme SafeKit est un cluster logiciel de haute disponibilité avec équilibrage de charge réseau et reprise applicative automatique.

Le RTO du cluster ferme de SafeKit est de l'ordre de quelques secondes.

Pour une panne matérielle, RTO = timeout sur la détection de panne via les voies de surveillance (par défaut quelques secondes). Après le timeout, les filtres de load balancing sont reconfigurés.

Pour une défaillance logicielle ou une relance administrateur, RTO = temps d'arrêter l'application + temps de la redémarrer.

Quels sont les avantages d'un cluster miroir ?

Faible complexité
Déploiement Plug & Play sans compétences spécifiques
Convient aux déploiements sur de nombreux sites (très simple à déployer)
2 nœuds virtuels ou physiques
Aucune exigence de stockage partagé
Aucune exigence de contrôleur de domaine
Même solution sous Windows et Linux
Supporte les éditions OS Windows Server et Client
API et support bien documentés
Réplication synchrone des données (aucune perte de données en cas de panne)
Les répertoires répliqués peuvent être dans le disque système
Multiples heartbeats et adresses IP virtuelles supportés
Offre des checkers logiciels, matériels et réseaux configurables
Pour le problème de split brain et de quorum, ne nécessite pas de disque spécial ou de troisième machine ou de lien spécifique entre les 2 serveurs
Basculement automatique de l'application avec un temps de reprise de l'ordre d'une minute
Réintégration automatique d'un serveur après panne (aucune opération manuelle)
Une console très simple pour déployer la solution et la maintenir ensuite pour le client final
Supporte les défaillances du matériel et de son environnement (20% des causes d'indisponibilité), y compris la panne complète d'une salle informatique avec 2 nœuds dans deux sites distants
Supporte les défaillances logicielles (40% des causes d'indisponibilité) : bug logiciel, régression sur les mises à jour logicielles (les versions N et N+1 peuvent coexister)
Supporte les erreurs humaines (40% des causes d'indisponibilité) : la simplicité d'utilisation évite l'erreur d'administration de l'application critique

Quels sont les avantages d'un cluster ferme ?

Faible complexité
Déploiement Plug & Play sans compétences spécifiques
Convient aux déploiements sur de nombreux sites (très simple à déployer)
2 nœuds ou plus
Aucune exigence sur des load balancers réseaux
Aucune exigence sur des serveurs proxy (au dessus du cluster ferme)
Aucune exigence de contrôleur de domaine
Aucune restriction dans VMware dûe à une adresse multicast ou unicast
Même solution sur Windows et Linux
Supporte les éditions OS Windows Server et Client
API et support bien documentés
Supporte de multiples voies de surveillance sur de multiples réseaux pour détecter la panne d'un serveur
Supporte de multiples adresse IP virtuelles
Offre des checkers logiciel, matériel et réseau configurables
Offre le cluster miroir avec réplication temps réel synchrone et reprise sur panne pour mettre en œuvre une architecture 3-tiers ferme+miroir
Basculement automatique avec un temps de reprise de l'ordre de quelques secondes
Réintégration automatique d'un serveur après panne (aucune opération manuelle)
Une console très simple pour déployer la solution et la maintenir ensuite pour le client final
Supporte les défaillances du matériel et de son environnement (20% des causes d'indisponibilité), y compris la panne complète d'une salle informatique avec 2 nœuds dans deux sites distants
Supporte les défaillances logicielles (40% des causes d'indisponibilité) : bug logiciel, régression sur les mises à jour logicielles (les versions N et N+1 peuvent coexister)
Supporte les erreurs humaines (40% des causes d'indisponibilité) : la simplicité d'utilisation évite les erreurs d'administration de l'application critique

Solutions SafeKit et guides d'installation rapide

Différentiateurs clés entre la haute disponibilité au niveau machine virtuelle et au niveau application

Différenciateurs clés entre SafeKit vs Microsoft Hyper-V cluster et VMware HA

Différenciateurs clés d'un cluster miroir avec réplication et reprise sur panne

Cluster miroir d'Evidian SafeKit avec réplication de fichiers temps réel et reprise sur panne
Économisez avec 3 produits en 1 En savoir plus >	Le logiciel de haute disponibilité SafeKit sur Windows et Linux permet d'économiser sur : les stockages partagés ou répliqués externes coûteux, les boîtiers de load balancing, les éditions entreprise des OS et des bases de données SafeKit offre toutes les fonctionnalités de clustering par logiciel : réplication de fichiers temps réel synchrone, surveillance des défaillances serveur / réseau / logiciel, redémarrage automatique de l'application, adresse IP virtuelle basculée en cas de panne pour rerouter les clients
Configuration très simple En savoir plus >	La configuration du cluster est très simple et réalisée au moyen de modules applicatifs. De nouveaux services et de nouveaux répertoires répliqués peuvent être ajoutés à un module applicatif existant pour compléter une solution de haute disponibilité Toute la configuration des clusters se fait à l'aide d'une console d'administration web centralisée simple Il n'y a pas de contrôleur de domaine ou d'Active Directory à configurer comme avec Microsoft cluster
Réplication synchrone En savoir plus >	La réplication en temps réel est synchrone sans perte de données en cas de panne Ce n'est pas le cas avec une réplication asynchrone
Retour d'un serveur tombé en panne totalement automatisé (failback) En savoir plus >	Suite à une panne lorsqu'un serveur reboot, le retour du serveur tombé en panne se fait de manière totalement automatique dans le cluster avec une resynchronisation de ses données et sans arrêter l'application sur le seul serveur restant Ce n'est pas le cas avec la plupart des solutions de réplication particulièrement celles avec une réplication au niveau base de données. Des opérations manuelles sont requises pour resynchroniser le serveur défaillant. Il peut être même nécessaire d'arrêter l'application sur le seul serveur restant
Réplication de n'importe quel type de données En savoir plus >	La réplication fonctionne pour les bases de données mais aussi pour n'importe quel fichier qui doit-être répliqué Ce n'est pas le cas pour la réplication au niveau base de données
Réplication de fichiers vs réplication de disque En savoir plus >	La réplication est basée sur des répertoires de fichiers qui peuvent être localisés n'importe où (même dans le disque système) Ce n'est pas le cas avec la réplication de disque où une configuration spéciale de l'application est nécessaire pour placer les données applicatives dans un disque spécial
Réplication de fichiers vs disque partagé En savoir plus >	Les serveurs peuvent être placés dans deux sites distants Ce n'est pas le cas avec les solutions à disque partagé
Sites distants et adresse IP virtuelle En savoir plus >	Toutes les fonctionnalités de clustering SafeKit fonctionnent pour 2 serveurs sur des sites distants. La réplication requiert un réseau de type LAN étendu (latence = performance de la réplication synchrone, bande passante = performance de la resynchronisation après panne). Si les deux serveurs sont connectés au même réseau IP via un réseau local étendu entre deux sites distants, l'adresse IP virtuelle de SafeKit fonctionne avec une redirection au niveau 2 Si les deux serveurs sont connectés à deux réseaux IP différents entre deux sites distants, l'adresse IP virtuelle peut être configurée au niveau d'un load balancer avec le "health check" de SafeKit.
Split brain et quorum En savoir plus >	La solution fonctionne avec seulement 2 serveurs et pour le quorum (isolation réseau entre 2 sites), un simple split brain checker vers un routeur est offert pour supporter une seule exécution de l'application critique Ce n'est pas le cas pour la plupart des solutions de clustering où un 3^ième serveur est nécessaire pour le quorum
Cluster actif/actif En savoir plus >	Le serveur secondaire n'est pas dédié au redémarrage du serveur primaire. Le cluster peut être actif-actif en exécutant deux modules miroirs différents Ce n'est pas le cas avec un système fault-tolerant dans lequel le secondaire est dédié à l'exécution de la même application synchronisée au niveau instruction
Solution de haute disponibilité uniforme En savoir plus >	SafeKit implémente un cluster miroir avec une réplication et une reprise sur panne. Mais il implémente aussi un cluster ferme avec load balancing et reprise sur panne. Ainsi une architecture N-tiers peut-être rendue hautement disponible et load balancée avec la même solution sur Windows et Linux (même installation, configuration, administration avec la console SafeKit ou les commandes en ligne). Ceci est unique sur le marché Ce n'est pas le cas avec une architecture mixant des technologies différentes pour le load balancing, la réplication et la reprise sur panne
RTO / RPO En savoir plus >	SafeKit met en œuvre un redémarrage rapide de l'application en cas de panne : autour d'1 mn ou moins Un redémarrage rapide de l'application n'est pas assuré avec une réplication complète de machines virtuelles. En cas de panne d'un hyperviseur, une machine virtuelle doit être rebootée sur un nouvel hyperviseur avec un temps de redémarrage lié au reboot de l'OS comme avec VMware HA ou Hyper-V cluster

Différenciateurs clés d'un cluster ferme avec équilibrage de charge et reprise sur panne

Cluster ferme d'Evidian SafeKit avec load balancing et reprise sur panne
Pas de load balancer, ni de serveur proxy dédié, ni d'adresse Ethernet multicast spéciale En savoir plus >	La solution ne nécessite pas de load balancer, ni de serveur proxy en amont de la ferme pour implémenter le load balancing. SafeKit est installé directement sur les serveurs applicatifs à load balancer. Le load balancing est basé sur une adresse IP virtuelle/adresse MAC Ethernet standard et fonctionne avec des serveurs physiques et des machines virtuelles sur Windows et Linux sans configuration réseau spéciale Ce n'est pas le cas avec les load balancers réseau Ce n'est pas le cas avec les proxys dédiés sur Linux Ce n'est pas le cas avec une adresse Ethernet multicast spéciale sur Windows
Toutes les fonctionnalités de clustering En savoir plus >	La solution inclut toutes les fonctionnalités de clustering : adresse IP virtuelle, load balancing sur adresse IP client ou sur sessions, surveillance des défaillances serveurs / réseaux / logicielles, redémarrage automatique de l'application avec un temps de reprise rapide, une option de réplication avec un module miroir Ce n'est pas le cas avec les autres solutions de load balancing. Elles sont capables de réaliser le load balancing mais elle n'inclut pas une solution de clustering complète avec des scripts de redémarrage et un redémarrage automatique de l'application en cas de défaillance. Elles n'offrent pas l'option de réplication La configuration du cluster est très simple et réalisée au moyen de modules applicatifs. Il n'y a pas de contrôleur de domaine et d'Active Directory à configurer sur Windows. La solution fonctionne sur Windows et Linux
Sites distants et adresse IP virtuelle En savoir plus >	Si les serveurs sont connectés au même réseau IP via un réseau local étendu entre des sites distants, l’adresse IP virtuelle de SafeKit fonctionne avec un équilibrage de charge au niveau 2 Si les serveurs sont connectés à des réseaux IP différents entre des sites distants, l'adresse IP virtuelle peut être configurée au niveau d'un load balancer à l'aide du "health check" de SafeKit. Ainsi, vous pouvez profiter de toutes les fonctionnalités de clustering de SafeKit, notamment la surveillance et la reprise automatique de l'application critique sur les serveurs applicatifs
Solution de haute disponibilité uniforme En savoir plus >	SafeKit implémente un cluster ferme avec load balancing et reprise sur panne. Mais il implémente aussi un cluster miroir avec réplication et reprise sur panne. Ainsi une architecture N-tiers peut-être rendue hautement disponible et load balancée avec la même solution sur Windows et Linux (même installation, configuration, administration avec la console SafeKit ou avec les commandes en ligne). Ceci est unique sur le marché Ce n'est pas le cas avec une architecture mixant des technologies différentes pour le load balancing, la réplication et la reprise sur panne

Différenciateurs clés de la technologie de haute disponibilité SafeKit

Cluster logiciel vs cluster matériel En savoir plus >
Un cluster logiciel simple avec le package SafeKit installé sur deux serveurs	Un cluster matériel complexe avec du stockage externe ou des boîtiers de load balancing
Cluster de type "shared nothing"" vs cluster à disque partagé En savoir plus >
SafeKit est un cluster sans partage de type "shared-nothing": simple à déployer même sur des sites distants	Un cluster à disque partagé est complexe à déployer
Haute disponibilité applicative vs Haute disponibilité de machines virtuelles complètes En savoir plus >
La haute disponibilité applicative supporte les pannes matérielles et logicielles avec un temps de reprise rapide (RTO autour d'1 mn ou moins) La haute disponibilité applicative nécessite de définir des scripts de redémarrage par application et des dossiers à répliquer (modules applicatifs SafeKit).	La haute disponibilité de machines virtuelles complètes (VM) supporte seulement les pannes matérielles avec un reboot de la VM et un temps de reprise dépendant du reboot de l'OS. Pas de scripts de redémarrage à définir avec des machines virtuelles complètes en haute disponibilité (modules SafeKit hyperv.safe ou kvm.safe). Les hyperviseurs sont actif/actif avec simplement plusieurs machines virtuelles.
Haute disponibilité vs tolérance aux fautes En savoir plus >
Chaque serveur peut être le serveur de reprise de l'autre serveur. Exception logicielle avec redémarrage dans un autre environnement OS. Upgrade en douceur de l'application et de l'OS possible serveur par serveur (les versions N et N+1 peuvent coexister)	Serveur secondaire dédié à l'exécution de la même application synchronisée au niveau instruction. Exception logicielle sur les 2 serveurs en même temps. Upgrade en douceur impossible
Réplication synchrone vs réplication asynchrone En savoir plus >
SafeKit met en œuvre une réplication temps réel synchrone sans perte de données en cas de panne	Avec une réplication asynchrone, il y a une perte de données en cas de panne
Réplication de fichiers au niveau octet vs réplication de disque au niveau du bloc En savoir plus >
SafeKit met en œuvre la réplication de fichiers temps réel au niveau octet et se configure simplement avec les répertoires applicatifs à répliquer même dans le disque système	La réplication de disque au niveau bloc est complexe à configurer et nécessite de mettre les données de l'application dans un disque spécial
Heartbeat, reprise sur panne et quorum pour éviter 2 serveurs maîtres En savoir plus >
Pour éviter 2 serveur maîtres, SafeKit propose un simple "split brain checker" configuré sur un routeur	Pour éviter 2 serveur maîtres, les autres clusters demandent une configuration complexe avec une 3^ième machine, un disque de quorum spécial, une interconnexion spéciale
Adresse IP virtuelle primaire/secondaire, load balancing réseau, basculement sur panne En savoir plus >
Aucun serveur proxy dédié et aucune configuration réseau particulière ne sont requis dans un cluster SafeKit pour mettre en œuvre des adresses IP virtuelles	Une configuration réseau spéciale est requise dans d'autres clusters pour mettre en œuvre des adresses IP virtuelles. A noter que SafeKit propose un vérificateur d'état adapté aux équilibreurs de charge

HA de VMs avec le module Hyper-V ou KVM de SafeKit	HA d'application avec les modules applicatifs de SafeKit
SafeKit dans 2 hyperviseurs: réplication et reprise de VM complète	SafeKit dans 2 machines virtuelles ou physiques: réplication et reprise au niveau applicatif
Réplique plus de données (App+OS)	Réplique seulement les données applicatives
Reboot de la machine virtuelle sur l'hyperviseur 2 si l'hyperviseur 1 crash Temps de reprise dépendant du reboot de l'OS Checker de VM et reprise sur panne (la machine virtuelle ne répond pas, est tombée en panne ou a cessé de fonctionner)	Temps de reprise rapide avec redémarrage de l'application sur OS2 en cas de panne du serveur 1 Autour d'1 mn ou moins (voir RTO/RPO ici) Checker applicatif et reprise sur panne logicielle
Solution générique pour n'importe quelle application / OS	Scripts de redémarrage à écrire dans des modules applicatifs
Fonctionne avec Windows/Hyper-V et Linux/KVM mais pas avec VMware	Indépendant de la plateforme, fonctionne avec les machines physiques ou virtuelles, une infrastructure cloud et tout hyperviseur, y compris VMware

SafeKit avec le module Hyper-V ou le module KVM	Microsoft Hyper-V Cluster & VMware HA

Pas de disque partagé - réplication temps réel synchrone à la place avec 0 perte de données	Disque partagé et baie de disques externe spécifique
Sites distants = pas de SAN pour la réplication	Sites distants = baies de disques répliquées à travers un SAN
Aucune compétence informatique spécifique pour configurer le système (avec hyperv.safe et kvm.safe)	Compétence informatique spécifique pour configurer le système
Notez que les solutions Hyper-V/SafeKit et KVM/SafeKit sont limitées à la réplication et au basculement de 32 machines virtuelles.	Notez que la réplication intégrée à Hyper-V ne peut pas être considérée comme une solution de haute disponibilité. En effet, la réplication est asynchrone, ce qui peut entraîner une perte de données en cas de panne, et elle ne dispose pas de fonctionnalités de basculement et de restauration automatiques.

Qu'est-ce que le RPO et le RTO avec des exemples ?

Evidian SafeKit

Qu'est-ce que le RPO et le RTO avec des exemples de solutions de haute disponibilité et de sauvegarde ?

Aperçu

Qu'est-ce que le RPO ?

Qu'est-ce que le RTO ?

RTO avec l'exemple du cluster miroir de SafeKit

RTO avec l'exemple du cluster ferme de SafeKit

RPO avec l'exemple du cluster miroir de SafeKit

RPO avec l'exemple du cluster ferme de SafeKit

Quels sont les avantages d'un cluster miroir ?

Quels sont les avantages d'un cluster ferme ?

Solutions SafeKit et guides d'installation rapide

Différentiateurs de la solution de haute disponibilité SafeKit

Cluster miroir d'Evidian SafeKit avec réplication de fichiers temps réel et reprise sur panne

Cluster ferme d'Evidian SafeKit avec load balancing et reprise sur panne