Différence entre haute disponibilité et tolérance aux fautes
Evidian SafeKit
Comment comparer haute disponibilité et tolérance aux fautes ?
Aperçu
Cet article étudie les avantages et les inconvénients d'un cluster de haute disponibilité par rapport à un système tolérant aux fautes en examinant les contraintes matérielles, les défaillances logicielles, le RTO, le RPO...
Les tableaux comparatifs suivants expliquent en détail les différences entre un système tolérant aux fautes et SafeKit, un cluster logiciel de haute disponibilité.
Qu'est ce que la haute disponibilité ?
Un cluster de haute disponibilité repose sur deux serveurs avec redémarrage de l'application critique en cas de panne matérielle ou logicielle. Il existe 2 types de clusters : les clusters matériels et les clusters logiciels.
Les clusters matériels sont basés sur des disques partagés, ce qui entraîne des dépendances entre les serveurs et leurs connexions aux baies de disques partagés.
Les clusters logiciels, comme Evidian SafeKit, sont basés sur la réplication de données en temps réel et sont indépendants du matériel : ils peuvent être déployés sur des serveurs physiques ou virtuels ou dans le cloud.
Qu'est ce que la tolérance aux fautes ?
Un système tolérant aux fautes s'appuie sur du matériel spécialisé ou sur un hyperviseur spécialisé pour détecter une panne matérielle et basculer instantanément vers un composant matériel redondant sans redémarrage de l'application.
Les systèmes tolérants aux fautes ne traitent que les pannes matérielles et non les pannes logicielles, de loin la raison la plus courante d'indisponibilité d'un système.
Avantages et inconvénients de la haute disponibilité par rapport à la tolérance aux fautes
Cluster de haute disponibilité logicielle |
Système fault-tolerant |
Produit |
|
SafeKit sous Windows et Linux |
Produits de tolérance aux fautes |
Matériel, hyperviseur |
|
Pas de matériel dédié, pas d'hyperviseur dédié. Fonctionne avec l'hyperviseur standard et gratuit de Windows, Hyper-V, inclus dans le noyau Windows pour les serveurs et les PC. Fonctionne avec l'hyperviseur standard et gratuit KVM (Kernel-based Virtual Machine) intégré dans le noyau Linux. Chaque serveur peut-être le serveur de reprise de l'autre pour de multiples applications. |
Matériel dédié ou hyperviseur dédié. Le serveur secondaire est dédié à l'exécution de la même application synchronisée au niveau instruction. |
Panne logicielle |
|
Panne logicielle supportée avec redémarrage dans un environnement OS différent. |
Exception logicielle sur les 2 serveurs en même temps sur le même OS. |
Upgrade/fix en douceur de l'application ou de l'OS |
|
Oui Upgrade/fix en douceur de l'application ou de l'OS serveur par serveur. Les versions N et N+1 peuvent coexister. |
Non Même application et OS sur les 2 serveurs. |
RTO/RPO |
|
Le temps de reprise avec SafeKit (RTO) dépend du temps de détection et de redémarrage de l'application (environ 1 minute). La perte de données avec SafeKit (RPO) est nulle car la réplication est synchrone. |
Le temps de reprise (RTO) d'un système fault-tolerant est nul. L'application n'est pas redémarrée en cas de panne et continue son exécution sur le serveur secondaire. La perte de données (RPO) est également nulle. |
Flexibilité |
|
Peut fonctionner sur n'importe quel type de serveur avec OS Windows et Linux standard |
Dépend d'un matériel spécifique ou d'hyperviseurs spécifiques |
Convient pour |
|
Les éditeurs de logiciels qui souhaitent ajouter une option de disponibilité simple pour leur application |
Environnement où les pannes matérielles sont la principale préoccupation |
HA de VMs avec le module Hyper-V ou KVM de SafeKit | HA d'application avec les modules applicatifs de SafeKit |
SafeKit dans 2 hyperviseurs: réplication et reprise de VM complète |
SafeKit dans 2 machines virtuelles ou physiques: réplication et reprise au niveau applicatif |
Réplique plus de données (App+OS) | Réplique seulement les données applicatives |
Reboot de la machine virtuelle sur l'hyperviseur 2 si l'hyperviseur 1 crash Temps de reprise dépendant du reboot de l'OS Checker de VM et reprise sur panne (la machine virtuelle ne répond pas, est tombée en panne ou a cessé de fonctionner) |
Temps de reprise rapide avec redémarrage de l'application sur OS2 en cas de panne du serveur 1 Autour d'1 mn ou moins (voir RTO/RPO ici) Checker applicatif et reprise sur panne logicielle |
Solution générique pour n'importe quelle application / OS | Scripts de redémarrage à écrire dans des modules applicatifs |
Fonctionne avec Windows/Hyper-V et Linux/KVM mais pas avec VMware | Indépendant de la plateforme, fonctionne avec les machines physiques ou virtuelles, une infrastructure cloud et tout hyperviseur, y compris VMware |
SafeKit avec le module Hyper-V ou le module KVM | Microsoft Hyper-V Cluster & VMware HA |
Pas de disque partagé - réplication temps réel synchrone à la place avec 0 perte de données | Disque partagé et baie de disques externe spécifique |
Sites distants = pas de SAN pour la réplication | Sites distants = baies de disques répliquées à travers un SAN |
Aucune compétence informatique spécifique pour configurer le système (avec hyperv.safe et kvm.safe) | Compétence informatique spécifique pour configurer le système |
Notez que les solutions Hyper-V/SafeKit et KVM/SafeKit sont limitées à la réplication et au basculement de 32 machines virtuelles. | Notez que la réplication intégrée à Hyper-V ne peut pas être considérée comme une solution de haute disponibilité. En effet, la réplication est asynchrone, ce qui peut entraîner une perte de données en cas de panne, et elle ne dispose pas de fonctionnalités de basculement et de restauration automatiques. |
Cluster miroir d'Evidian SafeKit avec réplication de fichiers temps réel et reprise sur panne |
|
Économisez avec 3 produits en 1 En savoir plus > |
|
Configuration très simple En savoir plus > |
|
Réplication synchrone En savoir plus > |
|
Retour d'un serveur tombé en panne totalement automatisé (failback) En savoir plus > |
|
Réplication de n'importe quel type de données En savoir plus > |
|
Réplication de fichiers vs réplication de disque En savoir plus > |
|
Réplication de fichiers vs disque partagé En savoir plus > |
|
Sites distants et adresse IP virtuelle En savoir plus > |
|
Split brain et quorum En savoir plus > |
|
Cluster actif/actif En savoir plus > |
|
Solution de haute disponibilité uniforme En savoir plus > |
|
RTO / RPO En savoir plus > |
|
Cluster ferme d'Evidian SafeKit avec load balancing et reprise sur panne |
|
Pas de load balancer, ni de serveur proxy dédié, ni d'adresse Ethernet multicast spéciale En savoir plus > |
|
Toutes les fonctionnalités de clustering En savoir plus > |
|
Sites distants et adresse IP virtuelle En savoir plus > |
|
Solution de haute disponibilité uniforme En savoir plus > |
|
|
|
Cluster de type "shared nothing"" vs cluster à disque partagé En savoir plus > |
|
|
|
|
|
Haute disponibilité vs tolérance aux fautes En savoir plus > |
|
|
|
Réplication synchrone vs réplication asynchrone En savoir plus > |
|
|
|
Réplication de fichiers au niveau octet vs réplication de disque au niveau du bloc En savoir plus > |
|
|
|
Heartbeat, reprise sur panne et quorum pour éviter 2 serveurs maîtres En savoir plus > |
|
|
|
|
|
New application (real-time replication and failover)
New application (network load balancing and failover)
Database (real-time replication and failover)
- Microsoft SQL Server mirror
- PostgreSQL mirror
- MySQL mirror
- Oracle mirror
- MariaDB mirror
- Firebird mirror
Web (network load balancing and failover)
Full VM or container real-time replication and failover
Amazon AWS
Google GCP
Microsoft Azure
Other clouds
Physical security (real-time replication and failover)
Siemens (real-time replication and failover)
New application (real-time replication and failover)
- Windows (mirror.safe)
- Linux (mirror.safe)
New application (network load balancing and failover)
Database (real-time replication and failover)
- Microsoft SQL Server (sqlserver.safe)
- PostgreSQL (postgresql.safe)
- MySQL (mysql.safe)
- Oracle (oracle.safe)
- MariaDB (sqlserver.safe)
- Firebird (firebird.safe)
Web (network load balancing and failover)
- Apache (apache_farm.safe)
- IIS (iis_farm.safe)
- NGINX (farm.safe)
Full VM or container real-time replication and failover
- Hyper-V (hyperv.safe)
- KVM (kvm.safe)
- Docker (mirror.safe)
- Podman (mirror.safe)
- Kubernetes K3S (k3s.safe)
Amazon AWS
- AWS (mirror.safe)
- AWS (farm.safe)
Google GCP
- GCP (mirror.safe)
- GCP (farm.safe)
Microsoft Azure
- Azure (mirror.safe)
- Azure (farm.safe)
Other clouds
- All Cloud Solutions
- Generic (mirror.safe)
- Generic (farm.safe)
Physical security (real-time replication and failover)
- Milestone XProtect (milestone.safe)
- Nedap AEOS (nedap.safe)
- Genetec SQL Server (sqlserver.safe)
- Bosch AMS (hyperv.safe)
- Bosch BIS (hyperv.safe)
- Bosch BVMS (hyperv.safe)
- Hanwha Vision (hyperv.safe)
- Hanwha Wisenet (hyperv.safe)
Siemens (real-time replication and failover)
- Siemens Siveillance suite (hyperv.safe)
- Siemens Desigo CC (hyperv.safe)
- Siemens Siveillance VMS (SiveillanceVMS.safe)
- Siemens SiPass (hyperv.safe)
- Siemens SIPORT (hyperv.safe)
- Siemens SIMATIC PCS 7 (hyperv.safe)
- Siemens SIMATIC WinCC (hyperv.safe)