Chapter 44. Surveillance, continuité de service

Sylvain Cherrier

Table of Contents

Principe de fonctionnement
Le matériel
Assurer la surveillance entre machines du cluster
Le logiciel
les pré-requis
L'installation
les fichiers de configuration
Mise en route
Exercices

Abstract

Heartbeat, logiciel de gestion de cluster pour la haute disponibilité (d'après Linux Magazine Hors Série 18 - Haute Disponibilité)

La continuité de service consiste à garantir la disponibilité de votre service. Si le serveur qui est chargé d'offrir ce service tombe en panne, il faut être capable de basculer rapidement sur une machine de secours. De même, il faudra gérer la remise en service du serveur principal. C'est le rôle de HEARTBEAT que je vous propose d'installer ici...

Principe de fonctionnement

Afin de garantir la continuité de service, nous devonsons utiliser des machines strictement identiques au niveau du contenu et des services offerts. Le rôle de hearbeat, c'est la surveillance de la machine principale par la (ou les) machine(s) de secours, et son activation en cas de défaillance du serveur principal. La synchronisation des contenus et des réglages n'est pas assurée par Heartbeat (pensez y notamment pour les contenus dynamiques, tels que les bases de données. Il faudra trouver une solution pour copier les contenus). Ces machines fonctionneront en cluster, c'est à dire qu'elles formeront à elles toutes UNE PSEUDO MACHINE.

Ainsi, définissons notre pseudo machine : 192.168.1.100.

Nos deux machines réelles auront pour adresses respectives 192.168.1.1, et 192.168.1.2.

Example 44.1. le cluster

le cluster (virtuel) www : 192.168.1.100

la première machine srv-principal : 192.168.1.1

la deuxième machine srv-secours : 192.168.1.2

C'est le cluster qui sera visible pour les clients. Ainsi, vous mettez à disposition la machine www (192.168.1.100). On décidera par exemple que c'est réellement la machine srv-principal (192.168.1.1) qui assure ce service, secondée par srv-secours (192.168.1.2).

Si d'aventure srv-principal tombait, alors très rapidement srv-secours le détectera, se donnera l'adresse IP de www (192.168.1.100), lancera des services selon sa configuration.

Au retour de srv-principal , on pourra, selon le fichier de configuration, continuer le service sur le serveur de secours, ou redonner la charge au serveur principal. Là encore, si il y a transfert d'identité, les scripts seront exécutés à nouveau (arrêt sur srv-secours, et lancement sur srv-principal).