�pisode 10 � Clustering Proxmox : Haute Disponibilit� & Live Migration

Illustration clustering Proxmox VE � Haute Disponibilit�, Live Migration

?é Comp�tences acquises

Passer au Niveau Cluster Multi-N�uds

💰

Cr�er un Cluster

Unifier plusieurs serveurs Proxmox en un seul datacenter virtuel g�r� depuis une interface unique. Ajouter et retirer des n�uds facilement.

💰

Live Migration

D�placer une VM en fonctionnement d'un serveur � un autre sans aucune interruption de service. Z�ro downtime pour la maintenance.

??é

Haute Disponibilit� (HA)

Configurer le red�marrage automatique des VMs sur un autre n�ud en cas de panne mat�rielle. Le homelab qui se r�pare tout seul.

💰

Quorum & Corosync

Comprendre le m�canisme de quorum Proxmox pour �viter le split-brain, configurer le r�seau de clustering d�di� et assurer la stabilit� du cluster.

??é Le Tutoriel Complet

Clustering Proxmox de A � Z

La m�taphore d'OWL : La Flotte de Navires ?é
Un seul serveur Proxmox, c'est un navire de croisi�re impressionnant � mais si le moteur tombe en panne, tous les passagers (VMs) sont bloqu�s. Un cluster, c'est une flotte de navires : si l'un est en maintenance, les passagers sont transf�r�s sur un autre sans m�me s'arr�ter de danser.

La Live Migration, c'est le transbordeur qui transf�re les passagers en pleine mer, sans escale. La Haute Disponibilit�, c'est le syst�me automatique qui d�tecte qu'un navire coule et envoie automatiquement les canots de sauvetage. Le quorum, c'est le vote des capitaines pour d�cider qui commande si le commandant principal devient silencieux. ?é

1. Pr�requis du Cluster � Avant de Commencer é
Un cluster Proxmox requiert une configuration r�seau et syst�me rigoureuse. Un mauvais setup = instabilit� garantie.

é Requis obligatoires

éMinimum 3 n�uds (pour le quorum) ou 2 n�uds + QDevice

éM�me version Proxmox VE sur tous les n�uds

éNTP synchronis� (m�me heure sur tous les n�uds)

éR�seau d�di� pour Corosync (id�alement s�par� du LAN)

éStockage partag� pour la HA (NFS/Ceph) ou r�plication

é Erreurs classiques � �viter

éCluster � 2 n�uds sans QDevice (split-brain garanti)

éCorosync sur le m�me r�seau que les VMs (latence)

éN�uds avec des noms de machine non r�solus entre eux

éLive Migration sans stockage partag� (n�cessite Ceph ou NFS)

éCasser un cluster existant pour le recr�er (tr�s complexe)

?é CLI � V�rifier les pr�requis avant clustering

# V�rifier que NTP est synchronis� (crucial !)
timedatectl status
NTP service: active
System clock synchronized: yes

# V�rifier la r�solution des noms entre n�uds
ping -c2 pve2.local é depuis pve1
ping -c2 pve1.local é depuis pve2

# Ajouter les n�uds dans /etc/hosts si pas de DNS
echo "192.168.1.50 pve1 pve1.local" >> /etc/hosts
echo "192.168.1.51 pve2 pve2.local" >> /etc/hosts
echo "192.168.1.52 pve3 pve3.local" >> /etc/hosts

# V�rifier la version Proxmox sur chaque n�ud
pveversion
proxmox-ve: 8.3-1 (running kernel: 6.8.12-5-pve)

2. Cr�er le Cluster et Ajouter des N�uds ?é
Le cluster se cr�e sur un n�ud ma�tre, puis les autres n�uds le rejoignent. Une fois joint, toute la gestion se fait depuis n'importe quel n�ud.

1

??é Cr�er le cluster sur le n�ud principal (pve1)
Sur pve1 é Panneau gauche é Datacenter é Cluster é Create Cluster é Remplis : Cluster Name (ex: `homelab-cluster`), Cluster Network = adresse IP de pve1 sur le r�seau Corosync (ex: `192.168.2.50`) é "Create". Attends quelques secondes.

2

??é Copier les informations de jonction
Toujours sur pve1 é Datacenter é Cluster é Join Information é bouton "Copy Information". Ce texte encod� contient tout ce dont pve2 a besoin pour rejoindre le cluster.

3

??é Rejoindre le cluster depuis pve2
Sur pve2 é Datacenter é Cluster é Join Cluster é colle le texte copi� depuis pve1 dans le champ "Information" é entre le mot de passe root de pve1 é "Join". pve2 red�marre ses services et rejoint le cluster.

4

??é V�rifier que le cluster est op�rationnel
Depuis n'importe quel n�ud é Datacenter é Cluster : tu vois tous les n�uds list�s avec leur statut (?é Online). Dans le panneau gauche, les deux n�uds apparaissent c�te � c�te. Tu g�res tout depuis une seule interface !

?é CLI � Cr�er et rejoindre un cluster

### Sur pve1 � Cr�er le cluster ###
pvecm create homelab-cluster --link0 192.168.2.50
Corosync Cluster Engine Authentication key generated.
Creating corosync config...
Cluster successfully created!

# V�rifier l'�tat du cluster sur pve1
pvecm status
Cluster information:
Name: homelab-cluster
Version: 1
Nodes: 1 (quorum: 1/1)

### Sur pve2 � Rejoindre le cluster ###
pvecm add 192.168.2.50
Please enter superuser (root) password for '192.168.2.50': ****
Establishing API connection with host '192.168.2.50'
...join successful

# V�rifier depuis n'importe quel n�ud
pvecm nodes
Membership information
Nodeid Votes Name
1 1 pve1 (local)
2 1 pve2

# �tat complet du cluster
pvecm status
Quorum information: Quorate: Yes � All nodes online é

3. Cluster � 2 N�uds � Le QDevice ?é
Avec seulement 2 n�uds, si l'un tombe, l'autre n'a plus le quorum (majorit� des votes) et se bloque pour �viter le split-brain. La solution : un QDevice � un petit service sur un Raspberry Pi ou une VM l�g�re qui donne le vote d�cisif.

?é Comprendre le Quorum

2

n�uds sans QDevice

Si 1 tombe é cluster bloqu� é

2+Q

2 n�uds + QDevice

Si 1 tombe é cluster OK é

3+

3 n�uds ou plus

Quorum natif robuste é

1

??é Pr�parer le serveur QDevice
Sur un Raspberry Pi / VM Debian l�g�re (s�par�e des n�uds Proxmox) é installe le service via la commande CLI. Ce serveur doit avoir une IP fixe et �tre joignable des deux n�uds Proxmox.

2

??é Ajouter le QDevice au cluster
Datacenter é Cluster é Add QDevice é entre l'IP du serveur QDevice é "Add". Proxmox configure automatiquement Corosync pour utiliser ce nouveau votant. Le cluster passe � 3 votes (pve1 + pve2 + QDevice).

?é CLI � Installer et configurer le QDevice

### Sur le serveur QDevice (Raspberry Pi / VM Debian) ###
apt update && apt install -y corosync-qnetd
systemctl enable --now corosync-qnetd
é corosync-qnetd.service - Active: active (running) é

### Sur pve1 (n�ud principal du cluster) ###
apt install -y corosync-qdevice
pvecm qdevice setup 192.168.1.100 é IP du Raspberry Pi
Quorum device successfully configured.
Votes: pve1(1) + pve2(1) + QDevice(1) = 3 votes total
Quorum: 2/3 needed é survit � 1 panne é

# V�rifier
pvecm status | grep -E "Quorum|Nodes|Votes"
Quorate: Yes
Nodes: 2 (+ 1 QDevice)
Total votes: 3

4. Live Migration � D�placer les VMs � Chaud ?é
La Live Migration permet de d�placer une VM en cours d'ex�cution d'un n�ud � un autre sans interruption. Proxmox synchronise la RAM et l'�tat CPU en temps r�el, puis bascule � la VM ne voit rien !

?é Pr�requis pour la Live Migration

éStockage partag� entre les n�uds (NFS, Ceph, ou PBS) � ou utiliser la migration offline avec stockage local

éCPU de m�me famille (Intel?Intel ou AMD?AMD) pour la Live Migration avec RAM

éSuffisamment de RAM disponible sur le n�ud de destination

?éSans stockage partag� : utiliser Offline Migration (VM arr�t�e) ou activer la r�plication de disque

1

??é Lancer la migration depuis l'interface
S�lectionne la VM é clic-droit é "Migrate" (ou bouton "Migrate" dans la barre du haut). La VM peut �tre en marche (Live) ou arr�t�e (Offline).

2

??é Configurer la destination
Target Node : s�lectionne le n�ud de destination (ex: `pve2`). Target Storage : le storage de destination (doit exister sur pve2). Mode "Online" si la VM tourne é "Migrate".

3

??é Suivre la progression
La t�che de migration appara�t dans Tasks en bas de l'interface. Tu peux voir le pourcentage de RAM synchronis�e. En 30 secondes � quelques minutes (selon la taille RAM), la VM a boug� � sans perdre une seule connexion r�seau !

?é CLI � Live Migration & Offline Migration

# Live Migration (VM en cours d'ex�cution) vers pve2
qm migrate 100 pve2 --online
Migrating VM 100 to node 'pve2': 0%...
Precondition check: OK
Sending RAM pages: 85%...
VM successfully migrated to pve2 é

# Offline Migration (VM arr�t�e) avec d�placement du disque
qm migrate 101 pve2 --targetstorage local-lvm

# Migration d'un LXC
pct migrate 200 pve2 --target-storage local-lvm --online

# V�rifier o� tourne une VM apr�s migration
pvesh get /cluster/resources --type vm | grep "100"
qemu/100 pve2 running vm-100 2048MB
# é Bien sur pve2 maintenant é

5. Haute Disponibilit� (HA) � Red�marrage Automatique ??é
La HA permet � Proxmox de d�tecter automatiquement qu'un n�ud est tomb� et de red�marrer ses VMs sur un n�ud survivant. Ton homelab devient auto-r�parant !

?é Comment fonctionne le HA Proxmox

S�quence HA en cas de panne

1. pve1 tombe (panne r�seau / crash / coupure)
2. Corosync d�tecte la perte de contact é attend 30s (fence delay)
3. Fencing : pve2 envoie un signal STONITH pour couper pve1 proprement
4. HA Manager sur pve2 d�marre les VMs HA de pve1
5. VMs red�marr�es sur pve2 en ~1-2 minutes é
6. Quand pve1 revient é il r�cup�re ses VMs ou reste en standby

1

??é Cr�er un HA Group
Datacenter é HA é Groups é Add é ID = `critical-vms` é Nodes : s�lectionne pve1 et pve2 avec leur priorit� (pve1=100, pve2=50) é "Create". Le groupe d�finit sur quels n�uds les VMs HA peuvent tourner et leur priorit�.

2

??é Ajouter une VM au HA
Datacenter é HA é Resources é Add é VM = s�lectionne la VM (ex: `100`), Group = `critical-vms`, Max. Restarts = 3, Max. Relocates = 1 é "Create". La VM est maintenant prot�g�e par HA.

3

??é Surveiller le statut HA
Datacenter é HA é onglet "Status" : tu vois le gestionnaire HA actif, les VMs prot�g�es et leur �tat. En cas de panne simul�e, tu peux suivre ici le basculement automatique en temps r�el.

?é CLI � Configurer la Haute Disponibilit�

# Cr�er un groupe HA
pvesh create /cluster/ha/groups \
--group critical-vms \
--nodes "pve1:100,pve2:50"

# Ajouter la VM 100 au groupe HA
pvesh create /cluster/ha/resources \
--sid "vm:100" \
--group critical-vms \
--max_restart 3 \
--max_relocate 1

# Voir les ressources HA
pvesh get /cluster/ha/resources
sid: vm:100 state: started group: critical-vms é

# Status du HA Manager
ha-manager status
quorum OK � master: pve1 � services: 1 started

# Simuler une panne (tester le HA) � ATTENTION !
# systemctl stop corosync é coupe pve1 du cluster
# é pve2 reprend les VMs HA automatiquement en ~2min

?é
Pr�requis HA : La HA n�cessite un stockage partag� (NFS, Ceph, ou Proxmox Backup Server) entre les n�uds. Sans stockage partag�, Proxmox ne peut pas acc�der aux disques des VMs sur le n�ud tomb�. Pour un homelab sans Ceph, utilise un NAS NFS partag� (voir EP06).

6. R�plication ZFS � Disques Locaux en Cluster ?é
Si tu n'as pas de stockage partag�, Proxmox propose la r�plication ZFS : les disques des VMs sont r�pliqu�s � intervalles r�guliers vers un autre n�ud. En cas de panne, le n�ud survivant a une copie r�cente. Pas du vrai HA, mais tr�s efficace pour un homelab.

1

??é Configurer la r�plication d'une VM
S�lectionne la VM é onglet "Replication" é bouton "Add" é Target = n�ud de destination (ex: `pve2`), Schedule = fr�quence (ex: `/15` = toutes les 15 min), Rate = bande passante max é "Create".

2

??é Surveiller l'�tat de r�plication
Datacenter é Replication : tableau de toutes les r�plications avec leur statut (OK, Last Sync, Duration, Error). En cas d'�chec, le statut passe en rouge avec le message d'erreur d�taill�.

?é CLI � R�plication ZFS entre n�uds

# Ajouter une r�plication pour la VM 100 vers pve2
pvesh create /nodes/pve1/replication \
--id 100-0 \
--target pve2 \
--type local \
--schedule "/15"
Replication job created: 100-0 é pve2 (every 15 min) é

# V�rifier le statut de r�plication
pvesh get /nodes/pve1/replication/100-0/status
state: ok
last_sync: 2026-04-11 12:00:02
duration: 8.3s
fail_count: 0

# Forcer une synchronisation manuelle
pvesh create /nodes/pve1/replication/100-0/scheduleNow

# En cas de panne de pve1 é sur pve2
# La VM 100 appara�t dans le panneau de pve2 avec le dernier snapshot r�pliqu�
# D�marrer manuellement depuis pve2 :
qm start 100

é Checklist � Cluster Proxmox Op�rationnel

épvecm status affiche Quorate: Yes sur tous les n�uds
éSi cluster � 2 n�uds : QDevice configur� et votant
éLive Migration test�e sur une VM non critique (pas de perte de connexion)
éAu moins une VM critique ajout�e au groupe HA et test�e
éR�plication ZFS ou stockage partag� NFS configur� pour les VMs HA
éNTP synchronis� sur tous les n�uds (timedatectl status | grep synchronized)

???é

Formation Proxmox VE � Termin�e !

F�licitations ! Tu as parcouru les 10 �pisodes de la formation Proxmox VE : de l'installation bare-metal jusqu'au clustering haute disponibilit�. Tu as maintenant toutes les comp�tences pour g�rer un homelab pro.

é Installation é VMs & LXC é R�seau & VLANs é Stockage ZFS é Backups & HA é S�curit� & 2FA é Monitoring é Clustering

?é Probl�mes Courants & Solutions

é Le cluster perd le quorum et les VMs se bloquent é

?é Si tu n'as que 2 n�uds sans QDevice et que l'un tombe, le surviving node perd le quorum et se bloque (pour �viter le split-brain). Solution temporaire : pvecm expected 1 pour forcer le quorum avec 1 seul n�ud (dangereux sur prod, OK pour urgence/lab). Solution permanente : ajouter un QDevice.

é La Live Migration �choue avec "storage not available on target" é

?é Le storage o� r�side le disque de la VM n'est pas accessible sur le n�ud de destination. Solutions : 1) Utilise un storage partag� NFS visible des deux n�uds, 2) Ajoute --targetstorage local-lvm pour migrer ET d�placer le disque (offline seulement), 3) Configure la r�plication ZFS avant de migrer.

é Le HA ne red�marre pas les VMs apr�s panne du n�ud é

?é V�rifie : 1) Le fencing est configur� (STONITH) � sans fencing, le HA ne peut pas agir (il ne sait pas si pve1 est vraiment mort ou juste isol�). 2) Le storage des VMs est accessible depuis pve2. 3) ha-manager status é le manager est bien en mode "master" sur pve2. 4) L'�tat HA de la VM est "started" et non "disabled".

é Comment retirer proprement un n�ud du cluster é

?é 1) Migre toutes les VMs vers d'autres n�uds. 2) Depuis le n�ud � retirer : pvecm delnode pveX. 3) Depuis les autres n�uds (si pveX ne r�pond plus) : pvecm delnode pveX --force. 4) Sur pveX lui-m�me apr�s d�connexion : systemctl stop corosync pve-cluster && rm /etc/corosync/* /var/lib/corosync/* /etc/pve/nodes/.

é Clustering Proxmox � Haute Disponibilit� & Live Migration

Passer au Niveau Cluster Multi-N�uds

Clustering Proxmox de A � Z

é Checklist � Cluster Proxmox Op�rationnel

Formation Proxmox VE � Termin�e !

?é Probl�mes Courants & Solutions

?é Commentaires & Discussion