Différences

Ci-dessous, les différences entre deux révisions de la page.

--- tech:haute_dispo_cluster_failover_redhat [2025/03/24 15:06] – créée - modification externe 127.0.0.1
+++ tech:haute_dispo_cluster_failover_redhat [2025/10/30 17:23] (Version actuelle) – Jean-Baptiste
@@ Ligne 1: / Ligne 1: @@
+<!DOCTYPE markdown>
 {{tag>Brouillon}}
-= Haute dispo cluster failover redhat
+# Haute dispo cluster failover redhat
 Voir aussi :
 * OpenSVC
+* Paquet resource-agents
 Ressources :
@@ Ligne 19: / Ligne 21: @@
 * https://www.youtube.com/watch?v=RbJwluN_qrY
-== Installation
+## Installation
 Voir :
@@ Ligne 25: / Ligne 27: @@
 * http://clusterlabs.org/doc/en-US/Pacemaker/
-=== Prérequis
+### Prérequis
 Prérequis
-# Date syncho
+  * Date syncho
-# SELinux désactivé
+  * SELinux désactivé
-# service NetworkManager arrêté
+  * service NetworkManager arrêté
-# Règles pare-feu
+  * Règles pare-feu
-# Conf ''/etc/hosts''
+  * Conf ''/etc/hosts''
-==== Date synchro (ntp)
+#### Date synchro (ntp)
 Les nœuds doivent avoir la date et l'heure synchronisée (voir NTP)
 Vérif
-<code bash>
+~~~bash
 date
-</code>
+~~~
 Exemple avec Clush [[cluster_shell_parallele]]
-<code bash>
+~~~bash
 echo date |clush -B -w node-[1-2]
-</code>
+~~~
-==== SELinux désactivé
-<code bash>
+#### SELinux désactivé
+~~~bash
 setenforce 0
 sed -i.bak "s/SELINUX=enforcing/SELINUX=permissive/g" /etc/selinux/config
-</code>
+~~~
 Vérif
-<code bash>
+~~~bash
 sestatus
-</code>
+~~~
-==== Service NetworkManager arrêté et désactivé
+#### Service NetworkManager arrêté et désactivé
-<code bash>
+~~~bash
 systemctl stop NetworkManager
 systemctl disable NetworkManager
-</code>
+~~~
-==== Pare-feu
+#### Pare-feu
 Si pare-feu activé
-<code bash>
+~~~bash
 firewall-cmd --permanent --add-service=high-availability
 firewall-cmd --add-service=high-availability
-</code>
+~~~
 Ou
 Désactivation du parefeux
-<code bash>
+~~~bash
 systemctl stop firewalld
 systemctl disable firewalld
 #rpm -e firewalld
-</code>
+~~~
 Vérif
-<code bash>
+~~~bash
 iptables -L -n -v
-</code>
+~~~
-==== Résolution noms
+#### Résolution noms
 Chaque nœud doit pouvoir pinguer les autres via son nom.
 Il est conseiller d'utiliser ''/etc/hosts'' plutôt que DNS.
-<code - /etc/hosts>
+''/etc/hosts''
+~~~
 .0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
 ::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
@@ Ligne 99: / Ligne 106: @@
 .168.97.221      node-1.localdomain node-1
 .168.97.222      node-2.localdomain node-2
-</code>
+~~~
-=== Install
+### Install
 Install paquets
-<code bash>
+~~~bash
 yum install -y pacemaker pcs psmisc policycoreutils-python
-</code>
+~~~
-<code bash>
+~~~bash
 echo "P@ssw0rd" | passwd hacluster --stdin
@@ Ligne 115: / Ligne 123: @@
 #unset http_proxy
-#export no_proxy=localhost,127.0.0.1,node-1,node-2
+#export NO_PROXY=localhost,127.0.0.1,node-1,node-2
 pcs cluster auth node-1 node-2 #-u hacluster -p passwd
@@ Ligne 123: / Ligne 131: @@
 pcs cluster start --all
 pcs cluster enable --all
-</code>
+~~~
 Le fichier corosync.conf est automatiquement crée
-<code c /etc/corosync/corosync.conf>
+''/etc/corosync/corosync.conf''
+~~~c
 totem {
     version: 2
@@ Ligne 158: / Ligne 167: @@
     to_syslog: yes
 }
-</code>
+~~~
 Vérifier la conf de corosync 1
-<code bash>
+~~~bash
 corosync-cfgtool -s
-</code>
+~~~
 Doit retourner **no faults** \\
 Ne doit pas comporter d’adresse 127.0.0.1
 Vérifier la conf de corosync 2
-<code bash>
+~~~bash
 corosync-cmapctl  |grep members
 pcs status corosync
-</code>
+~~~
-=== Configuration
+### Configuration
 Prevent Resources from Moving after Recovery
-<code bash>
+~~~bash
 pcs resource defaults resource-stickiness=100
-</code>
+~~~
 Pas de quorum
-<code bash>
+~~~bash
 #pcs property set no-quorum-policy=ignore
 pcs property set no-quorum-policy=freeze
-</code>
+~~~
-== Configuration du fencing / stonith
+## Configuration du fencing / stonith
-=== Test en vue du fencing via iDRAC
+### Test en vue du fencing via iDRAC
 Voir https://www.devops.zone/tricks/connecting-ssh-drac-reboot-server/
 Tester du fencing
-<code bash>
+~~~bash
 /usr/sbin/fence_drac5 --ip=192.168.96.221 --username=root --password=calvin --ssh -c 'admin1->'
-</code>
+~~~
 Test avec OpenManage ''/opt/dell/srvadmin/sbin/racadm''
-<code bash>
+~~~bash
 racadm -r 192.168.96.221 -u root -p calvin get iDRAC.Info
-</code>
+~~~
 Test via SSH sur iDRAC
 Pour redemarrer le serveur en se connectant en SSH sur la iDRAC
-<code ->
+~~~
 ssh root@192.168.96.221
 racadm serveraction powercycle
-</code>
+~~~
 ** Si pas de stonith / fence ** sinon la VIP refusera de démarrer
-<code bash>
+~~~bash
 # Si pas de stonith / fence
 pcs property set stonith-enabled=false
-</code>
+~~~
-=== Vérif
+### Vérif
-<code bash>
+~~~bash
 crm_verify -LVVV
-</code>
+~~~
-=== Configuration
+### Configuration
-<code bash>
+~~~bash
 # pcs stonith create fence_node-1 fence_drac5 ipaddr=192.168.96.221 login=root passwd=calvin secure=1 cmd_prompt="/admin1->" pcmk_host_list=node-1 stonith-action=poweroff
 pcs stonith create fence_node-1 fence_drac5 ipaddr=192.168.96.221 login=root passwd=calvin secure=1 cmd_prompt="/admin1->" pcmk_host_list=node-1 op monitor interval="60s"
@@ Ligne 232: / Ligne 241: @@
 pcs stonith level add 1 node-1 fence_node-1
 pcs stonith level add 1 node-2 fence_node-2
-</code>
+~~~
 Interdire le suicide (le fencing de soi-même)
-<code bash>
+~~~bash
 pcs constraint location fence_node-1 avoids node-1
 pcs constraint location fence_node-2 avoids node-2
-</code>
+~~~
 Tester le fencing
-<code bash>
+~~~bash
 #stonith_admin --reboot node-1
 pcs stonith fence node-1
-</code>
+~~~
-=== Ajout ressources
+### Ajout ressources
 Ajout ressource VIP (adresse IP virtuelle)
-<code bash>
+~~~bash
 pcs resource create myvip IPaddr2 ip=192.168.97.230 cidr_netmask=24 nic=bond0 op monitor interval=30s on-fail=fence
 #pcs constraint location myvip prefers node-1=INFINITY
@@ Ligne 257: / Ligne 266: @@
 pcs constraint location myvip prefers node-2=50
 #pcs resource meta myvip resource-stickiness=100
-</code>
+~~~
 Ajouter ressource ping
-<code bash>
+~~~bash
 pcs resource create ping ocf:pacemaker:ping dampen=5s multiplier=1000 host_list=192.168.97.250 --clone
 pcs constraint location myvip rule score=-INFINITY pingd lt 1 or not_defined pingd
-</code>
+~~~
 Ajout ressource Apache
@@ Ligne 270: / Ligne 279: @@
 et arrêter le service d'apache sur l'ensemble des nœuds
-<code bash>
+~~~bash
 curl http://localhost/server-status
 systemctl stop httpd.service
 systemctl disable httpd.service
-</code>
+~~~
-<code bash>
+~~~bash
 pcs resource create srvweb apache configfile="/etc/httpd/conf/httpd.conf" statusurl="http://127.0.0.1/server-status" op monitor interval=1min #--clone
 # Le serveur Web toujours sur la VIP
@@ Ligne 282: / Ligne 291: @@
 # D'abord la VIP puis le serveur Web
 pcs constraint order myvip then srvweb
-</code>
+~~~
+## Manip
-== Manip
 Déplacer la VIP
-<code bash>
+~~~bash
 pcs resource move myvip node-1
 pcs resource move myvip node-2
-</code>
+~~~
 Retour arrière - Déplacer la VIP
-<code bash>
+~~~bash
 #pcs constraint --full |grep prefer
 pcs constraint remove cli-prefer-myvip
 pcs resource relocate run
-</code>
+~~~
 Remise à zero compteur erreurs
-<code bash>
+~~~bash
 #pcs resource failcount reset res1
 #crm_resource -P
 pcs resource cleanup
-</code>
+~~~
 Déplacer toutes les ressources sur le nœud primaire (ignoring resource stickiness)
-<code bash>
+~~~bash
 #pcs resource relocate show
 pcs resource relocate run
-</code>
+~~~
 Maintenance sur une ressource
-<code bash>
+~~~bash
 #pcs resource update fence_node-1 meta target-role=stopped
 #pcs resource update fence_node-1 meta is-managed=false
@@ Ligne 320: / Ligne 328: @@
 #pcs resource disable fence_node-1
 pcs resource unmanage fence_node-1
-</code>
+~~~
 Maintenance générale du cluster
-<code bash>
+~~~bash
 pcs property set maintenance-mode=true
-</code>
+~~~
 Fin de maintenance
-<code bash>
+~~~bash
 pcs property set maintenance-mode=false
-</code>
+~~~
 Arrêt du cluster
-<code bash>
+~~~bash
 pcs cluster stop --all
 pcs cluster disable --all
-</code>
+~~~
-== Diagnostic / Supervision
+## Diagnostic / Supervision
-=== Diag Passif
+### Diag Passif
 [[http://clusterlabs.org/doc/en-US/Pacemaker/1.1-pcs/html/Clusters_from_Scratch/_verify_corosync_installation.html|Vérif corosync]]
-<code bash>
+~~~bash
 # Check syntax conf
 corosync -t
@@ Ligne 352: / Ligne 360: @@
 # check the node's network
 corosync-cmapctl  |grep members
-</code>
+~~~
 Vérif
-<code bash>
+~~~bash
 pcs cluster pcsd-status
 pcs cluster verify
@@ Ligne 363: / Ligne 371: @@
 journalctl --since yesterday -p err
 journalctl -u pacemaker.service --since "2017-02-24 16:00" -p warning
-</code>
+~~~
 Script supervision (ces commandes doivent retourner aucune ligne)
-<code bash>
+~~~bash
 LANG=C pcs status |egrep "Stopped|standby|OFFLINE|UNCLEAN|Failed|error"
 crm_verify -LVVV
 LANG=C pcs resource relocate show |sed -ne '/Transition Summary:/,$p' |grep -v '^Transition Summary:'
 crm_mon -1f | grep -q fail-count
-</code>
+~~~
 Voir plus haut si (script ''/usr/local/bin/crm_logger.sh'')
-<code bash>
+~~~bash
 tailf  /var/log/messages |grep "ClusterMon-External:"
-</code>
+~~~
 Script supervision
 Quel nœud est actif
-<code bash>
+~~~bash
 LANG=C crm_resource --resource myvip --locate |cut -d':' -f2 |tr -d ' '
-</code>
+~~~
 Le serveur web répond t-il bien en utilisant l'IP de la VIP. (Le code de retour doit-être **0**)
-<code bash>
+~~~bash
 #curl -4 -m 1 --connect-timeout 1 http://192.168.97.230/ > /dev/null 2>&1
 curl -4 -m 1 --connect-timeout 1 http://192.168.97.230/cl.html > /dev/null 2>&1
 #echo $?
-</code>
+~~~
-=== ACL
+### ACL
 Compte en lecture seule avec les droits de consulter crm_mon \\
 Attention : ce compte trouver le mdp iDRAC/Ilo
-<code bash>
+~~~bash
 pcs stonith --full |grep passwd
-</code>
+~~~
 Mise en œuvre
-<code bash>
+~~~bash
 #adduser rouser
 #usermod -a -G haclient rouser
@@ Ligne 410: / Ligne 418: @@
 #pcs acl user create rouser read-only
 pcs acl user create process read-only
-</code>
+~~~
-<code bash>
+~~~bash
 #crm_mon --daemonize --as-html /var/www/html/cl.html
-</code>
+~~~
-<code bash /usr/local/bin/crm_logger.sh>
+''/usr/local/bin/crm_logger.sh''
+~~~bash
 #!/bin/sh
 # https://access.redhat.com/documentation/en-US/Red_Hat_Enterprise_Linux/7/pdf/High_Availability_Add-On_Reference/Red_Hat_Enterprise_Linux-7-High_Availability_Add-On_Reference-en-US.pdf
@@ Ligne 423: / Ligne 432: @@
 ${CRM_notify_target_rc:-x} ${CRM_notify_status:-x} ${CRM_notify_recipient:-x}";
 exit
-</code>
+~~~
-<code bash>
+~~~bash
 chmod 755 /usr/local/bin/crm_logger.sh
 chown root.root /usr/local/bin/crm_logger.sh
-</code>
+~~~
-<code bash>
+~~~bash
 pcs resource create ClusterMon-External ClusterMon update=10000 user=process extra_options="-E /usr/local/bin/crm_logger.sh --watch-fencing" htmlfile=/var/www/html/cl.html pidfile=/tmp/crm_mon-external.pid op monitor on-fail="restart" interval="60" clone
-</code>
+~~~
 Colocation - page de monitoting toujours actif sur la VIP \\
 **Seulement nécessaire si ressource non clonée**
-<code bash>
+~~~bash
 pcs constraint colocation add ClusterMon-External with myvip
-</code>
+~~~
 Test
-<code bash>
+~~~bash
 curl 192.168.97.230/cl.html
-</code>
+~~~
 Voir https://access.redhat.com/documentation/en-US/Red_Hat_Enterprise_Linux/7/html/High_Availability_Add-On_Reference/s1-eventnotification-HAAR.html
-=== Diag Actif
+### Diag Actif
 En cas de pb
-<code bash>
+~~~bash
 pcs resource debug-start resource_id
-</code>
+~~~
-== Ajout 2em interface pour le heartbeat
+## Ajout 2em interface pour le heartbeat
@@ Ligne 462: / Ligne 471: @@
 Avant de modifier la conf, on passe le cluster en mode maintenance :
-<code bash>
+~~~bash
 pcs property set maintenance-mode=true
-</code>
+~~~
-<code - /etc/hosts>
+''/etc/hosts''
+~~~
 .168.21.10      node1
 .168.22.10     node1b
 .168.21.11      node2
 .168.22.11     node2b
-</code>
+~~~
 On ajoute **rrp_mode** et **ring1_addr**
-<code c /etc/corosync/corosync.conf>
+''/etc/corosync/corosync.conf''
+~~~c
 totem {
     rrp_mode: active
@@ Ligne 491: / Ligne 502: @@
     }
 }
-</code>
+~~~
-<code bash>
+~~~bash
 pcs cluster reload corosync
 pcs cluster status corosync
 corosync-cfgtool -s
 pcs property unset maintenance-mode
-</code>
+~~~
-== Reprise sur incident
+## Reprise sur incident
-<code bash>
+~~~bash
 #crm_resource -P
 pcs resource cleanup
 pcs resource relocate run
 #pcs cluster start --all
-</code>
+~~~
-== Crash-tests
+## Crash-tests
 Test 1 Crash brutal
-<code bash>
+~~~bash
 echo 1 > /proc/sys/kernel/sysrq
 echo c > /proc/sysrq-trigger
-</code>
+~~~
 Test 2 Coupure électrique : Débranchement du câble
 Test 3 Coupure réseaux
-<code bash>
+~~~bash
 ifdown bond0
-</code>
+~~~
 Test 4 Perte du ping de la passerelle sur l'un des nœud
-<code bash>
+~~~bash
 iptables -A OUTPUT -d 192.168.97.250/32 -p icmp -j REJECT
-</code>
+~~~
 Test 5 Fork bomb, nœud ne répond plus, sauf au ping
 Fork bomb
-<code bash>
+~~~bash
 :(){ :|:& };:
-</code>
+~~~
 Test 6 Perte connexion iDRAC :  Débranchement du câble
@@ Ligne 541: / Ligne 552: @@
-== Nettoyage - effacer
+## Nettoyage - effacer
-<code bash>
+~~~bash
 pcs cluster stop  --force #--all
 pcs cluster destroy  --force #--all
@@ Ligne 564: / Ligne 575: @@
 rm -rf /var/log/pcsd/
 rm -f /var/log/pacemaker.log*
-</code>
+~~~
-== Erreurs
+## Erreurs
-=== 1 Erreur Dell hardware
+### 1 Erreur Dell hardware
-<code ->
+~~~
 UEFI0081: Memory size has changed from the last time the system was started. No action is required if memory was added or removed.
-</code>
+~~~
 http://www.dell.com/support/manuals/fr/fr/frbsdt1/integrated-dell-remote-access-cntrllr-8-with-lifecycle-controller-v2.00.00.00/eemi_13g-v1/UEFI-Event-Messages?guid=GUID-C1C6F253-F8EF-43BF-B8ED-1A9B2A910AC4&lang=en-us
-=== 2 Test fork-bomb
+### 2 Test fork-bomb
-<code ->
+~~~
 error: Integration Timer (I_INTEGRATED) just popped in state S_INTEGRATION! (180000ms)
-</code>
+~~~
-== Autres
+## Autres
-=== Pour voir / vérifier les "property"
+### Pour voir / vérifier les "property"
-<code bash>
+~~~bash
 #pcs property set symmetric-cluster=true
 pcs property
-</code>
+~~~
-=== Ressources
+### Ressources
 Lister
-<code bash>
+~~~bash
 pcs resource standards
-</code>
+~~~
-<code ->
+~~~
 ocf
 lsb
@@ Ligne 606: / Ligne 617: @@
 systemd
 stonith
-</code>
+~~~
-<code bash>
+~~~bash
 pcs resource providers
-</code>
+~~~
-<code>
+~~~
 heartbeat
 openstack
 pacemaker
-</code>
+~~~
 Lister les agents : Exemple
-<code bash>
+~~~bash
 pcs resource agents systemd
 pcs resource agents ocf:heartbeat
-</code>
+~~~
 Timeout par défaut pour les ressources
-<code bash>
+~~~bash
 pcs resource op defaults timeout=240s
-</code>
+~~~
 Stopper toutes les ressources
-<code bash>
+~~~bash
 pcs property set stop-all-resources=true
-</code>
+~~~
-<code bash>
+~~~bash
 pcs property unset stop-all-resources
-</code>
+~~~
 ocf:pacemaker:ping \\
@@ Ligne 643: / Ligne 655: @@
 ''/usr/lib/ocf/resource.d/heartbeat/apache''
-<code bash>
+~~~bash
 egrep '^#.*OCF_RESKEY' /usr/lib/ocf/resource.d/heartbeat/apache
 export OCF_ROOT=/usr/lib/ocf/
 /usr/lib/ocf/resource.d/heartbeat/apache meta-data
-</code>
+~~~
 Autre
 Lister toutes les ressources
-<code bash>
+~~~bash
 crm_resource --list
-</code>
+~~~
 Dump CIB (Cluster Information Base)
-<code bash>
+~~~bash
 pcs cluster cib
 pcs cluster cib cib-dump.xml
-</code>
+~~~
 Ajout d'une ressource service
-<code bash>
+~~~bash
 pcs resource create CRON systemd:crond
 #pcs resource op add CRON start interval=0s timeout=1800s
-</code>
+~~~
 UPDATE
-<code bash>
+~~~bash
 pcs resource update ClusterMon-External  htmlfile='/tmp/cl.html'
-</code>
+~~~
 UNSET
-<code bash>
+~~~bash
 pcs resource update ClusterMon-External  htmlfile=
-</code>
+~~~
-=== Stonith
+### Stonith
-<code bash>
+~~~bash
 pcs property list --all |grep stonith
-</code>
+~~~
 Confirmer que le nœud est bien arrêté. \\
 Attention, si ce n'est pas le cas risque de pb
-<code bash>
+~~~bash
 pcs stonith confirm node2
-</code>
+~~~
-=== Failcount
+### Failcount
-<code bash>
+~~~bash
 crm_mon --failcounts
 pcs resource failcount show resource_id
 pcs resource failcount reset resource_id
-</code>
+~~~
 Actualisation de l’état, et remise à zéro du "failcount"
-<code bash>
+~~~bash
 pcs resource cleanup resource_id
-</code>
+~~~
-=== Install depuis zero
+### Install depuis zero
-<code bash>
+~~~bash
 echo "P@ssw0rd" |passwd hacluster --stdin
 systemctl start pcsd.service
@@ Ligne 741: / Ligne 753: @@
 pcs resource create appmgr systemd:appmgr
 pcs constraint colocation add appmgr with myvip
-</code>
+~~~
 ------------------