clvm et suppression de LV

Le
Eric Belhomme
Bonjour/bonsoir,

Soit l'environement suivant :

- une baie SAN FC,
- 3 serveurs connectés au SAN en multipath
- les serveurs font tourner Debian Lenny, avec clvm 2.02.29-8 recompilé
pour supporter le clustering via openais

J'ai pu créer un VG clustered sans problème, avec comme PV un LUN de mon
SAN mappé par multipath. Dans ce VG, je peux créer des LV et travailler
dessus sur n'importe lequel de mes 3 serveurs :
* un des LV est monté sur les 3 serveurs avec ocfs2
* d'autres LVs sont utilisées exclusivement sur les serveurs.

Le problème qui apparaît, c'est si je tente de modifier (lvchange) ou de
supprimer un LV (lvremove). Là rien ne va plus : lvm part en sucette
total : la commande lvm ne rend jamais la main, et à partir de là plus
aucune commande LVM ne fonctionne Je n'ai plus qu'à rebooter le noeud
:(
J'ai même droit de temps à autre à des corruptions de données

clvmd passé en mode débug ne raconte rien de spécial, openais non
plus

Une idée de début d'explication du problème ?

--
Rico
Questions / Réponses high-tech
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Eric Belhomme
Le #22610551
Eric Belhomme wrote:

clvmd passé en mode débug ne raconte rien de spécial, openais non
plus...




J'ai un début d'explication, mais aucune idée du fix pour y rémédier :

CLVMD[40800950]: Sep 24 16:41:59 process_local_command: REFRESH (0x28) msg=0x799fa0, msglen , client=0x687c40
CLVMD[40800950]: Sep 24 16:41:59 Refreshing context
CLVMD[c3fa0770]: Sep 24 16:41:59 167837962 got message from nodeid 167837962 for 0. len 18
CLVMD[40800950]: Sep 24 16:41:59 Reply from node a01010a: 0 bytes
CLVMD[40800950]: Sep 24 16:41:59 Got 1 replies, expecting: 4
CLVMD[40800950]: Sep 24 16:41:59 LVM thread waiting for work
CLVMD[c3fa0770]: Sep 24 16:41:59 167837962 got message from nodeid 167837963 for 167837962. len 18
CLVMD[c3fa0770]: Sep 24 16:41:59 Reply from node a01010b: 0 bytes
CLVMD[c3fa0770]: Sep 24 16:41:59 Got 2 replies, expecting: 4
CLVMD[c3fa0770]: Sep 24 16:41:59 167837962 got message from nodeid 167837964 for 167837962. len 18
CLVMD[c3fa0770]: Sep 24 16:41:59 Reply from node a01010c: 0 bytes
CLVMD[c3fa0770]: Sep 24 16:41:59 Got 3 replies, expecting: 4

j'ai demandé à clvmd de rafraichir son cache (clvmd -R) or le démon
m'informe qu'il a bien obtenu une réponse des mes 3 noeuds, mais qu'il
attend une réponse d'un 4e noeud... qui n'existe pas !
Et j'ai ce genre de message pour n'importe quelle commande lvm... et
bien sur toutes les commandes qui requièrent un locking au niveau du
cluster n'aboutissent jamais, puisque le verrou n'est jamais posé !

J'ai tenté de redémarrer 1 puis 2 des 3 noeuds du cluster, mais rien n'y
fait. Le seul moyen que j'ai trouvé de remettre le "compteur" à zéro est
de rebooter les 3 noeuds en même temps, ce qui du coup ruine tous mes
efforts pour faire un cluster HA...

J'ai fouillé la doc de LVM, mais j'ai rien vu qui permette de jouer sur
l'enregistrement des noeuds clvm. Peut être ai-je loupé un truc ?

A oui, pour en arriver là, j'ai un peu malmené mes machines, en
provoquant des panic inopinés sur les noeuds, pour voir comment ca se
comportait... Ben ma conclusion, c'est que c'est pas terriblement
résiliant tout ça...

--
Rico
Dominique
Le #22610691
Le 25/09/2010 00:52, Eric Belhomme a écrit :

- les serveurs font tourner Debian Lenny, avec clvm 2.02.29-8 recompilé
pour supporter le clustering via openais

J'ai pu créer un VG clustered sans problème, avec comme PV un LUN de mon
SAN mappé par multipath. Dans ce VG, je peux créer des LV et travailler
dessus sur n'importe lequel de mes 3 serveurs :




J'adore le vocabulaire des informaticiens :-)

Bonne journée,


--
Dominique
Courriel : dominique point sextant ate orange en France
Esto quod es
Stéphane Le Men
Le #22610951
J'ai fouillé la doc de LVM, mais j'ai rien vu qui permette de jouer sur
l'enregistrement des noeuds clvm. Peut être ai-je loupé un truc ?



peut etre ça :

http://oss.oracle.com/pipermail/ocfs2-users/2007-February/001373.html

Tu n'es pas exactement dans le meme cas, mais l'erreur me semble etre
exactement la même.
Emmanuel Florac
Le #22613081
Le Fri, 24 Sep 2010 22:52:03 +0000, Eric Belhomme a écrit:


Une idée de début d'explication du problème ?




Je crains que tu ne sois obligé de ne modifier la configuration qu'avec
une seule machine online.

--
Le livre, comme livre, appartient à l'auteur, mais comme pensée, il
appartient - le mot n'est pas trop vaste - au genre humain. Toutes les
intelligences y ont droit. Si l'un des deux droits, le droit de
l'écrivain et le droit de l'esprit humain, devait être sacrifié, ce
serait, certes, le droit de l'écrivain, car l'intérêt public est notre
préoccupation unique, et tous, je le déclare, doivent passer avant nous.
Victor Hugo.
Eric Belhomme
Le #22619391
Le Sat, 25 Sep 2010 14:33:29 +0000, Emmanuel Florac a écrit :

Je crains que tu ne sois obligé de ne modifier la configuration qu'avec
une seule machine online.



Même pas : j'ai le compteur de noeuds actifs de clvmd reste à la ramasse
et attend toujours N+1 reponses (N etant le nombre de noeuds online). Le
seul moyen efficace que j'ai trouvé de faire tomber ce satané "+1" etant
de redémarrer _tous_ les noeuds en _même_ temps, ce qui est, tu en
conviendra, un peu embêtant dans un environement HA...

--
Rico
Publicité
Poster une réponse
Anonyme