- une baie SAN FC,
- 3 serveurs connectés au SAN en multipath
- les serveurs font tourner Debian Lenny, avec clvm 2.02.29-8 recompilé
pour supporter le clustering via openais
J'ai pu créer un VG clustered sans problème, avec comme PV un LUN de mon
SAN mappé par multipath. Dans ce VG, je peux créer des LV et travailler
dessus sur n'importe lequel de mes 3 serveurs :
* un des LV est monté sur les 3 serveurs avec ocfs2
* d'autres LVs sont utilisées exclusivement sur les serveurs.
Le problème qui apparaît, c'est si je tente de modifier (lvchange) ou de
supprimer un LV (lvremove). Là rien ne va plus : lvm part en sucette
total : la commande lvm ne rend jamais la main, et à partir de là plus
aucune commande LVM ne fonctionne... Je n'ai plus qu'à rebooter le noeud
:(
J'ai même droit de temps à autre à des corruptions de données...
clvmd passé en mode débug ne raconte rien de spécial, openais non
plus...
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Eric Belhomme
Eric Belhomme wrote:
clvmd passé en mode débug ne raconte rien de spécial, openais non plus...
J'ai un début d'explication, mais aucune idée du fix pour y rémédier :
CLVMD[40800950]: Sep 24 16:41:59 process_local_command: REFRESH (0x28) msg=0x799fa0, msglen , client=0x687c40 CLVMD[40800950]: Sep 24 16:41:59 Refreshing context CLVMD[c3fa0770]: Sep 24 16:41:59 167837962 got message from nodeid 167837962 for 0. len 18 CLVMD[40800950]: Sep 24 16:41:59 Reply from node a01010a: 0 bytes CLVMD[40800950]: Sep 24 16:41:59 Got 1 replies, expecting: 4 CLVMD[40800950]: Sep 24 16:41:59 LVM thread waiting for work CLVMD[c3fa0770]: Sep 24 16:41:59 167837962 got message from nodeid 167837963 for 167837962. len 18 CLVMD[c3fa0770]: Sep 24 16:41:59 Reply from node a01010b: 0 bytes CLVMD[c3fa0770]: Sep 24 16:41:59 Got 2 replies, expecting: 4 CLVMD[c3fa0770]: Sep 24 16:41:59 167837962 got message from nodeid 167837964 for 167837962. len 18 CLVMD[c3fa0770]: Sep 24 16:41:59 Reply from node a01010c: 0 bytes CLVMD[c3fa0770]: Sep 24 16:41:59 Got 3 replies, expecting: 4
j'ai demandé à clvmd de rafraichir son cache (clvmd -R) or le démon m'informe qu'il a bien obtenu une réponse des mes 3 noeuds, mais qu'il attend une réponse d'un 4e noeud... qui n'existe pas ! Et j'ai ce genre de message pour n'importe quelle commande lvm... et bien sur toutes les commandes qui requièrent un locking au niveau du cluster n'aboutissent jamais, puisque le verrou n'est jamais posé !
J'ai tenté de redémarrer 1 puis 2 des 3 noeuds du cluster, mais rien n'y fait. Le seul moyen que j'ai trouvé de remettre le "compteur" à zéro est de rebooter les 3 noeuds en même temps, ce qui du coup ruine tous mes efforts pour faire un cluster HA...
J'ai fouillé la doc de LVM, mais j'ai rien vu qui permette de jouer sur l'enregistrement des noeuds clvm. Peut être ai-je loupé un truc ?
A oui, pour en arriver là, j'ai un peu malmené mes machines, en provoquant des panic inopinés sur les noeuds, pour voir comment ca se comportait... Ben ma conclusion, c'est que c'est pas terriblement résiliant tout ça...
-- Rico
Eric Belhomme wrote:
clvmd passé en mode débug ne raconte rien de spécial, openais non
plus...
J'ai un début d'explication, mais aucune idée du fix pour y rémédier :
CLVMD[40800950]: Sep 24 16:41:59 process_local_command: REFRESH (0x28) msg=0x799fa0, msglen , client=0x687c40
CLVMD[40800950]: Sep 24 16:41:59 Refreshing context
CLVMD[c3fa0770]: Sep 24 16:41:59 167837962 got message from nodeid 167837962 for 0. len 18
CLVMD[40800950]: Sep 24 16:41:59 Reply from node a01010a: 0 bytes
CLVMD[40800950]: Sep 24 16:41:59 Got 1 replies, expecting: 4
CLVMD[40800950]: Sep 24 16:41:59 LVM thread waiting for work
CLVMD[c3fa0770]: Sep 24 16:41:59 167837962 got message from nodeid 167837963 for 167837962. len 18
CLVMD[c3fa0770]: Sep 24 16:41:59 Reply from node a01010b: 0 bytes
CLVMD[c3fa0770]: Sep 24 16:41:59 Got 2 replies, expecting: 4
CLVMD[c3fa0770]: Sep 24 16:41:59 167837962 got message from nodeid 167837964 for 167837962. len 18
CLVMD[c3fa0770]: Sep 24 16:41:59 Reply from node a01010c: 0 bytes
CLVMD[c3fa0770]: Sep 24 16:41:59 Got 3 replies, expecting: 4
j'ai demandé à clvmd de rafraichir son cache (clvmd -R) or le démon
m'informe qu'il a bien obtenu une réponse des mes 3 noeuds, mais qu'il
attend une réponse d'un 4e noeud... qui n'existe pas !
Et j'ai ce genre de message pour n'importe quelle commande lvm... et
bien sur toutes les commandes qui requièrent un locking au niveau du
cluster n'aboutissent jamais, puisque le verrou n'est jamais posé !
J'ai tenté de redémarrer 1 puis 2 des 3 noeuds du cluster, mais rien n'y
fait. Le seul moyen que j'ai trouvé de remettre le "compteur" à zéro est
de rebooter les 3 noeuds en même temps, ce qui du coup ruine tous mes
efforts pour faire un cluster HA...
J'ai fouillé la doc de LVM, mais j'ai rien vu qui permette de jouer sur
l'enregistrement des noeuds clvm. Peut être ai-je loupé un truc ?
A oui, pour en arriver là, j'ai un peu malmené mes machines, en
provoquant des panic inopinés sur les noeuds, pour voir comment ca se
comportait... Ben ma conclusion, c'est que c'est pas terriblement
résiliant tout ça...
clvmd passé en mode débug ne raconte rien de spécial, openais non plus...
J'ai un début d'explication, mais aucune idée du fix pour y rémédier :
CLVMD[40800950]: Sep 24 16:41:59 process_local_command: REFRESH (0x28) msg=0x799fa0, msglen , client=0x687c40 CLVMD[40800950]: Sep 24 16:41:59 Refreshing context CLVMD[c3fa0770]: Sep 24 16:41:59 167837962 got message from nodeid 167837962 for 0. len 18 CLVMD[40800950]: Sep 24 16:41:59 Reply from node a01010a: 0 bytes CLVMD[40800950]: Sep 24 16:41:59 Got 1 replies, expecting: 4 CLVMD[40800950]: Sep 24 16:41:59 LVM thread waiting for work CLVMD[c3fa0770]: Sep 24 16:41:59 167837962 got message from nodeid 167837963 for 167837962. len 18 CLVMD[c3fa0770]: Sep 24 16:41:59 Reply from node a01010b: 0 bytes CLVMD[c3fa0770]: Sep 24 16:41:59 Got 2 replies, expecting: 4 CLVMD[c3fa0770]: Sep 24 16:41:59 167837962 got message from nodeid 167837964 for 167837962. len 18 CLVMD[c3fa0770]: Sep 24 16:41:59 Reply from node a01010c: 0 bytes CLVMD[c3fa0770]: Sep 24 16:41:59 Got 3 replies, expecting: 4
j'ai demandé à clvmd de rafraichir son cache (clvmd -R) or le démon m'informe qu'il a bien obtenu une réponse des mes 3 noeuds, mais qu'il attend une réponse d'un 4e noeud... qui n'existe pas ! Et j'ai ce genre de message pour n'importe quelle commande lvm... et bien sur toutes les commandes qui requièrent un locking au niveau du cluster n'aboutissent jamais, puisque le verrou n'est jamais posé !
J'ai tenté de redémarrer 1 puis 2 des 3 noeuds du cluster, mais rien n'y fait. Le seul moyen que j'ai trouvé de remettre le "compteur" à zéro est de rebooter les 3 noeuds en même temps, ce qui du coup ruine tous mes efforts pour faire un cluster HA...
J'ai fouillé la doc de LVM, mais j'ai rien vu qui permette de jouer sur l'enregistrement des noeuds clvm. Peut être ai-je loupé un truc ?
A oui, pour en arriver là, j'ai un peu malmené mes machines, en provoquant des panic inopinés sur les noeuds, pour voir comment ca se comportait... Ben ma conclusion, c'est que c'est pas terriblement résiliant tout ça...
-- Rico
Dominique
Le 25/09/2010 00:52, Eric Belhomme a écrit :
- les serveurs font tourner Debian Lenny, avec clvm 2.02.29-8 recompilé pour supporter le clustering via openais
J'ai pu créer un VG clustered sans problème, avec comme PV un LUN de mon SAN mappé par multipath. Dans ce VG, je peux créer des LV et travailler dessus sur n'importe lequel de mes 3 serveurs :
J'adore le vocabulaire des informaticiens :-)
Bonne journée,
-- Dominique Courriel : dominique point sextant ate orange en France Esto quod es
Le 25/09/2010 00:52, Eric Belhomme a écrit :
- les serveurs font tourner Debian Lenny, avec clvm 2.02.29-8 recompilé
pour supporter le clustering via openais
J'ai pu créer un VG clustered sans problème, avec comme PV un LUN de mon
SAN mappé par multipath. Dans ce VG, je peux créer des LV et travailler
dessus sur n'importe lequel de mes 3 serveurs :
J'adore le vocabulaire des informaticiens :-)
Bonne journée,
--
Dominique
Courriel : dominique point sextant ate orange en France
Esto quod es
- les serveurs font tourner Debian Lenny, avec clvm 2.02.29-8 recompilé pour supporter le clustering via openais
J'ai pu créer un VG clustered sans problème, avec comme PV un LUN de mon SAN mappé par multipath. Dans ce VG, je peux créer des LV et travailler dessus sur n'importe lequel de mes 3 serveurs :
J'adore le vocabulaire des informaticiens :-)
Bonne journée,
-- Dominique Courriel : dominique point sextant ate orange en France Esto quod es
Stéphane Le Men
J'ai fouillé la doc de LVM, mais j'ai rien vu qui permette de jouer sur l'enregistrement des noeuds clvm. Peut être ai-je loupé un truc ?
Tu n'es pas exactement dans le meme cas, mais l'erreur me semble etre exactement la même.
Emmanuel Florac
Le Fri, 24 Sep 2010 22:52:03 +0000, Eric Belhomme a écrit:
Une idée de début d'explication du problème ?
Je crains que tu ne sois obligé de ne modifier la configuration qu'avec une seule machine online.
-- Le livre, comme livre, appartient à l'auteur, mais comme pensée, il appartient - le mot n'est pas trop vaste - au genre humain. Toutes les intelligences y ont droit. Si l'un des deux droits, le droit de l'écrivain et le droit de l'esprit humain, devait être sacrifié, ce serait, certes, le droit de l'écrivain, car l'intérêt public est notre préoccupation unique, et tous, je le déclare, doivent passer avant nous. Victor Hugo.
Le Fri, 24 Sep 2010 22:52:03 +0000, Eric Belhomme a écrit:
Une idée de début d'explication du problème ?
Je crains que tu ne sois obligé de ne modifier la configuration qu'avec
une seule machine online.
--
Le livre, comme livre, appartient à l'auteur, mais comme pensée, il
appartient - le mot n'est pas trop vaste - au genre humain. Toutes les
intelligences y ont droit. Si l'un des deux droits, le droit de
l'écrivain et le droit de l'esprit humain, devait être sacrifié, ce
serait, certes, le droit de l'écrivain, car l'intérêt public est notre
préoccupation unique, et tous, je le déclare, doivent passer avant nous.
Victor Hugo.
Le Fri, 24 Sep 2010 22:52:03 +0000, Eric Belhomme a écrit:
Une idée de début d'explication du problème ?
Je crains que tu ne sois obligé de ne modifier la configuration qu'avec une seule machine online.
-- Le livre, comme livre, appartient à l'auteur, mais comme pensée, il appartient - le mot n'est pas trop vaste - au genre humain. Toutes les intelligences y ont droit. Si l'un des deux droits, le droit de l'écrivain et le droit de l'esprit humain, devait être sacrifié, ce serait, certes, le droit de l'écrivain, car l'intérêt public est notre préoccupation unique, et tous, je le déclare, doivent passer avant nous. Victor Hugo.
Eric Belhomme
Le Sat, 25 Sep 2010 14:33:29 +0000, Emmanuel Florac a écrit :
Je crains que tu ne sois obligé de ne modifier la configuration qu'avec une seule machine online.
Même pas : j'ai le compteur de noeuds actifs de clvmd reste à la ramasse et attend toujours N+1 reponses (N etant le nombre de noeuds online). Le seul moyen efficace que j'ai trouvé de faire tomber ce satané "+1" etant de redémarrer _tous_ les noeuds en _même_ temps, ce qui est, tu en conviendra, un peu embêtant dans un environement HA...
-- Rico
Le Sat, 25 Sep 2010 14:33:29 +0000, Emmanuel Florac a écrit :
Je crains que tu ne sois obligé de ne modifier la configuration qu'avec
une seule machine online.
Même pas : j'ai le compteur de noeuds actifs de clvmd reste à la ramasse
et attend toujours N+1 reponses (N etant le nombre de noeuds online). Le
seul moyen efficace que j'ai trouvé de faire tomber ce satané "+1" etant
de redémarrer _tous_ les noeuds en _même_ temps, ce qui est, tu en
conviendra, un peu embêtant dans un environement HA...
Le Sat, 25 Sep 2010 14:33:29 +0000, Emmanuel Florac a écrit :
Je crains que tu ne sois obligé de ne modifier la configuration qu'avec une seule machine online.
Même pas : j'ai le compteur de noeuds actifs de clvmd reste à la ramasse et attend toujours N+1 reponses (N etant le nombre de noeuds online). Le seul moyen efficace que j'ai trouvé de faire tomber ce satané "+1" etant de redémarrer _tous_ les noeuds en _même_ temps, ce qui est, tu en conviendra, un peu embêtant dans un environement HA...