[freebsd] problème au reboot

Le
patpro ~ patrick proniewski
Bonjour, et bonne année.

tout à l'heure, j'ai voulu appliquer les dernières mises à jour sur mon
serveur FreeBSD via freebsd-update. Avant de procéder, j'ai fait un
reboot de sécurité, par acquis de conscience (pour vérifier notamment
que la machine repart bien avant de changer quoi que ce soit).

La machine n'a pas redémaré. Comme elle est à 400 km de mon clavier,
j'ai du faire appel au support de mon hébergeur qui m'a informé que
l'écran affichait "operating system not found", deux fois, en haut à
gauche de l'écran.
Après un ctrl-alt-suppr de sa part, la machine est reparti et a démarré
FreeBSD normalement.

Le disque de boot est un volume RAID 1, de deux disques Western Digital
RE3 WD1002FBYS. Ces disques sont branchés sur une carte raid 3ware
9650SE-4LPML dont tous les status sont au vert.

/, /tmp et /var sont en UFS
/home, /usr/local et /usr/ports sont issus d'un pool ZFS.

La machine avait 90 jours d'uptime, et aucun problème de ce genre à son
actif.

Une idée sur l'origine de la chose ?
Y-a-t'il quelque chose à vérifier coté OS pour que cela ne se reproduise
pas ?

patpro

--
A vendre : KVM IP 16 ports APC
http://patpro.net/blog/index.php/2008/01/12/133
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses Page 1 / 3
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Emmanuel Florac
Le #24119851
Le Sun, 01 Jan 2012 20:01:05 +0100, patpro ~ patrick proniewski a écrit:


La machine avait 90 jours d'uptime, et aucun problème de ce genre à son
actif.



Jamais de problème avec la 3Ware, genre IO error, bus reset, controller
reset? Ça sent le reboot incomplet du contrôleur RAID. Rien qu'on puisse
corriger en logiciel (encore qu'une mise à jour de firmware puisse aider).

--
Writing about music is like dancing about architecture.
Frank Zappa
Francois Tigeot
Le #24120121
Emmanuel Florac wrote:
Le Sun, 01 Jan 2012 20:01:05 +0100, patpro ~ patrick proniewski a écrit:

La machine avait 90 jours d'uptime, et aucun problème de ce genre à son
actif.



Jamais de problème avec la 3Ware, genre IO error, bus reset, controller
reset? Ça sent le reboot incomplet du contrôleur RAID. Rien qu'on puisse
corriger en logiciel (encore qu'une mise à jour de firmware puisse aider).



Les cartes 3Ware perdent relativement facilement des disques, ça m'est
arrivé plusieurs fois.
Généralement ça passe avec un reboot.

Il y a aussi des bugs amusants sur certains modèles, du genre corruption
de données sur les bus PCI-X avec une certaine combinaison de chipsets
et/ou de risers.

Depuis ~= 2 ans je n'installe plus que des Areca dans mes machines;
aucun pépin de ce genre pour l'instant.

--
Francois Tigeot
patpro ~ patrick proniewski
Le #24120491
In article Emmanuel Florac
Le Sun, 01 Jan 2012 20:01:05 +0100, patpro ~ patrick proniewski a écrit:


> La machine avait 90 jours d'uptime, et aucun problème de ce genre à son
> actif.

Jamais de problème avec la 3Ware, genre IO error, bus reset, controller
reset? Ça sent le reboot incomplet du contrôleur RAID. Rien qu'on puisse
corriger en logiciel (encore qu'une mise à jour de firmware puisse aider).



Je ne sais pas trop en fait. Je n'ai rien qui remonte au système, dans
le courant de mon uptime. Et je ne suis pas en face au reboot pour voir
ce que les firmwares crachent à l'écran avant le chargement de l'OS.

J'ai téléchargé le log d'erreur inclus dans le firmware de la carte,
mais je ne sais pas trop le déchiffrer. Il y a semble t'il pas mal
d'erreurs, mais certaines au moins sont normales (erreur de
communication avec la batterie par exemple, vu que je n'ai pas de
batterie).

J'ai pu comparer avec un log d'erreur de septembre, et c'est clair
qu'entre les deux il y a de grosses différences. Mais ça manque
cruellement d'horodatage :(

Quand FreeBSD sera mûr pour le boot ZFS out-of-the-box, je supprimerai
la carte RAID et collerai mon OS sur un miroir ZFS.

patpro

--
A vendre : KVM IP 16 ports APC
http://patpro.net/blog/index.php/2008/01/12/133
patpro ~ patrick proniewski
Le #24120571
In article Francois Tigeot
Les cartes 3Ware perdent relativement facilement des disques, ça m'est
arrivé plusieurs fois.
Généralement ça passe avec un reboot.



disons que pour le coup, c'est au reboot que c'est pas passé :/
Heureusement le reboot suivant a réglé la question mais j'ai pas d'accès
console distant.

Il y a aussi des bugs amusants sur certains modèles, du genre corruption
de données sur les bus PCI-X avec une certaine combinaison de chipsets
et/ou de risers.

Depuis ~= 2 ans je n'installe plus que des Areca dans mes machines;
aucun pépin de ce genre pour l'instant.



C'est bon à savoir, merci. Là c'est une machine d'occaz, que j'ai
achetée avec la carte déjà installée, donc je n'ai pas fait la fine
bouche. J'ai quand même hésité un moment entre la laisser et l'enlever.
Puis quand je l'enlèverai, j'aurai la place pour une carte IPMI... :)

patpro

--
A vendre : KVM IP 16 ports APC
http://patpro.net/blog/index.php/2008/01/12/133
Emmanuel Florac
Le #24122301
Le Mon, 02 Jan 2012 11:55:41 +0100, patpro ~ patrick proniewski a écrit:


J'ai téléchargé le log d'erreur inclus dans le firmware de la carte,
mais je ne sais pas trop le déchiffrer. Il y a semble t'il pas mal
d'erreurs, mais certaines au moins sont normales (erreur de
communication avec la batterie par exemple, vu que je n'ai pas de
batterie).




Tu as la sortie de "alarms" de tw_cli? fait voir, je te ferai
l'explication détaillée :)


--
Not only is there no god, but try getting a plumber on weekends.
Woody Allen
patpro ~ patrick proniewski
Le #24122341
In article Emmanuel Florac
Le Mon, 02 Jan 2012 11:55:41 +0100, patpro ~ patrick proniewski a écrit:


> J'ai téléchargé le log d'erreur inclus dans le firmware de la carte,
> mais je ne sais pas trop le déchiffrer. Il y a semble t'il pas mal
> d'erreurs, mais certaines au moins sont normales (erreur de
> communication avec la batterie par exemple, vu que je n'ai pas de
> batterie).
>

Tu as la sortie de "alarms" de tw_cli? fait voir, je te ferai
l'explication détaillée :)



c'est vite vu :

# tw_cli show alarms

Ctl Date Severity AEN Message
------------------------------------------------------------------------

voilà :)
J'approfondirai, je viens d'installer la commande je ne m'en servais pas
avant.

patpro

--
A vendre : KVM IP 16 ports APC
http://patpro.net/blog/index.php/2008/01/12/133
Emmanuel Florac
Le #24122931
Le Mon, 02 Jan 2012 23:41:07 +0100, patpro ~ patrick proniewski a écrit:


voilà
J'approfondirai, je viens d'installer la commande je ne m'en servais pas
avant.



C'est utile... Le driver ne raconte pas sa vie dans le syslog, par
hasard, comme il fait sous Linux?

--
On two occasions I have been asked, 'Pray, Mr. Babbage, if you put into
the machine wrong figures, will the right answers come out?' I am not
able rightly to apprehend the kind of confusion of ideas that could
provoke such a question.
Charles Babbage
patpro ~ Patrick Proniewski
Le #24123841
In article Emmanuel Florac
Le Mon, 02 Jan 2012 23:41:07 +0100, patpro ~ patrick proniewski a écrit:


> voilà
> J'approfondirai, je viens d'installer la commande je ne m'en servais pas
> avant.

C'est utile... Le driver ne raconte pas sa vie dans le syslog, par
hasard, comme il fait sous Linux?



rien du tout hormis quelques traces au moment du boot. Mais c'est
normal, dans son fonctionnement habituel cette carte ne me fait aucun
souci.
Le problème s'est présenté la première fois le 1er jan. quand j'ai lancé
un reboot qui n'est jamais retombé.

exemple de message au boot :

twa0: <3ware 9000 series Storage Controller> port 0x2000-0x20ff mem
0xf8000000-0xf9ffffff,0xfc100000-0xfc100fff irq 16 at device 0.0 on pci2
twa0: [ITHREAD]
twa0: INFO: (0x15: 0x1300): Controller details:: Model 9650SE-4LPML, 4
ports, Firmware FE9X 3.08.00.016, BIOS BE9X 3.08.00.004
da0 at twa0 bus 0 scbus0 target 0 lun 0
da1 at twa0 bus 0 scbus0 target 1 lun 0
da2 at twa0 bus 0 scbus0 target 2 lun 0

patpro

--
Je cherche à changer d'air -> http://www.patpro.net/cv
Yannick Palanque
Le #24125561
Bonjour,

À 2012-01-01T20:01:05+0100,
patpro ~ patrick proniewski
Une idée sur l'origine de la chose ?



Je n'utilise pas (malheureusement, paraît-il, ce que je suis prêt à
croire) BSD mais à mon travail on a un certain nombre d'exemplaires de
cette carte et j'ai l'habitude de voir des plantages de ce genre (je
vous rassure, ça provient du nombre de machines).

Ceci dit, mon avis n'est que très modeste.

C'est évidemment un peu curieux que ce signalement se produise, et que
surtout il ne se reproduise pas (si encore la carte était complèt ement
inopérante, tu serais fixé, n'est-ce pas).

En fait, je voulais dire que ce modèle, le 9650SE-4LPML, a une
connectique particulière (courante au demeurant). Et on peut très bien
imaginer que le problème vienne du câble « multiline » (c'est donc un
seul câble) qui fait communiquer la carte RAID et les deux disques par
SATA. Évidemment, à 400 km du serveur, c'est gênant. Si le p roblème se
reproduisait, à mon avis ce serait une chose à essayer. C'est en tous
cas la première chose que je ferais (si je ne pouvais pas directement
changer l'ensemble, la carte RAID et le cordon « multiline »).
J'ai rencontré une fois un problème un peu mystérieux (mais pas
ressemblant à celui que tu décris) avec ce même modèle de carte et le
problème venait de ce câble.

Enfin, d'après ma modeste expérience, quand un serveur indique
« operating system not found », c'est un problème de « disque », point.
Sauf si évidemment on a joué avec le chargeur de démarrage ( je ne
considère pas les Windows) ou que sais-je, mais comme dans ton cas le
serveur est immédiatement revenu, pour moi c'est un problème pure ment
matériel (enfin, on peut penser au micrologiciel de la carte RAID mais
ça me dépasse).
La chose embêtante est que ça peut être difficile à dia gnostiquer,
malheureusement.

J'espère aider un peu.
patpro ~ patrick proniewski
Le #24125661
In article Yannick Palanque
J'espère aider un peu.



tout à fait, ton avis est intéressant. merci !

patpro

--
A vendre : KVM IP 16 ports APC
http://patpro.net/blog/index.php/2008/01/12/133
Publicité
Poster une réponse
Anonyme