GNT sans publicité, site mobile, fonctionnalitées exclusives...

[freebsd] problème au reboot

Le
patpro ~ patrick proniewski
Bonjour, et bonne année.

tout à l'heure, j'ai voulu appliquer les dernières mises à jour sur mon
serveur FreeBSD via freebsd-update. Avant de procéder, j'ai fait un
reboot de sécurité, par acquis de conscience (pour vérifier notamment
que la machine repart bien avant de changer quoi que ce soit).

La machine n'a pas redémaré. Comme elle est à 400 km de mon clavier,
j'ai du faire appel au support de mon hébergeur qui m'a informé que
l'écran affichait "operating system not found", deux fois, en haut à
gauche de l'écran.
Après un ctrl-alt-suppr de sa part, la machine est reparti et a démarré
FreeBSD normalement.

Le disque de boot est un volume RAID 1, de deux disques Western Digital
RE3 WD1002FBYS. Ces disques sont branchés sur une carte raid 3ware
9650SE-4LPML dont tous les status sont au vert.

/, /tmp et /var sont en UFS
/home, /usr/local et /usr/ports sont issus d'un pool ZFS.

La machine avait 90 jours d'uptime, et aucun problème de ce genre à son
actif.

Une idée sur l'origine de la chose ?
Y-a-t'il quelque chose à vérifier coté OS pour que cela ne se reproduise
pas ?

patpro

--
A vendre : KVM IP 16 ports APC
http://patpro.net/blog/index.php/2008/01/12/133
Lire les 22 réponses

Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses Page 1 / 5
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Emmanuel Florac
Le #24119851
Le Sun, 01 Jan 2012 20:01:05 +0100, patpro ~ patrick proniewski a écrit:


La machine avait 90 jours d'uptime, et aucun problème de ce genre à son
actif.



Jamais de problème avec la 3Ware, genre IO error, bus reset, controller
reset? Ça sent le reboot incomplet du contrôleur RAID. Rien qu'on puisse
corriger en logiciel (encore qu'une mise à jour de firmware puisse aider).

--
Writing about music is like dancing about architecture.
Frank Zappa
Francois Tigeot
Le #24120121
Emmanuel Florac wrote:
Le Sun, 01 Jan 2012 20:01:05 +0100, patpro ~ patrick proniewski a écrit:

La machine avait 90 jours d'uptime, et aucun problème de ce genre à son
actif.



Jamais de problème avec la 3Ware, genre IO error, bus reset, controller
reset? Ça sent le reboot incomplet du contrôleur RAID. Rien qu'on puisse
corriger en logiciel (encore qu'une mise à jour de firmware puisse aider).



Les cartes 3Ware perdent relativement facilement des disques, ça m'est
arrivé plusieurs fois.
Généralement ça passe avec un reboot.

Il y a aussi des bugs amusants sur certains modèles, du genre corruption
de données sur les bus PCI-X avec une certaine combinaison de chipsets
et/ou de risers.

Depuis ~= 2 ans je n'installe plus que des Areca dans mes machines;
aucun pépin de ce genre pour l'instant.

--
Francois Tigeot
patpro ~ patrick proniewski
Le #24120491
In article Emmanuel Florac
Le Sun, 01 Jan 2012 20:01:05 +0100, patpro ~ patrick proniewski a écrit:


> La machine avait 90 jours d'uptime, et aucun problème de ce genre à son
> actif.

Jamais de problème avec la 3Ware, genre IO error, bus reset, controller
reset? Ça sent le reboot incomplet du contrôleur RAID. Rien qu'on puisse
corriger en logiciel (encore qu'une mise à jour de firmware puisse aider).



Je ne sais pas trop en fait. Je n'ai rien qui remonte au système, dans
le courant de mon uptime. Et je ne suis pas en face au reboot pour voir
ce que les firmwares crachent à l'écran avant le chargement de l'OS.

J'ai téléchargé le log d'erreur inclus dans le firmware de la carte,
mais je ne sais pas trop le déchiffrer. Il y a semble t'il pas mal
d'erreurs, mais certaines au moins sont normales (erreur de
communication avec la batterie par exemple, vu que je n'ai pas de
batterie).

J'ai pu comparer avec un log d'erreur de septembre, et c'est clair
qu'entre les deux il y a de grosses différences. Mais ça manque
cruellement d'horodatage :(

Quand FreeBSD sera mûr pour le boot ZFS out-of-the-box, je supprimerai
la carte RAID et collerai mon OS sur un miroir ZFS.

patpro

--
A vendre : KVM IP 16 ports APC
http://patpro.net/blog/index.php/2008/01/12/133
patpro ~ patrick proniewski
Le #24120571
In article Francois Tigeot
Les cartes 3Ware perdent relativement facilement des disques, ça m'est
arrivé plusieurs fois.
Généralement ça passe avec un reboot.



disons que pour le coup, c'est au reboot que c'est pas passé :/
Heureusement le reboot suivant a réglé la question mais j'ai pas d'accès
console distant.

Il y a aussi des bugs amusants sur certains modèles, du genre corruption
de données sur les bus PCI-X avec une certaine combinaison de chipsets
et/ou de risers.

Depuis ~= 2 ans je n'installe plus que des Areca dans mes machines;
aucun pépin de ce genre pour l'instant.



C'est bon à savoir, merci. Là c'est une machine d'occaz, que j'ai
achetée avec la carte déjà installée, donc je n'ai pas fait la fine
bouche. J'ai quand même hésité un moment entre la laisser et l'enlever.
Puis quand je l'enlèverai, j'aurai la place pour une carte IPMI... :)

patpro

--
A vendre : KVM IP 16 ports APC
http://patpro.net/blog/index.php/2008/01/12/133
Emmanuel Florac
Le #24122301
Le Mon, 02 Jan 2012 11:55:41 +0100, patpro ~ patrick proniewski a écrit:


J'ai téléchargé le log d'erreur inclus dans le firmware de la carte,
mais je ne sais pas trop le déchiffrer. Il y a semble t'il pas mal
d'erreurs, mais certaines au moins sont normales (erreur de
communication avec la batterie par exemple, vu que je n'ai pas de
batterie).




Tu as la sortie de "alarms" de tw_cli? fait voir, je te ferai
l'explication détaillée :)


--
Not only is there no god, but try getting a plumber on weekends.
Woody Allen
Publicité
Suivre les réponses
Poster une réponse
Anonyme