Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Pb sur FreeBSD/alpha

6 réponses
Avatar
Stephane Dupille
Hello !

J'ai eu un pb hier sur ma machine. Subitement, le serveur INN est
tombé, sans raison apparente, et la machine m'a refusé tout accès SSH.
Voilà pour les symptômes.

Voilà un extrait des logs :
Nov 30 14:38:44 gimli /kernel: (noperiph:sym1:0:-1:-1): SCSI BUS reset detected.
Nov 30 14:38:52 gimli /kernel: (da0:sym1:0:0:0): Invalidating pack
Nov 30 14:38:54 gimli /kernel: (da0:sym1:0:0:0): Invalidating pack
Nov 30 14:38:54 gimli /kernel: spec_getpages:(#da/5) I/O read failure: (error=6) bp 0xfffffe000a016518 vp 0xfffffe00156d5bc0
Nov 30 14:38:54 gimli /kernel: size: 57344, resid: 57344, a_count: 57344, valid: 0x0
Nov 30 14:38:54 gimli /kernel: nread: 0, reqpage: 0, pindex: 61, pcount: 7
Nov 30 14:38:54 gimli /kernel: vm_fault: pager read error, pid 7919 (imapd)
Nov 30 14:38:54 gimli /kernel: pid 7919 (imapd), uid 60: exited on signal 11
Nov 30 14:38:54 gimli master[175]: process 7919 exited, signaled to death by 11
Nov 30 14:38:55 gimli imap[9371]: no user in db
Nov 30 14:38:55 gimli imap[9371]: login: gimli.dustnet.teaser.fr [192.168.0.4] dust CRAM-MD5 User logged in
Nov 30 14:40:25 gimli ctl_cyrusdb[9375]: checkpointing cyrus databases
Nov 30 14:40:26 gimli ctl_cyrusdb[9375]: done checkpointing cyrus databases
Nov 30 14:42:04 gimli /kernel: swap_pager: I/O error - pagein failed; blkno 31840,size 8192, error 6
Nov 30 14:42:04 gimli /kernel: vm_fault: pager read error, pid 217 (innd)
Nov 30 14:42:05 gimli /kernel: swap_pager: I/O error - pagein failed; blkno 27648,size 65536, error 6
Nov 30 14:42:06 gimli /kernel: vm_fault: pager read error, pid 217 (innd)
Nov 30 14:42:06 gimli /kernel: pid 217 (innd), uid 8: exited on signal 11
Nov 30 14:42:06 gimli rnews: cant fgets after article Unknown error: 0
Nov 30 14:56:01 gimli /kernel: spec_getpages:(#da/5) I/O read failure: (error=6) bp 0xfffffe000a016ea0 vp 0xfffffe00156d5bc0
Nov 30 14:56:01 gimli /kernel: size: 8192, resid: 8192, a_count: 8192, valid: 0x0
Nov 30 14:56:01 gimli /kernel: nread: 0, reqpage: 0, pindex: 13, pcount: 1
Nov 30 14:56:01 gimli /kernel: vm_fault: pager read error, pid 9453 (sudo)
Nov 30 14:56:01 gimli /kernel: pid 9453 (sudo), uid 0: exited on signal 11
Nov 30 14:56:14 gimli /kernel: spec_getpages:(#da/5) I/O read failure: (error=6) bp 0xfffffe000a016ea0 vp 0xfffffe00156d5bc0
Nov 30 14:56:14 gimli /kernel: size: 8192, resid: 8192, a_count: 8192, valid: 0x0

Et ça a continué comme ça jusqu'à ce que je redémmare la machine
(assez violemment il faut bien le dire). Le reboot s'est passé sans
problème majeur. Et maintenant, tout marche bien.

Le truc, c'est que je n'arrive pas bien à comprendre ce qu'il s'est
passé. Il y aurait un disque qui montre des signes de faiblesse ?

Je considère que ça peut arriver et je ne m'inquiète pas tant que ça
ne recommence pas ?

Pour quelle raison le bus SCSI a décidé de se résetter, comme ça,
sans raison apparente ?

[gimli] ~> uname -a
FreeBSD gimli.dustnet.teaser.fr 4.10-STABLE FreeBSD 4.10-STABLE #0:
Fri Jun 18 13:09:14 CEST 2004
root@gimli.dustnet.teaser.fr:/usr/obj/usr/src/sys/GIMLI alpha


--
Pov'cloche interstellaire, c'est pas possible d'être aussi stupide ?
T'as pris des cours avec Patrick Sebastien ? Ton boulot dans la
vraie vie (tm) c'est conseiller en communication chez Jacques Chirac ?
-+- RG In : www.le-gnu.net - Le bisounours se fout en rogne -+-

6 réponses

Avatar
Stephane Dupille
Stephane Dupille wrote:
Le truc, c'est que je n'arrive pas bien à comprendre ce qu'il s'est
passé. Il y aurait un disque qui montre des signes de faiblesse ?
Oui, "(#da/5) I/O read failure" et manque de pot, le secteur défectueux

se trouvait dans le swap


Argh !

Comme c'est du disque Scuzzy, tu peux tenter un formatage bas niveau
avec les outils (MS/DOS ...) du constructeur, ça te marquera les bad
blocks. Ca ne peu rien contre un atterrissage de têtes, bien entendu.


Hum. C'est une alpha, alors le disque MS-DOS fournit par le
constructeur, ben... on oublie.

--
J'ai essayé de creer un news un alt.west.virginia ou sur d'autres
alt.west.wirginia.xxx mais quand je vais sur ces forums rien n'apparait?
l'emetteur d'un new recoit il un avertissement si celui ci est censuré?
-+- LM in: <http://www.le-gnu.net> - Bien sansurer ses news sur C-I -+-


Avatar
Stephane Dupille
Stephane Dupille wrote:

Le truc, c'est que je n'arrive pas bien à comprendre ce qu'il s'est
passé. Il y aurait un disque qui montre des signes de faiblesse ?


Oui, "(#da/5) I/O read failure" et manque de pot, le secteur défectueux
se trouvait dans le swap

Comme c'est du disque Scuzzy, tu peux tenter un formatage bas niveau
avec les outils (MS/DOS ...) du constructeur, ça te marquera les bad
blocks. Ca ne peu rien contre un atterrissage de têtes, bien entendu.


J'ai installé les outils S.M.A.R.T. pour investiguer un peu ce qu'il
se passe, voici le résultat :

smartctl version 5.33 [alpha-portbld-freebsd4.10] Copyright (C) 2002-4 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

Device: COMPAQ BB00923468 Version: 3B07
Serial number: 3BN0SHF100007113K0VA
Device type: disk
Local Time is: Thu Dec 1 14:23:57 2005 CET
Device supports SMART and is Enabled
Temperature Warning Enabled
Request Sense failed, [Operation not permitted]
Vendor (Seagate) cache information
Blocks sent to initiator = 3008427752
Blocks received from initiator = 222846771
Blocks read from cache and sent to initiator = 49408695
Number of read and write commands whose size <= segment size = 32111463
Number of read and write commands whose size > segment size = 0
Vendor (Seagate/Hitachi) factory information
number of hours powered up = 6866.12
number of minutes until next internal SMART test = 16

Error counter log:
Errors Corrected by Total Correction Gigabytes Total
EEC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 26706 0 0 26706 26706 2441.184 0
write: 0 0 0 0 0 148.746 0

Non-medium error count: 0

Error Events logging not supported

SMART Self-test log
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Description number (hours)
# 1 Background short Completed - 4 - [- - -]

Long (extended) Self Test duration: 594 seconds [9.9 minutes]


Désolé pour les longueurs de ligne. Ca ne me semble pas préoccupant pour le moment.

Je vais lancer smartd et monitorer ce qu'il se passe.

--
Désolé, je suis vraiement trop con (mais je l'admet), j'y comprends rien
à ces "kill file", pour moi c'est juste une sorte de censure/mépris public.
-+- GA in <http://www.le-gnu.net> - N'avouez jamais. -+-


Avatar
Manuel Bouyer
Xavier wrote:
Stephane Dupille wrote:

Le truc, c'est que je n'arrive pas bien à comprendre ce qu'il s'est
passé. Il y aurait un disque qui montre des signes de faiblesse ?


Oui, "(#da/5) I/O read failure" et manque de pot, le secteur défectueux
se trouvait dans le swap

Comme c'est du disque Scuzzy, tu peux tenter un formatage bas niveau
avec les outils (MS/DOS ...) du constructeur, ça te marquera les bad
blocks. Ca ne peu rien contre un atterrissage de têtes, bien entendu.


Je trouve tres etrange qu'il n'ai pas mis de message d'erreur plus explicite.
Comme c'est du scuzzy le disque a du reporter un ASC/ASQ que le kernel aurait
du afficher, eventuellement avec le message d'erreur associe (mais ca
fait longtemps que je n'ai pas regarde freebsd de pres, peut-etre que
maintenant le kernel garde ces infos pour lui, mais ca m'etonnerais quand
meme).
A cause du bus reset, je pencherais plutot pour un probleme de driver de
la carte SCSI, ou un probleme sur le bus (connecteur oxyde, cable trop
long, etc ...)

--
Manuel Bouyer
NetBSD: 26 ans d'experience feront toujours la difference
--


Avatar
Stephane Dupille
Je trouve tres etrange qu'il n'ai pas mis de message d'erreur plus explicite.
Comme c'est du scuzzy le disque a du reporter un ASC/ASQ que le kernel aurait
du afficher, eventuellement avec le message d'erreur associe (mais ca
fait longtemps que je n'ai pas regarde freebsd de pres, peut-etre que
maintenant le kernel garde ces infos pour lui, mais ca m'etonnerais quand
meme).


Je ne suis pas familier avec SMART, mais le disque n'aurait pas
mémorisé l'erreur, si erreur il y a eu ?

A cause du bus reset, je pencherais plutot pour un probleme de driver de
la carte SCSI, ou un probleme sur le bus (connecteur oxyde, cable trop
long, etc ...)


Il s'agit d'un pb totalement isolé que ne s'est pas répété jusqu'à
maintenant. S'il y avait un pb de bus, je pense AMHA qu'il se serait
répété (même s'il est encore un peu tôt pour dire que cela ne s'est
pas reproduit, mais la machine a fonctionné plus de 8 heures
maintenant avec sa charge habituelle).

--
Mettons la pantoufle dans la FAQ avant l'UDP.
-+- GS in <http://www.le-gnu.net> : LA FAQ c'est le pied -+-

Avatar
Manuel Bouyer
Stephane Dupille wrote:
Je trouve tres etrange qu'il n'ai pas mis de message d'erreur plus explicite.
Comme c'est du scuzzy le disque a du reporter un ASC/ASQ que le kernel aurait
du afficher, eventuellement avec le message d'erreur associe (mais ca
fait longtemps que je n'ai pas regarde freebsd de pres, peut-etre que
maintenant le kernel garde ces infos pour lui, mais ca m'etonnerais quand
meme).


Je ne suis pas familier avec SMART, mais le disque n'aurait pas
mémorisé l'erreur, si erreur il y a eu ?


Si c'est une erreur du disque, il aurait du la compter je pense (mais
je ne suis pas tres familier avec smart non plus).


A cause du bus reset, je pencherais plutot pour un probleme de driver de
la carte SCSI, ou un probleme sur le bus (connecteur oxyde, cable trop
long, etc ...)


Il s'agit d'un pb totalement isolé que ne s'est pas répété jusqu'à
maintenant. S'il y avait un pb de bus, je pense AMHA qu'il se serait
répété (même s'il est encore un peu tôt pour dire que cela ne s'est
pas reproduit, mais la machine a fonctionné plus de 8 heures
maintenant avec sa charge habituelle).


Ca peut etre un parasite du a une source externe. Y'a pas un
gros moteur electrique a cote ? :)
Plus serieusement, j'ai vu ce type de problemes sur des bus SCSI, et
c'etait aleatoire. Ca faisait plusieurs erreurs en rafale, avec des
fois plusieurs semaines de fonctonnement sans problemes entre les
erreurs.

--
Manuel Bouyer
NetBSD: 26 ans d'experience feront toujours la difference
--


Avatar
Stephane Dupille
Si c'est une erreur du disque, il aurait du la compter je pense (mais
je ne suis pas tres familier avec smart non plus).


Je pense aussi. Mais smartd est capricieux chez moi : des fois il
détecte les disques, des fois non. Je ne vais pas faire confiance à
cet outil très longtemps je sens...

Ca peut etre un parasite du a une source externe. Y'a pas un
gros moteur electrique a cote ? :)


Non, rien de tout ça. C'est une machine qui est sous mon bureau,
chez moi, alors que je ne l'utilise exclusivement qu'à distance depuis
le boulot : elle n'a pas d'écran ni clavier ni rien. Au pire, y'a une
borne wifi qui est à 1m d'elle.

Plus serieusement, j'ai vu ce type de problemes sur des bus SCSI, et
c'etait aleatoire. Ca faisait plusieurs erreurs en rafale, avec des
fois plusieurs semaines de fonctonnement sans problemes entre les
erreurs.


C'est curieux. On vé dejà atttendre que ça se reproduise, si jamais
ça se reproduit. Et puis on verra bien.

Mais il est vrai qu'un démontage pour dépoussiérage ne serait pas
forcément une mauvaise chose.

Merci pour les avis !

--
Elle est bien, ta réponse, Benoît, mais il y a trop de smiley. Est-ce
que cela ne risque pas de diminuer le sérieux de ton propos ?
-+- DM in : GNU <http://neuneu.ctw.cc> - Restons sérieux quoi ! -+-