bug kernel, carte-mère HS, autre chose ?

Le
claude
Bonsoir,

Depuis quelques temps, ma machine (Athlon64 3000+, 2x1 Go RAM) donne des
signes inquiétants de faiblesses : de façon aléatoire, elle se fige
(laps de temps variable mais de 15/20 jours il y a 3 mois, on est tombé
à 6 jours maxi depuis 2 semaines 1 jour depuis vendredi dernier).

Comme mon disque système avait l'air fatigué (unroceverable errors
régulièrement via logcheck), après un ultime fsck qui ne m'a rien dit
(pas de secteurs défectueux) et un testdisk sans histoire, j'ai quand
même pris parti de le changer. Je passe sur mes galères avec le SATA non
reconnu par ma cart-mère (asus A8V deluxe) et la suite (au départ je
voulais en profiter pour faire du raid 1), j'ai finalement pu transférer
mon système sur un autre disque (IDE aussi) et repartir Mais, ma
machine a tenu 21H puis s'est totalement figée. Et là, misère pour
redémarrer : figeage à des moments divers (ça va du démarrage de
postgresql serveur jusqu'à l'apparition du bureau de kde4 ou un peu
après). Bref, à chaque fois que la machine est figée comme cela, je dois
redémarrer 4 ou 5 fois avant de pouvoir faire quoi que ce soit d'autre
que relancer mes applis (essentiellement iceweazel, icedove, iceape,
dolphin et 2/3 konsole).

Le blocage se produit parfois avant même d'arriver à grub2 et dans ce
cas, je dois enlever la pile pour réussir à repartir (écran figé sur
l'accueil du bios). J'ai changé la pile pour voir mais pas de changement
notable (enfin si, dans le sens où je n'ai plus eu ce pb particulier
depuis mais ça ne fait que 3 jours).

Laisser la machine 30 minutes à 1H suffit parfois (mais pas toujours)
pour redémarrer du premier coup. Là, je tourne avec un bios par défaut
depuis cet après-midi : l'idée m'est venue parce qu'un autre pc me fait
le coup du figeage depuis quelques jours aussi (asus K8V) et qu'il ne
redémarre qu'après avoir chargé le bios par défaut.

Mais, du coup je me retrouve avec des lignes bizarre au démarrage :

EDAC MC: Ver: 2.1.0 Jan 10 2010
[ 10.403086] EDAC amd64_edac: Ver: 3.2.0 Jan 10 2010
[ 10.403159] EDAC amd64: This node reports that Memory ECC is
currently disabled, set F3x44[22] (0000:00:18.3).
[ 10.403165] EDAC amd64: WARNING: ECC is disabled by BIOS. Module will
NOT be loaded.
[ 10.403167] Either Enable ECC in the BIOS, or set 'ecc_enable_override'.
[ 10.403168] Also, use of the override can cause unknown side effects.
[ 10.403185] amd64_edac: probe of 0000:00:18.2 failed with error -22

Ma mémoire n'étant pas l'ECC cela doit-il m'inquiéter ou pas (est-ce une
"feature" du 2.6.32 ?) ?

J'ai aussi un message :
[ 0.089546] pci 0000:00:00.0: BAR 0: address space collision on of
device [0xdc0000
00-0xdfffffff]
[ 0.089607] pci 0000:00:00.0: BAR 0: can't allocate resource

sur ces deux machines : pareil est-ce lié au 2.6.32 et est-ce inquiétant
(lié à mes problèmes) ?

J'avoue que là, je ne sais plus trop si je dois me résigner à investir
dans un achat carte-mère / CPU / RAM and Co ou chercher du côté des
bugs. Mais, sauf à avoir loupé des mails sur la liste @bugs.debian, je
n'ai rien vu qui ressemble à mes soucis présents. Une Idée ?

Debian Sid (à jour), kernel 2.6.32, kde4 et rien de probant dans les
logs.

--
Claude
http://www.chateaubourg.info

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses Page 1 / 2
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
David Prévot
Le #21058361
-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

On 26/01/2010 19:15, claude wrote:
Bonsoir,



Bonsoir,

Depuis quelques temps, ma machine (Athlon64 3000+, 2x1 Go RAM) donne des
signes inquiétants de faiblesses : de façon aléatoire, elle se fige



À ta place, je commencerais par vérifier l'intégrité de la RAM (avec
memtest86+ par exemple, et si il ne trouve pas d'erreur, recommencer le
test après avoir inversé les barrettes).

Amicalement

David

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.10 (GNU/Linux)

iEYEARECAAYFAktfe9UACgkQ18/WetbTC/oUjQCfYqFWUQoRIytibvYljIx7pHrT
4SMAnRV75NbkmeBdv6rs1jqDOMluGMC5
=qenG
-----END PGP SIGNATURE-----

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Guy Roussin
Le #21059541
Bonjour,

Regarde ce fil de la liste, c'est peut être cpufreq ?

http://www.mail-archive.com//msg155170 .html

Guy

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
claude
Le #21065981
David Prévot a écrit :
[...]
À ta place, je commencerais par vérifier l'intégrité de la RAM (avec
memtest86+ par exemple, et si il ne trouve pas d'erreur, recommencer le
test après avoir inversé les barrettes).



Ah oui, exact... J'avais pas fait parce que mon DD système ne voulait
pas redémarrer et pas de memtest dans mes CD-live que j'avais sous la
main (j'en ai jeté un bon paquet et il faudrait que je m'en refasse au
moins 1 contenant memtest parce que ça m'a manqué :)

Pour l'instant, je croise les doigts :

uptime
21:01:39 up 1 day, 6:06, 4 users, load average: 0.55, 0.53, 0.47

Sinon oui, prochain plantage je teste la RAM. Mais, elle est assez
récente (6 mois, je crois) et je l'avais testé au moins 6H à l'achat. Je
pense plutôt à un bug, vu que j'ai des symptômes du même style sur une
autre machine et dans une configuration différente.

--
Claude
http://www.chateaubourg.info

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
claude
Le #21066151
Guy Roussin a écrit :
Bonjour,

Regarde ce fil de la liste, c'est peut être cpufreq ?

http://www.mail-archive.com//msg155170.html



Oui, ça ressemble à mon problème : je n'ai pas cpufred mais j'ai viré
cpufrequtils et tout ce qui touche à l'ACPI : on verra bien. Je ne suis
pas sûr qu'ils soient utile d'ailleurs dans mon utilisation : machine de
bureau allumée en permanence, bureautique, web + quelques tâches
serveurs (lamp essentiellement) et partage de fichiers par samba et nfs.

Par ailleurs, reste la piste d'augmenter légèrement le voltage, mais je
ne sais pas si ma carte-mère le supporte (je ne suis pas adepte de
l'overclocking donc je ne touche pas à ces trucs-là ;)

--
Claude
http://www.chateaubourg.info

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
claude
Le #21069011
claude a écrit :
[...]
Oui, ça ressemble à mon problème : je n'ai pas cpufred mais j'ai viré
cpufrequtils et tout ce qui touche à l'ACPI : on verra bien. Je ne suis
pas sûr qu'ils soient utile d'ailleurs dans mon utilisation : machine de
bureau allumée en permanence, bureautique, web + quelques tâches
serveurs (lamp essentiellement) et partage de fichiers par samba et nfs.



bon, finalement ma machine a replanté peu après 23H : je n'étais pas
devant à ce moment-là donc la charge devait être proche de 0 (juste le
rapatriement des mails toutes les 10 minutes). Petit changement, la
souris répondait bien, ou plutôt elle bougeait bien mais le clic était
inutilisable et le clavier inopérant. Donc, après plusieurs essais
(histoire d'être sûr que la machine était "out" => ssh et ping
inopérants à partir d'un autre PC), j'ai rebooté et lancé memtest : 9H
plus tard, rien (pas d'erreurs) !

Par ailleurs, reste la piste d'augmenter légèrement le voltage, mais je
ne sais pas si ma carte-mère le supporte (je ne suis pas adepte de
l'overclocking donc je ne touche pas à ces trucs-là ;)



J'ai cherché dans tous les recoins du bios, rien pour changer les
voltages, juste la surveillance matérielle (mais est-ce utile de changer
ses valeurs ?). Si j'enlève l'ACPI dans le bios, le boot s'arrête
après l'écran de démarrage de grub (plantage au niveau de initramfs ?).
Donc, me voilà reparti avec un bios par défaut.

Hormis un pb d'alim, je ne vois plus ce qui peut clocher. Mais,
peut-être fallait-il un reboot pour que la désinstallation de cpufreq et
ses copains soit prise réellement en compte ? La suite de mes aventures
d'ici 48H maxi... Si le PC tient 48H, il aura battu un record déjà par
rapport à ces deux dernières semaines.

--
Claude
http://www.chateaubourg.info

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Julien
Le #21069521
Le jeudi 28 janvier 2010 à 09:45 +0100, claude a écrit :

Hormis un pb d'alim, je ne vois plus ce qui peut clocher. Mais,
peut-être fallait-il un reboot pour que la désinstallation de cpufreq
et
ses copains soit prise réellement en compte ? La suite de mes
aventures
d'ici 48H maxi... Si le PC tient 48H, il aura battu un record déjà
par
rapport à ces deux dernières semaines.


Est-ce que tu peux regarder la température du processeur ? est-ce
qu'elle n'est pas un peu élevé ?

Julien

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
claude
Le #21069841
Julien a écrit :
[...]
Est-ce que tu peux regarder la température du processeur ? est-ce
qu'elle n'est pas un peu élevé ?



Oui, j'ai regardé ça plusieurs fois : elle reste aux environs de 60/65°.
Sauf erreur, pour un AMD64 de cette génération, c'est pas mal (je crois
que la température "normale" en fonctionnement est aux alentours de
70/75° ?). La carte-mère est vers 27° et les DD entre 37 et 40°. J'ai
juste une alarme pour le ventilateur de boîtier : c'est un 12cm qui
tourne à 1400 tours alors que la CM le voudrait à 2200 (enfin, si j'ai
bien compris ;)

Entre-temps, j'ai dû rebooter une fois de plus : je pouvais bosser dans
une fenêtre d'appli mais plus passer d'une appli à l'autre ni changer de
bureau (clics inopérants). Plus de clavier non plus (ALT+F2 et
CTRL+ALT+Fx inopérants). Le PC répondait au ping d'une autre machine
mais pas de ssh ni de smb (pas de réponse au bout de 10 minutes, mais
pas de message d'erreur non plus). Du coup, j'ai rebooté sans xorg.conf
pour voir : pour le moment, je peux travailler normalement et passer
d'une fenêtre à l'autre (ou d'un bureau à l'autre) mais plus de deuxième
écran (dans la conf de kde, il n'est pas détecté)... Je vais voir
combien de temps ça va marcher comme ça.

--
Claude
http://www.chateaubourg.info

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Guy Roussin
Le #21070341
>
J'ai cherché dans tous les recoins du bios, rien pour changer les
voltages, juste la surveillance matérielle (mais est-ce utile de
changer ses valeurs ?). Si j'enlève l'ACPI dans le bios, le boot
s'arrête après l'écran de démarrage de grub (planta ge au niveau de
initramfs ?). Donc, me voilà reparti avec un bios par défaut.

Hormis un pb d'alim, je ne vois plus ce qui peut clocher. Mais,
peut-être fallait-il un reboot pour que la désinstallation de cpufreq
et ses copains soit prise réellement en compte ? La suite de mes
aventures d'ici 48H maxi... Si le PC tient 48H, il aura battu un
record déjà par rapport à ces deux dernières semain es.



Les bugs que j'avais sur ma carte mère asus (cf fil que je t'ai donn é)
étaient
d'autant plus fréquents que les températures (de la pièce) étaient
extrêmes !
As tu noté une influence de cela, en laissant le boitier ouvert, ... ?
j'ai quand même bien l'impression que ce problème est lié à ta carte mère.
Essaye de vérifier toute la connectique (processeur, ventilateur, pr ises,
mémoires, ...) : que tout est bien enfoncé, que les contacts so nt bons.

Sinon, si elle est sous garantie, essaye de la faire changer.

Guy

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
claude
Le #21071611
Guy Roussin a écrit :
[...]
Les bugs que j'avais sur ma carte mère asus (cf fil que je t'ai donné)
étaient
d'autant plus fréquents que les températures (de la pièce) étaient
extrêmes !
As tu noté une influence de cela, en laissant le boitier ouvert, ... ?



Le boitier est ouvert depuis un bon moment mais la température
extérieure ne semble pas en cause. L'été il fait bien plus chaud et je
n'ai pas eu de pbs.

La seule différence notable est que j'ai rajouté un disque SATA, puis
lorsque j'ai eu mes derniers soucis un second. Mais, cela n'a pas l'air
d'avoir une incidence sur les températures indiquées au niveau du bios
ni "à la main".

Est-ce que ça pourrait venir d'une alimentation capricieuse ? Bien
qu'elle ne m'ai jamais posé de problème, l'ajout de 2 DD SATA peut-il
créer une surcharge ? Pour ce que j'en sait, ce serait plutôt au
démarage que l'alim "tousserait" puisque tous les disques doivent être
démarrés en même temps (ou presque), non ? Par contre, tous les 3/4
mois, j'ai des coupures de courant d'EDF (1 ou 2 minutes à chaque fois)
qui ont peut-être des répercussions soit sur l'alim soit sur la CM.
L'ennui est que je ne sais pas comment poser un diagnostic entre les deux.

j'ai quand même bien l'impression que ce problème est lié à ta carte mère.
Essaye de vérifier toute la connectique (processeur, ventilateur, prises,
mémoires, ...) : que tout est bien enfoncé, que les contacts sont bons.



Oui, tout est nickel : j'ai démonté totalement il n'y a pas longtemps et
tout nettoyé et dépoussiéré (c'est même pour cela que je ne ferme plus
le boitier : pour dépoussiérer plus souvent :D

Sinon, si elle est sous garantie, essaye de la faire changer.



Malheureusement, plus de garantie...

--
Claude
http://www.chateaubourg.info

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
BmailDB
Le #21075111
Le jeudi 28 janvier 2010, claude a écrit :

Est-ce que ça pourrait venir d'une alimentation capricieuse ? Bien
qu'elle ne m'ai jamais posé de problème, l'ajout de 2 DD SATA
peut-il créer une surcharge ? Pour ce que j'en sait, ce serait
plutôt au démarage que l'alim "tousserait" puisque tous les dis ques
doivent être démarrés en même temps (ou presque), non ? Par contre,
tous les 3/4 mois, j'ai des coupures de courant d'EDF (1 ou 2
minutes à chaque fois) qui ont peut-être des répercussions soit sur
l'alim soit sur la CM. L'ennui est que je ne sais pas comment poser
un diagnostic entre les deux.




Bonjour,

Pour l'alim, ce n'est pas impossible. J'ai eu des comportements de ce
type (plus de clavier et/ou plus de souris, disques arretés, systà ¨me
à l'agonie, plus de réseau, etc ...) avec un onduleur qui ne
délivrait pas suffisament de jus. Entièrement de ma faute, je l'a vais
un peu chargé, petit à petit, sans vraiment que ce soit méch ant à
chaque fois, mais au bout du compte ...
Je pense que ce doit être similaire si c'est l'alim elle-même qui
commence à ramer.
Et étrangement, ce n'était pas au boot, lors des appels de couran t,
que les problèmes se manifestaient.

Peut-être qu'en examinant le +12v lors d'une charge (bonne
compilation, cpuburn, forte activité des disques par exemple), tu
pourras voir si celui-ci est à la peine ?

Bertrand





--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Publicité
Poster une réponse
Anonyme