OVH Cloud OVH Cloud

Kernel panic: CPU context corrupt

7 réponses
Avatar
Thomas CLavier
Bonjour,

Depuis quelques jours, sur un serveur en sarge à jour, je trouves dans
la console ce genre de messages :

<verbatim>
Message from syslogd@localhost at Thu Feb 3 08:50:03 2005 ...
localhost kernel: CPU 0: Machine Check Exception: 0000000000000004

Message from syslogd@localhost at Thu Feb 3 08:50:03 2005 ...
localhost kernel: Bank 1: d400400000000152 at 000000001f8247c0

Message from syslogd@localhost at Thu Feb 3 08:50:03 2005 ...
localhost kernel: Bank 2: f60020000000017a at 000000001ee702c0

Message from syslogd@localhost at Thu Feb 3 08:50:03 2005 ...
localhost kernel: Kernel panic: CPU context corrupt
Connection to 192.168.12.1 closed by remote host.
Connection to 192.168.12.1 closed.
</verbatim>

En fait, la machine reboot toute seul dans les minutes qui suivent le
kernel panic.

Comment faire pour tracer ce qui merde et savoir quelle appli génère
cette erreur ?

--
Thomas Clavier http://www.tcweb.org
Lille Sans Fil http://www.lillesansfil.org
+33 (0)6 20 81 81 30 JabberID : tom@jabber.tcweb.org


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org

7 réponses

Avatar
tnemeth
Selon Thomas CLavier :

| Bonjour,

Salut !


| Depuis quelques jours, sur un serveur en sarge à jour, je trouves
| dans
| la console ce genre de messages :
|
| <verbatim>
| Message from at Thu Feb 3 08:50:03 2005 ...
| localhost kernel: CPU 0: Machine Check Exception: 0000000000000004

Erf :)
Tu as quel noyau, sur quel type de CPU ?


| Message from at Thu Feb 3 08:50:03 2005 ...
| localhost kernel: Bank 1: d400400000000152 at 000000001f8247c0
|
| Message from at Thu Feb 3 08:50:03 2005 ...
| localhost kernel: Bank 2: f60020000000017a at 000000001ee702c0
|
| Message from at Thu Feb 3 08:50:03 2005 ...
| localhost kernel: Kernel panic: CPU context corrupt
| Connection to 192.168.12.1 closed by remote host.
| Connection to 192.168.12.1 closed.
| </verbatim>
|
| En fait, la machine reboot toute seul dans les minutes qui suivent le
| kernel panic.
|
| Comment faire pour tracer ce qui merde et savoir quelle appli génère
| cette erreur ?

find /usr/src/linux/ -type f -exec grep -H "Machine Check Exception"
{} ;


Un extrait du Kconfig pour i386 :

Machine Check Exception support allows the processor to notify
the
kernel if it detects a problem (e.g. overheating, component
failure).
The action the kernel takes depends on the severity of the
problem,
ranging from a warning message on the console, to halting the
machine.
Your processor must be a Pentium or newer to support this -
check the
flags in /proc/cpuinfo for mce. Note that some older Pentium
systems
have a design flaw which leads to false MCE events - hence MCE
is
disabled on all P5 processors, unless explicitly enabled with
"mce"
as a boot argument. Similarly, if MCE is built in and creates
a
problem on some new non-standard machine, you can boot with
"nomce"
to disable it. MCE support simply ignores non-MCE processors
like
the 386 and 486, so nearly everyone can say Y here.

Mais il peut y avoir d'autres trucs...

Thomas.


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Yves Rutschle
On Thu, Feb 03, 2005 at 05:06:32PM +0100, Thomas CLavier wrote:
Message from at Thu Feb 3 08:50:03 2005 ...
localhost kernel: Kernel panic: CPU context corrupt
Connection to 192.168.12.1 closed by remote host.
Connection to 192.168.12.1 closed.
</verbatim>

En fait, la machine reboot toute seul dans les minutes qui suivent le
kernel panic.

Comment faire pour tracer ce qui merde et savoir quelle appli génère
cette erreur ?



Aucune application ne devrait arriver à faire paniquer le
noyau (en pratique, ça arrive, quand il y a des bugs dans le
noyau...). Si la configuration logicielle de la machine n'a
pas changé depuis quelques jours, il y a peu de chances que
ce soit un problème logiciel.

Ma première suspicion serait un problème de RAM, et
j'essairais memtest86.

Y.


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Jean-Luc Coulon (f5ibh)
--=-GciZQQCrJoUO+3IrQwKO
Content-Type: text/plain; charset=ISO-8859-15; DelSp=Yes; Format=Flowed
Content-Disposition: inline
Content-Transfer-Encoding: quoted-printable

Le 03.02.2005 17:06:32, Thomas CLavier a écrit :
Bonjour,

Depuis quelques jours, sur un serveur en sarge à jour, je trouves
dans la console ce genre de messages :

<verbatim>
Message from at Thu Feb 3 08:50:03 2005 ...
localhost kernel: CPU 0: Machine Check Exception: 0000000000000004

Message from at Thu Feb 3 08:50:03 2005 ...
localhost kernel: Bank 1: d400400000000152 at 000000001f8247c0

Message from at Thu Feb 3 08:50:03 2005 ...
localhost kernel: Bank 2: f60020000000017a at 000000001ee702c0

Message from at Thu Feb 3 08:50:03 2005 ...
localhost kernel: Kernel panic: CPU context corrupt
Connection to 192.168.12.1 closed by remote host.
Connection to 192.168.12.1 closed.
</verbatim>

En fait, la machine reboot toute seul dans les minutes qui suivent le
kernel panic.

Comment faire pour tracer ce qui merde et savoir quelle appli génère
cette erreur ?



Le plus probable est un problème matériel


--
Thomas Clavier http://www.tcweb.org




J-L

--=-GciZQQCrJoUO+3IrQwKO
Content-Type: application/pgp-signature

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.5 (GNU/Linux)

iD8DBQBCAlYfUdGGXzzGnNARAhPaAJ4zOg0S192cd5XXtqeed6P82sf0ggCfSQ4A
lys7QS9+Chvr0tHwDLSmjSc =TKDS
-----END PGP SIGNATURE-----

--=-GciZQQCrJoUO+3IrQwKO--



--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Thomas CLavier
Yves Rutschle wrote:
Aucune application ne devrait arriver à faire paniquer le
noyau (en pratique, ça arrive, quand il y a des bugs dans le
noyau...).



ça on est d'accord.

Si la configuration logicielle de la machine n'a
pas changé depuis quelques jours, il y a peu de chances que
ce soit un problème logiciel.



La config logiciel a changé, j'ai fait 1 ou 2 apt-get dist-upgrade ....

Ma première suspicion serait un problème de RAM, et
j'essairais memtest86.



Je doit être fatigué pour n'y avoir pas pensé ... Merci.

--
Thomas Clavier http://www.tcweb.org
Lille Sans Fil http://www.lillesansfil.org
+33 (0)6 20 81 81 30 JabberID :


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Thomas CLavier
wrote:
Erf :)
Tu as quel noyau, sur quel type de CPU ?



uname -a
Linux kyle 2.6.8-2-k7 #1 Sat Jan 8 15:48:58 EST 2005 i686 GNU/Linux

grep name /proc/cpuinfo
model name : AMD Athlon(tm) XP 2200+

check the
flags in /proc/cpuinfo for mce. Note that some older Pentium



grep mce /proc/cpuinfo
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge
mca cmov pat pse36 mmx fxsr sse syscall mmxext 3dnowext 3dnow

Mais il peut y avoir d'autres trucs...



on va memtest86-er :-)

--
Thomas Clavier http://www.tcweb.org
Lille Sans Fil http://www.lillesansfil.org
+33 (0)6 20 81 81 30 JabberID :


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
daniel huhardeaux
Thomas CLavier a écrit :

[...]
on va memtest86-er :-)



J'ai à côté de moi une machine qui tournait impeccablement depuis deux
ans (woody - Raid) et qui c'est mise à stopper de fonctionner toutes les
24h depuis quelques temps (arrêt net, rien dans les logs): condensateur
sur CM HS.

--
Daniel Huhardeaux ______ _____ _____ ______ ______ __
enum +48 32 285 5276 /_ _// _ // _ //_ _// __ // /
IAX FWD +1 7009 422493 / / / // // // / / / / /_/ // /
sip:101 h323:121 @voip./_/ /____//____/ /_/ /_/ /_//_/.com


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
C. Mourad Jaber
daniel huhardeaux a écrit :

Thomas CLavier a écrit :

[...]
on va memtest86-er :-)




J'ai à côté de moi une machine qui tournait impeccablement depuis deux
ans (woody - Raid) et qui c'est mise à stopper de fonctionner toutes
les 24h depuis quelques temps (arrêt net, rien dans les logs):
condensateur sur CM HS.



J'ai eu la même chose sur un P166MMX -> cache de la CM HS !
@ +


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact