debian etch : KERNEL PANIC (non systématique)

Le
bdes
Bonjour à tous,

Je rencontre un problème de kernel panic sur un fujitsu siemens econel
100S2 installé avec une débian etch 4.0R4

Le système est configuré pour effectuer du raid1 logiciel et dispose de
vmware server 1.08 pas de serveur X.

Tout se passe correctement pendant un certain temps plusieurs mois ou
quelques jours, puis le système expérimente un

KERNEL PANIC – NOT SYNCING : CPU CONTEXT CORRUPT


Comment et ou est il possible de trouver des informations
complémentaires sur l'origine de cette panne
- matériel ?
- logiciel ?

Avez-vous une piste à me suggérer pour trouver et corriger ce problème ?

Cette machine est en production depuis plusieurs mois. Il n'y a aucune
mise à jour sur les applications ni l'os ni le matériel.

Merci de vos avis éclairés sur le sujet et de votre aide.

dans l'attente de vous lire

Cordialement
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Doug713705
Le #19107691
Le Mon, 13 Apr 2009 09:43:33 +0200, bdes a écrit dans
news:49e2ed27$0$15295$ des mots en forme de phrase
pour nous dire :


KERNEL PANIC - NOT SYNCING : CPU CONTEXT CORRUPT





Ca ressemble plus à un problème matériel que logiciel.
Une surchauffe par exemple... un petit dépoussiérage est-il envisageable ?


--
@+
Doug - Linux user #307925 - Slamd64 roulaize ;-)
[ Plus ou moins avec une chance de peut-être ]
bdes
Le #19115231
Doug713705 a écrit :
Le Mon, 13 Apr 2009 09:43:33 +0200, bdes a écrit dans
news:49e2ed27$0$15295$ des mots en forme de phrase
pour nous dire :

KERNEL PANIC - NOT SYNCING : CPU CONTEXT CORRUPT





Ca ressemble plus à un problème matériel que logiciel.
Une surchauffe par exemple... un petit dépoussiérage est-il envisageable ?




Bonjour,

Merci pour la réponse. Cette solution a déjà été envisagée. D'autant
plus que le matériel est quasi neuf (installé Aout 2008) en
environnement de bureau. Je vais quand même revalider cette hypothèse
mais sans grand espoir.

Y a t il des outils que je pourrais utiliser pour affirmer ou infirmer
des hypothèses sans trop tâtonner ?

Encore merci pour la réponse.

Cordialement
Doug713705
Le #19115281
Le Tue, 14 Apr 2009 19:58:05 +0200, bdes a écrit dans
news:49e4ceae$0$7886$ des mots en forme de phrase
pour nous dire :

Y a t il des outils que je pourrais utiliser pour affirmer ou infirmer
des hypothèses sans trop tâtonner ?




De ce que j'en ai lu après une rapide recherche sur google, ce genre de
problème est systématiquement un problème matériel (à confirmer tout de
même) et bien souvent lié à la chaleur.

Indépendemment de la relative nouveauté du matériel, vérifier sa propreté
et surveiller sa température devrait permettre d'éliminer les causes les
plus simples.

Il faudrait aussi, si possible, arriver à déterminer les cas dans lesquels
le problème survient (grosse charge CPU par ex. et donc chaleur, etc...).


--
@+
Doug - Linux user #307925 - Slamd64 roulaize ;-)
[ Plus ou moins avec une chance de peut-être ]
Sergio
Le #19117601
bdes a écrit :

KERNEL PANIC - NOT SYNCING : CPU CONTEXT CORRUPT







Ca ressemble plus à un problème matériel que logiciel.
Une surchauffe par exemple... un petit dépoussiérage est-il
envisageable ?




Bonjour,



Merci pour la réponse. Cette solution a déjà été envisagée. D'autant
plus que le matériel est quasi neuf (installé Aout 2008) en
environnement de bureau. Je vais quand même revalider cette hypothèse
mais sans grand espoir.

Y a t il des outils que je pourrais utiliser pour affirmer ou infirmer
des hypothèses sans trop tâtonner ?



Utilser un outils de monitoring de la température CPU.
Juste après un crash, aller vérifier la température CPU dans le BIOS...

--
Serge http://leserged.online.fr/
Mon blog: http://cahierdesergio.free.fr/
Soutenez le libre: http://www.framasoft.org
Floris
Le #19156951
bdes a écrit :
Cette machine est en production depuis plusieurs mois. Il n'y a aucune
mise à jour sur les applications ni l'os ni le matériel.



1- Ultimate Boot CD. Test du CPU, du ou des disques, de la RAM, etc...
_intensivement_.

2- Utilisation de logiciels tel que Munin, un soft qui permet de grapher
un peu tout et n'importe quoi. C'est une bonne alternative à MRTG car il
est fourni avec beaucoup de graphiques intégrés et l'ajout de plug-in
est assez simple.

OU

3- Intégration de ce serveur avec une solution NAGIOS/CENTREON ou
équivalent existante.

4- Envoyer _TOUT_ les logs système sur un autre server + affichage à la
console (écran).

5- Ouverture du serveur. Démontage méticuleux de tout ce qui peut être
démonté pour un remontage dans les règles de l'art :)

6- Mettre à jour la distrib et/ou le kernel? D'ailleurs le kernel fourni
n'est peut-être tout simplement pas compatible avec le matériel,
peut-être est-il buggué ?

7- vmware server 1.08, ça tourne aussi sur une Fedora. Mettre les
machines virtuelles de coté, réinstaller sous Fedora puis relancer le tout.

J'en ai encore plein d'autres (niveau logiciel surtout), mais à mon avis
quand tout ça aura été testé le problème sera identifié.

--
Floris Dubreuil
Floris
Le #19157021
Floris a écrit :
bdes a écrit :
Cette machine est en production depuis plusieurs mois. Il n'y a aucune
mise à jour sur les applications ni l'os ni le matériel.



1- Ultimate Boot CD. Test du CPU, du ou des disques, de la RAM, etc...
_intensivement_.



On peut également insérer un petit:
1.5- Tenter un boot en passant des options diverses au kernel, soit
nodma, noacpi, noapic, nomce, enfin voir les options de boot d'un
kernel. Ya 36 trucs à tester.

Bref, retirer ce serveur de la prod pour identifier et résoudre le problème.

--
Floris Dubreuil
BDES
Le #19179171
On Tue, 21 Apr 2009 09:17:16 +0200
Floris
Floris a écrit :
> bdes a écrit :
>> Cette machine est en production depuis plusieurs mois. Il n'y a aucune
>> mise à jour sur les applications ni l'os ni le matériel.
>
> 1- Ultimate Boot CD. Test du CPU, du ou des disques, de la RAM, etc...
> _intensivement_.
>
On peut également insérer un petit:
1.5- Tenter un boot en passant des options diverses au kernel, soit
nodma, noacpi, noapic, nomce, enfin voir les options de boot d'un
kernel. Ya 36 trucs à tester.

Bref, retirer ce serveur de la prod pour identifier et résoudre le prob lème.

--
Floris Dubreuil



Merci pour les réponses,

On va essayer de sortir ce serveur de production mais ce n'est pas evident.


--
BDES
Publicité
Poster une réponse
Anonyme