Metrologie d'un serveur Windows via Nagios

Le
Thierry Leurent
Bonjour,

Voil, encore une fois, j'ai besoin de votre expertise.
Mettons les choses en place, pour un projet spcifique, nous avons un cer=
tain
nombre de machines se trouvant dans 2 localisations diffrentes.

La premire localisation, chez nous, contient la production tandis que la=

seconde est un site DRP/Dveloppement situ chez un prestataire extr=
ieur. Ces
2 sites sont relis par 2 fibres optiques qui nous sont rserves (ju=
squ' quel
point je l'ignore). Chose certaine, ces fibres partent d'un rack du site de=

production et arrive dans un de nos rack du site DRP. Une est destine =
la
synchronisation des SAN tandis que l'autre sert pour le reste du traffic.

Dans chaque lieu, nous disposons de 2 racks qui contiennent nos divers
serveurs.
C'est racks sont identiques 2 2. Nous avons des Linux et des Windows 20=
03.

Le problme est le suivant :
Rgulrement, les 2 serveurs Windows du centre DRP se plantent.
Le phnomne est le suivant :
- Le serveur re rpond plus aux solicitaitons rseau (ping, remote co=
ntrol,
.).
- Sur la console physique, nous voyons un pop-up indiquant que le syst=
me n'a
pas pu sauvegarder un fichier cause d'un problme rseau ou hardwar=
e. On peut
presser sur OK. Aprs une dizaine de ces messages semblables o seul le=
nom de
fichier change, nous arrivons au loggin.
- Lorsque nous voulons nous logger, nous avons un message indiquant que l=
e
systme ne dispose plus d'assez de ressources pour cette opration.
- La seule solution est de faire un power off/ power on et l tout repa=
rt sans
problme.

Selon la machine et le moment, la prriode d'uptime a dur entre 14 jou=
rs et 3
mois.

Les constatations

Les points communs entre les 2 machines :
- Elles tournent sous windows 2003.
- Elles ont des cartres rseaux broadcom GigaEthernet du mme modl=
e.

Les diffrences :
- Une machine est de marque Fuji. Une machine est de marque Dell.
- Une machine est un node server Networker. Une machine est un DC.

Les choses tonnantes :
- Des machines identiques sur le mme site mais tournant sous Linux ne=

plantent jamais.
- Des machines identiques sur l'autre site ne plantent jamais.

Conclusion!?
Je n'ai jamais vu ce problme ailleurs, je ne vois rien dans les logs.
La machine Fuji vu sont hardware chang 2 fois sans aucun changement.

Actuellement, je me demande si il n'y a pas une interaction entre des paque=
ts
IP qui seraient le dclencheur et le driver broadcom. Ce driver ragira=
it mal
certains paquets, il remplirait la mmoire ou une zone mmoire soit=
en
accumulant des paquets qu'il ne peut traiter soit via des memory leaks.
Ce qui empecherait d'autres lmnts systme de fonctionner parce q=
u'il
n'aurait plus de place pour les files rseaux ou le buffer pour l'accs=
disques.
C'est un thorie, elle vaut ce qu'elle vaut mais je ne vois rien d'autre.

J'ai mis en place un serveur de monitoring Nagios. Depuis quelques jours, j=
'ai
configur Nagios pour faire dela mtrologie et j'y ai ajout PNP4Nagi=
os pour
faire de joli graphiques.
Pour l'instant, ces magnifiques "courbes" me donnent les informations de ba=
se
comme la charge CPU ou l'occupation mmoire.
Cela ne m'aide pas vraiment pour cerner la cause de mon problme. Je cher=
che
des solutions prouves pour monitorer les diffrentes parties de la =
mmoire
(Kernel, Buffer, ), le paging file ou l'occupation mmoire de certains=

process.

Demande

Mon systme peut intrroger le serveur Windows via :
- Un script sur le serveur Windows (dclench par l'agent Nagios).
- Une requte SNMP.
- Un query WMI.

Je n'ai pas trouv de requtes SNMP qui me convienne.
J'ai regard du ct de WMI mais j'ai du mal interprter les do=
nnes que ces
requtes me retournent, je n'arrive pas lier les rsultats avec les=
valeurs
retournes par d'autres applications comme le taskmanager.
Par exemple, j'ai "lu" les valeurs du paging file afin de connaitre le
pourcentage utilis, je me retrouve avec un entier de grande taille. Comm=
ent
interprter ce nombre pour le transformer en quelque chose de valable.

Si vous avez dj eu l'occasion :
- De monitorer de manire fine un serveur Windows.
- Vous avez dj eu ce genre de plantage.
- Vous connaissez bien WMI et/ou SNMP.

Je serais heureux de partager vos connaissances.

Merci.

Thierry



--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/201008252038.42087.thierry.leurent@asgardian.be
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
David Dumortier
Le #22505361
Bonjour,

Tu peux regarder du coté de NSClient++ qui te permettra différents
check depuis tes hôtes windows.
Je t'invite à te diriger vers des sites spécialisés
(monitoring-fr.org par exemple).

Le Wed Aug 25 2010
Publicité
Poster une réponse
Anonyme