Metrologie d'un serveur Windows via Nagios

Le
Thierry Leurent
Bonjour,

Voilà, encore une fois, j'ai besoin de votre expertise.
Mettons les choses en place, pour un projet spécifique, nous avons un cer=
tain
nombre de machines se trouvant dans 2 localisations différentes.

La première localisation, chez nous, contient la production tandis que la=

seconde est un site DRP/Développement situé chez un prestataire extér=
ieur. Ces
2 sites sont reliés par 2 fibres optiques qui nous sont réservées (ju=
squ'à quel
point je l'ignore). Chose certaine, ces fibres partent d'un rack du site de=

production et arrive dans un de nos rack du site DRP. Une est destinée =
à la
synchronisation des SAN tandis que l'autre sert pour le reste du traffic.

Dans chaque lieu, nous disposons de 2 racks qui contiennent nos divers
serveurs.
C'est racks sont identiques 2 à 2. Nous avons des Linux et des Windows 20=
03.

Le problème est le suivant :
Régulèrement, les 2 serveurs Windows du centre DRP se plantent.
Le phénomène est le suivant :
- Le serveur re répond plus aux solicitaitons réseau (ping, remote co=
ntrol,
.).
- Sur la console physique, nous voyons un pop-up indiquant que le systè=
me n'a
pas pu sauvegarder un fichier à cause d'un problème réseau ou hardwar=
e. On peut
presser sur OK. Après une dizaine de ces messages semblables où seul le=
nom de
fichier change, nous arrivons au loggin.
- Lorsque nous voulons nous logger, nous avons un message indiquant que l=
e
système ne dispose plus d'assez de ressources pour cette opération.
- La seule solution est de faire un power off/ power on et là tout repa=
rt sans
problème.

Selon la machine et le moment, la prériode d'uptime a duré entre 14 jou=
rs et 3
mois.

Les constatations

Les points communs entre les 2 machines :
- Elles tournent sous windows 2003.
- Elles ont des cartres réseaux broadcom GigaEthernet du même modèl=
e.

Les différences :
- Une machine est de marque Fuji. Une machine est de marque Dell.
- Une machine est un node server Networker. Une machine est un DC.

Les choses étonnantes :
- Des machines identiques sur le même site mais tournant sous Linux ne=

plantent jamais.
- Des machines identiques sur l'autre site ne plantent jamais.

Conclusion!?
Je n'ai jamais vu ce problème ailleurs, je ne vois rien dans les logs.
La machine Fuji à vu sont hardware changé 2 fois sans aucun changement.

Actuellement, je me demande si il n'y a pas une interaction entre des paque=
ts
IP qui seraient le déclencheur et le driver broadcom. Ce driver réagira=
it mal
à certains paquets, il remplirait la mémoire ou une zone mémoire soit=
en
accumulant des paquets qu'il ne peut traiter soit via des memory leaks.
Ce qui empecherait d'autres éléménts système de fonctionner parce q=
u'il
n'aurait plus de place pour les files réseaux ou le buffer pour l'accès=
disques.
C'est un théorie, elle vaut ce qu'elle vaut mais je ne vois rien d'autre.

J'ai mis en place un serveur de monitoring Nagios. Depuis quelques jours, j=
'ai
configuré Nagios pour faire dela métrologie et j'y ai ajouté PNP4Nagi=
os pour
faire de joli graphiques.
Pour l'instant, ces magnifiques "courbes" me donnent les informations de ba=
se
comme la charge CPU ou l'occupation mémoire.
Cela ne m'aide pas vraiment pour cerner la cause de mon problème. Je cher=
che
des solutions éprouvées pour monitorer les différentes parties de la =
mémoire
(Kernel, Buffer, ), le paging file ou l'occupation mémoire de certains=

process.

Demande

Mon système peut intérroger le serveur Windows via :
- Un script sur le serveur Windows (déclenché par l'agent Nagios).
- Une requête SNMP.
- Un query WMI.

Je n'ai pas trouvé de requêtes SNMP qui me convienne.
J'ai regardé du côté de WMI mais j'ai du mal à interprêter les do=
nnées que ces
requêtes me retournent, je n'arrive pas à lier les résultats avec les=
valeurs
retournées par d'autres applications comme le taskmanager.
Par exemple, j'ai "lu" les valeurs du paging file afin de connaitre le
pourcentage utilisé, je me retrouve avec un entier de grande taille. Comm=
ent
interpréter ce nombre pour le transformer en quelque chose de valable.

Si vous avez déjà eu l'occasion :
- De monitorer de manière fine un serveur Windows.
- Vous avez déjà eu ce genre de plantage.
- Vous connaissez bien WMI et/ou SNMP.

Je serais heureux de partager vos connaissances.

Merci.

Thierry



--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/201008252038.42087.thierry.leurent@asgardian.be
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
David Dumortier
Le #22505361
Bonjour,

Tu peux regarder du coté de NSClient++ qui te permettra différents
check depuis tes hôtes windows.
Je t'invite à te diriger vers des sites spécialisés
(monitoring-fr.org par exemple).

Le Wed Aug 25 2010
Publicité
Poster une réponse
Anonyme