Les données sont :
- système d'exploitation Linux Debian
- le serveur semble indiponible d'environ 10h jusqu'à une heure du matin
- aucun problème réseau ne semble transparaitre d'après l'architecture
réseau environnante
- l'uptime du serveur semble correct, c'est à dire que malgré les
indisponibilités, il a pourtant l'air de bien fonctionner
- ça ne peut pas venir d'un problème de configuration
- il m'est impossible d'avoir en ce moment un accès physique au serveur,
bien que je puisse l'administrer à distance
Cette périodicité me fait penser à un problème de chaleur : le serveur
n'est pas dans une salle climatisée, et il fait plutôt chaud en ce
moment... Donc il est possible que le matériel souffre un peu.
J'ai déjà quelques pistes pour pouvoir tester périodiquement le disque
dur et le CPU.
Mais allez savoir pourquoi, je me dis que je ferai bien de pouvoir
tester aussi *physiquement* la carte réseau (donc avec autre chose que
des ping ou des "arping").
Y a-t-il un moyen pas trop compliqué de faire cela automatiquement ? Je
précise que je n'ai pas accès au web (donc je n'ai notamment pas accès
aux archives). Et je rappelle que je n'ai qu'un accès distant au
serveur.
Les données sont :
- système d'exploitation Linux Debian
- le serveur semble indiponible d'environ 10h jusqu'à une heure du matin
- aucun problème réseau ne semble transparaitre d'après l'architecture
réseau environnante
- l'uptime du serveur semble correct, c'est à dire que malgré les
indisponibilités, il a pourtant l'air de bien fonctionner
- ça ne peut pas venir d'un problème de configuration
- il m'est impossible d'avoir en ce moment un accès physique au serveur,
bien que je puisse l'administrer à distance
Cette périodicité me fait penser à un problème de chaleur : le serveur
n'est pas dans une salle climatisée, et il fait plutôt chaud en ce
moment... Donc il est possible que le matériel souffre un peu.
J'ai déjà quelques pistes pour pouvoir tester périodiquement le disque
dur et le CPU.
Mais allez savoir pourquoi, je me dis que je ferai bien de pouvoir
tester aussi *physiquement* la carte réseau (donc avec autre chose que
des ping ou des "arping").
Y a-t-il un moyen pas trop compliqué de faire cela automatiquement ? Je
précise que je n'ai pas accès au web (donc je n'ai notamment pas accès
aux archives). Et je rappelle que je n'ai qu'un accès distant au
serveur.
Les données sont :
- système d'exploitation Linux Debian
- le serveur semble indiponible d'environ 10h jusqu'à une heure du matin
- aucun problème réseau ne semble transparaitre d'après l'architecture
réseau environnante
- l'uptime du serveur semble correct, c'est à dire que malgré les
indisponibilités, il a pourtant l'air de bien fonctionner
- ça ne peut pas venir d'un problème de configuration
- il m'est impossible d'avoir en ce moment un accès physique au serveur,
bien que je puisse l'administrer à distance
Cette périodicité me fait penser à un problème de chaleur : le serveur
n'est pas dans une salle climatisée, et il fait plutôt chaud en ce
moment... Donc il est possible que le matériel souffre un peu.
J'ai déjà quelques pistes pour pouvoir tester périodiquement le disque
dur et le CPU.
Mais allez savoir pourquoi, je me dis que je ferai bien de pouvoir
tester aussi *physiquement* la carte réseau (donc avec autre chose que
des ping ou des "arping").
Y a-t-il un moyen pas trop compliqué de faire cela automatiquement ? Je
précise que je n'ai pas accès au web (donc je n'ai notamment pas accès
aux archives). Et je rappelle que je n'ai qu'un accès distant au
serveur.
Est ce qu'il y a des processus qui tournent durant l'indisponibilité ?
Que disent les logs ?
Si les incidents sont prévisibles, programmez
un shutdown une fois pendant la période d'indisponibilité pour voir si
vous récupérez la main.
- ça ne peut pas venir d'un problème de configuration
On dit toujours ça.
Cette périodicité me fait penser à un problème de chaleur : le serveur
n'est pas dans une salle climatisée, et il fait plutôt chaud en ce
moment... Donc il est possible que le matériel souffre un peu.
En général, la machine reboote en cas de grosse chaleur.
J'ai déjà quelques pistes pour pouvoir tester périodiquement le disque
dur et le CPU.
Si le disque dur est défaillant, le système est sensé le loguer. Si
le CPU déraille, la machine reboote ou panique car les programmes,
dont le noyau font n'importe quoi.
Mais allez savoir pourquoi, je me dis que je ferai bien de pouvoir
tester aussi *physiquement* la carte réseau (donc avec autre chose que
des ping ou des "arping").
"netstat -i" indique s'il y a des erreurs sur le réseau. Il faut
vérifier que les compteurs d'erreur ne s'incrémentent pas.
Il est
possible que, sur Linux, on ai plus de détails sur la nature des
erreurs avec "ifconfig".
Les erreurs peuvent provenir de l'environement (si le réseau est
saturé, par exemple)
Y a-t-il un moyen pas trop compliqué de faire cela automatiquement ? Je
précise que je n'ai pas accès au web (donc je n'ai notamment pas accès
aux archives). Et je rappelle que je n'ai qu'un accès distant au
serveur.
Faites une liste des commandes que vous voulez lancer et mettez la
dans la crontab.
Est ce qu'il y a des processus qui tournent durant l'indisponibilité ?
Que disent les logs ?
Si les incidents sont prévisibles, programmez
un shutdown une fois pendant la période d'indisponibilité pour voir si
vous récupérez la main.
- ça ne peut pas venir d'un problème de configuration
On dit toujours ça.
Cette périodicité me fait penser à un problème de chaleur : le serveur
n'est pas dans une salle climatisée, et il fait plutôt chaud en ce
moment... Donc il est possible que le matériel souffre un peu.
En général, la machine reboote en cas de grosse chaleur.
J'ai déjà quelques pistes pour pouvoir tester périodiquement le disque
dur et le CPU.
Si le disque dur est défaillant, le système est sensé le loguer. Si
le CPU déraille, la machine reboote ou panique car les programmes,
dont le noyau font n'importe quoi.
Mais allez savoir pourquoi, je me dis que je ferai bien de pouvoir
tester aussi *physiquement* la carte réseau (donc avec autre chose que
des ping ou des "arping").
"netstat -i" indique s'il y a des erreurs sur le réseau. Il faut
vérifier que les compteurs d'erreur ne s'incrémentent pas.
Il est
possible que, sur Linux, on ai plus de détails sur la nature des
erreurs avec "ifconfig".
Les erreurs peuvent provenir de l'environement (si le réseau est
saturé, par exemple)
Y a-t-il un moyen pas trop compliqué de faire cela automatiquement ? Je
précise que je n'ai pas accès au web (donc je n'ai notamment pas accès
aux archives). Et je rappelle que je n'ai qu'un accès distant au
serveur.
Faites une liste des commandes que vous voulez lancer et mettez la
dans la crontab.
Est ce qu'il y a des processus qui tournent durant l'indisponibilité ?
Que disent les logs ?
Si les incidents sont prévisibles, programmez
un shutdown une fois pendant la période d'indisponibilité pour voir si
vous récupérez la main.
- ça ne peut pas venir d'un problème de configuration
On dit toujours ça.
Cette périodicité me fait penser à un problème de chaleur : le serveur
n'est pas dans une salle climatisée, et il fait plutôt chaud en ce
moment... Donc il est possible que le matériel souffre un peu.
En général, la machine reboote en cas de grosse chaleur.
J'ai déjà quelques pistes pour pouvoir tester périodiquement le disque
dur et le CPU.
Si le disque dur est défaillant, le système est sensé le loguer. Si
le CPU déraille, la machine reboote ou panique car les programmes,
dont le noyau font n'importe quoi.
Mais allez savoir pourquoi, je me dis que je ferai bien de pouvoir
tester aussi *physiquement* la carte réseau (donc avec autre chose que
des ping ou des "arping").
"netstat -i" indique s'il y a des erreurs sur le réseau. Il faut
vérifier que les compteurs d'erreur ne s'incrémentent pas.
Il est
possible que, sur Linux, on ai plus de détails sur la nature des
erreurs avec "ifconfig".
Les erreurs peuvent provenir de l'environement (si le réseau est
saturé, par exemple)
Y a-t-il un moyen pas trop compliqué de faire cela automatiquement ? Je
précise que je n'ai pas accès au web (donc je n'ai notamment pas accès
aux archives). Et je rappelle que je n'ai qu'un accès distant au
serveur.
Faites une liste des commandes que vous voulez lancer et mettez la
dans la crontab.
C'est un test "physique" des différentes cartes, automatiquement et
logiciellement, qui m'intéresserait, et savoir s'il existe une commande
pour faire cela :)
C'est un test "physique" des différentes cartes, automatiquement et
logiciellement, qui m'intéresserait, et savoir s'il existe une commande
pour faire cela :)
C'est un test "physique" des différentes cartes, automatiquement et
logiciellement, qui m'intéresserait, et savoir s'il existe une commande
pour faire cela :)
C'est un test "physique" des différentes cartes, automatiquement et
logiciellement, qui m'intéresserait, et savoir s'il existe une commande
pour faire cela :)
Regarde là:
- http://www.scyld.com/diag/index.html
Sinon, tu peux essayer de lancer, et logger, regulierement un traceroute
et voir où ça bloque ...
Si tu crois vraiement que c'est un pb avec la carte
tu peux aussi essayer
d'arreter l'interface et la remettre en marche, si ping passe pas alors
désactiver l'interface, décharger le driver (s'il est en module),
recharger le driver, et réactiver l'interface, mais c'est "dangereux" si
tu n'es pas sur place ...
C'est un test "physique" des différentes cartes, automatiquement et
logiciellement, qui m'intéresserait, et savoir s'il existe une commande
pour faire cela :)
Regarde là:
- http://www.scyld.com/diag/index.html
Sinon, tu peux essayer de lancer, et logger, regulierement un traceroute
et voir où ça bloque ...
Si tu crois vraiement que c'est un pb avec la carte
tu peux aussi essayer
d'arreter l'interface et la remettre en marche, si ping passe pas alors
désactiver l'interface, décharger le driver (s'il est en module),
recharger le driver, et réactiver l'interface, mais c'est "dangereux" si
tu n'es pas sur place ...
C'est un test "physique" des différentes cartes, automatiquement et
logiciellement, qui m'intéresserait, et savoir s'il existe une commande
pour faire cela :)
Regarde là:
- http://www.scyld.com/diag/index.html
Sinon, tu peux essayer de lancer, et logger, regulierement un traceroute
et voir où ça bloque ...
Si tu crois vraiement que c'est un pb avec la carte
tu peux aussi essayer
d'arreter l'interface et la remettre en marche, si ping passe pas alors
désactiver l'interface, décharger le driver (s'il est en module),
recharger le driver, et réactiver l'interface, mais c'est "dangereux" si
tu n'es pas sur place ...
Vincent Hiribarren écrit:Est ce qu'il y a des processus qui tournent durant l'indisponibilité ?
Oui.
Normalement ? il ne sont pas bloqués en attente de disque ou autre ?
Que disent les logs ?
Problèmes d'accès réseau, justement.
Genre "named" qui a des problèmes d'accès à d'autres serveurs.
Il est possible qu'on ne puisse pas se connecter dessus à cause d'un
problème de résolution de nom.
Utilise un resolver exterieur
- ça ne peut pas venir d'un problème de configuration
On dit toujours ça.
:-)
Disons que la config n'a pas été touché ça fait un bon moment, et que
ces problèmes sont apparus du jour au lendemain.
Ça n'est pas significatif.
Oui, mais peut-être que la machine est en elle-même suffisamment
résistante, mais pas d'autres composants, comme la carte réseau. C'est
pour cela que je pensais à cette dernière.
Un bon système devrait loguer tous les problèmes d'accès au materiel.
"netstat -i" indique s'il y a des erreurs sur le réseau. Il faut
vérifier que les compteurs d'erreur ne s'incrémentent pas.
Mmhhh. Mais ça je le sais qu'il y a des erreurs : j'ai en ce moment un
script qui ping régulièrement le serveur à partir d'une autre machine.
C'est ce qui me permet de voir que la machine est à nouveau disponible
au cours de la nuit. Et justement les processus réseau tournant sur la
machine ont des problèmes d'accès réseau aussi.
Des erreurs en emission ou en reception ?
Des erreurs de ligne ou des paquets jetés ?
Que dit 'netstat -i' ?
Par contre, comme je pense que le problème peut venir de la carte
réseau, je me dis qu'il est aussi peut-être possible que le problème
vienne du port particulier du switch où elle est branché (court-circuit
ou autre ???). Mais un autre poste branché sur un autre port de ce
switch fonctionne parfaitement bien, lui.
Déjà c'est un switch, ce qui devrait limiter les dégats. Comment sont
configurés les ports ? 100M, 10M, auto ? half-duplex, full-duplex,
auto ?
La carte est t'elle configurée de la même manière ?
L'auto-négociation est à éviter.
Y a t'il des erreurs sur le port du switch ?
Vincent Hiribarren <vynce@alea.invalid> écrit:
Est ce qu'il y a des processus qui tournent durant l'indisponibilité ?
Oui.
Normalement ? il ne sont pas bloqués en attente de disque ou autre ?
Que disent les logs ?
Problèmes d'accès réseau, justement.
Genre "named" qui a des problèmes d'accès à d'autres serveurs.
Il est possible qu'on ne puisse pas se connecter dessus à cause d'un
problème de résolution de nom.
Utilise un resolver exterieur
- ça ne peut pas venir d'un problème de configuration
On dit toujours ça.
:-)
Disons que la config n'a pas été touché ça fait un bon moment, et que
ces problèmes sont apparus du jour au lendemain.
Ça n'est pas significatif.
Oui, mais peut-être que la machine est en elle-même suffisamment
résistante, mais pas d'autres composants, comme la carte réseau. C'est
pour cela que je pensais à cette dernière.
Un bon système devrait loguer tous les problèmes d'accès au materiel.
"netstat -i" indique s'il y a des erreurs sur le réseau. Il faut
vérifier que les compteurs d'erreur ne s'incrémentent pas.
Mmhhh. Mais ça je le sais qu'il y a des erreurs : j'ai en ce moment un
script qui ping régulièrement le serveur à partir d'une autre machine.
C'est ce qui me permet de voir que la machine est à nouveau disponible
au cours de la nuit. Et justement les processus réseau tournant sur la
machine ont des problèmes d'accès réseau aussi.
Des erreurs en emission ou en reception ?
Des erreurs de ligne ou des paquets jetés ?
Que dit 'netstat -i' ?
Par contre, comme je pense que le problème peut venir de la carte
réseau, je me dis qu'il est aussi peut-être possible que le problème
vienne du port particulier du switch où elle est branché (court-circuit
ou autre ???). Mais un autre poste branché sur un autre port de ce
switch fonctionne parfaitement bien, lui.
Déjà c'est un switch, ce qui devrait limiter les dégats. Comment sont
configurés les ports ? 100M, 10M, auto ? half-duplex, full-duplex,
auto ?
La carte est t'elle configurée de la même manière ?
L'auto-négociation est à éviter.
Y a t'il des erreurs sur le port du switch ?
Vincent Hiribarren écrit:Est ce qu'il y a des processus qui tournent durant l'indisponibilité ?
Oui.
Normalement ? il ne sont pas bloqués en attente de disque ou autre ?
Que disent les logs ?
Problèmes d'accès réseau, justement.
Genre "named" qui a des problèmes d'accès à d'autres serveurs.
Il est possible qu'on ne puisse pas se connecter dessus à cause d'un
problème de résolution de nom.
Utilise un resolver exterieur
- ça ne peut pas venir d'un problème de configuration
On dit toujours ça.
:-)
Disons que la config n'a pas été touché ça fait un bon moment, et que
ces problèmes sont apparus du jour au lendemain.
Ça n'est pas significatif.
Oui, mais peut-être que la machine est en elle-même suffisamment
résistante, mais pas d'autres composants, comme la carte réseau. C'est
pour cela que je pensais à cette dernière.
Un bon système devrait loguer tous les problèmes d'accès au materiel.
"netstat -i" indique s'il y a des erreurs sur le réseau. Il faut
vérifier que les compteurs d'erreur ne s'incrémentent pas.
Mmhhh. Mais ça je le sais qu'il y a des erreurs : j'ai en ce moment un
script qui ping régulièrement le serveur à partir d'une autre machine.
C'est ce qui me permet de voir que la machine est à nouveau disponible
au cours de la nuit. Et justement les processus réseau tournant sur la
machine ont des problèmes d'accès réseau aussi.
Des erreurs en emission ou en reception ?
Des erreurs de ligne ou des paquets jetés ?
Que dit 'netstat -i' ?
Par contre, comme je pense que le problème peut venir de la carte
réseau, je me dis qu'il est aussi peut-être possible que le problème
vienne du port particulier du switch où elle est branché (court-circuit
ou autre ???). Mais un autre poste branché sur un autre port de ce
switch fonctionne parfaitement bien, lui.
Déjà c'est un switch, ce qui devrait limiter les dégats. Comment sont
configurés les ports ? 100M, 10M, auto ? half-duplex, full-duplex,
auto ?
La carte est t'elle configurée de la même manière ?
L'auto-négociation est à éviter.
Y a t'il des erreurs sur le port du switch ?
Non, ça n'est pas aussi simple :)
Des tests avec l'adresse IP direct ont été faits, bien évidemment.
Je parlais de "named" pour exemple de processus.
Non, ça n'est pas aussi simple :)
Des tests avec l'adresse IP direct ont été faits, bien évidemment.
Je parlais de "named" pour exemple de processus.
Non, ça n'est pas aussi simple :)
Des tests avec l'adresse IP direct ont été faits, bien évidemment.
Je parlais de "named" pour exemple de processus.