Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Corruption de fichiers [HS]

9 réponses
Avatar
François Boisson
Bonjour à tous,

Je surveille l'intégrité de mes machines via un petit utilitaire très
pratique (paquet surveillance sur mon serveur) qui fait un md5sum des
fichiers et les compare avec les références (du classique en fait, le
paquet comporte un md5sum compilé en statique (pour vérification
manuelle) ainsi que le programme lui même pour pouvoir mettre le tout
(binaires et signatures) sur un CDrom). Depuis que ce système est en
service (sur 5-6 machines tournant en permanence et exposées), je
n'ai eu qu'un incident: Un jour le md5sum de emacs21 a changé. Je
vérifie, constate et réinstalle le paquet et n'y prète plus attention.
Cependant aujourd'hui, en plein milieu d'un travail, 5 octets d'un
fichier (de librairie, en lecture seule) de 1,7M ont vu leur le 6ème bit
passer de 1 à 0, plantant le programme (matlab en l'occurrence). Même
phénomène donc: sans raison aucune les octets d'un fichier se modifient
suite à un problème du disque dur ou controleur. Je pensais que ce type
d'erreur était rarissime (en général, quand le disque lache, c'est d'un
coup et plus brutalement), mais deux erreurs de ce type en quelques mois
me fait penser que c'est peut être plus fréquent que je ne croyais.
Quelqu'un a-t-il des retours d'expérience là dessus?


François Boisson


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org

9 réponses

Avatar
François Boisson
Bonjour à tous

Toujours dans le cadre de surveillance de machines, pour la 3ième fois
en 6 mois et deuxième fois en quinze jours, je viens de constater
l'inversion d'un bit (le passage de 1 à 0) sur un fichier
(/usr/bin/emacs-20.7) sur une machine:
Le scénario est le même, mon programme surveille m'envoit le message
suivant:

Erreur:: /usr/bin/emacs-20.7 modified
1 modified files

Je constate la véracité, je retrouve à partir d'un backup le véritable
fichier et je fais la comparaison:

:/tmp$ hexdump -C emacs-20.7.mod > hm
:/tmp$ hexdump -C emacs-20.7 > h
:/tmp$ diff hm h
10614c10614
< 000297b0 10 8b 45 f4 f6 c4 02 76 12 83 c4 f8 8b 55 f8 52
000297b0 10 8b 45 f4 f6 c4 02 74 12 83 c4 f8 8b 55 f8 52


:/tmp$

C'est donc la 3ième fois, sur 3 machines distinctes dont une très
récente, dans 3 lieux différents, sans que smartmontoools me rapporte un
incident quelconque et avec des fichiers non utilisés sur le moment et
en lecture seule. A noter que le emacs modifié marche parfaitement. Je
renouvelle donc ma question: suis je le seul à constater ce genre de
phénomène et quelqu'un a-t-il une idée sur leur fréquence?


Bonne journée à tous


François Boisson


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Patrice Karatchentzeff
Le 13/07/05, François Boisson a éc rit :
Bonjour à tous

Toujours dans le cadre de surveillance de machines, pour la 3ième fois
en 6 mois et deuxième fois en quinze jours, je viens de constater
l'inversion d'un bit (le passage de 1 à 0) sur un fichier
(/usr/bin/emacs-20.7) sur une machine:



J'avoue que je n'ai jamais vérifié sur mes machines mais cela ne me
choque pas outre mesure. Statistiquement parlant, si tu n'as pas de
matériel très haut de gamme (avec multiples codes de corrections
d'erreurs), ce genre d'erreurs, certainement provoqué par des
perturbations électromagnétiques extérieures, sera de plus en plus
fréquent à l'avenir...

Pour info, le gap pour faire passer un électron d'un état à un autre
sur les substrats de silicium se réduit comme peau de chagrin avec la
diminution des tailles de grille de transistor... en gros, pour
simplifier, la sensibilité à des phénomènes extérieurs va croissa nt
avec l'augmentation de performance de nos systèmes...

PK

--
| _,,,---,,_ Patrice KARATCHENTZEFF
ZZZzz /,`.-'`' -. ;-;;,_ mailto:
|,4- ) )-,_. , ( `'-' http://p.karatchentzeff.free.fr
'---''(_/--' `-'_)
Avatar
JusTiCe8
Bonjour,

un peu en avance sur vendredi ;)

François Boisson a écrit :

Bonjour à tous

[...]

C'est donc la 3ième fois, sur 3 machines distinctes dont une très
récente, dans 3 lieux différents, sans que smartmontoools me rapporte un
incident quelconque et avec des fichiers non utilisés sur le moment et
en lecture seule. A noter que le emacs modifié marche parfaitement. Je
renouvelle donc ma question: suis je le seul à constater ce genre de
phénomène et quelqu'un a-t-il une idée sur leur fréquence?






c'est l'évolution ! Les programmes évoluent d'eux mêmes, seuls les
"meilleurs" survivront :).

Plus sérieusement, ne serait-ce pas le classique pb du facteur humain ?
Est-ce les progs qui se modifient pour une raison lambda, ou bien toi
qui ai l'impréssion qu'ils se modifient ? ta backup est -elle vraiment
fiable ? C'est pt elle aussi qui n'est pas correcte !
Je te suggère de comparer ton programme xyz (ici emacs) avec un totu
beau tout neuf provenant d'une source sûre et de faire de même avec la
sauvegarde de référence.

Bonne journée à tous


François Boisson




J8.


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
François Boisson
Le Wed, 13 Jul 2005 08:55:59 +0200
Patrice Karatchentzeff a écrit:

Le 13/07/05, François Boisson a
écrit :
> Bonjour à tous
>
> Toujours dans le cadre de surveillance de machines, pour la 3ième
> fois en 6 mois et deuxième fois en quinze jours, je viens de
> constater l'inversion d'un bit (le passage de 1 à 0) sur un fichier
> (/usr/bin/emacs-20.7) sur une machine:

J'avoue que je n'ai jamais vérifié sur mes machines mais cela ne me
choque pas outre mesure. Statistiquement parlant, si tu n'as pas de
matériel très haut de gamme (avec multiples codes de corrections
d'erreurs), ce genre d'erreurs, certainement provoqué par des
perturbations électromagnétiques extérieures, sera de plus en plus
fréquent à l'avenir...



Merci de ta réponse, c'est également mon avis mais je n'ai pas trop
d'expériences dans ce domaine. Comme ça a des conséquences non
négligeables (vérification de l'intégrité d'une machine pas
seulement pour des raisons de sécurité) dès qu'on gère plus de 3
machines, j'ai besoin d'avis extérieurs.


Pour info, le gap pour faire passer un électron d'un état à un autre
sur les substrats de silicium se réduit comme peau de chagrin avec la
diminution des tailles de grille de transistor... en gros, pour
simplifier, la sensibilité à des phénomènes extérieurs va croissant
avec l'augmentation de performance de nos systèmes...



Va falloir intégrer cela dans la gestion d'un serveur sensible, emacs
ou matlab en rade ça n'est pas grave mais si cela arrive sur /bin/init
ou sur un binaire d'un serveur, c'est plus gênant.


François Boisson


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Francois Boisson
Le Wed, 13 Jul 2005 09:09:48 +0200
JusTiCe8 a écrit:


Plus sérieusement, ne serait-ce pas le classique pb du facteur humain
?


Non

Est-ce les progs qui se modifient pour une raison lambda, ou bien toi
qui ai l'impréssion qu'ils se modifient ?



Ce sont les fichiers

ta backup est -elle vraiment fiable ?



Oui, certain!

C'est pt elle aussi qui n'est pas correcte !



Non, le test d'intégrité passe une fois que je remplace le fichier
par celui du backup.

Je te suggère de comparer ton programme xyz (ici emacs) avec un totu
beau tout neuf provenant d'une source sûre et de faire de même avec la
sauvegarde de référence.



Déjà fait, les 3 fois. Je suis certain de ce que j'avance ici.


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Vera Mickael
Patrice Karatchentzeff a écrit :
Le 13/07/05, François Boisson a écrit :

Bonjour à tous

Toujours dans le cadre de surveillance de machines, pour la 3ième fois
en 6 mois et deuxième fois en quinze jours, je viens de constater
l'inversion d'un bit (le passage de 1 à 0) sur un fichier
(/usr/bin/emacs-20.7) sur une machine:




J'avoue que je n'ai jamais vérifié sur mes machines mais cela ne me
choque pas outre mesure. Statistiquement parlant, si tu n'as pas de
matériel très haut de gamme (avec multiples codes de corrections
d'erreurs), ce genre d'erreurs, certainement provoqué par des
perturbations électromagnétiques extérieures, sera de plus en plus
fréquent à l'avenir...

Pour info, le gap pour faire passer un électron d'un état à un autre
sur les substrats de silicium se réduit comme peau de chagrin avec la
diminution des tailles de grille de transistor... en gros, pour
simplifier, la sensibilité à des phénomènes extérieurs va croissant
avec l'augmentation de performance de nos systèmes...

PK




Je ne suis pas trop convaincu par ton explication. Si les machines
perdaient leur fiabilité à ce point, peu de gens arriveraient à
avoir des systèmes stables. On ne peut pas envisager que régulièrement
un bit change dans un executable ou dans un librairie comme cela.
Je ne sais pas combien de machines administre François mais la fréquence
me parait anormalement élevée.

De plus François a détecté une modification sur son disque, les
transistors ne rentrent donc pas en jeu, même si un phénomène
équivalent doit exister au niveau du disque.

Si ton explication se révelait correcte, cela signifierait aussi
que tous ceux qui ont des PCs de base devraient se soucier de ce genre
de problèmes, il existerait des solutions toutes faites il me semble, or
apparemment ce n'est pas le cas ?

Ou alors les disques en cause sont tous du même modèle et présentent
un problème de fabrication ?

Mickaël


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Vera Mickael
> Déjà fait, les 3 fois. Je suis certain de ce que j'avance ici.



Pour lever toute ambiguité, je suppose que ton test est passé un
certain nombre de fois, qu'il continue à passer sur un certain
nombre de machines et que au bout d'un moment il ne passe plus
sur certaines machines ?

Le backup est-il partagé entre les différentes machines que tu
surveilles ?

Mickaël


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Francois Boisson
Le Wed, 13 Jul 2005 11:24:24 +0200
Vera Mickael a écrit:


Je ne suis pas trop convaincu par ton explication. Si les machines
perdaient leur fiabilité à ce point, peu de gens arriveraient à
avoir des systèmes stables. On ne peut pas envisager que régulièrement
un bit change dans un executable ou dans un librairie comme cela.
Je ne sais pas combien de machines administre François mais la
fréquence me parait anormalement élevée.




Deux remarques:

1) le emacs-20.7 modifié tournait parfaitement, le bit modifié ne
changeait pas le comportement du programme. Je ne l'ai vu que parce que
je surveille l'intégrité de tous les binaires par calcul de md5sum.

2) Le phénomène est arrivé sur 3 machines distinctes d'age différent
(entre 6 ans et 6 mois) avec des disques d'ages différents (même gamme)
que je n'arrive pas à distinguer d'autres disques par leur sortie
smartctl. Le parc surveillé est de 5 machines depuis longtemps plus 40
machines identiques depuis 3 semaines (je les surveille suite au
deuxième incident qui a été découvert fortuitement).


De plus François a détecté une modification sur son disque, les
transistors ne rentrent donc pas en jeu, même si un phénomène
équivalent doit exister au niveau du disque.

Si ton explication se révelait correcte, cela signifierait aussi
que tous ceux qui ont des PCs de base devraient se soucier de ce genre
de problèmes, il existerait des solutions toutes faites il me semble,
or apparemment ce n'est pas le cas ?



Ben je ne suis pas sûr que ça ne soit pas le cas, l'incidence est quand
même faible (à la louche, par machine, on arrive à un ordre de grandeur
type un incident par tranche de 2-3 ans) mais non négligeable pour un
parc important. L'utilisateur qui met à jour ses binaires toutes les
semaines ne verra rien. Celui qui le verra est typiquement le gérant
d'un parc de machines avec une configuration stable. Par ailleurs, lors
d'organisation d'épreuves d'examen/concours sur machines s'étalant sur
un mois, il me parait raisonnable d'envisager le problème (c'est ce qui
est arrivé).



Ou alors les disques en cause sont tous du même modèle et présentent
un problème de fabrication ?



Non aux deux questions (avec certitude).

François Boisson


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Francois Boisson
Le Wed, 13 Jul 2005 11:28:48 +0200
Vera Mickael a écrit:

> Déjà fait, les 3 fois. Je suis certain de ce que j'avance ici.

Pour lever toute ambiguité, je suppose que ton test est passé un
certain nombre de fois, qu'il continue à passer sur un certain
nombre de machines et que au bout d'un moment il ne passe plus
sur certaines machines ?

Le backup est-il partagé entre les différentes machines que tu
surveilles ?




Le test se fait à l'aide du paquet surveillance que j'ai fait:

A l'installation, ce paquet crée un fichier contenant les md5sums d'une
liste de fichiers (par défaut je prend les fichiers de /bin, /sbin,
/usr/bin, /usr/sbin, /etc/rc*, /etc/init.d). Toutes les heures, les
md5sums de ces fichiers sont comparés avec leur md5sum d'origine. Les
différences sont signalées. Lors des incidents, à chaque fois:

- Le fichier est signalé en erreur.

- Le fichier restauré à partir d'un backup a bien le md5sum voulu. Ce
fichier correspond aussi au fichier binaire du paquet correspondant de
Debian. find montre que ce fichier n'a pas été modifié (option -mtime).

Par ailleurs, le «backup» était successivement dans l'ordre des cas

- le paquet debian qui était dans /var/cache/apt/archives
- une machine «clone» parmi une quarantaine identiques (reproduites par
recopie de partitions)
- Un backup spécifique à la machine

La première et la dernière machine sont sous surveillance depuis en
gros 2 ans, la deuxième ne l'était pas, je me suis aperçu de l'incident
par plantage de matlab et comparaison des fichiers octet à octet.


Voilà, merci à tous des réponses :)

François Boisson


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact