HTTrack : dossiers dans un site ou hors du site ?

5 réponses

siger

09/07/2014 à 01:04

Bonjour,

Il y a un site web qui est une mine d'or pour ceux qui s'intéressent à
un aspect de l'histoire, sans doute le plus gros reccueil de documents.

L'auteur ne répond plus depuis des mois. Je me suis dit qu'il était
peut-être décédé, et sa famille peut fermer lesite en ignorant tout de
sa passion.

J'ai donc pensé à sauvegarder ce site en utilisant HTTrack, et le
mettre de côté au cas où.

Mais je vois qu'HTTrack télécharge des tas de googleries. Je regarde le
contenu et je ne comprends pas ce que tout ça fait là. Il y a des noms
qui semblent être des utilisateurs de Google Plus, tous anglophones
alors que le site est francophone, et des tas de références à d'autres
sites web, je le vois pas des dossiers nommés www.france2.fr, par
exemple. Voilà un extrait de ce que j'ai téléchargé.

http://cjoint.com/?DGja1yPmoOA

On voit un bout de liste de plus.google.com, mais la liste est aussi
impressionnante avec lh3.googleusercontent.com et les suivants.

J'ai laissé les options de HTTrack par défaut, je viens de l'installer
à partir du site officiel.
J'ai déjà utilisé ce logiciel il y a pas mal d'années, je ne me
souviens pas de tout ça, faut dire que l'empire Google n'existait pas
ou pas pareil.

Voilà le site en question : http://www.claudechappe.fr/plan.php

Qu'en pensez vous ? Est-ce que je suis en train de télécharger
internet ? :-)

--
siger

5 réponses

Eric Demeester

09/07/2014 à 01:41

Bonsoir,

siger (08 Jul 2014 23:04:24 GMT - fr.reseaux.internet.hebergement) :

Mais je vois qu'HTTrack télécharge des tas de googleries. Je regarde le
contenu et je ne comprends pas ce que tout ça fait là.

[...]

J'ai laissé les options de HTTrack par défaut, je viens de l'installer
à partir du site officiel.

[...]

Qu'en pensez vous ? Est-ce que je suis en train de télécharger
internet ? :-)

Il y a un risque, oui :)

Plus sérieusement, trois choses sont à prendre en considération pour
réaliser ce type de manipulation.

1. « profondeur » de récupération des liens :

Il faut configurer HHTrack pour qu'il se limite à suivre les liens
internes au site, sinon il risque de partir récupérer des sites tiers
s'il trouve des URL. Ce point, qui fait que tu vois actuellement des
liens pointant vers l'extérieur du site, est de mémoire configurable
dans HTTrack.

2. Présence de javascript :

Dans le site en question, il y semble y en avoir, et ce sont des scripts
externes, puisqu'il y a des appels à ajax.googleapis.com.

3. Site dynamique :

Si le moteur du site est un langage de programmation associé à une base
de données (souvent PHP / MySQL), les pages sont générée automatiquement
à la demande.

Les points 2 et 3 sont les plus problématiques pour « aspirer » un site,
et à en croire les logos figurant sur la page :
http://www.claudechappe.fr/legal.php

le site en question utilise largement cette panoplie de technologies, ce
qui rend complexe, voire impossible, la récupération de la totalité de
son contenu.

Xavier Roche

09/07/2014 à 09:12

On 07/09/2014 01:04 AM, siger wrote:

Mais je vois qu'HTTrack télécharge des tas de googleries. Je regarde le
contenu et je ne comprends pas ce que tout ça fait là. Il y a des noms
qui semblent être des utilisateurs de Google Plus

Probablement des liens type image/etc.

Le mieux est de restreindre explicitement la copie a ce site:
-* +www.claudechappe.fr/*

(Options / Filtres)

Par défaut (sous Windows) il y a quelque chose comme "+*.gif +*.png"..
etc, ce qui peut récupérer pas mal de choses :)

siger

10/07/2014 à 11:44

Eric Demeester a écrit :

Bonsoir,

siger (08 Jul 2014 23:04:24 GMT - fr.reseaux.internet.hebergement)
:

Mais je vois qu'HTTrack télécharge des tas de googleries. Je
regarde le contenu et je ne comprends pas ce que tout ça fait là.

[...]
J'ai laissé les options de HTTrack par défaut, je viens de
l'installer à partir du site officiel.

[...]
Qu'en pensez vous ? Est-ce que je suis en train de télécharger
internet ? :-)

Il y a un risque, oui :)

Plus sérieusement, trois choses sont à prendre en considération
pour réaliser ce type de manipulation.

1. « profondeur » de récupération des liens :

Il faut configurer HHTrack pour qu'il se limite à suivre les liens
internes au site, sinon il risque de partir récupérer des sites
tiers s'il trouve des URL. Ce point, qui fait que tu vois
actuellement des liens pointant vers l'extérieur du site, est de
mémoire configurable dans HTTrack.

Pour info, tous les dossiers "google" et autres sont rangés sous le
dossier racine du site.

2. Présence de javascript :

Dans le site en question, il y semble y en avoir, et ce sont des
scripts externes, puisqu'il y a des appels à ajax.googleapis.com.

3. Site dynamique :

Si le moteur du site est un langage de programmation associé à une
base de données (souvent PHP / MySQL), les pages sont générée
automatiquement à la demande.

Les points 2 et 3 sont les plus problématiques pour « aspirer » un
site, et à en croire les logos figurant sur la page :
http://www.claudechappe.fr/legal.php

le site en question utilise largement cette panoplie de
technologies, ce qui rend complexe, voire impossible, la
récupération de la totalité de son contenu.

--
siger

siger

10/07/2014 à 11:55

Xavier Roche a écrit :

On 07/09/2014 01:04 AM, siger wrote:
Mais je vois qu'HTTrack télécharge des tas de googleries. Je
regarde le contenu et je ne comprends pas ce que tout ça fait là.
Il y a des noms qui semblent être des utilisateurs de Google Plus

Probablement des liens type image/etc.

Le mieux est de restreindre explicitement la copie a ce site:
-* +www.claudechappe.fr/*

(Options / Filtres)

Par défaut (sous Windows) il y a quelque chose comme "+*.gif
+*.png".. etc, ce qui peut récupérer pas mal de choses :)

J'ai arrêté la copie (qui me promettait encore de nombreux Go) et j'en
ai fait une autre avec pour seul critère :
-* +www.claudechappe.fr/*

Effectivement, comme le dit Eric, si je me déconnecte je ne peux pas
naviguer dans le site.

--
siger

siger

10/07/2014 à 12:44

siger a écrit :

Eric Demeester a écrit :

Bonsoir,

siger (08 Jul 2014 23:04:24 GMT - fr.reseaux.internet.hebergement)
:

Mais je vois qu'HTTrack télécharge des tas de googleries. Je
regarde le contenu et je ne comprends pas ce que tout ça fait là.

[...]
J'ai laissé les options de HTTrack par défaut, je viens de
l'installer à partir du site officiel.

[...]
Qu'en pensez vous ? Est-ce que je suis en train de télécharger
internet ? :-)

Il y a un risque, oui :)

Plus sérieusement, trois choses sont à prendre en considération
pour réaliser ce type de manipulation.

1. « profondeur » de récupération des liens :

Il faut configurer HHTrack pour qu'il se limite à suivre les liens
internes au site, sinon il risque de partir récupérer des sites
tiers s'il trouve des URL. Ce point, qui fait que tu vois
actuellement des liens pointant vers l'extérieur du site, est de
mémoire configurable dans HTTrack.

Pour info, tous les dossiers "google" et autres sont rangés sous le
dossier racine du site.

Je me suis trompé, c'est dans le dossier "site" dans lequel il y a
aussi le dossier "www.site".

--
siger

HTTrack : dossiers dans un site ou hors du site ?

5 réponses

Veuillez sélectionner un problème