GNT sans publicité, site mobile, fonctionnalitées exclusives...

Aspirateur noms de fichiers

Le
Tonio
Bonjour,

Je ne suis pas sûr d'être sur le bon NG. D'avance, merci de votre aide ou de
me renvoyer vers le bon NG.

Voilà mon problème :
Je dispose d'un site web très "bordélique", avec des fichiers dans tous les
sens, des pages codées en HTML n'importe comment et j'en passe ! Le tout
pesant presque 10 Go !

Ne voulant pas reprendre tout à 0 pour l'instant, je voudrais au moins
lister les fichiers orphelins (c'est à dire ceux vers lesquels aucun lien ne
pointe dans aucune page) car il y en a beaucoup.

J'ai pensé faire un comparatif entre la liste de tous les fichiers présents
dans le répertoire et la liste des fichiers visibles par un visiteur (donc
via des liens). Mais impossible de trouver un soft qui me liste tous les
fichiers ou liens d'un site. Je ne trouve que des aspirateurs qui permettent
de récupérer les fichiers (ce qui ne intéresse pas vue la taille du site).

Donc quelqu'un aurait-il une solution pour moi ? Un aspirateur de noms de
fichiers (et non pas un aspirateur de fichiers) ?

Merci.

--
Antoine
Lire les 17 réponses

Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses Page 1 / 4
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Denis Beauregard
Le #22084781
Le Fri, 4 Jan 2008 00:31:52 +0100, "Tonio" écrivait dans fr.comp.infosystemes.www.auteurs:

Donc quelqu'un aurait-il une solution pour moi ? Un aspirateur de noms de
fichiers (et non pas un aspirateur de fichiers) ?



J'ai eu le même problème à résoudre récemment. Dans mon cas, je
voulais la liste des fichiers de mon site et il y en a plus de
80 000.

Ma solution était de faire ce script en PHP:

<?

echo "<pre>n";
system("ls -ali -R . ");
echo "n</pre>n";

?>


Je n'avais que 80 000 fichiers, donc cela faisait une page de
80 000 lignes, ce qui est encore gérable avec un fureteur.
On lit et on enregistre. Je suppose qu'il y a une limite.
Ces 10 Go de fichiers, c'est des petits ou des gros fichiers ?

La solution idéale aurait été de faire un ls >liste mais mon
hébergeur ne permet pas une telle configuration.

Évidemment, si le serveur n'est pas linux, il faut utiliser la
bonne commande au lieu de ls !


Denis
SAM
Le #22084771
Tonio a écrit :
Je dispose d'un site web très "bordélique", avec des fichiers dans tous les
sens, des pages codées en HTML n'importe comment et j'en passe ! Le tout
pesant presque 10 Go !

Ne voulant pas reprendre tout à 0 pour l'instant, je voudrais au moins
lister les fichiers orphelins (c'est à dire ceux vers lesquels aucun lien ne
pointe dans aucune page) car il y en a beaucoup.



Essayer voir si : HtmlRename ferait ce que tu veux :
je sais qu'en local il sait trouver tous les orphelins et liens cassés
dans les fichiers et je crois(?) qu'il peut le faire sur un site.
Libre d'emploi pour 15 jours d'essai.

Bemol : il ne comprend que le html (de préf en soupe de tags)
ce n'est pas un soft très nouveau ni très mis à jour ...

--
sm
Paul Gaborit
Le #22084761
À (at) Fri, 4 Jan 2008 00:31:52 +0100,
"Tonio"
Voilà mon problème :
Je dispose d'un site web très "bordélique", avec des fichiers dans tous les
sens, des pages codées en HTML n'importe comment et j'en passe ! Le tout
pesant presque 10 Go !

Ne voulant pas reprendre tout à 0 pour l'instant, je voudrais au moins
lister les fichiers orphelins (c'est à dire ceux vers lesquels aucun lien ne
pointe dans aucune page) car il y en a beaucoup.

J'ai pensé faire un comparatif entre la liste de tous les fichiers présents
dans le répertoire et la liste des fichiers visibles par un visiteur (donc
via des liens). Mais impossible de trouver un soft qui me liste tous les
fichiers ou liens d'un site. Je ne trouve que des aspirateurs qui permettent
de récupérer les fichiers (ce qui ne intéresse pas vue la taille du site).

Donc quelqu'un aurait-il une solution pour moi ? Un aspirateur de noms de
fichiers (et non pas un aspirateur de fichiers) ?



Pour faire cela, on peut utiliser 'wget' (par exemple) avec son option
--delete-after et en gardant les logs de wget pour analyse des
fichiers téléchargés. Un truc du genre :

wget -o log.txt -r -nd --delete-after http://le.site.bordelique/

Tout sera dans 'log.txt'.

Évidemment, si le site utilise de nombreuses redirections ou des pages
dynamiques (SSI, PHP ou autres), ça ne sera pas suffisant pour
retrouver les fichiers réellement utilisés...

--
Paul Gaborit -
Bruno Baguette
Le #22084751
Paul Gaborit a écrit :

Donc quelqu'un aurait-il une solution pour moi ? Un aspirateur de noms de
fichiers (et non pas un aspirateur de fichiers) ?



Pour faire cela, on peut utiliser 'wget' (par exemple) avec son option
--delete-after et en gardant les logs de wget pour analyse des
fichiers téléchargés. Un truc du genre :



Au lieu d'utiliser delete-after, ne serait-il pas plus indiqué
d'utiliser --spider qui éviterait ainsi au posteur original de massacrer
du traffic pour des prunes ? :-)

--
Bruno Baguette
Thierry B.
Le #22084741
--{ Tonio a plopé ceci: }--

Donc quelqu'un aurait-il une solution pour moi ? Un aspirateur de noms de
fichiers (et non pas un aspirateur de fichiers) ?



Peut-être avec Lynx est l'option -traversal ?

--
Au fait, vous savez que votre cagoule est percée ?


Savez vous qu'une cagoule non perçée n'est utilisable que par un aveugle ?
--{ JGDL, dans fr.misc.divers }--
Publicité
Suivre les réponses
Poster une réponse
Anonyme