OVH Cloud OVH Cloud

aspiration/conversion d'un site php avec wget

13 réponses
Avatar
pehache
Bonjour,

Je veux récupérer avec wget un vieux forum phpBB actuellement en ligne
chez OVH, pour en faire une version statique (consultable en ligne et en
local).

J'avais par le passé utilisé ce type de commande qui il me semble
fonctionnait bien :

wget --mirror --tries --adjust-extension –-convert-links -R
"*sid=*","ucp*","viewtopic.php*p=*","*=print*","posting.php*","*hilit=*"
--keep-session-cookies --load-cookies=COOKIEFILE http://monforum.fr/

Quand wget récupère une page qui contient un lien de type
"viewforum.php?f", il récupère la page liée et la sauvegarde sous
"viewforum.php?f.html" comme prévu (du fait de --adjust-extension).

Et il me semble qu'il devrait modifier le lien en accord dans la page
initiale (c'est le rÍ´le de --convert-links en principe), mais il ne le
fait pas. Le lien reste "viewforum.php?f" et non pas
"viewforum.php?f.html", donc en gros tous les liens sont cassés.

Je rate un truc ?

3 réponses

1 2
Avatar
Nicolas George
pehache , dans le message , a écrit :
Depuis LibreOffice

C'est chercher les ennuis. ;-)
Essaie de copier-coller vers «Â xxd > /tmp/dump » et de regarder ce
/tmp/dump, tu verras probablement ce qui cloche.
Avatar
pehache
Le 01/02/2021 Í  14:30, Nicolas George a écrit :
pehache , dans le message , a écrit :
Depuis LibreOffice

C'est chercher les ennuis. ;-)
Essaie de copier-coller vers «Â xxd > /tmp/dump » et de regarder ce
/tmp/dump, tu verras probablement ce qui cloche.

Première partie de la commande, d'abord en copié-collé, puis en retapant:
$ xxd
wget --mirror --tries --adjust-extension
00000000: 7767 6574 202d 2d6d 6972 726f 7220 2d2d wget --mirror --
00000010: 7472 6965 733d 3130 202d 2d61 646a 7573 tries --adjus
00000020: 742d 6578 7465 6e73 696f 6e20 0a t-extension .
$ xxd
wget --mirror --tries --adjust-extension
00000000: 7767 6574 202d 2d6d 6972 726f 7220 2d2d wget --mirror --
00000010: 7472 6965 733d 3130 202d 2d61 646a 7573 tries --adjus
00000020: 742d 6578 7465 6e73 696f 6e20 0a t-extension .
Complètement identique...
Et l'option qui ne fonctionnait pas, d'abord en copié-collé, puis en
retapant:
$ xxd
–-convert-links
00000000: e280 932d 636f 6e76 6572 742d 6c69 6e6b ...-convert-link
00000010: 7320 0a s .
$ xxd
--convert-links
00000000: 2d2d 636f 6e76 6572 742d 6c69 6e6b 7320 --convert-links
00000010: 0a .
Ce qui cloche : le tout premier tiret (normalement Z'2d') a été remplacé
par une séquence Z'e28093', qui correspond Í  un tiret long en UTF-8
(donc Sergio n'était pas loin en fait) :
https://www.fileformat.info/info/unicode/char/2013/index.htm
Je n'ai pas vu le tiret long car dans LO la commande est en police
"Courier", dans laquelle un tiret long a exactement la même apparence
qu'un tiret court. En affichant la commande en "Arial" le tiret long
saute aux yeux.
Avatar
DV
pehache a écrit ceci :
Je n'ai pas vu le tiret long car dans LO la commande est en police
"Courier", dans laquelle un tiret long a exactement la même apparence
qu'un tiret court. En affichant la commande en "Arial" le tiret long
saute aux yeux.

Parmi les polices Í  chasse fixe que je connais, la DejaVu Sans Mono est
celle qui différencie le mieux les deux tirets :
<https://hidrive.ionos.com/lnk/A3imhOHA>
--
Denis
1 2