OVH Cloud OVH Cloud

htdig

4 réponses
Avatar
Alain BarBason
Bonjour,

Dans mes recherches de moteur de recherches, j'ai actuellement opté pour
htdig, vu sa disponibilité (apt-get install, rpm).

Je commence a maitriser l'ensemble (rajout de fichier doc, sxw, ...), je
dois encore franciser
(http://didier.quartier-rural.org/elucu/htdig-vf/lisezmoi.html)

mais j'achope sur un problème.
Dans mon boulot, j'ai un répertoire commun sur un serveur partagé via
nfs. C'est celui là (et les sous-repertoire:-) que je voudrais indexer.

Hors, htdig, indexe des fichiers (a priori html), qui sont pointé
directement ou non par des hyperliens a partir d'"index.html" (et d'un
serveur apache2 dans mon cas).

Hors ce repertoire n'est pas a priori géré comme une arborescence web.

Je peux a la rigueur créer un fichier html pointant vers tous les
fichiers de mon répertoire, mais reste que quand j'interroge htdig
j'aurais une répoonse du style

http://192.168.0.2/html/tartata.sxw

pour une fichier se trouvant sur (html pointant sur /home/commun)

file:///home/commun/taratata.sxw

En cliquand dessus, je l'ouvre bien, mais mozilla appelle openoffice
avec /tmp/taratata.sxw et si je le modifie, je dois connaitre le chemin
d'origine (qui peut évidemment être bp plus long vu qu'il y a des sous
repertoire) pour le sauver au bon endroit.

Pensez-vous qu'il soit possible de générer un lien du type
file:///home/commun/taratata.sxw en résultat de la recherche ?

En espérant m'avoir fait comprendre...

ouf.

AlainBB

4 réponses

Avatar
Glennie Vignarajah
Alain BarBason a écrit:

Bonjour,


Bonsoir,

Hors, htdig, indexe des fichiers (a priori html), qui sont pointé
directement ou non par des hyperliens a partir d'"index.html" (et
d'un serveur apache2 dans mon cas).

Hors ce repertoire n'est pas a priori géré comme une arborescence
web.


[../..]

http://192.168.0.2/html/tartata.sxw
Pensez-vous qu'il soit possible de générer un lien du type
file:///home/commun/taratata.sxw en résultat de la recherche ?


Je pense que ça *doit* *être* faisable avec mod_rewrite.
A+

--
Glennie
"Personne ne survit au fait d'être estimé au-dessus de sa valeur."

Avatar
Alain BB
Glennie Vignarajah wrote:
Alain BarBason a écrit:


Bonjour,



Bonsoir,

Hors, htdig, indexe des fichiers (a priori html), qui sont pointé
directement ou non par des hyperliens a partir d'"index.html" (et
d'un serveur apache2 dans mon cas).

Hors ce repertoire n'est pas a priori géré comme une arborescence
web.



[../..]


http://192.168.0.2/html/tartata.sxw
Pensez-vous qu'il soit possible de générer un lien du type
file:///home/commun/taratata.sxw en résultat de la recherche ?



Je pense que ça *doit* *être* faisable avec mod_rewrite.


Je crois que mod_rewrite fonctionne dans l'autre sens (du peu que j'en
ai lu)

Si j'ai une page "http://192.168.0.2/url-tres-complique-mais-reel.html",
et que je voudrais "http://192.168.0.2/simple.html", alors qu'il
n'existe pas de fichier "simple.html", c'est en effet ce module.

Mais dans mon cas, les 2 fichiers existent, c'est la manière d'y accéder
qui diffère.

Je pense plus à un option htdig. C'est surement patchable en
recompilant, mais est-ce que ça n'existe pas via le fichier de config ?


AlainBB


Avatar
Alain BB
Mais dans mon cas, les 2 fichiers existent, c'est la manière d'y accéder
qui diffère.


A me repondre, j'ai été voir dans les options, mais je ne trouve rien.
De plus, le cgi "htsearch" est compilé, donc ca va dans le sens de la
recompile, j'ai pas fort envie mais bon pourquoi pas.

Par contre, je me demande si je ne pourrais pas intégrer le script dans
un script à moi. Htdig est en effet un indexeur, mais utilise un script
cgi pour intérroger et afficher les résultat. C'est celui ci qui génère
le fihier html.

Donc,

myhtsearch

!/usr/bin/perl
exec(htsearh > /tmp/fichiertemporaire)
OPEN FILE /tmp/fichiertemporaire
while <FILE> {
$_ =~s/http://192.168.0.2/file:///home/commun/g;
print $_
}

Bon je connais plus la syntaxe précisement, mais ce que je ne vois pas
comment faire, c'est passer les paramètres du formulaire de mon script à
l'autre.



Je pense plus à un option htdig. C'est surement patchable en
recompilant, mais est-ce que ça n'existe pas via le fichier de config ?


AlainBB


Avatar
Alain BarBason


Je pense plus à un option htdig. C'est surement patchable en
recompilant, mais est-ce que ça n'existe pas via le fichier de config ?

j'ai trouvé, suffit de lire la doc, bon en anglais c'est pas tjs


évident. C'était search_rewrite_rules

il faut par exemple faire
search_rewrite_rules: http://www.barbason.be(.*)
file:///home/serveur/var/www1

(en une ligne)

Reste que j'ai encore un problème, mais bon, je dois encore chercher.

AlainBB