Moteur de recherche en texte plein supportant bien les caractères latins

Le
ROYER Jean-Yves
Bonjour,

Je suis nouveau sur cette liste. J'utilise l'informatique depuis plus de
50 ans, mais ne suis pas très compétent en informatique.

Pour un simulateur Internet en prison utilisé pour préparer les
stagiaires détenus à divers certificats exigeant la maîtrise de services
de l'Internet, sans aucune connexion à Internet, depuis environ 10 ans,
nous utilisons le moteur de recherche libre Namazu
(http://www.namazu.org/) dans ses versions successives, tant avec Linux
(Debian) que Windows. Il indexe environ 150 sites et 30 000 pages
essentiellement en français, gérées par Apache, PHP et MySQL. Nous
engageons une mise à jour qui n'a pas été faite depuis 2006.

Malheureusement, même dans les dernières versions nous ne savons pas
faire reconnaître correctement les caractères latins codés en entités
html. Dans les versions précédentes du simulateur, nous convertissions
tous les caractères en iso-8859 sur 8 bits afin qu'ils soient
correctement indexés et retrouvés. C'est un travail assez lourd.

Pour la nouvelle version du simulateur nous cherchons à supprimer cette
opération de manière à alléger l'enrichissement et la mise à jour du
simulateur qui risque d'être nécessaire encore quelques années pour
initier des détenus à l'Internet.

Faute d'avoir trouvé un groupe d'utilisateurs français du logiciel, je
pose la question sur cette liste.

Y aurait-il un paramétrage de Namazu permettant de ne pas avoir à
convertir les caractères accentués dans les pages des sites et les bases
de données MySQL ? Il semble que les moteurs de recherche du Web sachent
bien réaliser ces opérations. Est-il possible de réaliser les mêmes
conversions à la volée avec Namazu ?

Nous sommes une équipe de formateurs bénévoles retraités ne connaissant
pas le japonais (origine du logiciel), ayant un peu de mal avec
l'anglais et sans connaissances des techniques d'indexation et de
filtrage utilisées par Namazu, notamment pour indexer des documents dans
des formats très divers. Nous sommes incapables de comprendre et
modifier les scripts PERL et autres sources.

Je tiens les fichiers de configuration de Namazu à la disposition des
personnes qui connaîtraient ce moteur d'indexation et de recherche.

Y aurait-il d'autres logiciels libres d'indexation et de recherche qui
répondraient aux mêmes besoins et qui traiteraient correctement les
caractères accentués tels qu'ils sont rencontrés sur le Web. J'ai tenté
quelques recherches dans le catalogue Debian sans trouver ce que nous
voudrions : swish-e, hyperestraier, solr, ht/dig.

Merci de votre aide. Librement.

Jean-Yves ROYER
Trésorier du réseau des EPN du Lyonnais
http://www.epndulyonnais.org
Secrétaire de La Mouette
Association de soutien aux projets francophones de bureautique libre,
dont LibreOffice
http://www.lamouette.org
Formateur au CLub Informatique Pénitentiaire
http://www.assoclip.org

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/NDBBIKEOELMPPCHGLCOAGEKELEAA.royerjy@wanadoo.fr
Questions / Réponses high-tech
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Jean-Yves F. Barbier
Le #24190031
On Mon, 23 Jan 2012 17:16:24 +0100
"ROYER Jean-Yves"
Je suis nouveau sur cette liste. J'utilise l'informatique depuis plus de
50 ans, mais ne suis pas très compétent en informatique.



Haa, c'était donc toi qui changeait les lampes de l'ENIAC!

nous utilisons le moteur de recherche libre Namazu



C'est seulement un moteur de recherche texte.

(Debian) que Windows. Il indexe environ 150 sites et 30 000 pages
essentiellement en français,



Ca, c'est ptêt une erreur: déjà une majorité de sites s ont en
Anglais, et lorsqu'on fait une recherche normale, on tombe
de toute façon sur une bonne part de résultat en Anglais.


Y aurait-il un paramétrage de Namazu permettant de ne pas avoir à  
convertir les caractères accentués dans les pages des sites et les bases
de données MySQL ?



Sèpô, mais il n'est apparemment pas donné comme multilingue, ce qui
laisse à penser qu'il ne traite pas le multi-encodage.

des formats très divers. Nous sommes incapables de comprendre et
modifier les scripts PERL et autres sources.



Le PB de PERL est le même que celui de C: on peut tout faire et
n'importe quoi - et si le pgm est mal écrit (ou obfusqué) on peut
passer presque autant de temps à le décrypter qu'à le rà ©Ã©crire.


Y aurait-il d'autres logiciels libres d'indexation et de recherche qui
répondraient aux mêmes besoins et qui traiteraient correctement les
caractères accentués tels qu'ils sont rencontrés sur le We b.



celui-ci devrait convenir: http://www.mnogosearch.org/download.html
la version Linux est s/s license GPL et ə des RPMs qu'on peut transcod er
en DEBs avec alien (SI les RPMs sont correctement faits).

--
"He could be a poster child for retroactive birth control."

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Publicité
Poster une réponse
Anonyme