Bonjour, je cherche une solution d'indexation de document qui soit
(relativement) légère et accessible proprement en PHP.
Je dois indexer des documents HTML seulement, sur un disque local
uniquement.
J'ai jeté un oeil à phpdig qui s'appuie sur htdig mais cet outil propose
des fonctionnalités qui sont sans rapport avec ce que je cherche (crawler).
Il y aurait bien la possibilité d'utiliser Lucène et de mettre en place
un mécanisme d'appel avec PHP mais là encore c'est consommateur de
ressource et plutôt lourd pour ce dont j'ai besoin.
Je n'ai pas besoin d'une indexation en temps réel, un différé via un
tâche cron me va bien...
Je crois que ce qui me conviendrait serait un outil ligne de commande
natif lancé à intervalle régulier assorti de scripts PHP pour
l'exploitation de l'index dans un site web.
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Marc
Zouplaz wrote:
Vos conseils sont les bienvenus, merci !
* il existe un mécanisme de recherche dans SPIP, mais ne gere pas les documents HTML mais le format natif des documents SPIP (proche du wiki),
* tu peux mettre le contenu de tes pages HTML apres les avoir nettoyées via strip_tags(). Puis via une requette SQL, si ta base de données le supporte faire une recherche full-text en s'appuyant sur les fonctions natives de la base.
* tu peux aussi regarder les fonctions de différents CMS et voir si certains supportent l'indexation de documents externes, et si c'est du php natif.
Zouplaz wrote:
Vos conseils sont les bienvenus, merci !
* il existe un mécanisme de recherche dans SPIP, mais ne gere pas les documents
HTML mais le format natif des documents SPIP (proche du wiki),
* tu peux mettre le contenu de tes pages HTML apres les avoir nettoyées via
strip_tags(). Puis via une requette SQL, si ta base de données le supporte
faire une recherche full-text en s'appuyant sur les fonctions natives
de la base.
* tu peux aussi regarder les fonctions de différents CMS et voir si
certains supportent l'indexation de documents externes, et si
c'est du php natif.
* il existe un mécanisme de recherche dans SPIP, mais ne gere pas les documents HTML mais le format natif des documents SPIP (proche du wiki),
* tu peux mettre le contenu de tes pages HTML apres les avoir nettoyées via strip_tags(). Puis via une requette SQL, si ta base de données le supporte faire une recherche full-text en s'appuyant sur les fonctions natives de la base.
* tu peux aussi regarder les fonctions de différents CMS et voir si certains supportent l'indexation de documents externes, et si c'est du php natif.
xav
Bonjour, je cherche une solution d'indexation de document qui soit (relativement) légère et accessible proprement en PHP.
Je dois indexer des documents HTML seulement, sur un disque local uniquement.
Salut,
si tu est en php5, pourquoi ne pas essayer le port de lucene du Zend Framework ? http://framework.zend.com/manual/en/zend.search.html A+ xav
Bonjour, je cherche une solution d'indexation de document qui soit
(relativement) légère et accessible proprement en PHP.
Je dois indexer des documents HTML seulement, sur un disque local
uniquement.
Salut,
si tu est en php5, pourquoi ne pas essayer le port de lucene du Zend
Framework ?
http://framework.zend.com/manual/en/zend.search.html
A+
xav