Bonjour à tous,
Je suis en train de concevoir une base de données SQL Server qui doit
stocker normalement les informations sur des documents divers au format
Mon objectif est d'indexer ces documents à partir de leurs contenus
extraits sous forme de texte ASCII. C'est à dire que j'extrait d'abord
uniquement les textes et je les stocke sous forme de fichiers. Ainsi pour
chaque document j'ai un PDF et un TXT ou XML.
Maintenant je voulais savoir comment bien gérer cela sous SQL Server. En
effet, je voudrais intérroger la base en entrant des mots clés à trouver
dans le fichier texte extrait. Est il judicieux de stocker ces fichiers
textes dans les colonnes de type text sous SQL server et d'utiliser les
requêtes de texte intégral ou bien de les stocker sur le disque au format
XML et utiliser la prise ne charge des fichiers XML par SQl server pour
interroger ces documents. Personnellement je penche pour la première
mais le hic est que les champs risque d'être trop volumineux car je peux
avoir des documents de deux à trois pages. L'autre souci c'est que je
voulais démarrer avec MSDE mais à ma connaissance la fonctionnalité de
recherche de texte integral n'est pas installée avec cette version
Voila, mon problème.
Je suis preneur de toute idée constructive
Merci d'avance pou toute intervention
Georges
Bonjour à tous,
Je suis en train de concevoir une base de données SQL Server qui doit
stocker normalement les informations sur des documents divers au format
Mon objectif est d'indexer ces documents à partir de leurs contenus
extraits sous forme de texte ASCII. C'est à dire que j'extrait d'abord
uniquement les textes et je les stocke sous forme de fichiers. Ainsi pour
chaque document j'ai un PDF et un TXT ou XML.
Maintenant je voulais savoir comment bien gérer cela sous SQL Server. En
effet, je voudrais intérroger la base en entrant des mots clés à trouver
dans le fichier texte extrait. Est il judicieux de stocker ces fichiers
textes dans les colonnes de type text sous SQL server et d'utiliser les
requêtes de texte intégral ou bien de les stocker sur le disque au format
XML et utiliser la prise ne charge des fichiers XML par SQl server pour
interroger ces documents. Personnellement je penche pour la première
mais le hic est que les champs risque d'être trop volumineux car je peux
avoir des documents de deux à trois pages. L'autre souci c'est que je
voulais démarrer avec MSDE mais à ma connaissance la fonctionnalité de
recherche de texte integral n'est pas installée avec cette version
Voila, mon problème.
Je suis preneur de toute idée constructive
Merci d'avance pou toute intervention
Georges
Bonjour à tous,
Je suis en train de concevoir une base de données SQL Server qui doit
stocker normalement les informations sur des documents divers au format
Mon objectif est d'indexer ces documents à partir de leurs contenus
extraits sous forme de texte ASCII. C'est à dire que j'extrait d'abord
uniquement les textes et je les stocke sous forme de fichiers. Ainsi pour
chaque document j'ai un PDF et un TXT ou XML.
Maintenant je voulais savoir comment bien gérer cela sous SQL Server. En
effet, je voudrais intérroger la base en entrant des mots clés à trouver
dans le fichier texte extrait. Est il judicieux de stocker ces fichiers
textes dans les colonnes de type text sous SQL server et d'utiliser les
requêtes de texte intégral ou bien de les stocker sur le disque au format
XML et utiliser la prise ne charge des fichiers XML par SQl server pour
interroger ces documents. Personnellement je penche pour la première
mais le hic est que les champs risque d'être trop volumineux car je peux
avoir des documents de deux à trois pages. L'autre souci c'est que je
voulais démarrer avec MSDE mais à ma connaissance la fonctionnalité de
recherche de texte integral n'est pas installée avec cette version
Voila, mon problème.
Je suis preneur de toute idée constructive
Merci d'avance pou toute intervention
Georges
Merci patrice,
Oui, sauf que index server ne sait indexer les fichier PDF que si on lui
rajoute un utilitaire fourni par Adobe ( IPDFFilter ??? : je me souviens
plus du nom). En plus il faut jongler avec les spécficités adobe et
microsoft ( des dll, des cfg, par ci par là ). C'est galère à mettre en
place et je ne serais plus maître de ce que je fais.
Quant au stockage, ce n'est pas le fichier physique que je veux stocker
mais son contenu textuel. Les pDF restant sur le disque. Si je laisse les
fichiers sur le disque, je n'aurais plus besoin de SQL Server puisqu'il me
suffira de faire du code pour parcourir ces fichiers et chercher un mot
précis. Là je suis sûr que je risque de perdre au moins 10 secondes par
rapport à une requête optimisée SQL Server.
"Patrice" a écrit dans le message de news:
#
> Pour moi, extraire le texte de ces documents est inutile car "index
server"
> fait cela de lui-même.
> Ensuite faut argument contraire, je pense préférable de stocker les
fichiers
> en dehors de la base de données. Il serait alors indexés avec "Index
> Server". Normalement SQL Server (MSDE ?) peut ensuite accéder aux
données
> Index Server.
>
>
>
>
> --
>
> "Georges" a écrit dans le message de
> news:chju73$37d$
> > Bonjour à tous,
> >
> > Je suis en train de concevoir une base de données SQL Server qui
> > stocker normalement les informations sur des documents divers au
format
> PDF.
> > Mon objectif est d'indexer ces documents à partir de leurs
> > extraits sous forme de texte ASCII. C'est à dire que j'extrait
> > uniquement les textes et je les stocke sous forme de fichiers. Ainsi
pour
> > chaque document j'ai un PDF et un TXT ou XML.
> > Maintenant je voulais savoir comment bien gérer cela sous SQL
En
> > effet, je voudrais intérroger la base en entrant des mots clés à
trouver
> > dans le fichier texte extrait. Est il judicieux de stocker ces
fichiers
> > textes dans les colonnes de type text sous SQL server et d'utiliser
les
> > requêtes de texte intégral ou bien de les stocker sur le disque au
format
> > XML et utiliser la prise ne charge des fichiers XML par SQl server
pour
> > interroger ces documents. Personnellement je penche pour la première
> methode
> > mais le hic est que les champs risque d'être trop volumineux car je
peux
> > avoir des documents de deux à trois pages. L'autre souci c'est que
> > voulais démarrer avec MSDE mais à ma connaissance la fonctionnalité
> > recherche de texte integral n'est pas installée avec cette version
> desktop.
> > Voila, mon problème.
> > Je suis preneur de toute idée constructive
> >
> > Merci d'avance pou toute intervention
> >
> > Georges
> >
> >
>
>
Merci patrice,
Oui, sauf que index server ne sait indexer les fichier PDF que si on lui
rajoute un utilitaire fourni par Adobe ( IPDFFilter ??? : je me souviens
plus du nom). En plus il faut jongler avec les spécficités adobe et
microsoft ( des dll, des cfg, par ci par là ). C'est galère à mettre en
place et je ne serais plus maître de ce que je fais.
Quant au stockage, ce n'est pas le fichier physique que je veux stocker
mais son contenu textuel. Les pDF restant sur le disque. Si je laisse les
fichiers sur le disque, je n'aurais plus besoin de SQL Server puisqu'il me
suffira de faire du code pour parcourir ces fichiers et chercher un mot
précis. Là je suis sûr que je risque de perdre au moins 10 secondes par
rapport à une requête optimisée SQL Server.
"Patrice" <nobody@nowhere.com> a écrit dans le message de news:
#Wn5AZMlEHA.3564@TK2MSFTNGP14.phx.gbl...
> Pour moi, extraire le texte de ces documents est inutile car "index
server"
> fait cela de lui-même.
> Ensuite faut argument contraire, je pense préférable de stocker les
fichiers
> en dehors de la base de données. Il serait alors indexés avec "Index
> Server". Normalement SQL Server (MSDE ?) peut ensuite accéder aux
données
> Index Server.
>
>
>
>
> --
>
> "Georges" <123georges@news.fr> a écrit dans le message de
> news:chju73$37d$1@s5.feed.news.oleane.net...
> > Bonjour à tous,
> >
> > Je suis en train de concevoir une base de données SQL Server qui
> > stocker normalement les informations sur des documents divers au
format
> PDF.
> > Mon objectif est d'indexer ces documents à partir de leurs
> > extraits sous forme de texte ASCII. C'est à dire que j'extrait
> > uniquement les textes et je les stocke sous forme de fichiers. Ainsi
pour
> > chaque document j'ai un PDF et un TXT ou XML.
> > Maintenant je voulais savoir comment bien gérer cela sous SQL
En
> > effet, je voudrais intérroger la base en entrant des mots clés à
trouver
> > dans le fichier texte extrait. Est il judicieux de stocker ces
fichiers
> > textes dans les colonnes de type text sous SQL server et d'utiliser
les
> > requêtes de texte intégral ou bien de les stocker sur le disque au
format
> > XML et utiliser la prise ne charge des fichiers XML par SQl server
pour
> > interroger ces documents. Personnellement je penche pour la première
> methode
> > mais le hic est que les champs risque d'être trop volumineux car je
peux
> > avoir des documents de deux à trois pages. L'autre souci c'est que
> > voulais démarrer avec MSDE mais à ma connaissance la fonctionnalité
> > recherche de texte integral n'est pas installée avec cette version
> desktop.
> > Voila, mon problème.
> > Je suis preneur de toute idée constructive
> >
> > Merci d'avance pou toute intervention
> >
> > Georges
> >
> >
>
>
Merci patrice,
Oui, sauf que index server ne sait indexer les fichier PDF que si on lui
rajoute un utilitaire fourni par Adobe ( IPDFFilter ??? : je me souviens
plus du nom). En plus il faut jongler avec les spécficités adobe et
microsoft ( des dll, des cfg, par ci par là ). C'est galère à mettre en
place et je ne serais plus maître de ce que je fais.
Quant au stockage, ce n'est pas le fichier physique que je veux stocker
mais son contenu textuel. Les pDF restant sur le disque. Si je laisse les
fichiers sur le disque, je n'aurais plus besoin de SQL Server puisqu'il me
suffira de faire du code pour parcourir ces fichiers et chercher un mot
précis. Là je suis sûr que je risque de perdre au moins 10 secondes par
rapport à une requête optimisée SQL Server.
"Patrice" a écrit dans le message de news:
#
> Pour moi, extraire le texte de ces documents est inutile car "index
server"
> fait cela de lui-même.
> Ensuite faut argument contraire, je pense préférable de stocker les
fichiers
> en dehors de la base de données. Il serait alors indexés avec "Index
> Server". Normalement SQL Server (MSDE ?) peut ensuite accéder aux
données
> Index Server.
>
>
>
>
> --
>
> "Georges" a écrit dans le message de
> news:chju73$37d$
> > Bonjour à tous,
> >
> > Je suis en train de concevoir une base de données SQL Server qui
> > stocker normalement les informations sur des documents divers au
format
> PDF.
> > Mon objectif est d'indexer ces documents à partir de leurs
> > extraits sous forme de texte ASCII. C'est à dire que j'extrait
> > uniquement les textes et je les stocke sous forme de fichiers. Ainsi
pour
> > chaque document j'ai un PDF et un TXT ou XML.
> > Maintenant je voulais savoir comment bien gérer cela sous SQL
En
> > effet, je voudrais intérroger la base en entrant des mots clés à
trouver
> > dans le fichier texte extrait. Est il judicieux de stocker ces
fichiers
> > textes dans les colonnes de type text sous SQL server et d'utiliser
les
> > requêtes de texte intégral ou bien de les stocker sur le disque au
format
> > XML et utiliser la prise ne charge des fichiers XML par SQl server
pour
> > interroger ces documents. Personnellement je penche pour la première
> methode
> > mais le hic est que les champs risque d'être trop volumineux car je
peux
> > avoir des documents de deux à trois pages. L'autre souci c'est que
> > voulais démarrer avec MSDE mais à ma connaissance la fonctionnalité
> > recherche de texte integral n'est pas installée avec cette version
> desktop.
> > Voila, mon problème.
> > Je suis preneur de toute idée constructive
> >
> > Merci d'avance pou toute intervention
> >
> > Georges
> >
> >
>
>
Bonjour à tous,
Je suis en train de concevoir une base de données SQL Server qui doit
stocker normalement les informations sur des documents divers au format PDF.
Mon objectif est d'indexer ces documents à partir de leurs contenus
extraits sous forme de texte ASCII. C'est à dire que j'extrait d'abord
uniquement les textes et je les stocke sous forme de fichiers. Ainsi pour
chaque document j'ai un PDF et un TXT ou XML.
Maintenant je voulais savoir comment bien gérer cela sous SQL Server. En
effet, je voudrais intérroger la base en entrant des mots clés à trouver
dans le fichier texte extrait. Est il judicieux de stocker ces fichiers
textes dans les colonnes de type text sous SQL server et d'utiliser les
requêtes de texte intégral ou bien de les stocker sur le disque au format
XML et utiliser la prise ne charge des fichiers XML par SQl server pour
interroger ces documents. Personnellement je penche pour la première methode
mais le hic est que les champs risque d'être trop volumineux car je peux
avoir des documents de deux à trois pages. L'autre souci c'est que je
voulais démarrer avec MSDE mais à ma connaissance la fonctionnalité de
recherche de texte integral n'est pas installée avec cette version desktop.
Voila, mon problème.
Je suis preneur de toute idée constructive
Merci d'avance pou toute intervention
Georges
Bonjour à tous,
Je suis en train de concevoir une base de données SQL Server qui doit
stocker normalement les informations sur des documents divers au format PDF.
Mon objectif est d'indexer ces documents à partir de leurs contenus
extraits sous forme de texte ASCII. C'est à dire que j'extrait d'abord
uniquement les textes et je les stocke sous forme de fichiers. Ainsi pour
chaque document j'ai un PDF et un TXT ou XML.
Maintenant je voulais savoir comment bien gérer cela sous SQL Server. En
effet, je voudrais intérroger la base en entrant des mots clés à trouver
dans le fichier texte extrait. Est il judicieux de stocker ces fichiers
textes dans les colonnes de type text sous SQL server et d'utiliser les
requêtes de texte intégral ou bien de les stocker sur le disque au format
XML et utiliser la prise ne charge des fichiers XML par SQl server pour
interroger ces documents. Personnellement je penche pour la première methode
mais le hic est que les champs risque d'être trop volumineux car je peux
avoir des documents de deux à trois pages. L'autre souci c'est que je
voulais démarrer avec MSDE mais à ma connaissance la fonctionnalité de
recherche de texte integral n'est pas installée avec cette version desktop.
Voila, mon problème.
Je suis preneur de toute idée constructive
Merci d'avance pou toute intervention
Georges
Bonjour à tous,
Je suis en train de concevoir une base de données SQL Server qui doit
stocker normalement les informations sur des documents divers au format PDF.
Mon objectif est d'indexer ces documents à partir de leurs contenus
extraits sous forme de texte ASCII. C'est à dire que j'extrait d'abord
uniquement les textes et je les stocke sous forme de fichiers. Ainsi pour
chaque document j'ai un PDF et un TXT ou XML.
Maintenant je voulais savoir comment bien gérer cela sous SQL Server. En
effet, je voudrais intérroger la base en entrant des mots clés à trouver
dans le fichier texte extrait. Est il judicieux de stocker ces fichiers
textes dans les colonnes de type text sous SQL server et d'utiliser les
requêtes de texte intégral ou bien de les stocker sur le disque au format
XML et utiliser la prise ne charge des fichiers XML par SQl server pour
interroger ces documents. Personnellement je penche pour la première methode
mais le hic est que les champs risque d'être trop volumineux car je peux
avoir des documents de deux à trois pages. L'autre souci c'est que je
voulais démarrer avec MSDE mais à ma connaissance la fonctionnalité de
recherche de texte integral n'est pas installée avec cette version desktop.
Voila, mon problème.
Je suis preneur de toute idée constructive
Merci d'avance pou toute intervention
Georges