Comment créer un seul doc word avec plus 300 doc word rapidement

Geo

14/01/2006 à 16:44

Bonjour,

Le 13/01/2006, alain.berenguier a supposé :
Bonsoir et Merci.
Le traid ma énormément appris. J'ai le même problème, non pas pour la traduction,
mais pour de l'OCR
en effet les pages de la BNF sont microfilmées. puis les photos mis en PDF. Il faut
donc éclater les pages du pdf, une page par photo, puis appliquer un logiciel OCR,
qui me donne du word, et donc environ 500 page de word... donc Merci.

Sinon, il y a des (un?) logiciels qui transforment directement du pdf en Word... Ce
serait sans doute plus rapide que l'OCR. La technique serait de regrouper tous les pdf
en un seul ou quelques petits documents, puis de les convertir directement.

PDF Converter de chez Nuance (ex ScanSoft) fait ça très bien. Il coûte aux alentours de
50 euros. Je n'ai testé que celui mais il y en a d'autres.

si j'ai bien compris les documents de la BNF sont numérisés puis
transformés en pdf, il faut donc passer par un logiciel de
reconnaissance de caractères.

--
A+

alain.berenguier

14/01/2006 à 19:31

Bonjour,
Excuser moi je me suis peut etre mal expliquer, mais Circé n'as pas tout
compris.
La BNF a archive sur microfiche, qui dit microfiche implique photo.
Ces microfiches ont ensuite etaient scanner pour produire lorsque un
utilisateur en fait la requete,
soit un fichier PDF, soit fichier TIFF.
Le fichier PDF comporte donc des pages qui sont les photos des documents
originaux..
Les photos sont souvent de travers...
Une converion OCR s'impose donc, car les convertiseur PDF => WORD me donnent
( s'ils marchent
un fichier WORD contenant une mutitude de photos. Ce qui ne correspond pas
au but chercher ( obtenir un texte éventuellement modifiable et surtout, sur
lequel l'on puisse effectuer des recherches lexicales.
( Ce sont des dictionnaires linguistique anciens, des dictionnaires du
blason, des dictionnaire heraldique ...)
Voir le site de la BNF.
et jusqu'à present je n'ais pas beau trouver de logiciel qui effectue de
l'OCR a partir d'une photo déja scannée. La majorite des editeur OCR parte
du scanneur comme source.
J'en ai trouver quelques un mais cela n'est pas evident. et il faut traiter
page par page. D'ou ma remarque avec remerciement pour regrouper les pages.

A+

Circé

14/01/2006 à 19:46

Hello Geo !

si j'ai bien compris les documents de la BNF sont numérisés puis
transformés en pdf, il faut donc passer par un logiciel de
reconnaissance de caractères.

Une petite lecture en diagonale ;) !!! Ça fait du bien de temps en
temps, surtout que ça fait longtemps que je n'en avais pas abusé !!!
;)))

Circé
http://faqword.free.fr

Geo

14/01/2006 à 21:55

Bonjour,
Excuser moi je me suis peut etre mal expliquer, mais Circé n'as pas tout compris.

N'insiste pas :-)
Elle avait bien mis les patins à glace, mais avec le soleil qu'il a
fait aujourd'hui la glace a fondu et elle est partie en travers de ton
texte.

[...]

et jusqu'à present je n'ais pas beau trouver de logiciel qui effectue de l'OCR a partir
d'une photo déja scannée.
La majorite des editeur OCR parte du scanneur comme source.

J'aurais dit le contraire, il me semblait qu'ils le font quasiment
tous.
Dans Omnipage, la première étape de l'assistant consiste à choisir
entre fichier et scanner.

J'en ai trouver quelques un mais cela n'est pas evident. et il faut traiter page par
page.

Oui, sur un scanner sans chargeur, non pour les fichiers, je viens de
faire un essai toujours avec omnipage il a traduit les deux pages du
document. Il coince sur mes Pdf mais traite bien les max (paperport)

Je viens de faire une autre expérience : dans paperport, j'ai des
images numérisées enregistrées sous forme de pdf, quand on fait "copier
le texte" il traite bien tout le pdf.
Ce qui veut dire qu'avec un logiciel permettant de regrouper des Pdf on
peut ensuite tout traiter.
Reste à regrouper 500 pdf.

--
A+

Damien Kergosien

16/01/2006 à 09:53

Bonjour alain.berenguier

Le logiciel de reconnaissance de caractères Abby Fine Reader peut
travailler à partir de fichiers pdf comme source.
Ils ont des versions d'essai
http://download.abbyy.com/content/default.aspx
bonne journée
Damien

Bonjour,
Excuser moi je me suis peut etre mal expliquer, mais Circé n'as pas tout
compris.
La BNF a archive sur microfiche, qui dit microfiche implique photo.
Ces microfiches ont ensuite etaient scanner pour produire lorsque un
utilisateur en fait la requete,
soit un fichier PDF, soit fichier TIFF.
Le fichier PDF comporte donc des pages qui sont les photos des documents
originaux..
Les photos sont souvent de travers...
Une converion OCR s'impose donc, car les convertiseur PDF => WORD me donnent
( s'ils marchent
un fichier WORD contenant une mutitude de photos. Ce qui ne correspond pas au
but chercher ( obtenir un texte éventuellement modifiable et surtout, sur
lequel l'on puisse effectuer des recherches lexicales.
( Ce sont des dictionnaires linguistique anciens, des dictionnaires du
blason, des dictionnaire heraldique ...)
Voir le site de la BNF.
et jusqu'à present je n'ais pas beau trouver de logiciel qui effectue de
l'OCR a partir d'une photo déja scannée. La majorite des editeur OCR parte du
scanneur comme source.
J'en ai trouver quelques un mais cela n'est pas evident. et il faut traiter
page par page. D'ou ma remarque avec remerciement pour regrouper les pages.

A+

Comment créer un seul doc word avec plus 300 doc word rapidement

5 réponses

Veuillez sélectionner un problème