Comparatif 4 logiciels OCR très professionnels !

Le par  |  4 commentaire(s)
ocrlogo

Pour transformer un document imprimé en un fichier bureautique exploitable sur votre ordinateur, il faut faire appel à un logiciel de reconnaissance optique de caractères. Dans notre dossier comparatif, nous avons sélectionné quatre OCR qui produisent des résultats tout à fait étonnant. En quelques années, les logiciels OCR accompagnés de nos configurations plus musclées ont fait un bond phénoménal et sont passés de la lourde et approximative méthode d'apprentissage à celle de la reconnaissance intelligente de caractères très significative.

L'OCR, étape essentielle de la GED
La Gestion Électronique des Documents plus couramment appelée GED se divise en quatre étapes clés, l'acquisition des documents, le classement, le stockage et la diffusion. La reconnaissance optique de caractères alias l'OCR (ou ROC en français) fait partie de la première phase de ce procédé. Ici, le principe consiste à acquérir des documents papiers existants afin de les exploiter sous d'autres formes d'utilisations variables selon les profils d'utilisateurs, de transformer un document imprimé sur papier en un fichier texte exploitable. Le particulier qui aura ponctuellement recours à l'OCR n'aura certainement pas les mêmes besoins qu'une PME qui souhaite stocker dans sa base de données, archiver ou diffuser en intra/extra net des informations, à ses employés ou à ses collaborateurs externes.

Une sélection de logiciels propriétaires uniquement
finereaderlogoIl existe des logiciels gratuits et des libres pour l'OCR mais nous n'avons pas retenu ces derniers. Il faut bien l'avouer, l'OCR est un domaine de compétences qui réclame beaucoup de maturité que ne possèdent pas encore GOCR, Moredata ou FreeOCR. Le très puissant logiciels open-source Tesseract est très bien sous Debian/Ubuntu couplé à gscan2pdf mais peu convivial en ligne de commande sous Windows (exemple de ligne de commande : C:\tesseract>tesseract document.tif c:\dossier_de_sortie\document  -l fra). De plus, il requiert exclusivement des TIFF compressés pour l'OCR. C'est pourquoi nous avons retenu ABBYY FineReader 10 Professional Edition, Omnipage Professional 17 et PaperPort Professional 12 de Nuance, Readiris Pro 12 d'IrisLink qui sont certes de véritables usines à gaz mais produisent, au final, les résultats escomptés. Pour nos pages tests, nous avons choisi une numérisation texte, en niveau de gris 600 ppp du Discours de la méthode de Descartes et une autre composite en couleurs, 600 ppp (texte + photo) d'un magazine grand public.

Numériser, Reconnaître les caractères et images, Exporter
Si les premiers logiciels avaient besoin de collecter des échantillons connus pour chaque caractère (phase d'apprentissage) aujourd'hui les choses ont bien changé. Nous sommes face à des outils dits "intelligents" capable de reconnaître quasiment toutes les polices de caractères avec un niveau de précision impressionnant. Les logiciels de notre sélection numérisent vos documents au format de votre choix en séparant, si vous le souhaitez, texte et images. Ils procèdent ensuite à la reconnaissance de caractères puis en troisième étape exporte le document vers un document bureautique (Word, Excel, RTF, TXT, PDF, XPS), web (HTML, XML), une image (JPG, PNG, BMP…), un serveur FTP, une adresse email... C'est ce que nous découvrirons tout au long de ce dossier.

discours    discours2      magcomp

Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos commentaires
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Le #612151
Un ENORME merci à GNT pour ce comparatif.
En effet, j'avais perdu de vue les OCR à l'époque d'Omnipage 9. Ca ne date pas d'hier et à l'époque: bof, bof.

Depuis les appareils photo numériques se sont démocratisés et j'ai pas mal de photos de revues et autres canards (enchaînés ou pas) qui traînent et qui ne sont donc pas indexés.

Voici donc l'occasion toute trouvée de repartir en chasse.
Qui plus est les prix sont abordables. J'imaginais cela bien plus cher (genre 500 euros comme pour la version pro d'omnipage).

Merci encore,
db


Le #612181
Il faudrait aussi un test comparatif des outils libres (qui permettent éventuellement des implémentations gratuites) : je pense à gOCR et tesseract (de Google, la référence il y a 2 ans en tout cas), mais aussi OCRad et phpOCR.

Ici une vieille comparaison à mettre à jour...
http://www.robertviseur.be/news-20080726.php
Le #612221
Je ne vois pas dans ce comparatif un test de reconnaissance d'écriture dactylographié (à la main), parceque faire une reconnaissance d'un text "imprimé" ça marche bien depuis longtemps déjà. Mais reconnaître un écriture manuscrite c'est autre chose.
Le #612511
L'article concerne des logiciels OCR, pas ICR...

Pour rappel :
http://fr.wikipedia.org/wiki/OCR

http://fr.wikipedia.org/wiki/Reconnaissance_intelligente_de_caract%C3%A8res

Au final, pas la même gamme de logiciel, pas le même résultat, ... et pas le même prix
Suivre les commentaires
Poster un commentaire
Anonyme
:) ;) :D ^^ 8) :| :lol: :p :-/ :o :w00t: :roll: :( :cry: :facepalm:
:andy: :annoyed: :bandit: :alien: :ninja: :agent: :doh: :@ :sick: :kiss: :love: :sleep: :whistle: =]