OVH Cloud OVH Cloud

tesseract

19 réponses
Avatar
talon
Je viens de voir que tesseract a été ajouté au système de ports de
FreeBSD, et du coup je l'ai installé et essayé.
Et bien c'est absolument impressionnant, enfin un système d'OCR libre
qui marche!
Pour le tester j'ai pris une page d'un livre scanné en djvu, j'en ai
extrait une page en .bmp, puis l'ai convertie en tiff avec convert, et enfin
(il faut que le document initial soit en tiff, le final sera truc.txt.
Appris par essai et erreur, il n'y a pas de doc)

tesseract page.tiff truc

Ce qui m'a donné un texte impeccable (d'après Cardy):
"
iv Preface
from the underlying microscopic dynamics. In trying to under-
stand scaling arguments applied to such problems it is often diffi-
cult, especially for newcomers, to understand why certain variables
should be neglected while others are retained in such scaling de-
scriptions, and why in some cases power law relations should hold
while they fail in others.
Fortunately, there is a class of physical problems within which
the concepts of scaling and renormalization may be derived sys-
tematically, and which therefore have become a paradigm for the
whole approach. These concern equilibrium critical behaviour. The
systems which exhibit such behaviour are governed by the simple
and well understood laws of statistical mechanics. Indeed, along
with the high energy behaviour of quantum field theories, this was
the area of physics in which the concepts of renormalization were
first formulated. Although the subject of equilibrium critical be-
haviour is, apart from a few unsolved problems, no longer of the
greatest topical theoretical or experimental interest, its study is
nonetheless important in providing a solid grounding to anyone
who wishes to go on to attempt to understand scaling and renor-
malization in more esoteric systems.
"

Evidemment c'est un texte anglais et je ne sais pas si ça marche en
français.

A mon avis ceci représente une avancée tout à fait notable dans un
domaine où le logiciel libre était particulièrement déficient.

--

Michel TALON

9 réponses

1 2
Avatar
Blaise Potard
Le Thu, 19 Jul 2007 23:25:38 +0200, Nina Popravka a écrit:

Vu la tronche du scan de base, je trouve ça plutôt remarquable, comme
résultat :-)


C'est ce que je dis :)
Mais bon, visiblement, on sait faire beaucoup mieux, et je pense qu'une
utilisation un peu plus intelligente du lexique pourrait améliorer les
choses. La sortie de l'OCR utilisé par pgdp est tout de même
nettement meilleure :

-- Je joue ma tête, dit-il; mais que m'importe!
je suis payé d'avance.

En ce moment la porte se rouvrit et l'aide de
camp reparut suivi du geôlier.

-- Amaury, dit Tallien, attends ici l'ordre de sortie
de la citoyenne Fontenay. Je vais chercher cet
ordre au tribunal, et, lorsque tu l'auras reçu, elle-même
te dira où il faut la conduire.

Un quart d'heure après l'ordre arrivait; madame
de Fontenay se faisait conduire chez Tallien, et le
geôlier écrivait à Robespierre :

«t La république est trahie de tous les côtés ; te
citoyen Tallien vient de foire grâce, de son autorité
privée, à la ci-devant marquise de Fontenay arrêtée
par ordre du comité de salut public, avant même
qu'elle ait été interrogée. »

Avatar
SL
Le 19-07-2007, Florent Gilles <florent+ a écrit :
le 19/07/2007 12:34, Gump écrivit de sa plume alerte :

| QU'HsT.CE QUUN EVENEMENTP
| les monades qui existent incluent int6gra]emcnt Ie monde
| compossible qui passe in Pexistence. Pour Whitehead (et poux
| beaucoup de philosophes modernes), au contraire, les bifurca-
| tions, les divergences, les incompossibilites, les desaccords
| appartiennent au mama monde bigarre, quz~ ne paul plus egtre
| mclux dam des undegs expresxwex, mais seulement fait ou dfzfait
| suivant des unites pr6:hensives et d'apr6:s etc...

Bon...on est encore assez loin d'Omnipage !


Parce que tu as vu le document d'origine duquel est tiré cet OCR et le
résultat avec Omnipage ?


Si ça intéresse quelqu'un je peux mettre la version en ligne ; sinon je
l'ai passé dans ABBY finereader (ou un nom approchant) pour ma part, et
le résultat était sans commune mesure, d'ailleurs le voici :

<pb n="110" /> les monades qui existent incluent intégralement le
monde compossible qui passe à l'existence. Pour Whitehead (et pour
beaucoup de philosophes modernes), au contraire, les bifurcations,
les divergences, les incompossibilités, les désaccords appartiennent
au même monde bigarré, <hi rend="italics">qui ne peut plus être
inclus dans des unités expressives, </hi>mais seulement fait ou
défait suivant des unités préhensives et d'après des configurations
variables, ou des captures changeantes. Les séries divergentes
tracent dans un même monde chaotique des sentiers toujours
bifurcants, c'est un <q rend="PRE laquo POST raquo"> chaosmos </q>,
comme on le trouve chez Joyce, mais aussi chez Maurice Leblanc,
Borges ou Gombro-wicz<appelNote>14</appelNote>. Même Dieu cesse
d'être un Etre qui compare les mondes et choisit le compossible le
plus riche ; il devient Processus, processus qui affirme à la fois
les incompossibilités, et passe par elles. Le jeu du monde a
singulièrement changé, puisqu'il est devenu le jeu qui diverge. Les
êtres sont écartelés, maintenus ouverts par les séries divergentes
et les ensembles incompossibles qui les entraînent au-dehors, au
lieu de se fermer sur le monde compossible et convergent qu'ils
expriment du dedans. Les mathématiques modernes en ce sens ont pu
développer une conception fibrée, d'après laquelle les <q rend="PRE
laquo POST raquo"> monades </q> expérimentent des chemins dans
l'univers et entrent dans des synthèses associées à chaque
chemin<appelNote>15</appelNote>. C'est un monde de captures plutôt
que de clôtures.</p> <p>Nous pouvons mieux comprendre en quoi le
Baroque est une transition. La raison classique s'est écroulée sous
le coup des divergences, incompossibilités, désaccords, dissonances.
Mais le Baroque est l'ultime tentative de reconstituer une raison
classique, en répartissant les divergences en autant de mondes
possibles, et en faisant des incompossibilités autant de frontières
entre les mondes. Les désaccords qui surgissent dans un même monde
peuvent être violents, <hi rend="italics">ils se résolvent en
accords, </hi>parce que les seules dissonances irréductibles sont
entre mondes différents. Bref, l'univers baroque voit s'estomper ses
lignes mélodiques, mais, ce qu'il semble perdre, il le regagne en
harmonie, par l'harmonie. Confronté au pouvoir des
dissonances,<note>On se reportera notamment au jeu des séries
divergentes dans <hi rend="italics">Cosmos </hi>de Gombrowicz, Ed.
Denoël.</note><note>Sur la nouvelle raonadologie mathématique,
depuis Riemann, cf. Gilles Chate- let, <q rend="PRE laquo POST
raquo"> Sur une petite phrase de Riemann </q>, <hi
rend="italics">Analytiques, </hi>n° 3, mai 1979.</note><pb n="111"
/>

Ceci dit sans vouloir le moins du monde critiquer tesseract, qui est
peut être très bon, de toute façon ça n'a aucun sans d'utiliser un OCR
sans au moins un lexique de la langue du texte traité. La seule
conclusion qu'on peut tirer de ce test c'est : tesseract n'a pas un
lexique du français qu'il aurait mobilisé automatiquement.


Avatar
SL
Le 19-07-2007, Nina Popravka a écrit :
On Wed, 18 Jul 2007 22:30:39 +0000 (UTC), SL wrote:

Beaucoup moins bien helas, mais on peut difficilement s'attendre à mieux
sans au moins un lexique (une page de Deleuze


Je trouve qu'au contraire le résultat traduit très fidèlement la
clarté de l'expression de Deleuze.
:-)))))


En effet, c'est une autre interprétation :-)


Avatar
SL
Le 19-07-2007, Blaise Potard a écrit :
Le Thu, 19 Jul 2007 12:53:51 +0000, Blaise Potard a écrit:

Le Wed, 18 Jul 2007 22:30:39 +0000, SL a écrit:

Le 18-07-2007, Michel Talon a écrit :
Je viens de voir que tesseract a été ajouté au système de ports de
FreeBSD, et du coup je l'ai installé et essayé.


Je l'ai trouvé aussi dans les packets debian.


Ah, je pense que ce doit être la « vieille » version qui ne supporte que
l'anglais. La version internationale (2.00) est sortie le 18 juillet, elle
n'est pas encore dans unstable :)


Ceci étant, juste pour voir, j'ai téléchargé une page en français sur pgdp
(la page 30 de "Création et rédemption, La fille du marquis II"
d'Alexandre Dumas),

http://www.pgdp.net/projects/projectID467dcb007ed4e/030.png

et ça me donne un truc comme ça :

26 CRÉATION ET RÉDEMPTIGN
—-— Je joue ma tète, dit-il; mais que mîmporte!
je suis payé d'avance.
En ce moment la porte se rouvrit et l'aide de
camp reparut suivl du geôlier.
— Amaury, dit Tallien, attends ici 1’ordre de sor-
tie de la citoyenne Fontenay. Je vais chercher cet
ordre au tribunal, et, lorsque tu l’auras reçu, elle-
même te dira ou il faut la conduire.
Un quart d’heure après 1’ordre arrivait; madame
de Fontenay se faisait conduire chez Tallien, et le
geôlier écrivait à Robespierre :
« La république est trahie de tous les cotés; le
dtoyen Tailien vient de faire gràce, de son autorité
privée, a la ci—devant marquise de Fontenay arrêtée
par ordre du comité de salut public, avant même
qu’elle ait été interrogée. (...)

C'est bien, mais pas parfait. Le scan est loin d'être nickel, mais
enfin, il y a beaucoup de fautes que le lexique aurait du rattraper, c'est
tout de même un peu étrange.


Déjà c'est nettement mieux et peut-être facilement perfectible.




Avatar
Nina Popravka
On 19 Jul 2007 21:41:44 GMT, Blaise Potard wrote:

Mais bon, visiblement, on sait faire beaucoup mieux, et je pense qu'une
utilisation un peu plus intelligente du lexique pourrait améliorer les
choses.

citoyen Tallien vient de foire grâce


Justement, là, on est dans une utilisation trop intelligente du
lexique :-)
Le "foire" au lieu de "faire" (que curieusement tesseract reconnaît
correctement bien que l'original soit sur ce mot absolument dégueu),
il a peu de chances d'être repéré à la relecture humaine...
Le soft, dans un tel cas, devrait mettre un caractère joker en gras et
rose fluo...
--
Nina

Avatar
Blaise Potard
Le Fri, 20 Jul 2007 00:52:00 +0200, Nina Popravka a écrit:

On 19 Jul 2007 21:41:44 GMT, Blaise Potard wrote:

Mais bon, visiblement, on sait faire beaucoup mieux, et je pense qu'une
utilisation un peu plus intelligente du lexique pourrait améliorer les
choses.

citoyen Tallien vient de foire grâce


Justement, là, on est dans une utilisation trop intelligente du
lexique :-)


Bah, au contraire, là il utilise juste le lexique bêtement, les logiciels
plus avancés utiliseraient un « modèle de langage » (i.e. généralement de
bêtes probabilités sur les successions des mots apprises sur un gros
corpus de la langue), et c'est alors typiquement le genre de problème qui
disparaît (parce que « foire grâce » aura une probabilité à peu près nulle,
alors que « faire grâce » aura une contraire une forte probabilité). Ceci
dit, ça peut introduire d'autres erreurs dans des cas subtils :-)


Avatar
Nina Popravka
On 21 Jul 2007 23:40:25 GMT, Blaise Potard wrote:

Bah, au contraire, là il utilise juste le lexique bêtement, les logiciels
plus avancés utiliseraient un « modèle de langage » (i.e. généralement de
bêtes probabilités sur les successions des mots apprises sur un gros
corpus de la langue), et c'est alors typiquement le genre de problème qui
disparaît (parce que «
Ceci
dit, ça peut introduire d'autres erreurs dans des cas subtils :-)


Voui :-)
Chuis sûrement passéiste et coincée du cul, mais je préfère ne pas
confier les subtilités de la langue à des ordinateurs.
Ca doit en revanche être un sujet de recherche passionnant.
--
Nina

Avatar
Gump
| Voui :-)
| Chuis sûrement passéiste et coincée du cul, mais je préfère ne pas
| confier les subtilités de la langue à des ordinateurs.
| Ca doit en revanche être un sujet de recherche passionnant.

Quoi ? les subtilités de la langue pour les coincées du cul ? on aura
tout lu, sur ce forum !

Gump
Avatar
Nina Popravka
On Sun, 22 Jul 2007 23:24:00 +0200, "Gump" wrote:

Quoi ? les subtilités de la langue pour les coincées du cul ? on aura
tout lu, sur ce forum !


D'ailleurs, je suis sûre qu'un ordinateur idiot équipé d'un lexique
incomplet changerait "feuille de rose" en "fleur de rose" pour peu que
le scan soit de mauvaise qualité...
(habile retour dans le sujet, isn't it ?)
;->
--
Nina

1 2