Je viens de voir que tesseract a été ajouté au système de ports de
FreeBSD, et du coup je l'ai installé et essayé.
Et bien c'est absolument impressionnant, enfin un système d'OCR libre
qui marche!
Pour le tester j'ai pris une page d'un livre scanné en djvu, j'en ai
extrait une page en .bmp, puis l'ai convertie en tiff avec convert, et enfin
(il faut que le document initial soit en tiff, le final sera truc.txt.
Appris par essai et erreur, il n'y a pas de doc)
tesseract page.tiff truc
Ce qui m'a donné un texte impeccable (d'après Cardy):
"
iv Preface
from the underlying microscopic dynamics. In trying to under-
stand scaling arguments applied to such problems it is often diffi-
cult, especially for newcomers, to understand why certain variables
should be neglected while others are retained in such scaling de-
scriptions, and why in some cases power law relations should hold
while they fail in others.
Fortunately, there is a class of physical problems within which
the concepts of scaling and renormalization may be derived sys-
tematically, and which therefore have become a paradigm for the
whole approach. These concern equilibrium critical behaviour. The
systems which exhibit such behaviour are governed by the simple
and well understood laws of statistical mechanics. Indeed, along
with the high energy behaviour of quantum field theories, this was
the area of physics in which the concepts of renormalization were
first formulated. Although the subject of equilibrium critical be-
haviour is, apart from a few unsolved problems, no longer of the
greatest topical theoretical or experimental interest, its study is
nonetheless important in providing a solid grounding to anyone
who wishes to go on to attempt to understand scaling and renor-
malization in more esoteric systems.
"
Evidemment c'est un texte anglais et je ne sais pas si ça marche en
français.
A mon avis ceci représente une avancée tout à fait notable dans un
domaine où le logiciel libre était particulièrement déficient.
Le Thu, 19 Jul 2007 23:25:38 +0200, Nina Popravka a écrit:
Vu la tronche du scan de base, je trouve ça plutôt remarquable, comme résultat :-)
C'est ce que je dis :) Mais bon, visiblement, on sait faire beaucoup mieux, et je pense qu'une utilisation un peu plus intelligente du lexique pourrait améliorer les choses. La sortie de l'OCR utilisé par pgdp est tout de même nettement meilleure :
-- Je joue ma tête, dit-il; mais que m'importe! je suis payé d'avance.
En ce moment la porte se rouvrit et l'aide de camp reparut suivi du geôlier.
-- Amaury, dit Tallien, attends ici l'ordre de sortie de la citoyenne Fontenay. Je vais chercher cet ordre au tribunal, et, lorsque tu l'auras reçu, elle-même te dira où il faut la conduire.
Un quart d'heure après l'ordre arrivait; madame de Fontenay se faisait conduire chez Tallien, et le geôlier écrivait à Robespierre :
«t La république est trahie de tous les côtés ; te citoyen Tallien vient de foire grâce, de son autorité privée, à la ci-devant marquise de Fontenay arrêtée par ordre du comité de salut public, avant même qu'elle ait été interrogée. »
Le Thu, 19 Jul 2007 23:25:38 +0200, Nina Popravka a écrit:
Vu la tronche du scan de base, je trouve ça plutôt remarquable, comme
résultat :-)
C'est ce que je dis :)
Mais bon, visiblement, on sait faire beaucoup mieux, et je pense qu'une
utilisation un peu plus intelligente du lexique pourrait améliorer les
choses. La sortie de l'OCR utilisé par pgdp est tout de même
nettement meilleure :
-- Je joue ma tête, dit-il; mais que m'importe!
je suis payé d'avance.
En ce moment la porte se rouvrit et l'aide de
camp reparut suivi du geôlier.
-- Amaury, dit Tallien, attends ici l'ordre de sortie
de la citoyenne Fontenay. Je vais chercher cet
ordre au tribunal, et, lorsque tu l'auras reçu, elle-même
te dira où il faut la conduire.
Un quart d'heure après l'ordre arrivait; madame
de Fontenay se faisait conduire chez Tallien, et le
geôlier écrivait à Robespierre :
«t La république est trahie de tous les côtés ; te
citoyen Tallien vient de foire grâce, de son autorité
privée, à la ci-devant marquise de Fontenay arrêtée
par ordre du comité de salut public, avant même
qu'elle ait été interrogée. »
Le Thu, 19 Jul 2007 23:25:38 +0200, Nina Popravka a écrit:
Vu la tronche du scan de base, je trouve ça plutôt remarquable, comme résultat :-)
C'est ce que je dis :) Mais bon, visiblement, on sait faire beaucoup mieux, et je pense qu'une utilisation un peu plus intelligente du lexique pourrait améliorer les choses. La sortie de l'OCR utilisé par pgdp est tout de même nettement meilleure :
-- Je joue ma tête, dit-il; mais que m'importe! je suis payé d'avance.
En ce moment la porte se rouvrit et l'aide de camp reparut suivi du geôlier.
-- Amaury, dit Tallien, attends ici l'ordre de sortie de la citoyenne Fontenay. Je vais chercher cet ordre au tribunal, et, lorsque tu l'auras reçu, elle-même te dira où il faut la conduire.
Un quart d'heure après l'ordre arrivait; madame de Fontenay se faisait conduire chez Tallien, et le geôlier écrivait à Robespierre :
«t La république est trahie de tous les côtés ; te citoyen Tallien vient de foire grâce, de son autorité privée, à la ci-devant marquise de Fontenay arrêtée par ordre du comité de salut public, avant même qu'elle ait été interrogée. »
SL
Le 19-07-2007, Florent Gilles <florent+ a écrit :
le 19/07/2007 12:34, Gump écrivit de sa plume alerte :
| QU'HsT.CE QUUN EVENEMENTP | les monades qui existent incluent int6gra]emcnt Ie monde | compossible qui passe in Pexistence. Pour Whitehead (et poux | beaucoup de philosophes modernes), au contraire, les bifurca- | tions, les divergences, les incompossibilites, les desaccords | appartiennent au mama monde bigarre, quz~ ne paul plus egtre | mclux dam des undegs expresxwex, mais seulement fait ou dfzfait | suivant des unites pr6:hensives et d'apr6:s etc...
Bon...on est encore assez loin d'Omnipage !
Parce que tu as vu le document d'origine duquel est tiré cet OCR et le résultat avec Omnipage ?
Si ça intéresse quelqu'un je peux mettre la version en ligne ; sinon je l'ai passé dans ABBY finereader (ou un nom approchant) pour ma part, et le résultat était sans commune mesure, d'ailleurs le voici :
<pb n="110" /> les monades qui existent incluent intégralement le monde compossible qui passe à l'existence. Pour Whitehead (et pour beaucoup de philosophes modernes), au contraire, les bifurcations, les divergences, les incompossibilités, les désaccords appartiennent au même monde bigarré, <hi rend="italics">qui ne peut plus être inclus dans des unités expressives, </hi>mais seulement fait ou défait suivant des unités préhensives et d'après des configurations variables, ou des captures changeantes. Les séries divergentes tracent dans un même monde chaotique des sentiers toujours bifurcants, c'est un <q rend="PRE laquo POST raquo"> chaosmos </q>, comme on le trouve chez Joyce, mais aussi chez Maurice Leblanc, Borges ou Gombro-wicz<appelNote>14</appelNote>. Même Dieu cesse d'être un Etre qui compare les mondes et choisit le compossible le plus riche ; il devient Processus, processus qui affirme à la fois les incompossibilités, et passe par elles. Le jeu du monde a singulièrement changé, puisqu'il est devenu le jeu qui diverge. Les êtres sont écartelés, maintenus ouverts par les séries divergentes et les ensembles incompossibles qui les entraînent au-dehors, au lieu de se fermer sur le monde compossible et convergent qu'ils expriment du dedans. Les mathématiques modernes en ce sens ont pu développer une conception fibrée, d'après laquelle les <q rend="PRE laquo POST raquo"> monades </q> expérimentent des chemins dans l'univers et entrent dans des synthèses associées à chaque chemin<appelNote>15</appelNote>. C'est un monde de captures plutôt que de clôtures.</p> <p>Nous pouvons mieux comprendre en quoi le Baroque est une transition. La raison classique s'est écroulée sous le coup des divergences, incompossibilités, désaccords, dissonances. Mais le Baroque est l'ultime tentative de reconstituer une raison classique, en répartissant les divergences en autant de mondes possibles, et en faisant des incompossibilités autant de frontières entre les mondes. Les désaccords qui surgissent dans un même monde peuvent être violents, <hi rend="italics">ils se résolvent en accords, </hi>parce que les seules dissonances irréductibles sont entre mondes différents. Bref, l'univers baroque voit s'estomper ses lignes mélodiques, mais, ce qu'il semble perdre, il le regagne en harmonie, par l'harmonie. Confronté au pouvoir des dissonances,<note>On se reportera notamment au jeu des séries divergentes dans <hi rend="italics">Cosmos </hi>de Gombrowicz, Ed. Denoël.</note><note>Sur la nouvelle raonadologie mathématique, depuis Riemann, cf. Gilles Chate- let, <q rend="PRE laquo POST raquo"> Sur une petite phrase de Riemann </q>, <hi rend="italics">Analytiques, </hi>n° 3, mai 1979.</note><pb n="111" />
Ceci dit sans vouloir le moins du monde critiquer tesseract, qui est peut être très bon, de toute façon ça n'a aucun sans d'utiliser un OCR sans au moins un lexique de la langue du texte traité. La seule conclusion qu'on peut tirer de ce test c'est : tesseract n'a pas un lexique du français qu'il aurait mobilisé automatiquement.
Le 19-07-2007, Florent Gilles <florent+news@kzar.net.invalid.valid> a écrit :
le 19/07/2007 12:34, Gump écrivit de sa plume alerte :
| QU'HsT.CE QUUN EVENEMENTP
| les monades qui existent incluent int6gra]emcnt Ie monde
| compossible qui passe in Pexistence. Pour Whitehead (et poux
| beaucoup de philosophes modernes), au contraire, les bifurca-
| tions, les divergences, les incompossibilites, les desaccords
| appartiennent au mama monde bigarre, quz~ ne paul plus egtre
| mclux dam des undegs expresxwex, mais seulement fait ou dfzfait
| suivant des unites pr6:hensives et d'apr6:s etc...
Bon...on est encore assez loin d'Omnipage !
Parce que tu as vu le document d'origine duquel est tiré cet OCR et le
résultat avec Omnipage ?
Si ça intéresse quelqu'un je peux mettre la version en ligne ; sinon je
l'ai passé dans ABBY finereader (ou un nom approchant) pour ma part, et
le résultat était sans commune mesure, d'ailleurs le voici :
<pb n="110" /> les monades qui existent incluent intégralement le
monde compossible qui passe à l'existence. Pour Whitehead (et pour
beaucoup de philosophes modernes), au contraire, les bifurcations,
les divergences, les incompossibilités, les désaccords appartiennent
au même monde bigarré, <hi rend="italics">qui ne peut plus être
inclus dans des unités expressives, </hi>mais seulement fait ou
défait suivant des unités préhensives et d'après des configurations
variables, ou des captures changeantes. Les séries divergentes
tracent dans un même monde chaotique des sentiers toujours
bifurcants, c'est un <q rend="PRE laquo POST raquo"> chaosmos </q>,
comme on le trouve chez Joyce, mais aussi chez Maurice Leblanc,
Borges ou Gombro-wicz<appelNote>14</appelNote>. Même Dieu cesse
d'être un Etre qui compare les mondes et choisit le compossible le
plus riche ; il devient Processus, processus qui affirme à la fois
les incompossibilités, et passe par elles. Le jeu du monde a
singulièrement changé, puisqu'il est devenu le jeu qui diverge. Les
êtres sont écartelés, maintenus ouverts par les séries divergentes
et les ensembles incompossibles qui les entraînent au-dehors, au
lieu de se fermer sur le monde compossible et convergent qu'ils
expriment du dedans. Les mathématiques modernes en ce sens ont pu
développer une conception fibrée, d'après laquelle les <q rend="PRE
laquo POST raquo"> monades </q> expérimentent des chemins dans
l'univers et entrent dans des synthèses associées à chaque
chemin<appelNote>15</appelNote>. C'est un monde de captures plutôt
que de clôtures.</p> <p>Nous pouvons mieux comprendre en quoi le
Baroque est une transition. La raison classique s'est écroulée sous
le coup des divergences, incompossibilités, désaccords, dissonances.
Mais le Baroque est l'ultime tentative de reconstituer une raison
classique, en répartissant les divergences en autant de mondes
possibles, et en faisant des incompossibilités autant de frontières
entre les mondes. Les désaccords qui surgissent dans un même monde
peuvent être violents, <hi rend="italics">ils se résolvent en
accords, </hi>parce que les seules dissonances irréductibles sont
entre mondes différents. Bref, l'univers baroque voit s'estomper ses
lignes mélodiques, mais, ce qu'il semble perdre, il le regagne en
harmonie, par l'harmonie. Confronté au pouvoir des
dissonances,<note>On se reportera notamment au jeu des séries
divergentes dans <hi rend="italics">Cosmos </hi>de Gombrowicz, Ed.
Denoël.</note><note>Sur la nouvelle raonadologie mathématique,
depuis Riemann, cf. Gilles Chate- let, <q rend="PRE laquo POST
raquo"> Sur une petite phrase de Riemann </q>, <hi
rend="italics">Analytiques, </hi>n° 3, mai 1979.</note><pb n="111"
/>
Ceci dit sans vouloir le moins du monde critiquer tesseract, qui est
peut être très bon, de toute façon ça n'a aucun sans d'utiliser un OCR
sans au moins un lexique de la langue du texte traité. La seule
conclusion qu'on peut tirer de ce test c'est : tesseract n'a pas un
lexique du français qu'il aurait mobilisé automatiquement.
le 19/07/2007 12:34, Gump écrivit de sa plume alerte :
| QU'HsT.CE QUUN EVENEMENTP | les monades qui existent incluent int6gra]emcnt Ie monde | compossible qui passe in Pexistence. Pour Whitehead (et poux | beaucoup de philosophes modernes), au contraire, les bifurca- | tions, les divergences, les incompossibilites, les desaccords | appartiennent au mama monde bigarre, quz~ ne paul plus egtre | mclux dam des undegs expresxwex, mais seulement fait ou dfzfait | suivant des unites pr6:hensives et d'apr6:s etc...
Bon...on est encore assez loin d'Omnipage !
Parce que tu as vu le document d'origine duquel est tiré cet OCR et le résultat avec Omnipage ?
Si ça intéresse quelqu'un je peux mettre la version en ligne ; sinon je l'ai passé dans ABBY finereader (ou un nom approchant) pour ma part, et le résultat était sans commune mesure, d'ailleurs le voici :
<pb n="110" /> les monades qui existent incluent intégralement le monde compossible qui passe à l'existence. Pour Whitehead (et pour beaucoup de philosophes modernes), au contraire, les bifurcations, les divergences, les incompossibilités, les désaccords appartiennent au même monde bigarré, <hi rend="italics">qui ne peut plus être inclus dans des unités expressives, </hi>mais seulement fait ou défait suivant des unités préhensives et d'après des configurations variables, ou des captures changeantes. Les séries divergentes tracent dans un même monde chaotique des sentiers toujours bifurcants, c'est un <q rend="PRE laquo POST raquo"> chaosmos </q>, comme on le trouve chez Joyce, mais aussi chez Maurice Leblanc, Borges ou Gombro-wicz<appelNote>14</appelNote>. Même Dieu cesse d'être un Etre qui compare les mondes et choisit le compossible le plus riche ; il devient Processus, processus qui affirme à la fois les incompossibilités, et passe par elles. Le jeu du monde a singulièrement changé, puisqu'il est devenu le jeu qui diverge. Les êtres sont écartelés, maintenus ouverts par les séries divergentes et les ensembles incompossibles qui les entraînent au-dehors, au lieu de se fermer sur le monde compossible et convergent qu'ils expriment du dedans. Les mathématiques modernes en ce sens ont pu développer une conception fibrée, d'après laquelle les <q rend="PRE laquo POST raquo"> monades </q> expérimentent des chemins dans l'univers et entrent dans des synthèses associées à chaque chemin<appelNote>15</appelNote>. C'est un monde de captures plutôt que de clôtures.</p> <p>Nous pouvons mieux comprendre en quoi le Baroque est une transition. La raison classique s'est écroulée sous le coup des divergences, incompossibilités, désaccords, dissonances. Mais le Baroque est l'ultime tentative de reconstituer une raison classique, en répartissant les divergences en autant de mondes possibles, et en faisant des incompossibilités autant de frontières entre les mondes. Les désaccords qui surgissent dans un même monde peuvent être violents, <hi rend="italics">ils se résolvent en accords, </hi>parce que les seules dissonances irréductibles sont entre mondes différents. Bref, l'univers baroque voit s'estomper ses lignes mélodiques, mais, ce qu'il semble perdre, il le regagne en harmonie, par l'harmonie. Confronté au pouvoir des dissonances,<note>On se reportera notamment au jeu des séries divergentes dans <hi rend="italics">Cosmos </hi>de Gombrowicz, Ed. Denoël.</note><note>Sur la nouvelle raonadologie mathématique, depuis Riemann, cf. Gilles Chate- let, <q rend="PRE laquo POST raquo"> Sur une petite phrase de Riemann </q>, <hi rend="italics">Analytiques, </hi>n° 3, mai 1979.</note><pb n="111" />
Ceci dit sans vouloir le moins du monde critiquer tesseract, qui est peut être très bon, de toute façon ça n'a aucun sans d'utiliser un OCR sans au moins un lexique de la langue du texte traité. La seule conclusion qu'on peut tirer de ce test c'est : tesseract n'a pas un lexique du français qu'il aurait mobilisé automatiquement.
SL
Le 19-07-2007, Nina Popravka a écrit :
On Wed, 18 Jul 2007 22:30:39 +0000 (UTC), SL wrote:
Beaucoup moins bien helas, mais on peut difficilement s'attendre à mieux sans au moins un lexique (une page de Deleuze
Je trouve qu'au contraire le résultat traduit très fidèlement la clarté de l'expression de Deleuze. :-)))))
En effet, c'est une autre interprétation :-)
Le 19-07-2007, Nina Popravka <Nina@nospam.invalid> a écrit :
On Wed, 18 Jul 2007 22:30:39 +0000 (UTC), SL wrote:
Beaucoup moins bien helas, mais on peut difficilement s'attendre à mieux sans au moins un lexique (une page de Deleuze
Je trouve qu'au contraire le résultat traduit très fidèlement la clarté de l'expression de Deleuze. :-)))))
En effet, c'est une autre interprétation :-)
SL
Le 19-07-2007, Blaise Potard a écrit :
Le Thu, 19 Jul 2007 12:53:51 +0000, Blaise Potard a écrit:
Le Wed, 18 Jul 2007 22:30:39 +0000, SL a écrit:
Le 18-07-2007, Michel Talon a écrit :
Je viens de voir que tesseract a été ajouté au système de ports de FreeBSD, et du coup je l'ai installé et essayé.
Je l'ai trouvé aussi dans les packets debian.
Ah, je pense que ce doit être la « vieille » version qui ne supporte que l'anglais. La version internationale (2.00) est sortie le 18 juillet, elle n'est pas encore dans unstable :)
Ceci étant, juste pour voir, j'ai téléchargé une page en français sur pgdp (la page 30 de "Création et rédemption, La fille du marquis II" d'Alexandre Dumas),
26 CRÉATION ET RÉDEMPTIGN - Je joue ma tète, dit-il; mais que mîmporte! je suis payé d'avance. En ce moment la porte se rouvrit et l'aide de camp reparut suivl du geôlier. Amaury, dit Tallien, attends ici 1ordre de sor- tie de la citoyenne Fontenay. Je vais chercher cet ordre au tribunal, et, lorsque tu lauras reçu, elle- même te dira ou il faut la conduire. Un quart dheure après 1ordre arrivait; madame de Fontenay se faisait conduire chez Tallien, et le geôlier écrivait à Robespierre : « La république est trahie de tous les cotés; le dtoyen Tailien vient de faire gràce, de son autorité privée, a la cidevant marquise de Fontenay arrêtée par ordre du comité de salut public, avant même quelle ait été interrogée. (...)
C'est bien, mais pas parfait. Le scan est loin d'être nickel, mais enfin, il y a beaucoup de fautes que le lexique aurait du rattraper, c'est tout de même un peu étrange.
Déjà c'est nettement mieux et peut-être facilement perfectible.
Le 19-07-2007, Blaise Potard <monnom@loria.fr> a écrit :
Le Thu, 19 Jul 2007 12:53:51 +0000, Blaise Potard a écrit:
Le Wed, 18 Jul 2007 22:30:39 +0000, SL a écrit:
Le 18-07-2007, Michel Talon <talon@lpthe.jussieu.fr> a écrit :
Je viens de voir que tesseract a été ajouté au système de ports de
FreeBSD, et du coup je l'ai installé et essayé.
Je l'ai trouvé aussi dans les packets debian.
Ah, je pense que ce doit être la « vieille » version qui ne supporte que
l'anglais. La version internationale (2.00) est sortie le 18 juillet, elle
n'est pas encore dans unstable :)
Ceci étant, juste pour voir, j'ai téléchargé une page en français sur pgdp
(la page 30 de "Création et rédemption, La fille du marquis II"
d'Alexandre Dumas),
26 CRÉATION ET RÉDEMPTIGN
- Je joue ma tète, dit-il; mais que mîmporte!
je suis payé d'avance.
En ce moment la porte se rouvrit et l'aide de
camp reparut suivl du geôlier.
Amaury, dit Tallien, attends ici 1ordre de sor-
tie de la citoyenne Fontenay. Je vais chercher cet
ordre au tribunal, et, lorsque tu lauras reçu, elle-
même te dira ou il faut la conduire.
Un quart dheure après 1ordre arrivait; madame
de Fontenay se faisait conduire chez Tallien, et le
geôlier écrivait à Robespierre :
« La république est trahie de tous les cotés; le
dtoyen Tailien vient de faire gràce, de son autorité
privée, a la cidevant marquise de Fontenay arrêtée
par ordre du comité de salut public, avant même
quelle ait été interrogée. (...)
C'est bien, mais pas parfait. Le scan est loin d'être nickel, mais
enfin, il y a beaucoup de fautes que le lexique aurait du rattraper, c'est
tout de même un peu étrange.
Déjà c'est nettement mieux et peut-être facilement perfectible.
Le Thu, 19 Jul 2007 12:53:51 +0000, Blaise Potard a écrit:
Le Wed, 18 Jul 2007 22:30:39 +0000, SL a écrit:
Le 18-07-2007, Michel Talon a écrit :
Je viens de voir que tesseract a été ajouté au système de ports de FreeBSD, et du coup je l'ai installé et essayé.
Je l'ai trouvé aussi dans les packets debian.
Ah, je pense que ce doit être la « vieille » version qui ne supporte que l'anglais. La version internationale (2.00) est sortie le 18 juillet, elle n'est pas encore dans unstable :)
Ceci étant, juste pour voir, j'ai téléchargé une page en français sur pgdp (la page 30 de "Création et rédemption, La fille du marquis II" d'Alexandre Dumas),
26 CRÉATION ET RÉDEMPTIGN - Je joue ma tète, dit-il; mais que mîmporte! je suis payé d'avance. En ce moment la porte se rouvrit et l'aide de camp reparut suivl du geôlier. Amaury, dit Tallien, attends ici 1ordre de sor- tie de la citoyenne Fontenay. Je vais chercher cet ordre au tribunal, et, lorsque tu lauras reçu, elle- même te dira ou il faut la conduire. Un quart dheure après 1ordre arrivait; madame de Fontenay se faisait conduire chez Tallien, et le geôlier écrivait à Robespierre : « La république est trahie de tous les cotés; le dtoyen Tailien vient de faire gràce, de son autorité privée, a la cidevant marquise de Fontenay arrêtée par ordre du comité de salut public, avant même quelle ait été interrogée. (...)
C'est bien, mais pas parfait. Le scan est loin d'être nickel, mais enfin, il y a beaucoup de fautes que le lexique aurait du rattraper, c'est tout de même un peu étrange.
Déjà c'est nettement mieux et peut-être facilement perfectible.
Nina Popravka
On 19 Jul 2007 21:41:44 GMT, Blaise Potard wrote:
Mais bon, visiblement, on sait faire beaucoup mieux, et je pense qu'une utilisation un peu plus intelligente du lexique pourrait améliorer les choses.
citoyen Tallien vient de foire grâce
Justement, là, on est dans une utilisation trop intelligente du lexique :-) Le "foire" au lieu de "faire" (que curieusement tesseract reconnaît correctement bien que l'original soit sur ce mot absolument dégueu), il a peu de chances d'être repéré à la relecture humaine... Le soft, dans un tel cas, devrait mettre un caractère joker en gras et rose fluo... -- Nina
On 19 Jul 2007 21:41:44 GMT, Blaise Potard <monnom@loria.fr> wrote:
Mais bon, visiblement, on sait faire beaucoup mieux, et je pense qu'une
utilisation un peu plus intelligente du lexique pourrait améliorer les
choses.
citoyen Tallien vient de foire grâce
Justement, là, on est dans une utilisation trop intelligente du
lexique :-)
Le "foire" au lieu de "faire" (que curieusement tesseract reconnaît
correctement bien que l'original soit sur ce mot absolument dégueu),
il a peu de chances d'être repéré à la relecture humaine...
Le soft, dans un tel cas, devrait mettre un caractère joker en gras et
rose fluo...
--
Nina
Mais bon, visiblement, on sait faire beaucoup mieux, et je pense qu'une utilisation un peu plus intelligente du lexique pourrait améliorer les choses.
citoyen Tallien vient de foire grâce
Justement, là, on est dans une utilisation trop intelligente du lexique :-) Le "foire" au lieu de "faire" (que curieusement tesseract reconnaît correctement bien que l'original soit sur ce mot absolument dégueu), il a peu de chances d'être repéré à la relecture humaine... Le soft, dans un tel cas, devrait mettre un caractère joker en gras et rose fluo... -- Nina
Blaise Potard
Le Fri, 20 Jul 2007 00:52:00 +0200, Nina Popravka a écrit:
On 19 Jul 2007 21:41:44 GMT, Blaise Potard wrote:
Mais bon, visiblement, on sait faire beaucoup mieux, et je pense qu'une utilisation un peu plus intelligente du lexique pourrait améliorer les choses.
citoyen Tallien vient de foire grâce
Justement, là, on est dans une utilisation trop intelligente du lexique :-)
Bah, au contraire, là il utilise juste le lexique bêtement, les logiciels plus avancés utiliseraient un « modèle de langage » (i.e. généralement de bêtes probabilités sur les successions des mots apprises sur un gros corpus de la langue), et c'est alors typiquement le genre de problème qui disparaît (parce que « foire grâce » aura une probabilité à peu près nulle, alors que « faire grâce » aura une contraire une forte probabilité). Ceci dit, ça peut introduire d'autres erreurs dans des cas subtils :-)
Le Fri, 20 Jul 2007 00:52:00 +0200, Nina Popravka a écrit:
On 19 Jul 2007 21:41:44 GMT, Blaise Potard <monnom@loria.fr> wrote:
Mais bon, visiblement, on sait faire beaucoup mieux, et je pense qu'une
utilisation un peu plus intelligente du lexique pourrait améliorer les
choses.
citoyen Tallien vient de foire grâce
Justement, là, on est dans une utilisation trop intelligente du
lexique :-)
Bah, au contraire, là il utilise juste le lexique bêtement, les logiciels
plus avancés utiliseraient un « modèle de langage » (i.e. généralement de
bêtes probabilités sur les successions des mots apprises sur un gros
corpus de la langue), et c'est alors typiquement le genre de problème qui
disparaît (parce que « foire grâce » aura une probabilité à peu près nulle,
alors que « faire grâce » aura une contraire une forte probabilité). Ceci
dit, ça peut introduire d'autres erreurs dans des cas subtils :-)
Le Fri, 20 Jul 2007 00:52:00 +0200, Nina Popravka a écrit:
On 19 Jul 2007 21:41:44 GMT, Blaise Potard wrote:
Mais bon, visiblement, on sait faire beaucoup mieux, et je pense qu'une utilisation un peu plus intelligente du lexique pourrait améliorer les choses.
citoyen Tallien vient de foire grâce
Justement, là, on est dans une utilisation trop intelligente du lexique :-)
Bah, au contraire, là il utilise juste le lexique bêtement, les logiciels plus avancés utiliseraient un « modèle de langage » (i.e. généralement de bêtes probabilités sur les successions des mots apprises sur un gros corpus de la langue), et c'est alors typiquement le genre de problème qui disparaît (parce que « foire grâce » aura une probabilité à peu près nulle, alors que « faire grâce » aura une contraire une forte probabilité). Ceci dit, ça peut introduire d'autres erreurs dans des cas subtils :-)
Nina Popravka
On 21 Jul 2007 23:40:25 GMT, Blaise Potard wrote:
Bah, au contraire, là il utilise juste le lexique bêtement, les logiciels plus avancés utiliseraient un « modèle de langage » (i.e. généralement de bêtes probabilités sur les successions des mots apprises sur un gros corpus de la langue), et c'est alors typiquement le genre de problème qui disparaît (parce que « Ceci dit, ça peut introduire d'autres erreurs dans des cas subtils :-)
Voui :-) Chuis sûrement passéiste et coincée du cul, mais je préfère ne pas confier les subtilités de la langue à des ordinateurs. Ca doit en revanche être un sujet de recherche passionnant. -- Nina
On 21 Jul 2007 23:40:25 GMT, Blaise Potard <monnom@loria.fr> wrote:
Bah, au contraire, là il utilise juste le lexique bêtement, les logiciels
plus avancés utiliseraient un « modèle de langage » (i.e. généralement de
bêtes probabilités sur les successions des mots apprises sur un gros
corpus de la langue), et c'est alors typiquement le genre de problème qui
disparaît (parce que «
Ceci
dit, ça peut introduire d'autres erreurs dans des cas subtils :-)
Voui :-)
Chuis sûrement passéiste et coincée du cul, mais je préfère ne pas
confier les subtilités de la langue à des ordinateurs.
Ca doit en revanche être un sujet de recherche passionnant.
--
Nina
Bah, au contraire, là il utilise juste le lexique bêtement, les logiciels plus avancés utiliseraient un « modèle de langage » (i.e. généralement de bêtes probabilités sur les successions des mots apprises sur un gros corpus de la langue), et c'est alors typiquement le genre de problème qui disparaît (parce que « Ceci dit, ça peut introduire d'autres erreurs dans des cas subtils :-)
Voui :-) Chuis sûrement passéiste et coincée du cul, mais je préfère ne pas confier les subtilités de la langue à des ordinateurs. Ca doit en revanche être un sujet de recherche passionnant. -- Nina
Gump
| Voui :-) | Chuis sûrement passéiste et coincée du cul, mais je préfère ne pas | confier les subtilités de la langue à des ordinateurs. | Ca doit en revanche être un sujet de recherche passionnant.
Quoi ? les subtilités de la langue pour les coincées du cul ? on aura tout lu, sur ce forum !
Gump
| Voui :-)
| Chuis sûrement passéiste et coincée du cul, mais je préfère ne pas
| confier les subtilités de la langue à des ordinateurs.
| Ca doit en revanche être un sujet de recherche passionnant.
Quoi ? les subtilités de la langue pour les coincées du cul ? on aura
tout lu, sur ce forum !
| Voui :-) | Chuis sûrement passéiste et coincée du cul, mais je préfère ne pas | confier les subtilités de la langue à des ordinateurs. | Ca doit en revanche être un sujet de recherche passionnant.
Quoi ? les subtilités de la langue pour les coincées du cul ? on aura tout lu, sur ce forum !
Gump
Nina Popravka
On Sun, 22 Jul 2007 23:24:00 +0200, "Gump" wrote:
Quoi ? les subtilités de la langue pour les coincées du cul ? on aura tout lu, sur ce forum !
D'ailleurs, je suis sûre qu'un ordinateur idiot équipé d'un lexique incomplet changerait "feuille de rose" en "fleur de rose" pour peu que le scan soit de mauvaise qualité... (habile retour dans le sujet, isn't it ?) ;-> -- Nina
On Sun, 22 Jul 2007 23:24:00 +0200, "Gump" <gump@free.fr> wrote:
Quoi ? les subtilités de la langue pour les coincées du cul ? on aura
tout lu, sur ce forum !
D'ailleurs, je suis sûre qu'un ordinateur idiot équipé d'un lexique
incomplet changerait "feuille de rose" en "fleur de rose" pour peu que
le scan soit de mauvaise qualité...
(habile retour dans le sujet, isn't it ?)
;->
--
Nina
Quoi ? les subtilités de la langue pour les coincées du cul ? on aura tout lu, sur ce forum !
D'ailleurs, je suis sûre qu'un ordinateur idiot équipé d'un lexique incomplet changerait "feuille de rose" en "fleur de rose" pour peu que le scan soit de mauvaise qualité... (habile retour dans le sujet, isn't it ?) ;-> -- Nina