Regex et java

7 réponses

François Gaspard

25/05/2005 à 12:21

Bonjour,

Je viens de voir qu'il existe deux packages pour traiter les regex en java =
:=20

- java.util.regex (officiel)
- com.stevesoft.pat=20

Ne sachant pas tr=E8s bien lequel utiliser, je me demandais si quelqu'un le=
s avait d=E9j=E0 test=E9, quels sont leurs avantages, inconv=E9nients, ...=
=20

Je dois impl=E9menter un analyseur lexical dans le but d'arriver =E0 reconn=
aitre les "names entities" =E0 l'aide de HMM.=20

D'avance Merci,

Fran=E7ois.

7 réponses

damien guerin

25/05/2005 à 12:41

Moi j'ai utiliser java.util.regex... Sans problème.
Par contre je peux pas te dire grand chose sur l'autre.
Sinon pour faire une analyseur lexical en java, y a javacc qui peut te
faire ça en 2 temps 3 mouvements, je l'ai déjà utiliser c'est bien
pratique.

François Gaspard

25/05/2005 à 12:45

Est-ce que tu sais ce que java.util.regex utilise ?

Par exemple, si je lui demande de chercher la chaine "papa" et que j'utilis e les regex pour chercher aussi "PAPA", comment est-ce qu'il va traiter ç a. Est-ce qu'il utilise un algo de string matching (lequel ?) et donc cherc he d'abord pour "papa", puis transforme la string en "PAPA" et cherche ensu ite avec le même algo de string matching ?

Ou peut-être qu'il utilise des algos d'approximate string matching comme Leveinstein ou la phonetic.

Si je demande ça, c'est que le facteur de rapidité est essentiel dans l a petite appli que je développe.

On 25 May 2005 03:41:11 -0700
"damien guerin" wrote:

Moi j'ai utiliser java.util.regex... Sans problème.
Par contre je peux pas te dire grand chose sur l'autre.
Sinon pour faire une analyseur lexical en java, y a javacc qui peut te
faire ça en 2 temps 3 mouvements, je l'ai déjà utiliser c'est bien
pratique.

damien guerin

25/05/2005 à 13:06

A ok... Ben là, tu me poses une colle.
Mais sinon javacc ne te plait pas? C'est un générateur de sources
d'analyseur en java...

Voila

Pif

25/05/2005 à 13:13

Salut, ce que tu fais m'intéresse, peux tu m'en dire plus sur comment tu
fais pour reconnaitre les entités nommées ? Que considère tu comme
analyse lexicale ? c'est quoi les HMM ? Tu fais quoi, t'es thésard ? On
pourrait peut etre en rediscuter en privé ?

Je travaille pas la dessus, mais c'est un outil qui m'intéresserait...

Merci !

Je dois implémenter un analyseur lexical dans le but d'arriver à reconnaitre les "names entities" à l'aide de HMM.

damien guerin

25/05/2005 à 13:27

J'ai chopé ça pour toi :

Les outils utilisés pour la reconnaissance des entités nommées sont
:
(a) une grammaire développée à l'aide du logiciel UNITEX sous forme
d'un ensemble
de graphes traitant de phénomènes linguistiques isolés, à l'aide de
repères
grammaticaux, morphosyntaxiques et lexicaux2.
(b) un ensemble de dictionnaires3 de noms propres ou de syntagmes
nominaux4,
souvent comportant des informations grammaticales, sémantiques et
flexionnelles.
Ces dictionnaires ont servi à couvrir une grand part des entités
devant être repérées.

Dans le document : http://inamarr.tripod.com/problemes_alignement.pdf

Je me dis que si tu récupères la grammaire (LL1?), tu codes la
grammaire dans javacc, tu lances la moulinette, et te voilà avec un
analyseur java.

Mais je suis pas un expert...

Xavier MOGHRABI

25/05/2005 à 16:54

Je te conseille la librairie ORO d'Apache :
http://jakarta.apache.org/oro/

ORO est beaucoup plus rapide que java.util.regex

--
Xavier MOGHRABI - Consortium ObjecWeb

François Gaspard wrote:

Bonjour,

Je viens de voir qu'il existe deux packages pour traiter les regex en java
:

- java.util.regex (officiel)
- com.stevesoft.pat

Ne sachant pas très bien lequel utiliser, je me demandais si quelqu'un les
avait déjà testé, quels sont leurs avantages, inconvénients, ...

Je dois implémenter un analyseur lexical dans le but d'arriver à
reconnaitre les "names entities" à l'aide de HMM.

D'avance Merci,

François.

François Gaspard

26/05/2005 à 11:30

Grand merci pour tout ses renseignements. Je vais aussi regarder du coté de ORO.

Pif :

L'idée est de reconnaitre les "names entities" c-a-d les noms,prenoms, le s lieux, places, dates, heures, la monnaie , .. dans les textes. C'est une discipline du text-mining.

HMM = Hidden Markov Model

C'est la technique la plus courante et la plus adéquate pour reconnaitre les names entities.

Si tu veux plus de renseignements sur ça (qui sors du cadre de java), n'h ésites pas à me contacter.

On Wed, 25 May 2005 16:54:57 +0200
Xavier MOGHRABI wrote:

Je te conseille la librairie ORO d'Apache :
http://jakarta.apache.org/oro/

ORO est beaucoup plus rapide que java.util.regex

--
Xavier MOGHRABI - Consortium ObjecWeb

François Gaspard wrote:

Bonjour,

Je viens de voir qu'il existe deux packages pour traiter les regex en j ava
:

- java.util.regex (officiel)
- com.stevesoft.pat

Ne sachant pas très bien lequel utiliser, je me demandais si quelqu'u n les
avait déjà testé, quels sont leurs avantages, inconvénients, ...

Je dois implémenter un analyseur lexical dans le but d'arriver à
reconnaitre les "names entities" à l'aide de HMM.

D'avance Merci,

François.

Regex et java

7 réponses

Veuillez sélectionner un problème