Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Comment compter le nombre de mots d'un contenu Html ?

8 réponses
Avatar
FBA
Bonjour,

Je cherche un moyen, en java, de compter le nombre de mots que contient
une chaîne (ou un document) en HTML.
Quelqu'un aurait-il une piste ou une experince simialire ?

merci d'avance
cdlt,
FBA

8 réponses

Avatar
Isammoc
FBA écrivait
news:416bd031$0$7205$:

Bonjour,

Je cherche un moyen, en java, de compter le nombre de mots que contient
une chaîne (ou un document) en HTML.
Quelqu'un aurait-il une piste ou une experince simialire ?

merci d'avance
cdlt,
FBA



Un tout petit automate?

je suppose que tu ne veux pas compter les balises, donc, l'automate aura
pour charge de supprimer les balises, après, tu réduis tous les espaces
consécutifs et les signes de ponctuations à un seul espace, et tu comptes
les espaces

--
Isammoc

tiré par les cheveux, mais ca marche... Après, il faut voir la performance

Avatar
remy
bonjour

"FBA" a écrit dans le message de news:
416bd031$0$7205$
Bonjour,

Je cherche un moyen, en java, de compter le nombre de mots que contient
une chaîne (ou un document) en HTML.
Quelqu'un aurait-il une piste ou une experince simialire ?

peut etre


StringTokenizer st = new StringTokenizer("this is a test");
while (st.hasMoreTokens()) {
System.out.println(st.nextToken());
}

this
is
a
test

il te reste les balises a sortire

a+ remy




merci d'avance
cdlt,
FBA


Avatar
remy
Quelqu'un aurait-il une piste ou une experince simialire ?

oui



C:j2sdk1.4.2_05srcorgw3cdomhtml

a+ remy


Avatar
Isammoc
C:j2sdk1.4.2_05srcorgw3cdomhtml


ABERRATION !!!

A-t-on déjà vu des fichiers locaux réussir à passer avec une telle
adresse???

Menfin, tu voulais surement signifier un exemple d'emplacement sous
windows.

a+ remy


--
Isammoc

Avatar
FBA
FBA écrivait
news:416bd031$0$7205$:


Bonjour,

Je cherche un moyen, en java, de compter le nombre de mots que contient
une chaîne (ou un document) en HTML.
Quelqu'un aurait-il une piste ou une experince simialire ?

merci d'avance
cdlt,
FBA




Un tout petit automate?

je suppose que tu ne veux pas compter les balises, donc, l'automate aura
pour charge de supprimer les balises, après, tu réduis tous les espaces
consécutifs et les signes de ponctuations à un seul espace, et tu comptes
les espaces



Ouais, c'est un peu ce que je me disais.
En fait, enlever les balises, c'est assez simple.
Par contre, il y a certaines balises qu'il faut remplacer par des
retours chariot (<P> et <BR> par exemple) ou des espaces. Et j'ai un peu
peur d'en oublier au passage.
Est-ce qu'il existe des classes standards (ou pas) qui font la
conversion HTML -> texte simple ?

Et puis, au moins en francais, il y a les apostrophes avec notamment la
grande question de savoir si le mot "aujourd'hui" compte pour un ou pour
deux...
Je ne sais pas s'il y a d'autres langues qui présentent le même type
d'exception.

Des idées peut-être ?


Avatar
remy
"Isammoc" a écrit dans le message de news:

C:j2sdk1.4.2_05srcorgw3cdomhtml


ABERRATION !!!


regarde sur ton disque dure


A-t-on déjà vu des fichiers locaux réussir à passer avec une telle
adresse???

Menfin, tu voulais surement signifier un exemple d'emplacement sous
windows.

a+ remy


--
Isammoc



Avatar
remy
"Isammoc" a écrit dans le message de news:

C:j2sdk1.4.2_05srcorgw3cdomhtml


ABERRATION !!!


regarde sur ton disque dure


A-t-on déjà vu des fichiers locaux réussir à passer avec une telle
adresse???

Menfin, tu voulais surement signifier un exemple d'emplacement sous
windows.

a+ remy


--
Isammoc



Avatar
remy
"Isammoc" a écrit dans le message de news:

C:j2sdk1.4.2_05srcorgw3cdomhtml


ABERRATION !!!


regarde sur ton disque dure


A-t-on déjà vu des fichiers locaux réussir à passer avec une telle
adresse???

Menfin, tu voulais surement signifier un exemple d'emplacement sous
windows.

a+ remy


--
Isammoc