Comment compter le nombre de mots d'un contenu Html ?
8 réponses
FBA
Bonjour,
Je cherche un moyen, en java, de compter le nombre de mots que contient
une chaîne (ou un document) en HTML.
Quelqu'un aurait-il une piste ou une experince simialire ?
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Isammoc
FBA écrivait news:416bd031$0$7205$:
Bonjour,
Je cherche un moyen, en java, de compter le nombre de mots que contient une chaîne (ou un document) en HTML. Quelqu'un aurait-il une piste ou une experince simialire ?
merci d'avance cdlt, FBA
Un tout petit automate?
je suppose que tu ne veux pas compter les balises, donc, l'automate aura pour charge de supprimer les balises, après, tu réduis tous les espaces consécutifs et les signes de ponctuations à un seul espace, et tu comptes les espaces
-- Isammoc
tiré par les cheveux, mais ca marche... Après, il faut voir la performance
Je cherche un moyen, en java, de compter le nombre de mots que contient
une chaîne (ou un document) en HTML.
Quelqu'un aurait-il une piste ou une experince simialire ?
merci d'avance
cdlt,
FBA
Un tout petit automate?
je suppose que tu ne veux pas compter les balises, donc, l'automate aura
pour charge de supprimer les balises, après, tu réduis tous les espaces
consécutifs et les signes de ponctuations à un seul espace, et tu comptes
les espaces
--
Isammoc
tiré par les cheveux, mais ca marche... Après, il faut voir la performance
Je cherche un moyen, en java, de compter le nombre de mots que contient une chaîne (ou un document) en HTML. Quelqu'un aurait-il une piste ou une experince simialire ?
merci d'avance cdlt, FBA
Un tout petit automate?
je suppose que tu ne veux pas compter les balises, donc, l'automate aura pour charge de supprimer les balises, après, tu réduis tous les espaces consécutifs et les signes de ponctuations à un seul espace, et tu comptes les espaces
-- Isammoc
tiré par les cheveux, mais ca marche... Après, il faut voir la performance
remy
bonjour
"FBA" a écrit dans le message de news: 416bd031$0$7205$
Bonjour,
Je cherche un moyen, en java, de compter le nombre de mots que contient une chaîne (ou un document) en HTML. Quelqu'un aurait-il une piste ou une experince simialire ?
peut etre
StringTokenizer st = new StringTokenizer("this is a test"); while (st.hasMoreTokens()) { System.out.println(st.nextToken()); }
this is a test
il te reste les balises a sortire
a+ remy
merci d'avance cdlt, FBA
bonjour
"FBA" <fbabin@catalliances.com> a écrit dans le message de news:
416bd031$0$7205$8fcfb975@news.wanadoo.fr...
Bonjour,
Je cherche un moyen, en java, de compter le nombre de mots que contient
une chaîne (ou un document) en HTML.
Quelqu'un aurait-il une piste ou une experince simialire ?
peut etre
StringTokenizer st = new StringTokenizer("this is a test");
while (st.hasMoreTokens()) {
System.out.println(st.nextToken());
}
"FBA" a écrit dans le message de news: 416bd031$0$7205$
Bonjour,
Je cherche un moyen, en java, de compter le nombre de mots que contient une chaîne (ou un document) en HTML. Quelqu'un aurait-il une piste ou une experince simialire ?
peut etre
StringTokenizer st = new StringTokenizer("this is a test"); while (st.hasMoreTokens()) { System.out.println(st.nextToken()); }
this is a test
il te reste les balises a sortire
a+ remy
merci d'avance cdlt, FBA
remy
Quelqu'un aurait-il une piste ou une experince simialire ?
oui
C:j2sdk1.4.2_05srcorgw3cdomhtml
a+ remy
Quelqu'un aurait-il une piste ou une experince simialire ?
A-t-on déjà vu des fichiers locaux réussir à passer avec une telle adresse???
Menfin, tu voulais surement signifier un exemple d'emplacement sous windows.
a+ remy
-- Isammoc
FBA
FBA écrivait news:416bd031$0$7205$:
Bonjour,
Je cherche un moyen, en java, de compter le nombre de mots que contient une chaîne (ou un document) en HTML. Quelqu'un aurait-il une piste ou une experince simialire ?
merci d'avance cdlt, FBA
Un tout petit automate?
je suppose que tu ne veux pas compter les balises, donc, l'automate aura pour charge de supprimer les balises, après, tu réduis tous les espaces consécutifs et les signes de ponctuations à un seul espace, et tu comptes les espaces
Ouais, c'est un peu ce que je me disais. En fait, enlever les balises, c'est assez simple. Par contre, il y a certaines balises qu'il faut remplacer par des retours chariot (<P> et <BR> par exemple) ou des espaces. Et j'ai un peu peur d'en oublier au passage. Est-ce qu'il existe des classes standards (ou pas) qui font la conversion HTML -> texte simple ?
Et puis, au moins en francais, il y a les apostrophes avec notamment la grande question de savoir si le mot "aujourd'hui" compte pour un ou pour deux... Je ne sais pas s'il y a d'autres langues qui présentent le même type d'exception.
Je cherche un moyen, en java, de compter le nombre de mots que contient
une chaîne (ou un document) en HTML.
Quelqu'un aurait-il une piste ou une experince simialire ?
merci d'avance
cdlt,
FBA
Un tout petit automate?
je suppose que tu ne veux pas compter les balises, donc, l'automate aura
pour charge de supprimer les balises, après, tu réduis tous les espaces
consécutifs et les signes de ponctuations à un seul espace, et tu comptes
les espaces
Ouais, c'est un peu ce que je me disais.
En fait, enlever les balises, c'est assez simple.
Par contre, il y a certaines balises qu'il faut remplacer par des
retours chariot (<P> et <BR> par exemple) ou des espaces. Et j'ai un peu
peur d'en oublier au passage.
Est-ce qu'il existe des classes standards (ou pas) qui font la
conversion HTML -> texte simple ?
Et puis, au moins en francais, il y a les apostrophes avec notamment la
grande question de savoir si le mot "aujourd'hui" compte pour un ou pour
deux...
Je ne sais pas s'il y a d'autres langues qui présentent le même type
d'exception.
Je cherche un moyen, en java, de compter le nombre de mots que contient une chaîne (ou un document) en HTML. Quelqu'un aurait-il une piste ou une experince simialire ?
merci d'avance cdlt, FBA
Un tout petit automate?
je suppose que tu ne veux pas compter les balises, donc, l'automate aura pour charge de supprimer les balises, après, tu réduis tous les espaces consécutifs et les signes de ponctuations à un seul espace, et tu comptes les espaces
Ouais, c'est un peu ce que je me disais. En fait, enlever les balises, c'est assez simple. Par contre, il y a certaines balises qu'il faut remplacer par des retours chariot (<P> et <BR> par exemple) ou des espaces. Et j'ai un peu peur d'en oublier au passage. Est-ce qu'il existe des classes standards (ou pas) qui font la conversion HTML -> texte simple ?
Et puis, au moins en francais, il y a les apostrophes avec notamment la grande question de savoir si le mot "aujourd'hui" compte pour un ou pour deux... Je ne sais pas s'il y a d'autres langues qui présentent le même type d'exception.
Des idées peut-être ?
remy
"Isammoc" a écrit dans le message de news:
C:j2sdk1.4.2_05srcorgw3cdomhtml
ABERRATION !!!
regarde sur ton disque dure
A-t-on déjà vu des fichiers locaux réussir à passer avec une telle adresse???
Menfin, tu voulais surement signifier un exemple d'emplacement sous windows.
a+ remy
-- Isammoc
"Isammoc" <Isammoc@wanadoo.fr> a écrit dans le message de news:
XnF9580ABA002DB7Isammocwanadoofr@193.48.70.4...
C:j2sdk1.4.2_05srcorgw3cdomhtml
ABERRATION !!!
regarde sur ton disque dure
A-t-on déjà vu des fichiers locaux réussir à passer avec une telle
adresse???
Menfin, tu voulais surement signifier un exemple d'emplacement sous
windows.