tag texte html

8 réponses

remy

19/01/2007 à 16:55

bonjour

savez vous si l'on peut créer ses propres tag html
un boot de code récupéré et modifié

import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import javax.swing.text.AttributeSet;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTMLDocument;
import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.parser.ParserDelegator;
import javax.swing.text.html.*;

public class Main{
public static void main(String args[]) throws Exception {
System.setProperty ("http.agent","lynx (compatible; MSIE 6.0; linux)");

URL url= new
URL("http://www.google.fr/search?hl=fr&q=coucou&btnG=Recherche+Google&meta=");
URLConnection connection = url.openConnection();
InputStream is = connection.getInputStream();
InputStreamReader isr = new InputStreamReader(is);
BufferedReader br = new BufferedReader(isr);
HTMLEditorKit htmlKit = new HTMLEditorKit();
HTMLDocument htmlDoc = (HTMLDocument) htmlKit.createDefaultDocument();
HTMLEditorKit.Parser parser = new ParserDelegator();
HTMLEditorKit.ParserCallback callback = htmlDoc.getReader(0);
HTMLDocument.Iterator iterator;
parser.parse(br, callback, true);

for ( iterator = htmlDoc.getIterator(HTML.Tag.A);
iterator.isValid(); iterator.next()) {
AttributeSet attributes = iterator.getAttributes();
String srcString = (String)
attributes.getAttribute(HTML.Attribute.HREF);
System.out.println(srcString);
}
System.exit(0);
}
}

en gros j'ai essayé mais cela ne donne rien merci

remy

8 réponses

Raphael Tagliani

19/01/2007 à 18:06

Bonjour,

Dans quel but svp?

Si c'est pour faire du xml traduit en HTML juste avant d'être affiché
dans le browser, vous pouvez aller voir du côté de XSLT, docbook ou les
taglibs des jsp, sauf erreur. Il existe beaucoup d'autres outils qui
font la même chose. Si vous précisez votre but, les participants au
forum pourront sans doute vous aider plus efficacement.

bonjour

savez vous si l'on peut créer ses propres tag html
un boot de code récupéré et modifié

import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import javax.swing.text.AttributeSet;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTMLDocument;
import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.parser.ParserDelegator;
import javax.swing.text.html.*;

public class Main{
public static void main(String args[]) throws Exception {
System.setProperty ("http.agent","lynx (compatible; MSIE 6.0; linux)");

URL url= new
URL("http://www.google.fr/search?hl=fr&q=coucou&btnG=Recherche+Google&meta=");
URLConnection connection = url.openConnection();
InputStream is = connection.getInputStream();
InputStreamReader isr = new InputStreamReader(is);
BufferedReader br = new BufferedReader(isr);
HTMLEditorKit htmlKit = new HTMLEditorKit();
HTMLDocument htmlDoc = (HTMLDocument) htmlKit.createDefaultDocument();
HTMLEditorKit.Parser parser = new ParserDelegator();
HTMLEditorKit.ParserCallback callback = htmlDoc.getReader(0);
HTMLDocument.Iterator iterator;
parser.parse(br, callback, true);

for ( iterator = htmlDoc.getIterator(HTML.Tag.A);
iterator.isValid(); iterator.next()) {
AttributeSet attributes = iterator.getAttributes();
String srcString = (String)
attributes.getAttribute(HTML.Attribute.HREF);
System.out.println(srcString);
}
System.exit(0);
}
}

en gros j'ai essayé mais cela ne donne rien merci

remy

remy

19/01/2007 à 19:18

Bonjour,

Dans quel but svp?

Si c'est pour faire du xml traduit en HTML juste avant d'être affiché
dans le browser, vous pouvez aller voir du côté de XSLT, docbook ou l es
taglibs des jsp, sauf erreur. Il existe beaucoup d'autres outils qui
font la même chose. Si vous précisez votre but, les participants au
forum pourront sans doute vous aider plus efficacement.

je but du jeux recuperer le txt
ou un mini mais vraiment mini parser
quelque chose de simple

Raphael Tagliani

20/01/2007 à 01:44

je but du jeux recuperer le txt
ou un mini mais vraiment mini parser
quelque chose de simple

Hum... donc récupérer l'url dans un a href="url" p.ex?
Dans ce cas, ouvrir une connection HTTP (voir les librairies apache
jakarta) et parser le flux ligne par ligne avec une regexp devrait
suffire à isoler le texte recherché.
Pour se passer d'une lib pour la connexion http, il suffit d'ouvrir le
fichier html comme tout autre fichier, mais c'est SEULEMENT si c'est
pour une utilisation perso, parce que ce n'est pas une bonne façon de
faire...

Raphael Tagliani

20/01/2007 à 01:59

Ok, j'ai enfin compris ce que vous semblez vouloir faire...
Mais le code que vous avez posté fonctionne très bien, il extrait les
liens de la page de recherche.

Voici une partie de l'output que j'obtiens:

http://www.coucou.org/
http://209.85.129.104/search?qÊche:bILmo-cdnbYJ:www.coucou.org/+coucou&hl=fr&gl=fr&ct=clnk&cd=1&ie=UTF-8
/search?hl=fr&lr=&ie=UTF-8&q=related:www.coucou.org/
http://www.coucoucircus.org/

Quel est votre problème? Et quel est le rapport avec "créer ses propres
tag html"?
Désolé, j'ai l'impression de parler une autre langue.

Bonjour,

Dans quel but svp?

Si c'est pour faire du xml traduit en HTML juste avant d'être affiché
dans le browser, vous pouvez aller voir du côté de XSLT, docbook ou les
taglibs des jsp, sauf erreur. Il existe beaucoup d'autres outils qui
font la même chose. Si vous précisez votre but, les participants au
forum pourront sans doute vous aider plus efficacement.

je but du jeux recuperer le txt
ou un mini mais vraiment mini parser
quelque chose de simple

remy

20/01/2007 à 15:15

Ok, j'ai enfin compris ce que vous semblez vouloir faire...
Mais le code que vous avez posté fonctionne très bien, il extrait les
liens de la page de recherche.

Voici une partie de l'output que j'obtiens:

http://www.coucou.org/
http://209.85.129.104/search?q�che:bILmo-cdnbYJ:www.coucou.org/+couco u&hl=fr&gl=fr&ct=clnk&cd=1&ie=UTF-8
/search?hl=fr&lr=&ie=UTF-8&q=related:www.coucou.org/
http://www.coucoucircus.org/

Quel est votre problème? Et quel est le rapport avec "créer ses propr es
tag html"?
Désolé, j'ai l'impression de parler une autre langue.

Bonjour,

Dans quel but svp?

Si c'est pour faire du xml traduit en HTML juste avant d'être affich é
dans le browser, vous pouvez aller voir du côté de XSLT, docbook o u les
taglibs des jsp, sauf erreur. Il existe beaucoup d'autres outils qui
font la même chose. Si vous précisez votre but, les participants au
forum pourront sans doute vous aider plus efficacement.

je but du jeux recuperer le txt
ou un mini mais vraiment mini parser
quelque chose de simple

je voudrais cree mon propre HTML.TAG.A

dans

for ( iterator = htmlDoc.getIterator(HTML.Tag.A);

en gros et en detail
merci remy

Eraser Head

22/01/2007 à 11:36

remy wrote:

Ok, j'ai enfin compris ce que vous semblez vouloir faire...
Mais le code que vous avez posté fonctionne très bien, il extrait les
liens de la page de recherche.

Voici une partie de l'output que j'obtiens:

http://www.coucou.org/
http://209.85.129.104/search?qÊche:bILmo-cdnbYJ:www.coucou.org/+coucou&hl=fr&gl=fr&ct=clnk&cd=1&ie=UTF-8
/search?hl=fr&lr=&ie=UTF-8&q=related:www.coucou.org/
http://www.coucoucircus.org/

Quel est votre problème? Et quel est le rapport avec "créer ses propres
tag html"?
Désolé, j'ai l'impression de parler une autre langue.

Bonjour,

Dans quel but svp?

Si c'est pour faire du xml traduit en HTML juste avant d'être affiché
dans le browser, vous pouvez aller voir du côté de XSLT, docbook ou les
taglibs des jsp, sauf erreur. Il existe beaucoup d'autres outils qui
font la même chose. Si vous précisez votre but, les participants au
forum pourront sans doute vous aider plus efficacement.

je but du jeux recuperer le txt

ou un mini mais vraiment mini parser
quelque chose de simple

je voudrais cree mon propre HTML.TAG.A

dans

for ( iterator = htmlDoc.getIterator(HTML.Tag.A);

en gros et en detail
merci remy

Personnellement, j'utilise le parser HTML Jericho.

A chercher sur "sourceforge.net" !

Bon courage,

--

Eraser Head

---------------------------------------------------------------
[...] même si tu comprends pas ce que je dis, tu le comprends
(Jean-Claude Van Damme)
---------------------------------------------------------------

remy

23/01/2007 à 16:38

Bon courage,

oui parce que le parseur html du swing j'ai pas tout compris

donc

http://htmlparser.sourceforge.net/

dans htmlparser1_6_20060610.zip prendre le fichier htmlparser.jar dans
le zip

CLASSPATH=/home/remy/Desktop/essai/htmlparser.jar:.
export CLASSPATH

import org.htmlparser.Parser;
import org.htmlparser.Tag;
import org.htmlparser.Text;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.NodeVisitor;

public class MyEssai extends NodeVisitor
{

public void visitStringNode (Text string)
{
System.out.println (string);
}

public static void main (String[] args) throws ParserException
{
System.setProperty ("http.agent","lynx (compatible; MSIE 6.0; linux)");
Parser parser = new Parser
("http://www.google.fr/search?hl=fr&q=eleve&btnG=Rechercher&meta=");
MyEssai essai = new MyEssai ();
parser.visitAllNodesWith (essai);
}
}

je ne garantis pas que cela soit la meilleure solution mais
cela fct j'ai maintenant les accents pour mon correcteur orthographique

a+ remy

remy

23/01/2007 à 17:53

encore plus simple

import org.htmlparser.Parser;
import org.htmlparser.util.*;
import org.htmlparser.visitors.*;

public class MyEssai
{
public static void main (String[] args) throws ParserException
{
System.setProperty ("http.agent","lynx (compatible; MSIE 6.0; linux)");
Parser parser = new Parser
("http://www.google.fr/search?hl=fr&q=eleve&btnG=Rechercher&meta=");

TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
String textInPage = visitor.getExtractedText();
System.out.println(textInPage);

}
}

by remy

tag texte html

8 réponses

Veuillez sélectionner un problème