[HS] HTML, javascript, expression régulière ?

ptilou

25/10/2017 à 11:10

Bonjour,
Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a écrit :

Enfin une question à laquelle je peux essayer de répondre :-)
Je suis nul en informatique, mais j’ai une relative maîtrise des expressions
rationnelles.
Dans ton expression, tu as oublié de protéger le point et le tr ait d’union.
Par ailleurs, on peut faire plus simple en utilsant w.
Essaie :
[w.-]+@[w.-]{2,}.[a-z]{2,4}
Cela dit, il faut aussi parfois protéger les contre-obliques, en tou t cas dans
sed. Le plus « drôle », c’est que cela dépend aussi du shell utilisé.

Marche pas !
$ find . -type f -print | xargs egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2 ,4}'
xargs: guillemets simple non appairés ; par défaut les guill emets sont particuliers à xargs à moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/communique: No such file or dir ectory
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www._____.com/pics/contents/webzine/vs: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./www._____.com/pics/webzine/29: No such file or directory
grep: citations: No such file or directory
grep: pour: No such file or directory
Je n'ai même plus les adresses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bécqu ée comme un oisillion mais en code source, je ne suis pas capable de r éfléchire ....
Il faut ce mettre à python, Lxml et BeautifulSoup ?
Je cherche un truc plus simple, sous windows quand je lance une recherche i l me sort 300 pages avec dans le nom, il y a l’arobase dans le noms , en plus une dizaines d’exécutables en DOS, je crois que c'es t dans ces fichiers si j'ai télécharger les adresses ?
Je suis le seul à faire du scraping ?
Ptilou

Christian Quentin

25/10/2017 à 13:10

--=_56a2ab5d3f45d90a4aef2f9427d43bc2
Content-Transfer-Encoding: 8bit
Content-Type: text/plain; charset=UTF-8
Le 25.10.2017 10:53, ptilou a Ã©crit :

Bonjour,
Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a Ã©crit :
Enfin une question Ã laquelle je peux essayer de rÃ©pondre :-)
Je suis nul en informatique, mais j'ai une relative maÃ®trise des expressions
rationnelles.
Dans ton expression, tu as oubliÃ© de protÃ©ger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant w.
Essaieâ€¯:
[w.-]+@[w.-]{2,}.[a-z]{2,4}
Cela dit, il faut aussi parfois protÃ©ger les contre-obliques, en tout cas dans
sed. Le plus Â«â€¯drÃ´leâ€¯Â», c'est que cela dÃ©pend aussi du shell utilisÃ©.

Marche pas !
$ find . -type f -print | xargs egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'
xargs: guillemets simple non appairÃ©s ; par dÃ©faut les guillemets sont particuliers Ã xargs Ã moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/communique [1]: No such file or directory
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www._____.com/pics/contents/webzine/vs [2]: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./www._____.com/pics/webzine/29 [3]: No such file or directory
grep: citations: No such file or directory
grep: pour: No such file or directory
Je n'ai mÃªme plus les adresses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bÃ©cquÃ©e comme un oisillion mais en code source, je ne suis pas capable de rÃ©flÃ©chire ....
Il faut ce mettre Ã python, Lxml et BeautifulSoup ?
Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exÃ©cutables en DOS, je crois que c'est dans ces fichiers si j'ai tÃ©lÃ©charger les adresses ?
Je suis le seul Ã faire du scraping ?
Ptilou

Les raccourcis pour les caractÃ¨res alphanumÃ©riques varient selon le
contexte dans lequel les regexp sont utilisÃ©es, essaie Ã§a en ligne de
commande :
egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'
Christian
Links:
------
[1] http://www._____.com/pics/contents/webzine/communique
[2] http://www._____.com/pics/contents/webzine/vs
[3] http://www._____.com/pics/webzine/29
--=_56a2ab5d3f45d90a4aef2f9427d43bc2
Content-Transfer-Encoding: quoted-printable
Content-Type: text/html; charset=UTF-8
<html><head><meta http-equiv="Content-Type" content="text/html; charset =UTF-8" /></head><body style='font-size: 10pt'>
<p>
</p>
<p>Le 25.10.2017 10:53, ptilou a écrit :</p>
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">
<div class="pre" style="margin: 0; padding: 0; font-family: monospace"> Bonjour,

Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savar y a écrit :
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">Enfin une question à laquelle je peux essayer d e répondre :-)

Je suis nul en informatique, mais j'ai u ne relative maîtrise des expressions
rationnelles.
Dans ton expression, tu as oublié de protéger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant w.<br />
Essaie :
[w.-]+@[w.-]{2,}.[a-z]{2,4}

Cela dit, il faut aussi parfois protéger les contre-obliques, en tout cas dans
sed. Le plus « drôle & raquo;, c'est que cela dépend aussi du shell utilisé.

Marche pas !

$  find . -type f -print | xargs &nbs p;egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'
xargs: guillemets sim ple non appairés ; par défaut les guillemets sont partic uliers à xargs à moins d'utiliser l'option -0
grep: ./< a href="http://www._____.com/pics/contents/webzine/communique">www._____ .com/pics/contents/webzine/communique</a>: No such file or directory<br / > grep: paris: No such file or directory
grep: design: No such file o r directory
grep: week.pdf: No such file or directory
grep: ./< a href="http://www._____.com/pics/contents/webzine/vs">www._____.com/pics /contents/webzine/vs</a>: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./<a href="http://www.__ ___.com/pics/webzine/29">www._____.com/pics/webzine/29</a>: No such file or directory
grep: citations: No such file or directory
grep: pou r: No such file or directory

Je n'ai même plus les adres ses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bécquée comme un oisillion mais en code source, je ne suis pas capable de réfléchire ....
Il faut ce m ettre à python, Lxml et BeautifulSoup ?

Je cherche un t ruc plus simple, sous windows quand je lance une recherche il me sort 300 p ages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exécutables en DOS, je crois que c'est dans ces fichiers si j'ai t élécharger les adresses ?
Je suis le seul à fair e du scraping ?

Ptilou
</div>

<p>Les raccourcis pour les caractères alphanumériques varient selon le contexte dans lequel les regexp sont utilisées, essaie &cc edil;a en ligne de commande :</p>
<p>egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'</p>
<div>Christian</div>
</body></html>
--=_56a2ab5d3f45d90a4aef2f9427d43bc2--

--=_56a2ab5d3f45d90a4aef2f9427d43bc2
Content-Transfer-Encoding: 8bit
Content-Type: text/plain; charset=UTF-8

Le 25.10.2017 10:53, ptilou a Ã©crit :

Bonjour,

Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a Ã©crit :

Enfin une question Ã laquelle je peux essayer de rÃ©pondre :-)

Je suis nul en informatique, mais j'ai une relative maÃ®trise des expressions
rationnelles.
Dans ton expression, tu as oubliÃ© de protÃ©ger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant w.

Essaieâ€¯:
[w.-]+@[w.-]{2,}.[a-z]{2,4}

Cela dit, il faut aussi parfois protÃ©ger les contre-obliques, en tout cas dans
sed. Le plus Â«â€¯drÃ´leâ€¯Â», c'est que cela dÃ©pend aussi du shell utilisÃ©.

Marche pas !

$ find . -type f -print | xargs egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'
xargs: guillemets simple non appairÃ©s ; par dÃ©faut les guillemets sont particuliers Ã xargs Ã moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/communique [1]: No such file or directory
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www._____.com/pics/contents/webzine/vs [2]: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./www._____.com/pics/webzine/29 [3]: No such file or directory
grep: citations: No such file or directory
grep: pour: No such file or directory

Je n'ai mÃªme plus les adresses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bÃ©cquÃ©e comme un oisillion mais en code source, je ne suis pas capable de rÃ©flÃ©chire ....
Il faut ce mettre Ã python, Lxml et BeautifulSoup ?

Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exÃ©cutables en DOS, je crois que c'est dans ces fichiers si j'ai tÃ©lÃ©charger les adresses ?
Je suis le seul Ã faire du scraping ?

Ptilou

Les raccourcis pour les caractÃ¨res alphanumÃ©riques varient selon le
contexte dans lequel les regexp sont utilisÃ©es, essaie Ã§a en ligne de
commande :

egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'

Christian

Links:
------
[1] http://www._____.com/pics/contents/webzine/communique
[2] http://www._____.com/pics/contents/webzine/vs
[3] http://www._____.com/pics/webzine/29
--=_56a2ab5d3f45d90a4aef2f9427d43bc2
Content-Transfer-Encoding: quoted-printable
Content-Type: text/html; charset=UTF-8

<html><head><meta http-equiv="Content-Type" content="text/html; charset =UTF-8" /></head><body style='font-size: 10pt'>
<p><br /></p>
<p>Le 25.10.2017 10:53, ptilou a écrit :</p>
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">
<div class="pre" style="margin: 0; padding: 0; font-family: monospace"> Bonjour,<br /> <br /> Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savar y a écrit :
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">Enfin une question à laquelle je peux essayer d e répondre :-)<br /> <br /> Je suis nul en informatique, mais j'ai u ne relative maîtrise des expressions <br /> rationnelles.<br /> Dans ton expression, tu as oublié de protéger le point et le trait d'union. <br /> Par ailleurs, on peut faire plus simple en utilsant w.<br /> <br /> Essaie :<br /> [w.-]+@[w.-]{2,}.[a-z]{2,4}<br /> <br /> Cela dit, il faut aussi parfois protéger les contre-obliques, en tout cas dans <br /> sed. Le plus « drôle & raquo;, c'est que cela dépend aussi du shell utilisé. <br /> </blockquote>
<br /> Marche pas !<br /> <br /> $  find . -type f -print | xargs &nbs p;egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'<br /> xargs: guillemets sim ple non appairés ; par défaut les guillemets sont partic uliers à xargs à moins d'utiliser l'option -0<br /> grep: ./< a href="http://www._____.com/pics/contents/webzine/communique">www._____ .com/pics/contents/webzine/communique</a>: No such file or directory<br / > grep: paris: No such file or directory<br /> grep: design: No such file o r directory<br /> grep: week.pdf: No such file or directory<br /> grep: ./< a href="http://www._____.com/pics/contents/webzine/vs">www._____.com/pics /contents/webzine/vs</a>: No such file or directory<br /> grep: a: No such file or directory<br /> grep: glass: No such file or directory<br /> grep: house.jpg: No such file or directory<br /> grep: ./<a href="http://www.__ ___.com/pics/webzine/29">www._____.com/pics/webzine/29</a>: No such file or directory<br /> grep: citations: No such file or directory<br /> grep: pou r: No such file or directory<br /> <br /> Je n'ai même plus les adres ses du webmestre !<br /> J'ai pas comprie le truc des obliques, moi il faut me donner la bécquée comme un oisillion mais en code source, je ne suis pas capable de réfléchire ....<br /> Il faut ce m ettre à python, Lxml et BeautifulSoup ?<br /> <br /> Je cherche un t ruc plus simple, sous windows quand je lance une recherche il me sort 300 p ages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exécutables en DOS, je crois que c'est dans ces fichiers si j'ai t élécharger les adresses ?<br /> Je suis le seul à fair e du scraping ?<br /> <br /> Ptilou<br /> </div>
</blockquote>
<p>Les raccourcis pour les caractères alphanumériques varient selon le contexte dans lequel les regexp sont utilisées, essaie &cc edil;a en ligne de commande :</p>
<p>egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'</p>
<div>Christian</div>
</body></html>

--=_56a2ab5d3f45d90a4aef2f9427d43bc2--

Vous avez filtré cet utilisateur ! Consultez son message

--=_56a2ab5d3f45d90a4aef2f9427d43bc2
Content-Transfer-Encoding: 8bit
Content-Type: text/plain; charset=UTF-8
Le 25.10.2017 10:53, ptilou a Ã©crit :

Bonjour,
Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a Ã©crit :
Enfin une question Ã laquelle je peux essayer de rÃ©pondre :-)
Je suis nul en informatique, mais j'ai une relative maÃ®trise des expressions
rationnelles.
Dans ton expression, tu as oubliÃ© de protÃ©ger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant w.
Essaieâ€¯:
[w.-]+@[w.-]{2,}.[a-z]{2,4}
Cela dit, il faut aussi parfois protÃ©ger les contre-obliques, en tout cas dans
sed. Le plus Â«â€¯drÃ´leâ€¯Â», c'est que cela dÃ©pend aussi du shell utilisÃ©.

Marche pas !
$ find . -type f -print | xargs egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'
xargs: guillemets simple non appairÃ©s ; par dÃ©faut les guillemets sont particuliers Ã xargs Ã moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/communique [1]: No such file or directory
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www._____.com/pics/contents/webzine/vs [2]: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./www._____.com/pics/webzine/29 [3]: No such file or directory
grep: citations: No such file or directory
grep: pour: No such file or directory
Je n'ai mÃªme plus les adresses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bÃ©cquÃ©e comme un oisillion mais en code source, je ne suis pas capable de rÃ©flÃ©chire ....
Il faut ce mettre Ã python, Lxml et BeautifulSoup ?
Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exÃ©cutables en DOS, je crois que c'est dans ces fichiers si j'ai tÃ©lÃ©charger les adresses ?
Je suis le seul Ã faire du scraping ?
Ptilou

Les raccourcis pour les caractÃ¨res alphanumÃ©riques varient selon le
contexte dans lequel les regexp sont utilisÃ©es, essaie Ã§a en ligne de
commande :
egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'
Christian
Links:
------
[1] http://www._____.com/pics/contents/webzine/communique
[2] http://www._____.com/pics/contents/webzine/vs
[3] http://www._____.com/pics/webzine/29
--=_56a2ab5d3f45d90a4aef2f9427d43bc2
Content-Transfer-Encoding: quoted-printable
Content-Type: text/html; charset=UTF-8
<html><head><meta http-equiv="Content-Type" content="text/html; charset =UTF-8" /></head><body style='font-size: 10pt'>
<p>
</p>
<p>Le 25.10.2017 10:53, ptilou a écrit :</p>
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">
<div class="pre" style="margin: 0; padding: 0; font-family: monospace"> Bonjour,

Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savar y a écrit :
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">Enfin une question à laquelle je peux essayer d e répondre :-)

Je suis nul en informatique, mais j'ai u ne relative maîtrise des expressions
rationnelles.
Dans ton expression, tu as oublié de protéger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant w.<br />
Essaie :
[w.-]+@[w.-]{2,}.[a-z]{2,4}

Cela dit, il faut aussi parfois protéger les contre-obliques, en tout cas dans
sed. Le plus « drôle & raquo;, c'est que cela dépend aussi du shell utilisé.

Marche pas !

$  find . -type f -print | xargs &nbs p;egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'
xargs: guillemets sim ple non appairés ; par défaut les guillemets sont partic uliers à xargs à moins d'utiliser l'option -0
grep: ./< a href="http://www._____.com/pics/contents/webzine/communique">www._____ .com/pics/contents/webzine/communique</a>: No such file or directory<br / > grep: paris: No such file or directory
grep: design: No such file o r directory
grep: week.pdf: No such file or directory
grep: ./< a href="http://www._____.com/pics/contents/webzine/vs">www._____.com/pics /contents/webzine/vs</a>: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./<a href="http://www.__ ___.com/pics/webzine/29">www._____.com/pics/webzine/29</a>: No such file or directory
grep: citations: No such file or directory
grep: pou r: No such file or directory

Je n'ai même plus les adres ses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bécquée comme un oisillion mais en code source, je ne suis pas capable de réfléchire ....
Il faut ce m ettre à python, Lxml et BeautifulSoup ?

Je cherche un t ruc plus simple, sous windows quand je lance une recherche il me sort 300 p ages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exécutables en DOS, je crois que c'est dans ces fichiers si j'ai t élécharger les adresses ?
Je suis le seul à fair e du scraping ?

Ptilou
</div>

<p>Les raccourcis pour les caractères alphanumériques varient selon le contexte dans lequel les regexp sont utilisées, essaie &cc edil;a en ligne de commande :</p>
<p>egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'</p>
<div>Christian</div>
</body></html>
--=_56a2ab5d3f45d90a4aef2f9427d43bc2--

Dominique Dumont

25/10/2017 à 14:50

On Monday, 23 October 2017 01:19:46 CEST ptilou wrote:

Voila les erreurs qui apparaissent :
[...]
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www.____.com/pics/contents/webzine/vs: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory

Semblerait que certain fichiers contiennent des espaces dans leur nom.
cf option -print0 pour find et -0 (aka --null) pour xargs
e.g find . -name xx -print0 | xargs --null grep etc...
HTH
--
https://github.com/dod38fr/ -o- http://search.cpan.org/~ddumont/
http://ddumont.wordpress.com/ -o- irc: dod at irc.debian.org

Randy11

25/10/2017 à 23:30

Bonjour !
Comme c'est "[HS]", je me permets un "hors sujet" que j'aime quand il
est question de HTML et RegExp :
https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags
;-)
Randy11
On 23/10/2017 10:19, ptilou wrote:

Bonjour la liste,
J'ai besoin de récupérer des adresses mail, j'utilise wget -m http://mon_site_que_j'aime.fr
Je me retrouve avec 5 go de donnée, quand j'ouvre les pages à la mano sous LibreOffice, çà revoie à un javascript:void(0); comme balise pour l'adresse mail.
J'ai donc en ligne de commande taper
$ find . -type f -print | xargs egrep -o '[a-zA-Z0-9._-]+@[a-zA-Z0-9._-]{2,}.[a-z]{2,4}'
Voila les erreurs qui apparaissent :
[...]
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www.____.com/pics/contents/webzine/vs: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
[...]
Je ne récupère que les adresses du Webmestre, donc comment récupérer l'annuaire complet ?
( çà a mouliner toute la nuit et j'ai fait un Control C pour arrêter ce matin )
Donc je sais pas si je n'ai pas télécharger les adresses, ou si c'est l'expression régulière qui est erroné ?
Merci de m’orienter vers un forum plus approprié si vous n'aviez pas la solution !
Ptilou

err404

02/11/2017 à 09:40

-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA512
Bonjour Pilou
il existe des sites web qui peuvent faire ça, de façon interactive.
mais il existe aussi des paquets qui font ça de façon interactive, par exemple:
txt2regex - A Regular Expression "wizard", all written with bash2 builtins
visual-regexp - Interactively debug regular expressions
et sûrement plein d'autres
-----BEGIN PGP SIGNATURE-----
iQIzBAEBCgAdFiEEJO//ePEJChGbGaZQrjHmR0GD/5kFAln62VoACgkQrjHmR0GD
/5nyIw/+Pd8FWlXScxJQdGprfKsYGzN37eup7OWzu4vKErADquGnn1TeRtZPJk7U
dQqUvUll2uUwvTXDWNpf9ZQCEEAbPc6d9MWoqtjrIXaDjSHattlE/yEJ/NBMDIa8
AiFIn5rzdC0M+6/rVSdCLs3618HzTfi8RYvEe0wJcg8O547NTwl4UAizsnaZoDAq
D2A751DHEjREIygtjwwiAouZPywiI8jIiOnu8r1Z36CBnSBB4zqHsdX7D9jBbImM
OEvjQRbIQ80tDircP+VwWAFRdgZk0NzAcLQzODW7hs+LQndpcoYWW4lyyVFpv5g6
P9lQs0ZI9lSUkU25ST5QfjR+i3szeRJOQv5BVf+mSDJqx8OWnESUctwIHSW7hwME
tSUT5DvmXGYAa0Jjss0TrC50mjgenKP2oZw/hOcRs0kP0PhmJ8RCoDvdL0eVPM1v
cM3ytXZREVjOxtT/XvaQiurMmM2HafdqzmyKqEorLLMneO0o0zB8RdGpryYnPcYs
34w5riOA0m7rfLd34q6fGRmSm7SXpmvPfXLHnbOpAdaS3gNgWzH7C1P+BMzz69uZ
v6ABjERdvz5DZBrwLQIHMiT2RnFSrg3wtL6hyUlftl8Yx/Tt8zl0LpdIGsLugShD
zYeSM2ZP8Soi5d3Ygm4QVsrOFAC2qexlYi5/sT1Si3/SafDGJts =Whwf
-----END PGP SIGNATURE-----

Christian Quentin

02/11/2017 à 13:30

--=_f5369c0239c7c491b78910d767fbd24c
Content-Transfer-Encoding: 8bit
Content-Type: text/plain; charset=UTF-8
Le 02.11.2017 07:59, ptilou a Ã©crit :

Bonjour,
Le mercredi 25 octobre 2017 13:10:02 UTC+2, Christian Quentin a Ã©crit :
Le 25.10.2017 10:53, ptilou a Ã©crit :
Bonjour,
Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a Ã©crit :
Enfin une question Ã laquelle je peux essayer de rÃ©pondre :-)
Je suis nul en informatique, mais j'ai une relative maÃ®trise des expressions
rationnelles.
Dans ton expression, tu as oubliÃ© de protÃ©ger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant w.
Essaieâ€¯:
[w.-]+@[w.-]{2,}.[a-z]{2,4}
Cela dit, il faut aussi parfois protÃ©ger les contre-obliques, en tout cas dans
sed. Le plus Â«â€¯drÃ´leâ€¯Â», c'est que cela dÃ©pend aussi du shell utilisÃ©.
Marche pas !
$ find . -type f -print | xargs egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'
xargs: guillemets simple non appairÃ©s ; par dÃ©faut les guillemets sont particuliers Ã xargs Ã moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/communique [1]: No such file or directory
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www._____.com/pics/contents/webzine/vs [2]: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./www._____.com/pics/webzine/29 [3]: No such file or directory
grep: citations: No such file or directory
grep: pour: No such file or directory
Je n'ai mÃªme plus les adresses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bÃ©cquÃ©e comme un oisillion mais en code source, je ne suis pas capable de rÃ©flÃ©chire ....
Il faut ce mettre Ã python, Lxml et BeautifulSoup ?
Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exÃ©cutables en DOS, je crois que c'est dans ces fichiers si j'ai tÃ©lÃ©charger les adresses ?
Je suis le seul Ã faire du scraping ?
Ptilou
Les raccourcis pour les caractÃ¨res alphanumÃ©riques varient selon le contexte dans lequel les regexp sont utilisÃ©es, essaie Ã§a en ligne de commande :
egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'

Ã§Ã ne marche pas ! j'ai essayÃ© man c la : http://manpagesfr.free.fr/man/man1/Index.1.html
j'ai besoin d'aide pour mettre tous Ã§Ã en corollaire ...
Y a des rhume de binaire en ce moment c'est une Ã©pidÃ©mie !
Ptilou

Curieux... J'ai essayÃ© Ã§a sous bash et Ã§a donne bien le rÃ©sultat attendu
: egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'
egrep -R '[[:alnum:]._-]+@([[:alnum:]]+.)+[[:alpha:]]{2,}' est un peu
plus complÃ¨te et repÃ¨re les emails du type (avec un
domaine composÃ© de 2 parties ou plus)
Tu lances bien la commande dans un terminal pour faire tes tests ?
Christian
Links:
------
[1] http://www._____.com/pics/contents/webzine/communique
[2] http://www._____.com/pics/contents/webzine/vs
[3] http://www._____.com/pics/webzine/29
--=_f5369c0239c7c491b78910d767fbd24c
Content-Transfer-Encoding: quoted-printable
Content-Type: text/html; charset=UTF-8
<html><head><meta http-equiv="Content-Type" content="text/html; charset =UTF-8" /></head><body style='font-size: 10pt'>
<p>Le 02.11.2017 07:59, ptilou a écrit :</p>
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">
<div class="pre" style="margin: 0; padding: 0; font-family: monospace"> Bonjour,

Le mercredi 25 octobre 2017 13:10:02 UTC+2, Christian Quentin a écrit :
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">Le 25.10.2017 10:53, ptilou a écrit :<br / >

Bonjour,
 
 Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a écrit :
Enfin une questio n à laquelle je peux essayer de répondre :-)
 <br />  Je suis nul en informatique, mais j'ai une relative maîtrise des expressions
 rationnelles.
 Dans ton expression , tu as oublié de protéger le point et le trait d'union. <br />  Par ailleurs, on peut faire plus simple en utilsant w.
&nbs p;
 Essaie :
 [w.-]+@[w.-]{2,}.[a-z]{2 ,4}
 
 Cela dit, il faut aussi parfois protége r les contre-obliques, en tout cas dans
 sed. Le plus «  drôle », c'est que cela dépend aussi du shell utilisé.
 

 Marche pas !
 
 $  find . -type f -print | xargs  egrep -o '[ w.-]+@[w.-]{2,}.[a-z]{2,4}'
 xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers & agrave; xargs à moins d'utiliser l'option -0
 grep: ./<a href="http://www._____.com/pics/contents/webzine/communique">www._____.co m/pics/contents/webzine/communique</a>: No such file or directory
&nb sp;grep: paris: No such file or directory
 grep: design: No such file or directory
 grep: week.pdf: No such file or directory<br />  grep: ./<a href="http://www._____.com/pics/contents/webzine/vs" >www._____.com/pics/contents/webzine/vs</a>: No such file or directory<br / >  grep: a: No such file or directory
 grep: glass: No such file or directory
 grep: house.jpg: No such file or directory<b r />  grep: ./<a href="http://www._____.com/pics/webzine/29">www.___ __.com/pics/webzine/29</a>: No such file or directory
 grep: cit ations: No such file or directory
 grep: pour: No such file or d irectory
 
 Je n'ai même plus les adresses du w ebmestre !
 J'ai pas comprie le truc des obliques, moi il faut m e donner la bécquée comme un oisillion mais en code source, j e ne suis pas capable de réfléchire ....
 Il faut ce mettre à python, Lxml et BeautifulSoup ?
 
&nbsp ;Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en pl us une dizaines d'exécutables en DOS, je crois que c'est dans ces fi chiers si j'ai télécharger les adresses ?
 Je suis le seul à faire du scraping ?
 
 Ptilou
 
Les raccourcis pour les caractères alpha numériques varient selon le contexte dans lequel les regexp sont uti lisées, essaie ça en ligne de commande :

egrep - R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'

çà ne marche pas ! j'ai essayé man c la : <a hr ef="http://manpagesfr.free.fr/man/man1/Index.1.html">http://manpagesfr.fr ee.fr/man/man1/Index.1.html</a>

j'ai besoin d'aide pour mettre tous çà en corollaire ...
Y a des rhume de binaire en ce moment c'est une épidémie !

Ptilou
</di v>

<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">
<div class="pre" style="margin: 0; padding: 0; font-family: monospace">  </div>

<p>Curieux... J'ai essayé ça sous bash et ça donne bie n le résultat attendu : egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:a lpha:]]{2,}'</p>
<p>egrep -R '[[:alnum:]._-]+@([[:alnum:]]+.)+[[:alpha:]]{2,}' est un peu plus complète et repère les emails du type <a href="mailto: "></a> (avec un domaine composé de 2 parties ou plus)</p>
<div>Tu lances bien la commande dans un terminal pour faire tes tests ?</di v>
<div> </div>
<div>Christian</div>
</body></html>
--=_f5369c0239c7c491b78910d767fbd24c--

--=_f5369c0239c7c491b78910d767fbd24c
Content-Transfer-Encoding: 8bit
Content-Type: text/plain; charset=UTF-8

Le 02.11.2017 07:59, ptilou a Ã©crit :

Bonjour,

Le mercredi 25 octobre 2017 13:10:02 UTC+2, Christian Quentin a Ã©crit :

Le 25.10.2017 10:53, ptilou a Ã©crit :

Bonjour,

Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a Ã©crit :
Enfin une question Ã laquelle je peux essayer de rÃ©pondre :-)

Je suis nul en informatique, mais j'ai une relative maÃ®trise des expressions
rationnelles.
Dans ton expression, tu as oubliÃ© de protÃ©ger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant w.

Essaieâ€¯:
[w.-]+@[w.-]{2,}.[a-z]{2,4}

Cela dit, il faut aussi parfois protÃ©ger les contre-obliques, en tout cas dans
sed. Le plus Â«â€¯drÃ´leâ€¯Â», c'est que cela dÃ©pend aussi du shell utilisÃ©.

Marche pas !

$ find . -type f -print | xargs egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'
xargs: guillemets simple non appairÃ©s ; par dÃ©faut les guillemets sont particuliers Ã xargs Ã moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/communique [1]: No such file or directory
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www._____.com/pics/contents/webzine/vs [2]: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./www._____.com/pics/webzine/29 [3]: No such file or directory
grep: citations: No such file or directory
grep: pour: No such file or directory

Je n'ai mÃªme plus les adresses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bÃ©cquÃ©e comme un oisillion mais en code source, je ne suis pas capable de rÃ©flÃ©chire ....
Il faut ce mettre Ã python, Lxml et BeautifulSoup ?

Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exÃ©cutables en DOS, je crois que c'est dans ces fichiers si j'ai tÃ©lÃ©charger les adresses ?
Je suis le seul Ã faire du scraping ?

Ptilou

Les raccourcis pour les caractÃ¨res alphanumÃ©riques varient selon le contexte dans lequel les regexp sont utilisÃ©es, essaie Ã§a en ligne de commande :

egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'

Ã§Ã ne marche pas ! j'ai essayÃ© man c la : http://manpagesfr.free.fr/man/man1/Index.1.html

j'ai besoin d'aide pour mettre tous Ã§Ã en corollaire ...
Y a des rhume de binaire en ce moment c'est une Ã©pidÃ©mie !

Ptilou

Curieux... J'ai essayÃ© Ã§a sous bash et Ã§a donne bien le rÃ©sultat attendu
: egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'

egrep -R '[[:alnum:]._-]+@([[:alnum:]]+.)+[[:alpha:]]{2,}' est un peu
plus complÃ¨te et repÃ¨re les emails du type toto@qqpart.co.uk (avec un
domaine composÃ© de 2 parties ou plus)

Tu lances bien la commande dans un terminal pour faire tes tests ?

Christian

Links:
------
[1] http://www._____.com/pics/contents/webzine/communique
[2] http://www._____.com/pics/contents/webzine/vs
[3] http://www._____.com/pics/webzine/29
--=_f5369c0239c7c491b78910d767fbd24c
Content-Transfer-Encoding: quoted-printable
Content-Type: text/html; charset=UTF-8

<html><head><meta http-equiv="Content-Type" content="text/html; charset =UTF-8" /></head><body style='font-size: 10pt'>
<p>Le 02.11.2017 07:59, ptilou a écrit :</p>
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">
<div class="pre" style="margin: 0; padding: 0; font-family: monospace"> Bonjour,<br /> <br /> Le mercredi 25 octobre 2017 13:10:02 UTC+2, Christian Quentin a écrit :
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">Le 25.10.2017 10:53, ptilou a écrit :<br / > <br /> <br /> Bonjour,<br />  <br />  Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a écrit :<br /> Enfin une questio n à laquelle je peux essayer de répondre :-)<br />  <br />  Je suis nul en informatique, mais j'ai une relative maîtrise des expressions <br />  rationnelles.<br />  Dans ton expression , tu as oublié de protéger le point et le trait d'union. <br />  Par ailleurs, on peut faire plus simple en utilsant w.<br /> &nbs p;<br />  Essaie :<br />  [w.-]+@[w.-]{2,}.[a-z]{2 ,4}<br />  <br />  Cela dit, il faut aussi parfois protége r les contre-obliques, en tout cas dans <br />  sed. Le plus «  drôle », c'est que cela dépend aussi du shell utilisé. <br />  <br /> <br />  Marche pas !<br />  <br />  $  find . -type f -print | xargs  egrep -o '[ w.-]+@[w.-]{2,}.[a-z]{2,4}'<br />  xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers & agrave; xargs à moins d'utiliser l'option -0<br />  grep: ./<a href="http://www._____.com/pics/contents/webzine/communique">www._____.co m/pics/contents/webzine/communique</a>: No such file or directory<br /> &nb sp;grep: paris: No such file or directory<br />  grep: design: No such file or directory<br />  grep: week.pdf: No such file or directory<br />  grep: ./<a href="http://www._____.com/pics/contents/webzine/vs" >www._____.com/pics/contents/webzine/vs</a>: No such file or directory<br / >  grep: a: No such file or directory<br />  grep: glass: No such file or directory<br />  grep: house.jpg: No such file or directory<b r />  grep: ./<a href="http://www._____.com/pics/webzine/29">www.___ __.com/pics/webzine/29</a>: No such file or directory<br />  grep: cit ations: No such file or directory<br />  grep: pour: No such file or d irectory<br />  <br />  Je n'ai même plus les adresses du w ebmestre !<br />  J'ai pas comprie le truc des obliques, moi il faut m e donner la bécquée comme un oisillion mais en code source, j e ne suis pas capable de réfléchire ....<br />  Il faut ce mettre à python, Lxml et BeautifulSoup ?<br />  <br /> &nbsp ;Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en pl us une dizaines d'exécutables en DOS, je crois que c'est dans ces fi chiers si j'ai télécharger les adresses ?<br />  Je suis le seul à faire du scraping ?<br />  <br />  Ptilou<br />  <br /> <br /> <br /> Les raccourcis pour les caractères alpha numériques varient selon le contexte dans lequel les regexp sont uti lisées, essaie ça en ligne de commande :<br /> <br /> egrep - R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'<br /> </blockquote>
<br /> çà ne marche pas ! j'ai essayé man c la : <a hr ef="http://manpagesfr.free.fr/man/man1/Index.1.html">http://manpagesfr.fr ee.fr/man/man1/Index.1.html</a><br /> <br /> j'ai besoin d'aide pour mettre tous çà en corollaire ...<br /> Y a des rhume de binaire en ce moment c'est une épidémie !<br /> <br /> Ptilou<br /> </di v>
</blockquote>
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">
<div class="pre" style="margin: 0; padding: 0; font-family: monospace">  </div>
</blockquote>
<p>Curieux... J'ai essayé ça sous bash et ça donne bie n le résultat attendu : egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:a lpha:]]{2,}'</p>
<p>egrep -R '[[:alnum:]._-]+@([[:alnum:]]+.)+[[:alpha:]]{2,}' est un peu plus complète et repère les emails du type <a href="mailto: toto@qqpart.co.uk">toto@qqpart.co.uk</a> (avec un domaine composé de 2 parties ou plus)</p>
<div>Tu lances bien la commande dans un terminal pour faire tes tests ?</di v>
<div> </div>
<div>Christian</div>

</body></html>

--=_f5369c0239c7c491b78910d767fbd24c--

Vous avez filtré cet utilisateur ! Consultez son message

--=_f5369c0239c7c491b78910d767fbd24c
Content-Transfer-Encoding: 8bit
Content-Type: text/plain; charset=UTF-8
Le 02.11.2017 07:59, ptilou a Ã©crit :

Bonjour,
Le mercredi 25 octobre 2017 13:10:02 UTC+2, Christian Quentin a Ã©crit :
Le 25.10.2017 10:53, ptilou a Ã©crit :
Bonjour,
Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a Ã©crit :
Enfin une question Ã laquelle je peux essayer de rÃ©pondre :-)
Je suis nul en informatique, mais j'ai une relative maÃ®trise des expressions
rationnelles.
Dans ton expression, tu as oubliÃ© de protÃ©ger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant w.
Essaieâ€¯:
[w.-]+@[w.-]{2,}.[a-z]{2,4}
Cela dit, il faut aussi parfois protÃ©ger les contre-obliques, en tout cas dans
sed. Le plus Â«â€¯drÃ´leâ€¯Â», c'est que cela dÃ©pend aussi du shell utilisÃ©.
Marche pas !
$ find . -type f -print | xargs egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'
xargs: guillemets simple non appairÃ©s ; par dÃ©faut les guillemets sont particuliers Ã xargs Ã moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/communique [1]: No such file or directory
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www._____.com/pics/contents/webzine/vs [2]: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./www._____.com/pics/webzine/29 [3]: No such file or directory
grep: citations: No such file or directory
grep: pour: No such file or directory
Je n'ai mÃªme plus les adresses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bÃ©cquÃ©e comme un oisillion mais en code source, je ne suis pas capable de rÃ©flÃ©chire ....
Il faut ce mettre Ã python, Lxml et BeautifulSoup ?
Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exÃ©cutables en DOS, je crois que c'est dans ces fichiers si j'ai tÃ©lÃ©charger les adresses ?
Je suis le seul Ã faire du scraping ?
Ptilou
Les raccourcis pour les caractÃ¨res alphanumÃ©riques varient selon le contexte dans lequel les regexp sont utilisÃ©es, essaie Ã§a en ligne de commande :
egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'

Ã§Ã ne marche pas ! j'ai essayÃ© man c la : http://manpagesfr.free.fr/man/man1/Index.1.html
j'ai besoin d'aide pour mettre tous Ã§Ã en corollaire ...
Y a des rhume de binaire en ce moment c'est une Ã©pidÃ©mie !
Ptilou

Curieux... J'ai essayÃ© Ã§a sous bash et Ã§a donne bien le rÃ©sultat attendu
: egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'
egrep -R '[[:alnum:]._-]+@([[:alnum:]]+.)+[[:alpha:]]{2,}' est un peu
plus complÃ¨te et repÃ¨re les emails du type (avec un
domaine composÃ© de 2 parties ou plus)
Tu lances bien la commande dans un terminal pour faire tes tests ?
Christian
Links:
------
[1] http://www._____.com/pics/contents/webzine/communique
[2] http://www._____.com/pics/contents/webzine/vs
[3] http://www._____.com/pics/webzine/29
--=_f5369c0239c7c491b78910d767fbd24c
Content-Transfer-Encoding: quoted-printable
Content-Type: text/html; charset=UTF-8
<html><head><meta http-equiv="Content-Type" content="text/html; charset =UTF-8" /></head><body style='font-size: 10pt'>
<p>Le 02.11.2017 07:59, ptilou a écrit :</p>
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">
<div class="pre" style="margin: 0; padding: 0; font-family: monospace"> Bonjour,

Le mercredi 25 octobre 2017 13:10:02 UTC+2, Christian Quentin a écrit :
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">Le 25.10.2017 10:53, ptilou a écrit :<br / >

Bonjour,
 
 Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a écrit :
Enfin une questio n à laquelle je peux essayer de répondre :-)
 <br />  Je suis nul en informatique, mais j'ai une relative maîtrise des expressions
 rationnelles.
 Dans ton expression , tu as oublié de protéger le point et le trait d'union. <br />  Par ailleurs, on peut faire plus simple en utilsant w.
&nbs p;
 Essaie :
 [w.-]+@[w.-]{2,}.[a-z]{2 ,4}
 
 Cela dit, il faut aussi parfois protége r les contre-obliques, en tout cas dans
 sed. Le plus «  drôle », c'est que cela dépend aussi du shell utilisé.
 

 Marche pas !
 
 $  find . -type f -print | xargs  egrep -o '[ w.-]+@[w.-]{2,}.[a-z]{2,4}'
 xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers & agrave; xargs à moins d'utiliser l'option -0
 grep: ./<a href="http://www._____.com/pics/contents/webzine/communique">www._____.co m/pics/contents/webzine/communique</a>: No such file or directory
&nb sp;grep: paris: No such file or directory
 grep: design: No such file or directory
 grep: week.pdf: No such file or directory<br />  grep: ./<a href="http://www._____.com/pics/contents/webzine/vs" >www._____.com/pics/contents/webzine/vs</a>: No such file or directory<br / >  grep: a: No such file or directory
 grep: glass: No such file or directory
 grep: house.jpg: No such file or directory<b r />  grep: ./<a href="http://www._____.com/pics/webzine/29">www.___ __.com/pics/webzine/29</a>: No such file or directory
 grep: cit ations: No such file or directory
 grep: pour: No such file or d irectory
 
 Je n'ai même plus les adresses du w ebmestre !
 J'ai pas comprie le truc des obliques, moi il faut m e donner la bécquée comme un oisillion mais en code source, j e ne suis pas capable de réfléchire ....
 Il faut ce mettre à python, Lxml et BeautifulSoup ?
 
&nbsp ;Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en pl us une dizaines d'exécutables en DOS, je crois que c'est dans ces fi chiers si j'ai télécharger les adresses ?
 Je suis le seul à faire du scraping ?
 
 Ptilou
 
Les raccourcis pour les caractères alpha numériques varient selon le contexte dans lequel les regexp sont uti lisées, essaie ça en ligne de commande :

egrep - R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'

çà ne marche pas ! j'ai essayé man c la : <a hr ef="http://manpagesfr.free.fr/man/man1/Index.1.html">http://manpagesfr.fr ee.fr/man/man1/Index.1.html</a>

j'ai besoin d'aide pour mettre tous çà en corollaire ...
Y a des rhume de binaire en ce moment c'est une épidémie !

Ptilou
</di v>

<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2 px solid; margin: 0">
<div class="pre" style="margin: 0; padding: 0; font-family: monospace">  </div>

<p>Curieux... J'ai essayé ça sous bash et ça donne bie n le résultat attendu : egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:a lpha:]]{2,}'</p>
<p>egrep -R '[[:alnum:]._-]+@([[:alnum:]]+.)+[[:alpha:]]{2,}' est un peu plus complète et repère les emails du type <a href="mailto: "></a> (avec un domaine composé de 2 parties ou plus)</p>
<div>Tu lances bien la commande dans un terminal pour faire tes tests ?</di v>
<div> </div>
<div>Christian</div>
</body></html>
--=_f5369c0239c7c491b78910d767fbd24c--

Architecte du web

08/11/2017 à 03:20

AUjourd'hui j'ai re-tester le premier qui a marché mais maintenant j'ai les même e-mailS qui sorte, bon je passer pour un spammer ...
La je veux récupérer les adresseS de site web donc je tape :
$ find . -type f -print | xargs egrep -o '0www.[a-zA-Z0-9._-]{2,}.[a-z]{2,4}' >www-______.txt
Et j'ai les erreurS :
grep: le fichier d'entrée « ./www-_______.txt » est aussi en sortie
xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers à xargs à moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/c+: No such file or directory
grep: horreur.jpg: No such file or directory
grep: ./www.______.com/pics/contents/webzine/campagne: No such file or directory
grep: mars.jpg: No such file or directory
grep: ./www.______.com/pics/contents/webzine/campagne: No such file or directory
grep: ▒co: No such file or directory
grep: emballages.jpg: No such file or directory
[...]
Mais j'ai plus rien dans le fichier ...
On n'est pas vendredi, mais je suis obliger de faire fonctionner mes doigts, sinon je vais attraper une entorse falangique ;-)
Y a une gréve dans la presse les numéro de https://www.closermag.fr/ ; www.voici.fr/ ; https://www.public.fr/ ; people.com/ ; www.purepeople.com/ ; www.gala.fr/ , etc ...
non pas été imprimer ? Y a un beug majeure dans le logiciel libre qui fait que les serveurs ne servent plus la bonne soupe ?
Ptilou

Tente ça :
egrep -R 'www.[a-zA-Z0-9._-]+.[[:alpha:]]{2,4}' .
Christian

[HS] HTML, javascript, expression régulière ?

7 réponses

Veuillez sélectionner un problème