Enfin une question à laquelle je peux essayer de répondre :-)
Je suis nul en informatique, mais j’ai une relative maîtrise des expressions
rationnelles.
Dans ton expression, tu as oublié de protéger le point et le tr ait d’union.
Par ailleurs, on peut faire plus simple en utilsant w.
Essaie :
[w.-]+@[w.-]{2,}.[a-z]{2,4}
Cela dit, il faut aussi parfois protéger les contre-obliques, en tou t cas dans
sed. Le plus « drôle », c’est que cela dépend aussi du shell utilisé.
Enfin une question à laquelle je peux essayer de répondre :-)
Je suis nul en informatique, mais j’ai une relative maîtrise des expressions
rationnelles.
Dans ton expression, tu as oublié de protéger le point et le tr ait d’union.
Par ailleurs, on peut faire plus simple en utilsant w.
Essaie :
[w.-]+@[w.-]{2,}.[a-z]{2,4}
Cela dit, il faut aussi parfois protéger les contre-obliques, en tou t cas dans
sed. Le plus « drôle », c’est que cela dépend aussi du shell utilisé.
Enfin une question à laquelle je peux essayer de répondre :-)
Je suis nul en informatique, mais j’ai une relative maîtrise des expressions
rationnelles.
Dans ton expression, tu as oublié de protéger le point et le tr ait d’union.
Par ailleurs, on peut faire plus simple en utilsant w.
Essaie :
[w.-]+@[w.-]{2,}.[a-z]{2,4}
Cela dit, il faut aussi parfois protéger les contre-obliques, en tou t cas dans
sed. Le plus « drôle », c’est que cela dépend aussi du shell utilisé.
Bonjour,
Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a écrit :Enfin une question à laquelle je peux essayer de répondre :-)
Je suis nul en informatique, mais j'ai une relative maîtrise des expressions
rationnelles.
Dans ton expression, tu as oublié de protéger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant w.
Essaie :
[w.-]+@[w.-]{2,}.[a-z]{2,4}
Cela dit, il faut aussi parfois protéger les contre-obliques, en tout cas dans
sed. Le plus « drôle », c'est que cela dépend aussi du shell utilisé.
Marche pas !
$ find . -type f -print | xargs egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'
xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers à xargs à moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/communique [1]: No such file or directory
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www._____.com/pics/contents/webzine/vs [2]: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./www._____.com/pics/webzine/29 [3]: No such file or directory
grep: citations: No such file or directory
grep: pour: No such file or directory
Je n'ai même plus les adresses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bécquée comme un oisillion mais en code source, je ne suis pas capable de réfléchire ....
Il faut ce mettre à python, Lxml et BeautifulSoup ?
Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exécutables en DOS, je crois que c'est dans ces fichiers si j'ai télécharger les adresses ?
Je suis le seul à faire du scraping ?
Ptilou
Bonjour,
Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a écrit :
Enfin une question à laquelle je peux essayer de répondre :-)
Je suis nul en informatique, mais j'ai une relative maîtrise des expressions
rationnelles.
Dans ton expression, tu as oublié de protéger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant w.
Essaie :
[w.-]+@[w.-]{2,}.[a-z]{2,4}
Cela dit, il faut aussi parfois protéger les contre-obliques, en tout cas dans
sed. Le plus « drôle », c'est que cela dépend aussi du shell utilisé.
Marche pas !
$ find . -type f -print | xargs egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'
xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers à xargs à moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/communique [1]: No such file or directory
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www._____.com/pics/contents/webzine/vs [2]: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./www._____.com/pics/webzine/29 [3]: No such file or directory
grep: citations: No such file or directory
grep: pour: No such file or directory
Je n'ai même plus les adresses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bécquée comme un oisillion mais en code source, je ne suis pas capable de réfléchire ....
Il faut ce mettre à python, Lxml et BeautifulSoup ?
Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exécutables en DOS, je crois que c'est dans ces fichiers si j'ai télécharger les adresses ?
Je suis le seul à faire du scraping ?
Ptilou
Bonjour,
Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a écrit :Enfin une question à laquelle je peux essayer de répondre :-)
Je suis nul en informatique, mais j'ai une relative maîtrise des expressions
rationnelles.
Dans ton expression, tu as oublié de protéger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant w.
Essaie :
[w.-]+@[w.-]{2,}.[a-z]{2,4}
Cela dit, il faut aussi parfois protéger les contre-obliques, en tout cas dans
sed. Le plus « drôle », c'est que cela dépend aussi du shell utilisé.
Marche pas !
$ find . -type f -print | xargs egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'
xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers à xargs à moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/communique [1]: No such file or directory
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www._____.com/pics/contents/webzine/vs [2]: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./www._____.com/pics/webzine/29 [3]: No such file or directory
grep: citations: No such file or directory
grep: pour: No such file or directory
Je n'ai même plus les adresses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bécquée comme un oisillion mais en code source, je ne suis pas capable de réfléchire ....
Il faut ce mettre à python, Lxml et BeautifulSoup ?
Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exécutables en DOS, je crois que c'est dans ces fichiers si j'ai télécharger les adresses ?
Je suis le seul à faire du scraping ?
Ptilou
Voila les erreurs qui apparaissent :
[...]
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www.____.com/pics/contents/webzine/vs: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
Voila les erreurs qui apparaissent :
[...]
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www.____.com/pics/contents/webzine/vs: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
Voila les erreurs qui apparaissent :
[...]
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www.____.com/pics/contents/webzine/vs: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
Bonjour la liste,
J'ai besoin de récupérer des adresses mail, j'utilise wget -m http://mon_site_que_j'aime.fr
Je me retrouve avec 5 go de donnée, quand j'ouvre les pages à la mano sous LibreOffice, çà revoie à un javascript:void(0); comme balise pour l'adresse mail.
J'ai donc en ligne de commande taper
$ find . -type f -print | xargs egrep -o '[a-zA-Z0-9._-]+@[a-zA-Z0-9._-]{2,}.[a-z]{2,4}'
Voila les erreurs qui apparaissent :
[...]
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www.____.com/pics/contents/webzine/vs: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
[...]
Je ne récupère que les adresses du Webmestre, donc comment récupérer l'annuaire complet ?
( çà a mouliner toute la nuit et j'ai fait un Control C pour arrêter ce matin )
Donc je sais pas si je n'ai pas télécharger les adresses, ou si c'est l'expression régulière qui est erroné ?
Merci de m’orienter vers un forum plus approprié si vous n'aviez pas la solution !
Ptilou
Bonjour la liste,
J'ai besoin de récupérer des adresses mail, j'utilise wget -m http://mon_site_que_j'aime.fr
Je me retrouve avec 5 go de donnée, quand j'ouvre les pages à la mano sous LibreOffice, çà revoie à un javascript:void(0); comme balise pour l'adresse mail.
J'ai donc en ligne de commande taper
$ find . -type f -print | xargs egrep -o '[a-zA-Z0-9._-]+@[a-zA-Z0-9._-]{2,}.[a-z]{2,4}'
Voila les erreurs qui apparaissent :
[...]
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www.____.com/pics/contents/webzine/vs: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
[...]
Je ne récupère que les adresses du Webmestre, donc comment récupérer l'annuaire complet ?
( çà a mouliner toute la nuit et j'ai fait un Control C pour arrêter ce matin )
Donc je sais pas si je n'ai pas télécharger les adresses, ou si c'est l'expression régulière qui est erroné ?
Merci de m’orienter vers un forum plus approprié si vous n'aviez pas la solution !
Ptilou
Bonjour la liste,
J'ai besoin de récupérer des adresses mail, j'utilise wget -m http://mon_site_que_j'aime.fr
Je me retrouve avec 5 go de donnée, quand j'ouvre les pages à la mano sous LibreOffice, çà revoie à un javascript:void(0); comme balise pour l'adresse mail.
J'ai donc en ligne de commande taper
$ find . -type f -print | xargs egrep -o '[a-zA-Z0-9._-]+@[a-zA-Z0-9._-]{2,}.[a-z]{2,4}'
Voila les erreurs qui apparaissent :
[...]
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www.____.com/pics/contents/webzine/vs: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
[...]
Je ne récupère que les adresses du Webmestre, donc comment récupérer l'annuaire complet ?
( çà a mouliner toute la nuit et j'ai fait un Control C pour arrêter ce matin )
Donc je sais pas si je n'ai pas télécharger les adresses, ou si c'est l'expression régulière qui est erroné ?
Merci de m’orienter vers un forum plus approprié si vous n'aviez pas la solution !
Ptilou
Bonjour,
Le mercredi 25 octobre 2017 13:10:02 UTC+2, Christian Quentin a écrit :Le 25.10.2017 10:53, ptilou a écrit :
Bonjour,
Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a écrit :
Enfin une question à laquelle je peux essayer de répondre :-)
Je suis nul en informatique, mais j'ai une relative maîtrise des expressions
rationnelles.
Dans ton expression, tu as oublié de protéger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant w.
Essaie :
[w.-]+@[w.-]{2,}.[a-z]{2,4}
Cela dit, il faut aussi parfois protéger les contre-obliques, en tout cas dans
sed. Le plus « drôle », c'est que cela dépend aussi du shell utilisé.
Marche pas !
$ find . -type f -print | xargs egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'
xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers à xargs à moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/communique [1]: No such file or directory
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www._____.com/pics/contents/webzine/vs [2]: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./www._____.com/pics/webzine/29 [3]: No such file or directory
grep: citations: No such file or directory
grep: pour: No such file or directory
Je n'ai même plus les adresses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bécquée comme un oisillion mais en code source, je ne suis pas capable de réfléchire ....
Il faut ce mettre à python, Lxml et BeautifulSoup ?
Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exécutables en DOS, je crois que c'est dans ces fichiers si j'ai télécharger les adresses ?
Je suis le seul à faire du scraping ?
Ptilou
Les raccourcis pour les caractères alphanumériques varient selon le contexte dans lequel les regexp sont utilisées, essaie ça en ligne de commande :
egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'
çà ne marche pas ! j'ai essayé man c la : http://manpagesfr.free.fr/man/man1/Index.1.html
j'ai besoin d'aide pour mettre tous çà en corollaire ...
Y a des rhume de binaire en ce moment c'est une épidémie !
Ptilou
Bonjour,
Le mercredi 25 octobre 2017 13:10:02 UTC+2, Christian Quentin a écrit :
Le 25.10.2017 10:53, ptilou a écrit :
Bonjour,
Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a écrit :
Enfin une question à laquelle je peux essayer de répondre :-)
Je suis nul en informatique, mais j'ai une relative maîtrise des expressions
rationnelles.
Dans ton expression, tu as oublié de protéger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant w.
Essaie :
[w.-]+@[w.-]{2,}.[a-z]{2,4}
Cela dit, il faut aussi parfois protéger les contre-obliques, en tout cas dans
sed. Le plus « drôle », c'est que cela dépend aussi du shell utilisé.
Marche pas !
$ find . -type f -print | xargs egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'
xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers à xargs à moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/communique [1]: No such file or directory
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www._____.com/pics/contents/webzine/vs [2]: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./www._____.com/pics/webzine/29 [3]: No such file or directory
grep: citations: No such file or directory
grep: pour: No such file or directory
Je n'ai même plus les adresses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bécquée comme un oisillion mais en code source, je ne suis pas capable de réfléchire ....
Il faut ce mettre à python, Lxml et BeautifulSoup ?
Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exécutables en DOS, je crois que c'est dans ces fichiers si j'ai télécharger les adresses ?
Je suis le seul à faire du scraping ?
Ptilou
Les raccourcis pour les caractères alphanumériques varient selon le contexte dans lequel les regexp sont utilisées, essaie ça en ligne de commande :
egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'
çà ne marche pas ! j'ai essayé man c la : http://manpagesfr.free.fr/man/man1/Index.1.html
j'ai besoin d'aide pour mettre tous çà en corollaire ...
Y a des rhume de binaire en ce moment c'est une épidémie !
Ptilou
Bonjour,
Le mercredi 25 octobre 2017 13:10:02 UTC+2, Christian Quentin a écrit :Le 25.10.2017 10:53, ptilou a écrit :
Bonjour,
Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a écrit :
Enfin une question à laquelle je peux essayer de répondre :-)
Je suis nul en informatique, mais j'ai une relative maîtrise des expressions
rationnelles.
Dans ton expression, tu as oublié de protéger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant w.
Essaie :
[w.-]+@[w.-]{2,}.[a-z]{2,4}
Cela dit, il faut aussi parfois protéger les contre-obliques, en tout cas dans
sed. Le plus « drôle », c'est que cela dépend aussi du shell utilisé.
Marche pas !
$ find . -type f -print | xargs egrep -o '[w.-]+@[w.-]{2,}.[a-z]{2,4}'
xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers à xargs à moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/communique [1]: No such file or directory
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www._____.com/pics/contents/webzine/vs [2]: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./www._____.com/pics/webzine/29 [3]: No such file or directory
grep: citations: No such file or directory
grep: pour: No such file or directory
Je n'ai même plus les adresses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bécquée comme un oisillion mais en code source, je ne suis pas capable de réfléchire ....
Il faut ce mettre à python, Lxml et BeautifulSoup ?
Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exécutables en DOS, je crois que c'est dans ces fichiers si j'ai télécharger les adresses ?
Je suis le seul à faire du scraping ?
Ptilou
Les raccourcis pour les caractères alphanumériques varient selon le contexte dans lequel les regexp sont utilisées, essaie ça en ligne de commande :
egrep -R '[[:alnum:].-]+@[[:alnum:]]+.[[:alpha:]]{2,}'
çà ne marche pas ! j'ai essayé man c la : http://manpagesfr.free.fr/man/man1/Index.1.html
j'ai besoin d'aide pour mettre tous çà en corollaire ...
Y a des rhume de binaire en ce moment c'est une épidémie !
Ptilou
AUjourd'hui j'ai re-tester le premier qui a marché mais maintenant j'ai les même e-mailS qui sorte, bon je passer pour un spammer ...
La je veux récupérer les adresseS de site web donc je tape :
$ find . -type f -print | xargs egrep -o '0www.[a-zA-Z0-9._-]{2,}.[a-z]{2,4}' >www-______.txt
Et j'ai les erreurS :
grep: le fichier d'entrée « ./www-_______.txt » est aussi en sortie
xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers à xargs à moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/c+: No such file or directory
grep: horreur.jpg: No such file or directory
grep: ./www.______.com/pics/contents/webzine/campagne: No such file or directory
grep: mars.jpg: No such file or directory
grep: ./www.______.com/pics/contents/webzine/campagne: No such file or directory
grep: ▒co: No such file or directory
grep: emballages.jpg: No such file or directory
[...]
Mais j'ai plus rien dans le fichier ...
On n'est pas vendredi, mais je suis obliger de faire fonctionner mes doigts, sinon je vais attraper une entorse falangique ;-)
Y a une gréve dans la presse les numéro de https://www.closermag.fr/ ; www.voici.fr/ ; https://www.public.fr/ ; people.com/ ; www.purepeople.com/ ; www.gala.fr/ , etc ...
non pas été imprimer ? Y a un beug majeure dans le logiciel libre qui fait que les serveurs ne servent plus la bonne soupe ?
Ptilou
AUjourd'hui j'ai re-tester le premier qui a marché mais maintenant j'ai les même e-mailS qui sorte, bon je passer pour un spammer ...
La je veux récupérer les adresseS de site web donc je tape :
$ find . -type f -print | xargs egrep -o '0www.[a-zA-Z0-9._-]{2,}.[a-z]{2,4}' >www-______.txt
Et j'ai les erreurS :
grep: le fichier d'entrée « ./www-_______.txt » est aussi en sortie
xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers à xargs à moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/c+: No such file or directory
grep: horreur.jpg: No such file or directory
grep: ./www.______.com/pics/contents/webzine/campagne: No such file or directory
grep: mars.jpg: No such file or directory
grep: ./www.______.com/pics/contents/webzine/campagne: No such file or directory
grep: ▒co: No such file or directory
grep: emballages.jpg: No such file or directory
[...]
Mais j'ai plus rien dans le fichier ...
On n'est pas vendredi, mais je suis obliger de faire fonctionner mes doigts, sinon je vais attraper une entorse falangique ;-)
Y a une gréve dans la presse les numéro de https://www.closermag.fr/ ; www.voici.fr/ ; https://www.public.fr/ ; people.com/ ; www.purepeople.com/ ; www.gala.fr/ , etc ...
non pas été imprimer ? Y a un beug majeure dans le logiciel libre qui fait que les serveurs ne servent plus la bonne soupe ?
Ptilou
AUjourd'hui j'ai re-tester le premier qui a marché mais maintenant j'ai les même e-mailS qui sorte, bon je passer pour un spammer ...
La je veux récupérer les adresseS de site web donc je tape :
$ find . -type f -print | xargs egrep -o '0www.[a-zA-Z0-9._-]{2,}.[a-z]{2,4}' >www-______.txt
Et j'ai les erreurS :
grep: le fichier d'entrée « ./www-_______.txt » est aussi en sortie
xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers à xargs à moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/c+: No such file or directory
grep: horreur.jpg: No such file or directory
grep: ./www.______.com/pics/contents/webzine/campagne: No such file or directory
grep: mars.jpg: No such file or directory
grep: ./www.______.com/pics/contents/webzine/campagne: No such file or directory
grep: ▒co: No such file or directory
grep: emballages.jpg: No such file or directory
[...]
Mais j'ai plus rien dans le fichier ...
On n'est pas vendredi, mais je suis obliger de faire fonctionner mes doigts, sinon je vais attraper une entorse falangique ;-)
Y a une gréve dans la presse les numéro de https://www.closermag.fr/ ; www.voici.fr/ ; https://www.public.fr/ ; people.com/ ; www.purepeople.com/ ; www.gala.fr/ , etc ...
non pas été imprimer ? Y a un beug majeure dans le logiciel libre qui fait que les serveurs ne servent plus la bonne soupe ?
Ptilou