OVH Cloud OVH Cloud

RegExp pour extraire des URL/URI

2 réponses
Avatar
p_geni...
Bonjour,

je cherche à extraire les URL dans plusieurs fichiers.
selon un(e) rfc sur les URI/url valides ont l'une
des formes suivantes.



ftp://ftp.is.co.za/rfc/rfc1808.txt
http://www.ietf.org/rfc/rfc2396.txt
ldap://[2001:db8::7]/c=GB?objectClass?one
mailto:John.Doe@example.com
news:comp.infosystems.www.servers.unix
tel:+1-816-555-1212
telnet://192.0.2.16:80/
urn:oasis:names:specification:docbook:dtd:xml:4.1.2

je souahaite juste avoir le "protocole" (http, ftp, ldap...)
et puis ce que j'appelle "url" (www.ietf.org/rfc/rfc2396.txt ...)

est -il possible de faire cela avec une seule regexp?


m!([^:]+):/?/?(\S+)!;

ou existe-t-il une regexp plus "performante"
d'ailleurs je ne souhaite pas faire appel à un module pour faire cela
car ceratins fichier peuvent ne pas contenir d'url/uri.

merci de votre aide,
Pierre.

-----
échangez opinions et commentaires dans les forums de discussion.
http://www.usenetgratuit.com/

2 réponses

Avatar
DoMinix
Pierre Génieys wrote:
Bonjour,

je cherche à extraire les URL dans plusieurs fichiers.
selon un(e) rfc sur les URI/url valides ont l'une
des formes suivantes.




...

URI::Find - Find URIs in arbitrary text

--
dominix

Avatar
p_geni...
DoMinix wrote:

URI::Find - Find URIs in arbitrary text


Merci de cette réponse, je vais regarder dans le .pm
pour essayer de trouver la bonne regexp car je
ne peux pas installer des modules et ne souhaite pas
faire appel à un module pour extraire quelques liens.


Pierre.

-----
échangez opinions et commentaires dans les forums de discussion.
http://www.usenetgratuit.com/