Ce qu'il faut savoir
Savoir comment effectuer des recherches efficaces et précises sur le moteur de recherche le plus utilisé de par le monde, à savoir Google, réclame quelques explications. Suivez le guide.
Cet article explique :
- Comment chercher des informations très précises en utilisant Google
- Comment utiliser les différentes commandes pour un fonctionnement optimal des recherches
Ce qu’il faut savoir :
- Savoir utiliser un navigateur Web
- Quelques notions de base sur le protocole http
La plupart des questions trouvent une réponse sur Google, qui est actuellement le moteur de recherche le plus utilisé au monde (80% de parts de marché). Ceci est dû d’une part à son mécanisme de génération de résultats ultra efficace et d’autre part à la grande possibilité de questionnement. N’oublions pas qu’Internet est un média dynamique et que les résultats ne sont plus forcément de première fraîcheur. Il arrive ainsi que certaines pages trouvées soient vieilles et que plusieurs pages ayant un contenu similaire ne soient pas vérifiées par Googlebot (script ayant pour but de rechercher et d’indexer les ressources du Web).
../..
Opérateurs de précision
Vous trouverez dans le tableau ci-dessous les opérateurs de précision les plus importants et les plus utiles avec leur description et le résultat de leur fonctionnement. Les résultats ne sont donnés qu’à titre d’exemple. A vous d’essayer avec vos propres requêtes afin d'améliorer la pertinence des réponses obtenues.
Opérateur | Description | Exemple d’utilisation |
site | Limite les résultats aux pages se trouvant dans un domaine défini | site:generation-nt.com GNT trouvera toutes les pages contenant le mot GNT dans leur texte et se trouvant dans le domaine generation-nt.com |
intitle | Limite les résultats aux documents contenant une phrase donnée dans le titre | intitle:generation nt trouvera les pages contenant le mot generation dans le titre et nt dans le texte |
allintitle | Limite les résultats aux documents contenant toutes les phrases données dans le titre | allintitle:generation nt trouvera toutes les pages contenant les mots generation et nt dans le titre. Son fonctionnement est similaire à celui de intitle:generation intitle:nt |
inurl | Limite les résultats aux pages contenant une phrase donnée dans l’adresse URL | inurl:generation nt trouvera les pages contenant le mot generation dans l'URL et nt dans le texte |
allinurl | Limite les résultats aux pages contenant toutes les phrases données dans l’adresse URL | allinurl:generation nt trouvera les pages contenant les mots generation et nt dans l’adresse url. Son fonctionnement est similaire à celui de inurl:generation inurl:nt |
filetype: .ext | Limite les résultats à un type de document donné | filetype:GNT.pdf trouvera les documents possédant l'extension pdf et contenant le mot GNT |
numrange | Limite les résultats aux documents contenant dans leur texte le nombre d’une page définie | numrange:1-100 GNT retrouvera dans un document les pages contenant le mot GNT compris entre la première et la centième. Le même résultat peut être obtenu en tapant 1..100 GNT |
link | Limite les résultats aux pages contenant des liens vers une page donnée | link :www.generation-nt.com retrouvera les documents contenant au moins un lien vers la page www.generation-nt.com |
inanchore | Limite les résultats aux pages avec un lien contenant dans sa description une phrase donnée | inanchore:GNT retrouvera les documents contenant les liens possédant le mot GNT dans sa description (non dans l’adresse url vers laquelle ils conduisent mais dans la partie soulignée du texte représentant le lien) |
allintext | Limite les résultats aux documents contenant dans le texte une phrase donnée sans se soucier du titre, des liens et des adresses url | allintext:« generation nt » retrouvera les documents contenant la phrase generation nt seulement dans le texte |
+ | Impose une présence fréquente de la phrase donnée dans les résultats | + GNT met les résultats en ordre conformément à la fréquence de présence du mot GNT |
- | Impose la non présence de la phrase donnée dans les résultats | - generation retrouvera les documents ne contenant pas le mot generation |
« . » | Permet de rechercher toutes les phrases et pas seulement que les mots | « generation nt » retrouvera tous les documents contenant la phrase generation nt |
. | Est remplacé par un caractère unique | generation.nt retrouvera les documents contenant les phrases du type "generation xxxx nt" comme par exemple "generation le plus de nt", "generation le meilleur du nt" ou "generation ou le royaume des OS nt" etc. |
׀ | OR logique | « generation nt » ׀ generationnt retrouvera les documents contenant la phrase "generation nt" ou le mot generationnt |
Les
indications données dans ce tableau ne sont que des exemples simples
mais, comme vous pouvez le constater, une question mieux formulée dans
Google permettra d’obtenir de bien meilleurs résultats et par
conséquent des informations bien plus pertinentes.
- Remarque
ces opérateurs peuvent bien entendu être combinés entre eux pour obtenir une précision de recherche encore plus accrue.
Voici un exemple : intitle:sea+discovery inurl:NYtimes.com
cette recherche trouvera toutes les pages contenant dans leur titre les mots sea et discovery dans l'adresse du NYtimes.
Utilité et dérives
Maintenant que nous avons vu comment utiliser les principaux opérateurs, vous allez rapidement vous rendre compte que vous pourrez affiner vos recherches sans problème.
Toutefois, ce savoir peut également être détourné, et utilisé à des fins moins « conventionnelles ».
Ainsi, aussi bien que dans les pays de l’ Union Européenne qu’aux USA, il existe des régulations juridiques ayant pour but de protéger la confidentialité des données et des utilisateurs. En effet, Google peut être comparé à une immense pieuvre qui amène ses tentacules au plus profond du web, y compris dans des endroits auquels il ne devrait pas avoir accès...
Par exemple, il arrive fréquemment
que documents confidentiels contenant vos données soient mis dans des
endroits accessibles au grand public via le réseau sans pour autant
être sécurisés. Il suffit donc à un individu d'obtenir un accès au
courrier électronique contenant votre curriculum vitae envoyé au cour
d’une recherche d’emploi via un site en ligne par exemple, pour qu’il
connaisse votre adresse, téléphone et tout autre type d’informations
personnelles ( e-mail, niveau d’études, centre d’intérêts etc.).
Sur
le net il y a plein de document de ce type et pour les trouver il
suffit de poser la bonne question à Google, exemple intitle:«
curriculum vitae » « téléphone*** » « adresse » « e-mail », mais la
recherche ne s’arrête pas la, vous trouverez dans le tableau ci-dessous
quelques exemples de documents confidentiels que l’on peut trouver sur le
net. On pourrait aller encore plus loin, en effet, on peut aussi y trouver
votre Webcam par exemple ou encore une imprimante partagée via un
réseau, bref tout ou presque avec un peu d’imagination et de
persévérance.
Question | résultat |
filetype:xls inurl : « e-mail.xls » | Des fichiers email.xls pouvant contenir des listes xls d'adresses email |
« téléphone ***» « adresse » « e-mail » « intitle:curriculum vitae » | Des documents CV |
« not for distribution » confidentiel | Des documents classés confidentiels |
buddylist.bit | Liste de contact du logiciel de messagerie instantanée AIM |
filetype:ctt « MSN » | Des listes de contact MSN |
intitle : index.of finances.xls | Des fichiers finances.xls pouvant contenir des informations sur des comptes bancaires, des rapports financiers et des numéros de carte de crédit. |
inurl :hp/device/this.LCDispatcher | Les imprimantes HP |
intitle:liveapplet inurl:LvAppl | Les cameras Canon Webview |
inurl:indexframe.shtml Axis | Les cameras Axis |
SNC-RZ30 HOME | Les cameras Sony SNC-RZ30 |
intitle:“my webcamXP server!” inurl: “8080” | Les cameras disponibles via l’application WebcamXP Server |
allintitle:Brains, Corp. | camera Les cameras disponibles via l’application mmEye |
intitle:“active webcam page” | Les cameras dotées d’une interface USB |
Cela
résulte du fait que presque tous les utilisateurs d’Internet créent
différents types de carnet d’adresses e-mail, ceux-ci sont peu
importants pour un intrus moyen, en revanche une personne avertie se
révélera capable d’utiliser ces données notamment si elles
contiennent les contacts d’une société. La même remarque est
valable pour les contacts de logiciels de messagerie instantanée, qui
quand cette liste tombe dans de mauvaises mains, l’intrus pourrait se
faire passer pour l’un de vos amis, collaborateur, etc. Mais la collecte
d’information peut aussi concerner vos présentations Powerpoint ( PPS ), ou tout
document confidentiel interne à l’entreprise, ou encore les plans de
projets, de la documentation technique, des rapports et beaucoup
d’autres documents qui n’auraient jamais du se retrouver en ligne.
De
même, nombre d’administrateurs réseau ne prennent pas au sérieux la
sécurité des périphériques tels que les imprimantes ou les
caméras que vous utilisez pour la visioconférence. Pourtant une
imprimante mal sécurisée peut devenir la première cible à attaquer pour
un intrus. Les caméras Internet ne sont pas très dangereuses et peuvent
être considérées comme un divertissement, mais il n’est pas difficile
d’imaginer la situation où les données de ce type auraient de
l’importance (attentats, vol à main armée, viol…).
../..
Recherche d'images
Outre la recherche dans des pages web, Google permet également de rechercher des images.
Ceci est accessible en cliquant sur le mot " Images " à partir de l'interface principale de Google, ou via ce lien. Ce type de recherche fonctionne sur le même principe et utilise les mêmes opérateurs que pour la recherche sur le web, en réalité l’opérateur qui est " déguisé " par l’interface de Google est du type : filetype:jpeg or png or gif etc.. votre_recherche
Vous
l’aurez compris, en tapant dans l’interface principale de Google cet
opérateur vous obtiendrez strictement les mêmes résultats qu’en
utilisant l’interface de recherche d’images.
En
revanche, rien ne vous empêche d’utiliser des opérateurs de précision
dans l’interface de recherche d'image de Google pour chercher un format
d’image particulier. Par exemple, si vous tapez :intitle:SEA.jpeg cela
revient à rechercher toutes les images au format jpeg contenant le
mot SEA dans leur titre. Cependant, pour bénéficier de filtres
plus spécifique, il semblerait que l'on ne puisse passer que par
l'interface graphique de recherche avancée d'image.
Dans
le cadre de cette recherche d’image, plus vous préciserez l’intitulé
avec l’extension souhaitée, plus vous obtiendrez un résultat
précis, mais bien entendu à condition que l’image souhaitée soit
répertoriée sous le titre précis que vous avez mentionné et que le site
Internet soit bien évidement référencé chez Google.
Par exemple: intitle:deepbluesea.jpeg trouvera les images contenant dans leur titre deepbluesea.jpeg (ici un film de série B).
../..
Recherche de documents
Outre la recherche d'informations sur des pages web, ou encore d'images, Google permet enfin d'effectuer des recherches portant sur de véritables documents de type word, excel, pdf,...
Pour cela, des opérateurs spécifiques sont à utiliser :
Opérateur | Description | Exemple d’utilisation |
filetype:ext | Limite les résultats à un type de document donné | filetype:GNT.pdf trouvera les documents possédant l'extension pdf et contenant le mot GNT |
numrange | Limite les résultats aux documents contenant dans leur texte le nombre d’une page définie | numrange:1-100 GNT retrouvera dans un document les pages contenant le mot GNT comprises entre la première et la centième. Le même résultat peut être obtenu en tapant 1..100 GNT |
La commande type pour les recherche de documents est filetype:
suivi du mot clé de votre recherche lui même suivi par la
terminologie de l'extension du type de document souhaité (pdf, xls,
doc. txt, rar, tar.gz, etc.) exemple filetype:Nokia.pdf.
La formulation de la commande peut être différente, vous pouvez aussi taper Nokia6610i filepyte:PDF , ce qui revient à rechercher les documents contenant le mot Nokia 6610i de type pdf. De même, dans la rédaction de la commande les espaces n'interfèrent pas dans le fonctionnement de la recherche.
Vous
pouvez également préciser le type d'information contenu dans le
document comme nous l'avons vu précédement en spécifiant des mots clés,
tel que l'adresse e-mail par exemple. Par ailleurs comme vous l'avez vu
dans le tableau des principaux opérateurs de précision, vous pouvez
pour accentuer encore la précision de la recherche, utiliser les
guillemets ou encore les opérateurs basiques tels + / -. Ceci signifie que vous avez une idée très précise de ce
que vous recherchez et que vous savez plus ou moins où chercher. Cela
veut aussi dire que si vous entrez trop de précision dans
votre requête et que celle-ci n'est pas formulée exactement de la
même manière à c'elle répertoriée dans Google, vous risquez de n'avoir aucun
résultat.
C'est
pour cela que pour rechercher un document de quelque nature que ce soit (.pdf, .doc,
etc.), il est préférable d'utiliser une ou deux commandes
combinées afin de ne pas trop restreindre les recherches et d'obtenir des
resultats proches et d'en faire ensuite le tri manuellement. On obtient
par exemple:
ce qui donne ensuite ceci :
../..
Conclusion
Au cours de ce dossier j’ai volontairement laissé de
côté les recherches concernant les serveurs et autres types de
matériels considérant que les exemples donnés suffisent amplement pour
imaginer les données que l’on peut collecter de manière complètement
légale puisque ces dernières sont à disposition du public qui poserait
les bonnes questions au moteur de recherche.
Il
est également important de comprendre que toutes les informations que
l’on peut trouver sur la toile sont parfois accessibles du fait de
négligences, mais cela reste entièrement légal de les consulter. Bien
entendu l’usage que l’on peut en faire ensuite peut devenir lui
complètement illégal et je ne peux que vous envoyer vous référer aux
textes de loi en vigueur (cf. : loi Godfrain).
Cf. Code pénal : articles 323-2 concernant la protection particulière des systèmes automatisés de traitement de données.
Ainsi, l’accès frauduleux, le maintien frauduleux (art 323-1 c.pénal) l’entrave et le faussement des systèmes de traitement automatisé de données (art 323-2) ainsi que les suppressions, modifications ou destructions frauduleuse de données (art 323-3) sont susceptibles de générer la responsabilité pénal de leurs auteurs.
Voici pour rappel les peines encourues :
Loi Nº 88-19 du 5 janvier 1988 relative à la fraude informatique
Accès ou maintien frauduleux dans un système informatique :
2 mois à 1 an de prison,
2 000 à 50 000 francs d'amende
Accès ou maintien frauduleux dans un système informatique avec dommages involontaires :
Modification ou suppression de données, altération du fonctionnement du système
2 mois à 2 ans de prison,
10 000 à 100 000 francs d'amende.
Entrave volontaire au fonctionnement d'un système informatique :
3 mois à 3 ans de prison,
10 000 à 100 000 francs d'amende.
Introduction, suppression, modifications intentionnelles de données :
3 mois à 3 ans de prison,
2 000 à 500 000 francs d'amende.
Suppression, modifications intentionnelles du mode de traitement, des transmissions de données :
3 mois à 3 ans de prison,
2 000 à 500 000 francs d'amende.
Falsification de document informatique, usage de document falsifié :
1 an à 5 ans de prison,
20 000 à 2 000 000 francs d'amende.
Extraits donnés pour illustration. Se rapporter au Journal Officiel pour le texte original
Sources:
- http://johnny.ihackstuff.com : l’archive la plus complète sur Google, mise à jour régulièrement avec une FAQ et un WIKI. (en anglais).
- http://www.insecure.org : une des sources d’information les plus complètes sur la sécurité informatique (en anglais).
Bonne recherche sur Google ;-)