PS: Sauriez si il existe une liste de proxies HTTP en usage non payant
mais qui me permettrai de faire des requetes "comme si" on la faisait
d'un certain pays? Comment en trouver (des proxies).
PS: Sauriez si il existe une liste de proxies HTTP en usage non payant
mais qui me permettrai de faire des requetes "comme si" on la faisait
d'un certain pays? Comment en trouver (des proxies).
PS: Sauriez si il existe une liste de proxies HTTP en usage non payant
mais qui me permettrai de faire des requetes "comme si" on la faisait
d'un certain pays? Comment en trouver (des proxies).
1) Je suppose de toutes façon que ça existe, mais mon but est d'avoir un
rapport de la forme que je veux, je dois donc le faire moi meme.
2) Vous sauriez quels principes utilisent ce genre d'outils si vous en
connaissez? Je veux dire essentiellement, moi, je me vois parser la page
retournée par le moteur de recherche. C'est peut-être la mauvaise
solution...
3) Des conseils?... :)
PS: Sauriez si il existe une liste de proxies HTTP en usage non payant
mais qui me permettrai de faire des requetes "comme si" on la faisait
d'un certain pays? Comment en trouver (des proxies).
1) Je suppose de toutes façon que ça existe, mais mon but est d'avoir un
rapport de la forme que je veux, je dois donc le faire moi meme.
2) Vous sauriez quels principes utilisent ce genre d'outils si vous en
connaissez? Je veux dire essentiellement, moi, je me vois parser la page
retournée par le moteur de recherche. C'est peut-être la mauvaise
solution...
3) Des conseils?... :)
PS: Sauriez si il existe une liste de proxies HTTP en usage non payant
mais qui me permettrai de faire des requetes "comme si" on la faisait
d'un certain pays? Comment en trouver (des proxies).
1) Je suppose de toutes façon que ça existe, mais mon but est d'avoir un
rapport de la forme que je veux, je dois donc le faire moi meme.
2) Vous sauriez quels principes utilisent ce genre d'outils si vous en
connaissez? Je veux dire essentiellement, moi, je me vois parser la page
retournée par le moteur de recherche. C'est peut-être la mauvaise
solution...
3) Des conseils?... :)
PS: Sauriez si il existe une liste de proxies HTTP en usage non payant
mais qui me permettrai de faire des requetes "comme si" on la faisait
d'un certain pays? Comment en trouver (des proxies).
Bonjour,
Je souhaite faire un espèce de détecteur de référencement. En gros: - On
soumet une URL,
Bonjour,
Je souhaite faire un espèce de détecteur de référencement. En gros: - On
soumet une URL,
Bonjour,
Je souhaite faire un espèce de détecteur de référencement. En gros: - On
soumet une URL,
Ca n'existe pas tant que ça. Tu peux toujours filer ton pognon aux
quelques boites qui vendent un tel outil très cher et par
abonnement à l'année. Mais comme tous leurs utilisateurs sont
contents, tant mieux.
Pour ma part, j'ai mis un sleep aléatoire (je suis parano,
j'imagine qu'ils regardent si les requêtes sont trop régulières)
entre chaque demande et je colle au maximum avec une requête
humaine (par ex. je ne fais pas une demande d'une page contenant
100 résultats, mais bien 10 pages de 10 résultats.)
Tout cela est donc empirique, mais ça fonctionne jusqu'à
maintenant.
Ca n'existe pas tant que ça. Tu peux toujours filer ton pognon aux
quelques boites qui vendent un tel outil très cher et par
abonnement à l'année. Mais comme tous leurs utilisateurs sont
contents, tant mieux.
Pour ma part, j'ai mis un sleep aléatoire (je suis parano,
j'imagine qu'ils regardent si les requêtes sont trop régulières)
entre chaque demande et je colle au maximum avec une requête
humaine (par ex. je ne fais pas une demande d'une page contenant
100 résultats, mais bien 10 pages de 10 résultats.)
Tout cela est donc empirique, mais ça fonctionne jusqu'à
maintenant.
Ca n'existe pas tant que ça. Tu peux toujours filer ton pognon aux
quelques boites qui vendent un tel outil très cher et par
abonnement à l'année. Mais comme tous leurs utilisateurs sont
contents, tant mieux.
Pour ma part, j'ai mis un sleep aléatoire (je suis parano,
j'imagine qu'ils regardent si les requêtes sont trop régulières)
entre chaque demande et je colle au maximum avec une requête
humaine (par ex. je ne fais pas une demande d'une page contenant
100 résultats, mais bien 10 pages de 10 résultats.)
Tout cela est donc empirique, mais ça fonctionne jusqu'à
maintenant.
PS: Sauriez si il existe une liste de proxies HTTP en usage non payant
mais qui me permettrai de faire des requetes "comme si" on la faisait
d'un certain pays? Comment en trouver (des proxies).
PS: Sauriez si il existe une liste de proxies HTTP en usage non payant
mais qui me permettrai de faire des requetes "comme si" on la faisait
d'un certain pays? Comment en trouver (des proxies).
PS: Sauriez si il existe une liste de proxies HTTP en usage non payant
mais qui me permettrai de faire des requetes "comme si" on la faisait
d'un certain pays? Comment en trouver (des proxies).
Oui et pour cause, il y a le matraquage publicitaire qui va bien en
faveur de ces outils sur nombre de sites francophones consacrés au
référencement.
Et tu as bien sûr aussi fait "tourner" le user-agent ?
J'ai fait la même chose sauf que j'ai perdu le script. Si tu es prêt
à le diffuser, je suis preneur.
Oui et pour cause, il y a le matraquage publicitaire qui va bien en
faveur de ces outils sur nombre de sites francophones consacrés au
référencement.
Et tu as bien sûr aussi fait "tourner" le user-agent ?
J'ai fait la même chose sauf que j'ai perdu le script. Si tu es prêt
à le diffuser, je suis preneur.
Oui et pour cause, il y a le matraquage publicitaire qui va bien en
faveur de ces outils sur nombre de sites francophones consacrés au
référencement.
Et tu as bien sûr aussi fait "tourner" le user-agent ?
J'ai fait la même chose sauf que j'ai perdu le script. Si tu es prêt
à le diffuser, je suis preneur.
Antoine a écrit :Oui et pour cause, il y a le matraquage publicitaire qui va bien
en faveur de ces outils sur nombre de sites francophones
consacrés au référencement.
Forums qui appartiennent parfois à ceux qui créent ces mêmes
outils.
Et tu as bien sûr aussi fait "tourner" le user-agent ?
Tu veux dire modifier le user-agent à chaque requête ? Non.
Je ne vois pas bien l'utilité du moment que ce dernier est
correspond à un navigateur classique.
Changer le UA alors que l'IP reste inchangée est un peu louche. Le
mieux est l'ennemi du bien, dit-on.
J'ai fait la même chose sauf que j'ai perdu le script. Si tu es
prêt à le diffuser, je suis preneur.
Etourdi !
Non, je ne le diffuse pas : c'est sale
Mais bon, tout n'est qu'enrobage de :
preg_match('@<h2 class=r><a href="(.+)>(.+)</h2>@Uis',
$this->divs[$a], $match // on veut $match[2]
Dans les divs[] :
preg_match_all('@<div class=g(.*)>(.+)</div>@Uis', $this->content,
$reg) // on prend les $reg[2][$i];
Et le $content un bête file_get_contents précédé de header pour
définir un bon UA (entre autres).
Antoine a écrit :
Oui et pour cause, il y a le matraquage publicitaire qui va bien
en faveur de ces outils sur nombre de sites francophones
consacrés au référencement.
Forums qui appartiennent parfois à ceux qui créent ces mêmes
outils.
Et tu as bien sûr aussi fait "tourner" le user-agent ?
Tu veux dire modifier le user-agent à chaque requête ? Non.
Je ne vois pas bien l'utilité du moment que ce dernier est
correspond à un navigateur classique.
Changer le UA alors que l'IP reste inchangée est un peu louche. Le
mieux est l'ennemi du bien, dit-on.
J'ai fait la même chose sauf que j'ai perdu le script. Si tu es
prêt à le diffuser, je suis preneur.
Etourdi !
Non, je ne le diffuse pas : c'est sale
Mais bon, tout n'est qu'enrobage de :
preg_match('@<h2 class=r><a href="(.+)>(.+)</h2>@Uis',
$this->divs[$a], $match // on veut $match[2]
Dans les divs[] :
preg_match_all('@<div class=g(.*)>(.+)</div>@Uis', $this->content,
$reg) // on prend les $reg[2][$i];
Et le $content un bête file_get_contents précédé de header pour
définir un bon UA (entre autres).
Antoine a écrit :Oui et pour cause, il y a le matraquage publicitaire qui va bien
en faveur de ces outils sur nombre de sites francophones
consacrés au référencement.
Forums qui appartiennent parfois à ceux qui créent ces mêmes
outils.
Et tu as bien sûr aussi fait "tourner" le user-agent ?
Tu veux dire modifier le user-agent à chaque requête ? Non.
Je ne vois pas bien l'utilité du moment que ce dernier est
correspond à un navigateur classique.
Changer le UA alors que l'IP reste inchangée est un peu louche. Le
mieux est l'ennemi du bien, dit-on.
J'ai fait la même chose sauf que j'ai perdu le script. Si tu es
prêt à le diffuser, je suis preneur.
Etourdi !
Non, je ne le diffuse pas : c'est sale
Mais bon, tout n'est qu'enrobage de :
preg_match('@<h2 class=r><a href="(.+)>(.+)</h2>@Uis',
$this->divs[$a], $match // on veut $match[2]
Dans les divs[] :
preg_match_all('@<div class=g(.*)>(.+)</div>@Uis', $this->content,
$reg) // on prend les $reg[2][$i];
Et le $content un bête file_get_contents précédé de header pour
définir un bon UA (entre autres).
Plusieurs FAI font (faisaient ?) partager une même adresse IP à
plusieurs clients ; AOL utilisait ce genre de proxies.
Tu as aussi le cas des sociétés/organisations_en_tout_genre qui ont
un point d'accès au net unique avec une IP unique et parfois
plusieurs miliers d'utilisateurs derrière, pas tous équipés du même
navigateur. C'est exactement le cas de la boîte qui m'emploie.
J'ai fait la même chose sauf que j'ai perdu le script. Si tu es
prêt à le diffuser, je suis preneur.
Etourdi !
Je ne te le fais pas dire ! Je perds rarement des données ou
programmes ; je m'en suis voulu sur ce coup.
Non, je ne le diffuse pas : c'est sale
Pas de problème.Mais bon, tout n'est qu'enrobage de :
preg_match('@<h2 class=r><a href="(.+)>(.+)</h2>@Uis',
$this->divs[$a], $match // on veut $match[2]
(snip)
Merci pour les indications. Comme je suis à peu près nul en
expressions régulières, je me souviens que je m'étais farci le
traitement en strpos laborieux.Dans les divs[] :
preg_match_all('@<div class=g(.*)>(.+)</div>@Uis', $this->content,
$reg) // on prend les $reg[2][$i];
Et le $content un bête file_get_contents précédé de header pour
définir un bon UA (entre autres).
Et tu passes en requêtes "post" pour bien simuler un comportement
humain ou tu t'autorises des "get" bruts de fonderie ?
Plusieurs FAI font (faisaient ?) partager une même adresse IP à
plusieurs clients ; AOL utilisait ce genre de proxies.
Tu as aussi le cas des sociétés/organisations_en_tout_genre qui ont
un point d'accès au net unique avec une IP unique et parfois
plusieurs miliers d'utilisateurs derrière, pas tous équipés du même
navigateur. C'est exactement le cas de la boîte qui m'emploie.
J'ai fait la même chose sauf que j'ai perdu le script. Si tu es
prêt à le diffuser, je suis preneur.
Etourdi !
Je ne te le fais pas dire ! Je perds rarement des données ou
programmes ; je m'en suis voulu sur ce coup.
Non, je ne le diffuse pas : c'est sale
Pas de problème.
Mais bon, tout n'est qu'enrobage de :
preg_match('@<h2 class=r><a href="(.+)>(.+)</h2>@Uis',
$this->divs[$a], $match // on veut $match[2]
(snip)
Merci pour les indications. Comme je suis à peu près nul en
expressions régulières, je me souviens que je m'étais farci le
traitement en strpos laborieux.
Dans les divs[] :
preg_match_all('@<div class=g(.*)>(.+)</div>@Uis', $this->content,
$reg) // on prend les $reg[2][$i];
Et le $content un bête file_get_contents précédé de header pour
définir un bon UA (entre autres).
Et tu passes en requêtes "post" pour bien simuler un comportement
humain ou tu t'autorises des "get" bruts de fonderie ?
Plusieurs FAI font (faisaient ?) partager une même adresse IP à
plusieurs clients ; AOL utilisait ce genre de proxies.
Tu as aussi le cas des sociétés/organisations_en_tout_genre qui ont
un point d'accès au net unique avec une IP unique et parfois
plusieurs miliers d'utilisateurs derrière, pas tous équipés du même
navigateur. C'est exactement le cas de la boîte qui m'emploie.
J'ai fait la même chose sauf que j'ai perdu le script. Si tu es
prêt à le diffuser, je suis preneur.
Etourdi !
Je ne te le fais pas dire ! Je perds rarement des données ou
programmes ; je m'en suis voulu sur ce coup.
Non, je ne le diffuse pas : c'est sale
Pas de problème.Mais bon, tout n'est qu'enrobage de :
preg_match('@<h2 class=r><a href="(.+)>(.+)</h2>@Uis',
$this->divs[$a], $match // on veut $match[2]
(snip)
Merci pour les indications. Comme je suis à peu près nul en
expressions régulières, je me souviens que je m'étais farci le
traitement en strpos laborieux.Dans les divs[] :
preg_match_all('@<div class=g(.*)>(.+)</div>@Uis', $this->content,
$reg) // on prend les $reg[2][$i];
Et le $content un bête file_get_contents précédé de header pour
définir un bon UA (entre autres).
Et tu passes en requêtes "post" pour bien simuler un comportement
humain ou tu t'autorises des "get" bruts de fonderie ?
Le 24 Apr 2008 16:33:41 GMT, Antoine
écrivait dans fr.comp.infosystemes.www.auteurs:Plusieurs FAI font (faisaient ?) partager une même adresse IP à
plusieurs clients ; AOL utilisait ce genre de proxies.
Mais ces IP sont connues.
Tu as aussi le cas des sociétés/organisations_en_tout_genre qui
ont un point d'accès au net unique avec une IP unique et parfois
plusieurs miliers d'utilisateurs derrière, pas tous équipés du
même navigateur. C'est exactement le cas de la boîte qui
m'emploie.
Ce qui implique que tu utilises une IP déjà connues pour abriter
un grand nombre d'utilisateurs différents.
Je ne te le fais pas dire ! Je perds rarement des données ou
programmes ; je m'en suis voulu sur ce coup.
Faut faire une sauvegarde complète au moins une fois l'an.
Et tu passes en requêtes "post" pour bien simuler un comportement
humain ou tu t'autorises des "get" bruts de fonderie ?
Il faut voir ce que les moteurs acceptent comme arguments. Mais
de toutes façons, certains ont officiellement une politique anti-
moteur annoncée sur leur site. Un des buts c'est de réduire la
pollution de leur moteur avec du spam (quoi que certains moteurs
semblent encourager ce type de pollution), ce spam étant par
exemple une sélection de 10 sites avec telle sélection de mots.
Pour ce qui est du problème initial, soit de suivre le
positionnement d'un site dans les moteurs populaires, donc avec
des requêtes peu nombreuses qui se répètent, je ne crois pas que
les moteurs réagissent pour se protéger. On peut même utiliser
l'API de google pour cela, par exemple.
Par contre, je pense que certains moteurs alternent les 10 ou 20
premiers résultats selon l'heure. Quand j'ai acheté de la pub
adwords, j'ai regardé les résultats pour voir si ma pub sortait
et j'ai constaté que les résultats (pas la pub mais les liens
trouvés) variaient au lieu d'être fixes. C'est peut-être une
question de sujet de recherche.
Le 24 Apr 2008 16:33:41 GMT, Antoine <noemail@noemail.invalid>
écrivait dans fr.comp.infosystemes.www.auteurs:
Plusieurs FAI font (faisaient ?) partager une même adresse IP à
plusieurs clients ; AOL utilisait ce genre de proxies.
Mais ces IP sont connues.
Tu as aussi le cas des sociétés/organisations_en_tout_genre qui
ont un point d'accès au net unique avec une IP unique et parfois
plusieurs miliers d'utilisateurs derrière, pas tous équipés du
même navigateur. C'est exactement le cas de la boîte qui
m'emploie.
Ce qui implique que tu utilises une IP déjà connues pour abriter
un grand nombre d'utilisateurs différents.
Je ne te le fais pas dire ! Je perds rarement des données ou
programmes ; je m'en suis voulu sur ce coup.
Faut faire une sauvegarde complète au moins une fois l'an.
Et tu passes en requêtes "post" pour bien simuler un comportement
humain ou tu t'autorises des "get" bruts de fonderie ?
Il faut voir ce que les moteurs acceptent comme arguments. Mais
de toutes façons, certains ont officiellement une politique anti-
moteur annoncée sur leur site. Un des buts c'est de réduire la
pollution de leur moteur avec du spam (quoi que certains moteurs
semblent encourager ce type de pollution), ce spam étant par
exemple une sélection de 10 sites avec telle sélection de mots.
Pour ce qui est du problème initial, soit de suivre le
positionnement d'un site dans les moteurs populaires, donc avec
des requêtes peu nombreuses qui se répètent, je ne crois pas que
les moteurs réagissent pour se protéger. On peut même utiliser
l'API de google pour cela, par exemple.
Par contre, je pense que certains moteurs alternent les 10 ou 20
premiers résultats selon l'heure. Quand j'ai acheté de la pub
adwords, j'ai regardé les résultats pour voir si ma pub sortait
et j'ai constaté que les résultats (pas la pub mais les liens
trouvés) variaient au lieu d'être fixes. C'est peut-être une
question de sujet de recherche.
Le 24 Apr 2008 16:33:41 GMT, Antoine
écrivait dans fr.comp.infosystemes.www.auteurs:Plusieurs FAI font (faisaient ?) partager une même adresse IP à
plusieurs clients ; AOL utilisait ce genre de proxies.
Mais ces IP sont connues.
Tu as aussi le cas des sociétés/organisations_en_tout_genre qui
ont un point d'accès au net unique avec une IP unique et parfois
plusieurs miliers d'utilisateurs derrière, pas tous équipés du
même navigateur. C'est exactement le cas de la boîte qui
m'emploie.
Ce qui implique que tu utilises une IP déjà connues pour abriter
un grand nombre d'utilisateurs différents.
Je ne te le fais pas dire ! Je perds rarement des données ou
programmes ; je m'en suis voulu sur ce coup.
Faut faire une sauvegarde complète au moins une fois l'an.
Et tu passes en requêtes "post" pour bien simuler un comportement
humain ou tu t'autorises des "get" bruts de fonderie ?
Il faut voir ce que les moteurs acceptent comme arguments. Mais
de toutes façons, certains ont officiellement une politique anti-
moteur annoncée sur leur site. Un des buts c'est de réduire la
pollution de leur moteur avec du spam (quoi que certains moteurs
semblent encourager ce type de pollution), ce spam étant par
exemple une sélection de 10 sites avec telle sélection de mots.
Pour ce qui est du problème initial, soit de suivre le
positionnement d'un site dans les moteurs populaires, donc avec
des requêtes peu nombreuses qui se répètent, je ne crois pas que
les moteurs réagissent pour se protéger. On peut même utiliser
l'API de google pour cela, par exemple.
Par contre, je pense que certains moteurs alternent les 10 ou 20
premiers résultats selon l'heure. Quand j'ai acheté de la pub
adwords, j'ai regardé les résultats pour voir si ma pub sortait
et j'ai constaté que les résultats (pas la pub mais les liens
trouvés) variaient au lieu d'être fixes. C'est peut-être une
question de sujet de recherche.
Denis Beauregard
wrote :Le 24 Apr 2008 16:33:41 GMT, Antoine
écrivait dans fr.comp.infosystemes.www.auteurs:Plusieurs FAI font (faisaient ?) partager une même adresse IP à
plusieurs clients ; AOL utilisait ce genre de proxies.
Mais ces IP sont connues.
Il est possible de connaître ces IPs ; tu crois vraiment que Big
Brother connaît tous les FAI de la planète, et parmi ceux-ci ceux
qui utilisent des proxies, et parmi les proxies les adresses IP de
ces derniers (à supposer qu'elles soient non fluctuantes) ?
Tu as aussi le cas des sociétés/organisations_en_tout_genre qui
ont un point d'accès au net unique avec une IP unique et parfois
plusieurs miliers d'utilisateurs derrière, pas tous équipés du
même navigateur. C'est exactement le cas de la boîte qui
m'emploie.
Ce qui implique que tu utilises une IP déjà connues pour abriter
un grand nombre d'utilisateurs différents.
Oui et justement on peut l'exploiter pour automatiser le processus
décrit par Arnaud en faisant varier, donc de façon très réaliste, le
UA.
Je ne te le fais pas dire ! Je perds rarement des données ou
programmes ; je m'en suis voulu sur ce coup.
Faut faire une sauvegarde complète au moins une fois l'an.
Ahum, tu prêches un convaincu. Le script a été écrasé lors d'une
sauvegarde un peu trop grossière.
Et tu passes en requêtes "post" pour bien simuler un comportement
humain ou tu t'autorises des "get" bruts de fonderie ?
Il faut voir ce que les moteurs acceptent comme arguments. Mais
de toutes façons, certains ont officiellement une politique anti-
moteur annoncée sur leur site. Un des buts c'est de réduire la
pollution de leur moteur avec du spam (quoi que certains moteurs
semblent encourager ce type de pollution), ce spam étant par
exemple une sélection de 10 sites avec telle sélection de mots.
Pour ce qui est du problème initial, soit de suivre le
positionnement d'un site dans les moteurs populaires, donc avec
des requêtes peu nombreuses qui se répètent, je ne crois pas que
les moteurs réagissent pour se protéger. On peut même utiliser
l'API de google pour cela, par exemple.
Oui mais comme le dit Arnaud, les résultats sont parfois différents
des résultats obtenus avec le navigateur.
Par contre, je pense que certains moteurs alternent les 10 ou 20
premiers résultats selon l'heure. Quand j'ai acheté de la pub
adwords, j'ai regardé les résultats pour voir si ma pub sortait
et j'ai constaté que les résultats (pas la pub mais les liens
trouvés) variaient au lieu d'être fixes. C'est peut-être une
question de sujet de recherche.
Oui c'est aussi un moyen _volontaire_ des moteurs pour éviter de se
faire pomper les résultats de requêtes par des concurrents et que
ces derniers puissent affiner leurs propres algorithmes.
Denis Beauregard
<denis.b-at-francogene.com.invalid@nospam.com.invalid> wrote :
Le 24 Apr 2008 16:33:41 GMT, Antoine <noemail@noemail.invalid>
écrivait dans fr.comp.infosystemes.www.auteurs:
Plusieurs FAI font (faisaient ?) partager une même adresse IP à
plusieurs clients ; AOL utilisait ce genre de proxies.
Mais ces IP sont connues.
Il est possible de connaître ces IPs ; tu crois vraiment que Big
Brother connaît tous les FAI de la planète, et parmi ceux-ci ceux
qui utilisent des proxies, et parmi les proxies les adresses IP de
ces derniers (à supposer qu'elles soient non fluctuantes) ?
Tu as aussi le cas des sociétés/organisations_en_tout_genre qui
ont un point d'accès au net unique avec une IP unique et parfois
plusieurs miliers d'utilisateurs derrière, pas tous équipés du
même navigateur. C'est exactement le cas de la boîte qui
m'emploie.
Ce qui implique que tu utilises une IP déjà connues pour abriter
un grand nombre d'utilisateurs différents.
Oui et justement on peut l'exploiter pour automatiser le processus
décrit par Arnaud en faisant varier, donc de façon très réaliste, le
UA.
Je ne te le fais pas dire ! Je perds rarement des données ou
programmes ; je m'en suis voulu sur ce coup.
Faut faire une sauvegarde complète au moins une fois l'an.
Ahum, tu prêches un convaincu. Le script a été écrasé lors d'une
sauvegarde un peu trop grossière.
Et tu passes en requêtes "post" pour bien simuler un comportement
humain ou tu t'autorises des "get" bruts de fonderie ?
Il faut voir ce que les moteurs acceptent comme arguments. Mais
de toutes façons, certains ont officiellement une politique anti-
moteur annoncée sur leur site. Un des buts c'est de réduire la
pollution de leur moteur avec du spam (quoi que certains moteurs
semblent encourager ce type de pollution), ce spam étant par
exemple une sélection de 10 sites avec telle sélection de mots.
Pour ce qui est du problème initial, soit de suivre le
positionnement d'un site dans les moteurs populaires, donc avec
des requêtes peu nombreuses qui se répètent, je ne crois pas que
les moteurs réagissent pour se protéger. On peut même utiliser
l'API de google pour cela, par exemple.
Oui mais comme le dit Arnaud, les résultats sont parfois différents
des résultats obtenus avec le navigateur.
Par contre, je pense que certains moteurs alternent les 10 ou 20
premiers résultats selon l'heure. Quand j'ai acheté de la pub
adwords, j'ai regardé les résultats pour voir si ma pub sortait
et j'ai constaté que les résultats (pas la pub mais les liens
trouvés) variaient au lieu d'être fixes. C'est peut-être une
question de sujet de recherche.
Oui c'est aussi un moyen _volontaire_ des moteurs pour éviter de se
faire pomper les résultats de requêtes par des concurrents et que
ces derniers puissent affiner leurs propres algorithmes.
Denis Beauregard
wrote :Le 24 Apr 2008 16:33:41 GMT, Antoine
écrivait dans fr.comp.infosystemes.www.auteurs:Plusieurs FAI font (faisaient ?) partager une même adresse IP à
plusieurs clients ; AOL utilisait ce genre de proxies.
Mais ces IP sont connues.
Il est possible de connaître ces IPs ; tu crois vraiment que Big
Brother connaît tous les FAI de la planète, et parmi ceux-ci ceux
qui utilisent des proxies, et parmi les proxies les adresses IP de
ces derniers (à supposer qu'elles soient non fluctuantes) ?
Tu as aussi le cas des sociétés/organisations_en_tout_genre qui
ont un point d'accès au net unique avec une IP unique et parfois
plusieurs miliers d'utilisateurs derrière, pas tous équipés du
même navigateur. C'est exactement le cas de la boîte qui
m'emploie.
Ce qui implique que tu utilises une IP déjà connues pour abriter
un grand nombre d'utilisateurs différents.
Oui et justement on peut l'exploiter pour automatiser le processus
décrit par Arnaud en faisant varier, donc de façon très réaliste, le
UA.
Je ne te le fais pas dire ! Je perds rarement des données ou
programmes ; je m'en suis voulu sur ce coup.
Faut faire une sauvegarde complète au moins une fois l'an.
Ahum, tu prêches un convaincu. Le script a été écrasé lors d'une
sauvegarde un peu trop grossière.
Et tu passes en requêtes "post" pour bien simuler un comportement
humain ou tu t'autorises des "get" bruts de fonderie ?
Il faut voir ce que les moteurs acceptent comme arguments. Mais
de toutes façons, certains ont officiellement une politique anti-
moteur annoncée sur leur site. Un des buts c'est de réduire la
pollution de leur moteur avec du spam (quoi que certains moteurs
semblent encourager ce type de pollution), ce spam étant par
exemple une sélection de 10 sites avec telle sélection de mots.
Pour ce qui est du problème initial, soit de suivre le
positionnement d'un site dans les moteurs populaires, donc avec
des requêtes peu nombreuses qui se répètent, je ne crois pas que
les moteurs réagissent pour se protéger. On peut même utiliser
l'API de google pour cela, par exemple.
Oui mais comme le dit Arnaud, les résultats sont parfois différents
des résultats obtenus avec le navigateur.
Par contre, je pense que certains moteurs alternent les 10 ou 20
premiers résultats selon l'heure. Quand j'ai acheté de la pub
adwords, j'ai regardé les résultats pour voir si ma pub sortait
et j'ai constaté que les résultats (pas la pub mais les liens
trouvés) variaient au lieu d'être fixes. C'est peut-être une
question de sujet de recherche.
Oui c'est aussi un moyen _volontaire_ des moteurs pour éviter de se
faire pomper les résultats de requêtes par des concurrents et que
ces derniers puissent affiner leurs propres algorithmes.