java et Google

Le
remy
bonjour

il me semble bien avoir lu quelque part
que l'on pouvait faire interagir un programme ecrit en java et le moteur
de recherche google via du soap ou quelque chose comme cela

je suis a la recherche d'un tutorial ou exemple
simple et surtout leger



le but du jeu recuperer les stats

du style
194 000 pages en français pour "lu quelque part"
46 pages en français pour "il me semble bien avoir lu quelque"
210 000 pages en français pour "il me semble bien"
1 460 000 pages en français pour avoir lu quelque part



pour faire un correcteur orthographique
donc plein de requetes plus un peu de stat cela devrait le faire
et un simple jtextearea plus du copier coller bien sur



merci pour tout lien remy

  • Partager ce contenu :
Vos réponses
Trier par : date / pertinence
Lionel
Le #224360
remy
bonjour

il me semble bien avoir lu quelque part
que l'on pouvait faire interagir un programme ecrit en java et le
moteur de recherche google via du soap ou quelque chose comme cela


http://code.google.com/apis.html
et plus particulièrement:
http://code.google.com/apis/soapsearch/

remy
Le #224359
remy
bonjour

il me semble bien avoir lu quelque part
que l'on pouvait faire interagir un programme ecrit en java et le
moteur de recherche google via du soap ou quelque chose comme cela


http://code.google.com/apis.html
et plus particulièrement:
http://code.google.com/apis/soapsearch/


ha ha

Your Google Account and license key entitle you to 1,000 automated
queries per day.

pas bon cela va se finir par un parseur html cette histoire
parce que le code sera sous gpl

et au bout de trois ou quatre telechargements et utilisations simultanees
les 1000 requetes l'on n'y ai pas loin

a moins que je demande de creer un compte avant toute utilisation
et meme dans ce cas il peut m'arriver de vouloir corriger un texte de +
de 1000 mots


une autre solution peut etre ?


TestMan
Le #224358
remy
bonjour

il me semble bien avoir lu quelque part
que l'on pouvait faire interagir un programme ecrit en java et le
moteur de recherche google via du soap ou quelque chose comme cela
http://code.google.com/apis.html

et plus particulièrement:
http://code.google.com/apis/soapsearch/


ha ha

Your Google Account and license key entitle you to 1,000 automated
queries per day.

pas bon cela va se finir par un parseur html cette histoire
parce que le code sera sous gpl

et au bout de trois ou quatre telechargements et utilisations simultanees
les 1000 requetes l'on n'y ai pas loin

a moins que je demande de creer un compte avant toute utilisation
et meme dans ce cas il peut m'arriver de vouloir corriger un texte de +
de 1000 mots


une autre solution peut etre ?


L'interface SOAP indiquée par Rémy me semble la plus simple et avisée
car tu pourras facilement importer le WSDL et accéder au service via
JAX-WS (ou le code fournit).

Google c'est pas des débutants, et le service de recherche est au coeur
de leur métier et au coeur de leur CA, si vous parsez de l'HTTP en
utilisant l'interface web utilisateur par exemple vous contournez leur
revenu. Je ne serais pas surpris qu'ils vous bloquent l'IP de votre
serveur rapidement ...

Seule façon de contourner serait de simuler sur chaque poste client le
comportement d'un navigateur "connu" et d'extraire à l'aide de XPath les
informations recherchées...

Au final l'application cliente sera donc obligatoirement soit un client
riche soit un client "web AJAX". Mais celà ne vous empèchera pas d'être
à un moment ou un autre "bloqué" par Google, car vous contournerez
l'utilisation "en bon père de famille" de leur site.

Si vous restez sur le SOAP, vous pouvez dans votre serveur assurer un
"cache" des réponses. Une grosse partie des mots étant redondant entre
plusieurs textes et plusieurs utilisateurs et de plus une faible partie
des mots est statistiquement la plus présente.

1000 mots * 365 = 365000 mots par ans possibles ! Ce qui approche trés
sérieusement le volume des meilleurs dictionaires ;-)
Au bout d'un an, au fur et à mesure que votre cache s'étoffera et qu'il
vous restera du quota, vous pourrez consacrer le restant à mettre à jour
votre cache. C'est du bricolage mais ça devrait marcher.

A+
TM



remy
Le #224335
remy
bonjour

il me semble bien avoir lu quelque part
que l'on pouvait faire interagir un programme ecrit en java et le
moteur de recherche google via du soap ou quelque chose comme cela
http://code.google.com/apis.html

et plus particulièrement:
http://code.google.com/apis/soapsearch/

ha ha

Your Google Account and license key entitle you to 1,000 automated
queries per day.

pas bon cela va se finir par un parseur html cette histoire
parce que le code sera sous gpl

et au bout de trois ou quatre telechargements et utilisations simultanees
les 1000 requetes l'on n'y ai pas loin

a moins que je demande de creer un compte avant toute utilisation
et meme dans ce cas il peut m'arriver de vouloir corriger un texte de +
de 1000 mots


une autre solution peut etre ?


L'interface SOAP indiquée par Rémy me semble la plus simple et avisée
car tu pourras facilement importer le WSDL et accéder au service via
JAX-WS (ou le code fournit).

Google c'est pas des débutants, et le service de recherche est au coeur
de leur métier et au coeur de leur CA, si vous parsez de l'HTTP en
utilisant l'interface web utilisateur par exemple vous contournez leur
revenu. Je ne serais pas surpris qu'ils vous bloquent l'IP de votre
serveur rapidement ...

Seule façon de contourner serait de simuler sur chaque poste client le
comportement d'un navigateur "connu" et d'extraire à l'aide de XPath les
informations recherchées...

Au final l'application cliente sera donc obligatoirement soit un client
riche soit un client "web AJAX". Mais celà ne vous empèchera pas d'être
à un moment ou un autre "bloqué" par Google, car vous contournerez
l'utilisation "en bon père de famille" de leur site.

Si vous restez sur le SOAP, vous pouvez dans votre serveur assurer un
"cache" des réponses. Une grosse partie des mots étant redondant entre
plusieurs textes et plusieurs utilisateurs et de plus une faible partie
des mots est statistiquement la plus présente.

1000 mots * 365 = 365000 mots par ans possibles ! Ce qui approche trés
sérieusement le volume des meilleurs dictionaires ;-)
Au bout d'un an, au fur et à mesure que votre cache s'étoffera et qu'il
vous restera du quota, vous pourrez consacrer le restant à mettre à jour
votre cache. C'est du bricolage mais ça devrait marcher.



je vais faire deux versions ou l'on pourra utiliser plusieurs cles en sopa
leur exemple est vraiment tres bien fait et simple

et libre a utilisateur d'utiliser, d'ouvrir plusieurs boites aux lettres
pour avoir plusieurs cles soap
et une autre version ou je le ferais avec simplement le package net du jdk

pour le nombre de requêtes non 1000 requetes par jour ne suffisent pas
il ne s'agit pas de faire un simple correcteur orthographique mais
surtout et aussi un correcteur grammatical du moins d'essayer

le mot est verifie plusieurs fois par google
d'une maniere individuelle et d'une maniere globale ensemble de mots ou
portion de phrase

sans compter que le parseur est tres tres simple
recherche du texte "sur un total d'environ " et "Essayez avec cette
orthographe"

pour avoir le nbre d'occurence dans le html je ne pense pas avoir besoin
de clients riches il me suffit de creer une interface

public int getNbOccurence(String s)
{
}
public String getPropositionGoogle(String s)
{
}

le reste du html ne m'interesse pas


pour ce qui concerne les revenus des multiNationales
je ne me fais pas de soucis pour eux

et je suis desole mais l'utilisateur a le droit de detourner
l'utilisation de l'outil

j'ai le droit d'utiliser mon tournevis comme marteau
si je veux


remy



A+
TM





François-Xavier GENDRIN
Le #224334
ha ha
Your Google Account and license key entitle you to 1,000 automated
queries per day.

pas bon cela va se finir par un parseur html cette histoire
parce que le code sera sous gpl

et au bout de trois ou quatre telechargements et utilisations simultanees
les 1000 requetes l'on n'y ai pas loin

a moins que je demande de creer un compte avant toute utilisation
et meme dans ce cas il peut m'arriver de vouloir corriger un texte de +
de 1000 mots


une autre solution peut etre ?
L'interface SOAP indiquée par Rémy me semble la plus simple et avisée

car tu pourras facilement importer le WSDL et accéder au service via
JAX-WS (ou le code fournit).

Google c'est pas des débutants, et le service de recherche est au coeur
de leur métier et au coeur de leur CA, si vous parsez de l'HTTP en
utilisant l'interface web utilisateur par exemple vous contournez leur
revenu. Je ne serais pas surpris qu'ils vous bloquent l'IP de votre
serveur rapidement ...

Seule façon de contourner serait de simuler sur chaque poste client le
comportement d'un navigateur "connu" et d'extraire à l'aide de XPath les
informations recherchées...

Au final l'application cliente sera donc obligatoirement soit un client
riche soit un client "web AJAX". Mais celà ne vous empèchera pas d'être
à un moment ou un autre "bloqué" par Google, car vous contournerez
l'utilisation "en bon père de famille" de leur site.

Si vous restez sur le SOAP, vous pouvez dans votre serveur assurer un
"cache" des réponses. Une grosse partie des mots étant redondant entre
plusieurs textes et plusieurs utilisateurs et de plus une faible partie
des mots est statistiquement la plus présente.

1000 mots * 365 = 365000 mots par ans possibles ! Ce qui approche trés
sérieusement le volume des meilleurs dictionaires ;-)
Au bout d'un an, au fur et à mesure que votre cache s'étoffera et qu'il
vous restera du quota, vous pourrez consacrer le restant à mettre à jour
votre cache. C'est du bricolage mais ça devrait marcher.



je vais faire deux versions ou l'on pourra utiliser plusieurs cles en sopa
leur exemple est vraiment tres bien fait et simple

et libre a utilisateur d'utiliser, d'ouvrir plusieurs boites aux lettres
pour avoir plusieurs cles soap
et une autre version ou je le ferais avec simplement le package net du jdk

pour le nombre de requêtes non 1000 requetes par jour ne suffisent pas
il ne s'agit pas de faire un simple correcteur orthographique mais
surtout et aussi un correcteur grammatical du moins d'essayer

le mot est verifie plusieurs fois par google
d'une maniere individuelle et d'une maniere globale ensemble de mots ou
portion de phrase

sans compter que le parseur est tres tres simple
recherche du texte "sur un total d'environ " et "Essayez avec cette
orthographe"

pour avoir le nbre d'occurence dans le html je ne pense pas avoir besoin
de clients riches il me suffit de creer une interface

public int getNbOccurence(String s)
{
}
public String getPropositionGoogle(String s)
{
}

le reste du html ne m'interesse pas


pour ce qui concerne les revenus des multiNationales
je ne me fais pas de soucis pour eux

et je suis desole mais l'utilisateur a le droit de detourner
l'utilisation de l'outil

j'ai le droit d'utiliser mon tournevis comme marteau
si je veux


Il est peut être possible que vous leur demandiez un accès privilégié en
expliquant le pourquoi de votre outil ?
--
FX



Pif
Le #224297
Bonjour, voici quelques remarques :
- Google n'est pas "GPL"... il est soumis à une licence, si on effectue
des requetes répétées pour un usage automatisé.
- je suis curieux d'en savoir plus sur la méthode que tu propose pour la
correction orthographique, moi meme ayant eu le probleme et ayant adopté
une solution purement lexicale. Est il possible faire parvenir un
document ?
- google est problématique à ma connaissance : ne prend pas en compte la
casse, la ponctuation, les accents, etc... pour la correction
orthographique, c'est pas top... mais peut etre ton probleme est il
différent du mien... en plus il y a le celebre cas : card(A union B) <
card (A) en supposant que A et B sont des espaces de réponses de
requetes différents...




bonjour

il me semble bien avoir lu quelque part
que l'on pouvait faire interagir un programme ecrit en java et le moteur
de recherche google via du soap ou quelque chose comme cela

je suis a la recherche d'un tutorial ou exemple
simple et surtout leger



le but du jeu recuperer les stats

du style
194 000 pages en français pour "lu quelque part"
46 pages en français pour "il me semble bien avoir lu quelque"
210 000 pages en français pour "il me semble bien"
1 460 000 pages en français pour avoir lu quelque part



pour faire un correcteur orthographique
donc plein de requetes plus un peu de stat cela devrait le faire
et un simple jtextearea plus du copier coller bien sur



merci pour tout lien remy


Poster une réponse
Anonyme