C'est un jeu de données pour le moins impressionnant que Yahoo a décidé de livrer à la communauté des chercheurs. Nul doute que des universitaires - qui n'appartiennent pas à de gros groupes privés - apprécieront d'avoir sous la main pas moins de 13,5 To de données.

Anonymisées, ces données représentent les interactions de quelque 20 millions d'utilisateurs de Yahoo entre février et mai 2015, soit de l'ordre de 110 milliards d'événements. Les interactions sont en rapport avec les fils d'actualité de plusieurs services de Yahoo (la page d'accueil, Yahoo News, Yahoo Sports, Yahoo Finance, Yahoo Movies et Yahoo Real Estate) :

yahoo_homepage_news_feed
Disponibles dans le cadre du programme de partage de données Webscope de Yahoo Labs, les données d'interactions sont accompagnées d'informations démographiques classées (tranche d'âge, genre et données géographiques globales) pour un sous-ensemble d'utilisateurs anonymisés.

Un tel cadeau va par exemple permettre à des chercheurs de valider des algorithmes de recommandation, effectuer diverses modélisations du comportement des utilisateurs et plus largement des travaux dans le domaine du machine learning (ou apprentissage automatique) qui est une branche de l'intelligence artificielle.

En juin 2015, l'entreprise française de reciblage publicitaire en ligne Criteo avait mis à la disposition des chercheurs plus de 1 To de données pour les aider dans le domaine des algorithmes d'apprentissage statistique. Record largement battu par Yahoo…

Pour accélérer la recherche sur le machine learning, Google avait décidé l'année dernière de mettre en Open Source la bibliothèque logicielle TensorFlow.

Source : Yahoo