L'immense base de connaissances de Wikipedia et de ses projets frères devient beaucoup plus accessible pour les intelligences artificielles. Wikimedia Deutschland, la branche allemande de la fondation, a officialisé le lancement du "Wikipedia Embedding Project", une refonte technique majeure qui promet de faciliter le dialogue entre les machines et le savoir humain, patiemment compilé par des milliers de volontaires.

Comment cette nouvelle base de données fonctionne-t-elle ?

Le cœur du projet repose sur la transformation de près de 120 millions d'entrées en une base de données vectorisée, une technique qui capture le contexte et le sens des informations. Plutôt que de stocker des mots-clés isolés, les données sont représentées comme un immense graphique où les concepts sont interconnectés. Par exemple, l'écrivain Douglas Adams serait non seulement lié aux titres de ses livres, mais aussi au concept d'« humain ».

Pour réaliser cette prouesse technique, l'équipe s'est associée à des experts du secteur : la société Jina AI a fourni le modèle d'IA pour transformer les données, tandis que DataStax, une filiale d'IBM, assure gratuitement l'infrastructure de stockage. L'expérience utilisateur de Wikidata ne change pas, mais en coulisses, tout est désormais optimisé pour les développeurs d'IA.

Quel est l'objectif principal de cette initiative ?

Cette initiative vise à démocratiser l'accès à des données de qualité pour le développement de l'intelligence artificielle, en dehors du cercle fermé des géants de la tech. Comme le souligne Lydia Pintscher, responsable du portefeuille Wikidata, des entreprises comme OpenAI ou Anthropic ont les moyens de traiter ces données, mais les plus petites structures en sont souvent privées. L'idée est donc de « leur donner une chance » de rivaliser en leur offrant un accès simplifié à une source de savoir fiable et structurée.

Ce projet entend aussi corriger certains biais des IA actuelles. En facilitant l'accès à des sujets de niche, très bien documentés sur Wikidata mais peu présents sur le reste d'internet, les futurs systèmes d'IA pourraient mieux refléter la diversité du monde réel, au lieu de se concentrer uniquement sur les thèmes les plus populaires.

Quels bénéfices concrets pour les futures IA ?

En pratique, ces vecteurs permettent aux modèles de langage d’accéder non seulement à l’information brute, mais aussi à tout le contexte sémantique qui l’entoure. Cela est particulièrement utile pour les systèmes dits de "génération augmentée par récupération" (RAG), qui permettent à une IA de puiser dans une source externe pour fonder ses réponses sur des faits vérifiés par des humains, plutôt que de se fier uniquement à ses données d'entraînement initiales.

Pour Philippe Saadé, chef de projet IA chez Wikidata, cette avancée prouve que « l'IA puissante ne doit pas être contrôlée par une poignée d'entreprises ». En rendant le savoir de Wikipedia plus "digeste" pour les machines, l'initiative espère encourager un écosystème d'IA plus ouvert, collaboratif et, finalement, au service de tous.