Les modèles de langage, même les plus avancés, ont une fâcheuse tendance à inventer des informations avec un aplomb déconcertant. Ces fameuses hallucinations de l'IA, définies comme des déclarations plausibles mais fausses générées par les modèles de langage, sont un défi majeur.

Des chercheurs d'OpenAI ont publié une étude sur le pourquoi des hallucinations des modèles de langage et leur conclusion a de quoi surprendre. Le coupable principal ne serait pas la technologie, mais les mauvaises incitations.

Une IA programmée pour deviner

Le problème fondamental réside dans la méthode d'évaluation des IA. Une analogie est faite avec un QCM à l'école. Laisser une feuille blanche garantit un zéro, tandis que tenter sa chance au hasard offre une petite probabilité de gagner des points.

Les modèles d'IA sont logés à la même enseigne. Ils sont notés presque exclusivement sur leur exactitude. Dire « je ne sais pas » est sanctionné comme une erreur, ce qui les pousse statistiquement à prendre des risques et à deviner.

Face à une question dont il ignore la réponse, un modèle a plus intérêt à tenter une réponse hasardeuse qu'à faire preuve d'humilité. Stratégiquement, ce comportement améliore ses scores sur les classements, mais augmente le taux d'erreurs et d'inventions pures. Un véritable cercle vicieux.

L'origine statistique du phénomène

D'où viennent ces faits erronés si spécifiques ? La réponse se trouve dans l'entraînement initial des modèles. Ils apprennent en prédisant le mot suivant à partir d'immenses volumes de textes, sans aucune étiquette « vrai » ou « faux ».

Ce processus est redoutable pour maîtriser la grammaire ou l'orthographe, qui suivent des schémas logiques. En revanche, pour des faits arbitraires et peu fréquents, comme la date d'anniversaire d'une personne, le modèle ne peut se baser sur aucune logique. Il ne fait qu'une approximation statistique, ce qui ouvre la porte aux erreurs.

La solution : changer les règles du jeu

Pour corriger le tir, la solution proposée par OpenAI est étonnamment simple. Il faut réformer en profondeur la manière dont les IA sont notées. Plutôt que de ne récompenser que l'exactitude, les nouvelles évaluations devraient pénaliser lourdement les erreurs affirmées avec confiance et, à l'inverse, accorder des points partiels pour une juste expression d'incertitude.

Il ne s'agit pas d'ajouter quelques tests spécifiques en marge. C'est l'ensemble des classements et des évaluations de référence de l'industrie qui doit être repensé. Tant que les « bonnes notes » iront aux élèves qui devinent le mieux, les IA continueront de nous raconter des histoires.

Changer ce paradigme serait la clé pour obtenir des modèles plus performants et plus fiables.