Lucie est le nom d'une IA présentée comme réellement open source et développée conjointement par Linagora, le consortium OpenLLM-France et avec le soutien du Secrétariat général pour l'Investissement qui est placé sous l'autorité du Premier ministre français.
Pour une IA générative open source, les engagements sont principalement en matière de licence d'usage, de transparence sur les méthodes d'entraînement et d'une disponibilité des données d'entraînement sous licence libre.
Grâce à un accès à la partition GPU Nvidia H100 du supercalculateur Jean Zay installé en France, le grand modèle de langage et modèle de fondation Lucie a été entraîné sur des jeux de données open source, dont près de 40 % en français. Un accent particulier a été mis sur les données conversationnelles.
Une version chat au format brut
À l'approche du Paris Open Source AI Summit qui se déroulera les 10 et 11 février, il avait été décidé de mettre en ligne une plateforme lucie.chat pour faire la démonstration en mode public du modèle Lucie 7B via une version chat. Une initiative qui a tourné court.
Linagora reconnaît une mise en ligne prématurée et un manque d'information sur les limites de la plateforme. En l'état, Lucie est encore au stade de projet de recherche. « Toute utilisation dans un contexte de production est prématurée. »
Qui plus est, il s'agissait d'un modèle avec des réglages minimaux et ne bénéficiant pas de garde-fous contre des usages inappropriés, ni d'une optimisation permettant de calibrer les réponses fournies. En outre, un modèle de langage, mais pas un modèle de connaissance.
Un bad buzz ? C'était évitable...
« Que ce soit pour l'éducation, le gouvernement ou la recherche, Lucie est conçue pour être un modèle sur lequel vous pouvez compter », peut-on lire sur la plateforme lucie.chat désormais fermée. Le souci est que Lucie a parfois raconté n'importe quoi et a commis des erreurs basiques.
Des exemples relayés sur les réseaux sociaux sont des calculs simples totalement faux et des raisonnements ubuesques, le résultat de la racine d'une chèvre ou encore un récit sur ce que sont les œufs de vache.
Ces dérapages s'expliquent par les éclaircissements apportés par Linagora et une distinction à faire entre une IA en tant que produit commercial et un modèle de langage. La volonté était sans doute de fédérer une communauté open source. Le modèle reste en cours de test par l'équipe de Vittascience.