Pixtral : une première IA multimodale pour Mistral AI

Publié le 18 septembre 2024 à 16:10 par Jérôme G.

Lire sur mobile

Avec un peu de retard sur la concurrence, Mistral AI présente en bonne et due forme son premier modèle d'IA multimodal. Pour le texte et l'image.

L'entreprise française Mistral AI annonce officiellement son tout premier modèle d'IA multimodal. Avec des poids disponibles sous licence Apache 2.0, Pixtral 12B (12 milliards de paramètres) peut comprendre et interpréter à la fois du texte et des images.

Mistral AI explique que Pixtral 12B s'appuie sur un Vision Encoder qui transforme les images en tokens. Un Multimodal Transformer Decoder prédit le prochain token de texte à partir d'une séquence de texte et d'images.

Un point mis en avant est que le modèle est entraîné à prédire le prochain token de texte sur des images et des données textuelles entrelacées. Il peut traiter n'importe quel nombre d'images dans une fenêtre textuelle de 128 000 tokens.

Devant Claude 3 Haiku (Anthropic)

Parmi les cas d'usage pour Pixtral 12B, Mistral AI cite le raisonnement sur des chiffres complexes, la compréhension et l'analyse de graphiques, le suivi d'instruction multi-images, la compréhension de scènes naturelles, la conversion d'images en code, la transcription de documents manuscrits ou numérisés.

" Pixtral surpasse largement tous les modèles ouverts de sa taille et, dans de nombreux cas, surpasse les modèles fermés tels que Claude 3 Haiku ", assure Mistral AI. La jeune pousse ajoute que sur les benchmarks multimodaux, Pixtral peut faire jeu égal avec les performances de modèles beaucoup plus grands. Une spécialité de Mistral AI.