Après son modèle d'IA GPT-4o qui est actuellement sa proposition la plus performante, OpenAI annonce une version plus petite et moins chère baptisée GPT-4o mini.
Via son API, GPT-4o mini est disponible en tant que modèle prenant en charge le texte et la vision à un prix de 0,15 $ pour 1 million de tokens d'entrée et 0,60 $ par million de tokens de sortie. OpenAI évoque l'équivalent de 2 500 pages d'un livre.
Vanté nettement plus performant que GPT-3.5 Turbo pour des tâches comme l'extraction de données structurées depuis des fichiers reçus ou la génération de réponses avec l'historique d'un fil de discussion, GPT-4o mini est aussi plus de 60 % moins cher. À titre de comparaison, l'API pour GPT-4o est à 5 $ par million de tokens d'entrée et 15 $ par million de tokens de sortie.
Introducing GPT-4o mini! It’s our most intelligent and affordable small model, available today in the API. GPT-4o mini is significantly smarter and cheaper than GPT-3.5 Turbo.https://t.co/sqJsFEYHWq pic.twitter.com/g6jMttp1mF
— OpenAI Developers (@OpenAIDevs) July 18, 2024
OpenAI précise que GPT-4o mini sera accessible dans ChatGPT à la fois pour les utilisateurs gratuits et payants, et remplacera GPT-3.5. Ultérieurement, l'aspect multimodal de GPT-4o mini sera plus abouti, grâce à la prise en charge du texte, des images, des vidéos et de l'audio en entrée et en sortie.
Le modèle dispose d'une fenêtre contextuelle de 128 000 tokens et prend en charge jusqu'à 16 000 tokens de sortie par requête. Sa base de connaissances s'étend jusqu'en octobre 2023.
Les inévitables comparaisons pour montrer les muscles
Avec les résultats de plusieurs benchmarks à l'appui, OpenAI indique que GPT-4o mini est meilleur que les autres petits modèles pour les tâches de raisonnement impliquant à la fois du texte et de la vision.
Son score est de 82 % sur MMLU (Massive Multitask Language Understanding), contre 77,9 % pour Gemini Flash et 73,8 % pour Claude Haiku.
D'autres compétences mises en avant sont pour les tâches de raisonnement mathématique et le codage (benchmarks MGSM - Multilingual Grade School Math - et HumanEval), et dans une moindre mesure le raisonnement multimodal (MMMU ; Multi-discipline Multimodal Understanding). Bien évidemment, sans jamais atteindre le niveau de GPT-4o.
Robustesse face aux jailbreaks et attaques
GPT-4o mini bénéficie des mêmes mesures de sécurité intégrées que GPT-4o (filtrage du contenu inadéquat lors de la phase de pré-entraînement, apprentissage par renforcement à partir du feedback humain…).
OpenAI souligne que dans l'API, GPT-4o mini est le premier modèle à appliquer sa méthode de hiérarchie d'instructions, afin d'améliorer la résistance aux jailbreaks et aux injections de prompts, par exemple. " Nous continuerons de surveiller la manière dont GPT-4o mini est utilisé et d'améliorer la sécurité du modèle à mesure que nous identifions de nouveaux risques. "