Mistral AI a dévoilé son modèle de reconnaissance optique de caractères de troisième génération, baptisé Mistral OCR 3. Cette technologie se positionne comme une étape fondamentale pour les entreprises avant de pouvoir exploiter pleinement le potentiel de l'IA générative.
Quelles sont les avancées de Mistral OCR 3 ?
Le nouveau modèle affiche un taux de réussite global de 74 % face à Mistral OCR 2 sur des cas d'usage difficiles. Il excelle dans l'interprétation de l'écriture manuscrite, même cursive ou mélangée à du texte imprimé. Il est également plus robuste pour des documents de mauvaise qualité (scans compressés, images déformées ou à faible résolution).
Une autre avancée concerne la reconstruction de tableaux complexes. Mistral OCR 3 peut recréer la structure des tableaux avec en-têtes, cellules fusionnées et hiérarchies de colonnes, en générant un code HTML qui préserve intégralement la mise en page.
Cette fidélité structurelle est essentielle pour les systèmes en aval qui ont besoin de comprendre non seulement le contenu, mais aussi le contexte du document.
Une intégration dans l'écosystème de Mistral AI
Mistral OCR 3 n'est pas un outil isolé. Il est intégré au sein de Document AI, une interface disponible dans Mistral AI Studio, la plateforme de production de Mistral AI. Cette intégration permet de créer une chaîne complète, allant de la numérisation du document à son exploitation par des modèles d'IA plus larges ou des agents IA.
Proposé à un tarif de 2 dollars pour 1 000 pages (réduit à 1 $ en traitement par lot), le modèle (mistral-ocr-2512) est accessible via l'API ou l'interface Document AI Playground.