Google Gemini : l'intelligence artificielle multimodale vient se frotter à GPT-4

Le projet est sans doute trop important pour attendre. La rumeur d'un report du lancement de la nouvelle intelligence artificielle multimodale de Google n'aura pas tenu bien longtemps et Google annonce finalement dès à présent son modèle d'IA Gemini 1.0 conçu avec Google DeepMind.

Discrètement évoqué en mai dernier lors de la conférence Google I/O 2023 pour laisser toute latitude à la présentation de l'agent conversationnel Google Bard, Gemini n'en est pas moins le modèle d'IA multimodale qui doit tenir la dragée haute à GPT-4 d'OpenAI, déjà à l'oeuvre en solo et dans les produits et services de Microsoft.

Demis Hassabis, dirigeant de Google DeepMing, le présente déjà comme "le modèle le plus capable et le plus général que nous ayons jamais conçu" avec une conception multimodale dès l'origine qui lui donne la capacité de "généraliser, comprendre avec fluidité, traiter et combiner différents supports d'informations, dont le texte, le code, l'audio, l'image et la vidéo".

Plusieurs Gemini, un modèle d'IA multimodal

Gemini 1.0 est donc en principe capable de traiter toutes sortes de requêtes dans différents formats, d'en percevoir les intentions et de fournir des réponses en conséquence.

L'IA peut reconnaître des objets, identifier leurs caractéristiques similaires, créer des associations d'idées pertinentes et comprendre des intentions à partir de données partielles.

Le modèle d'IA sera décliné en trois versions offrant des capacités distinctes :

Gemini Ultra : le plus puissant, pour les tâches de haute complexité
Gemini Pro : le plus polyvalent, pour les usages standard
Gemini Nano : le plus efficace, celui que l'on devrait rencontrer dans les appareils électroniques (smartphones, ordinateurs) car taillé pour l'embarqué

Google et DeepMind annoncent avoir testé Gemini dans de nombreux benchmarks spécifiques de l'IA pour du texte (compréhension des requêtes, raisonnement, calcul, code...) et en multimodal et avoir obtenu des scores supérieurs à ceux de GPT-4 dans la plupart des cas.

Sa conception multimodale dès l'origine, avec un apprentissage sur des sources variées, plutôt qu'un entraînement sur chaque type de tâche et une agrégation des entraînements, expliqueraient ses capacités supérieures, affirme Google.

Gemini 1.0 profite également d'une capacité de raisonnement renforcée lui permettant d'interpréter des données et de les retrouver dans de très grands volumes d'information.

Cela lui permettra par exemple de "parcourir des centaines de milliers de de documents à une vitesse vertigineuse et d'en extraire de précieuses idées, prêtes à révolutionner de nombreux domaines depuis les sciences jusqu'à la finance", avec la possibilité de comprendre les nuances et de répondre à des requêtes concernant des sujets complexes. Bientôt votre meilleur ami pour décortiquer des raisonnements mathématiques ou physiques ?

Outre l'interpétation de texte et d'images statiques ou mobiles, Gemini devrait aussi être d'une aide pour les développeurs en étant capable de générer du code "de qualité" dans différents langages (Python, Java, C++, Go...).

Gemini sert d'ailleurs de base pour le nouveau système de génération de code AlphaCode 2 pour de la programmation de haut niveau.

Gemini a été entraîné sur les composants TPU v4 et v5e (Tensor Processing Unit), des accélérateurs spécialisés et conçus directement par Google et que l'on retrouve aussi au coeur d'autres services du géant californien qui en profite pour annoncer un système Cloud TPU v5p spécifiquement pensé pour entraîner de grands modèles d'IA.

Là où certaines intelligences artificielles tendent à dériver et proposer des contenus toxiques, Gemini se veut beaucoup plus fiable et contrôlé, avec différents tests menés à chaque étape de son entraînement pour s'assurer que l'IA ne débordait pas de son cadre et ne pouvait pas être amenées à proposer des contenus problématiques. Seule l'utilisation à grande échelle dira si les barrières en place sont suffisantes.

Les API Gemini accessibles librement

Quelle en sera la disponibilité ? Google indique que Gemini Pro est dès à présent disponible par l'intermédiaire de Bard dans ses services en ligne, ce qui va constituer "la plus grande amélioration de Bard depuis son lancement" en affinant ses capacités de compréhension, raisonnement, suggestion, planification et rédaction.

Bard infusé par Gemini sera d'abord disponible en anglais dans 170 pays avant de le proposer dans d'autres langues dans les prochains mois. Comme pour Bard initialement, il faudra sans doute attendre un peu avant de profiter d'une équivalence en français.

La version embarquée Gemini Nano trouvera d'abord place dans le Pixel 8 Pro (au sein des Pixel Feature Drops de décembre) avec la prise en charge d'une fonction "résumer" dans l'application Enregistreur et la génération de réponses automatiques avec le clavier virtuel GBoard, d'abord dans WhatsApp et bientôt dans d'autres applications.

Google indique également expérimenter Gemini dans son moteur de recherche, offrant une expérience de navigation plus fluide.

Pour les développeurs, l'accès à Gemini Pro passera par une API Gemini exploitable dans l'environnement Gemini AI Studio. Pour Android et Gemini Nano, il faudra passer par AICore et Android 14 mais il faudra attendre des smartphones compatibles, au-delà du Pixel 8 Pro.

Gemini Ultra, la version la plus puissante de l'IA, reste actuellement en phase de test et d'ajustement mais devrait être proposée aux développeurs et aux entreprises en début d'année prochaine, ce qui donnera aussi l'occasion de lancer Bard Advanced profitant des capacités les plus poussées du modèle d'IA de Google.

Source : Blog Google