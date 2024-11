Tandis qu'OpenAI prépare sa prochaine offensive entre ses projets Orion et un futur GPT-5 qui se fait désirer, Google ne lâche pas un pouce de terrain et s'apprête à dévoiler sa nouvelle évolution Gemini 2.0.

On lui prédit une plus grande capacité de traitement et peut-être de disposer d'une fonction qui permettra de prendre le contrôle de l'interface d'un ordinateur via un agent Jarvis capable de gérer le navigateur Web Chrome (de Google) comme veut déjà le proposer le concurrent Anthropic avec la fonction Compute Use utilisable avec le modèle d'IA Claude 3.5 Sonnet.

Lancement imminent pour Gemini 2.0 ?

La première génération de l'IA Gemini ayant été dévoilée en décembre 2023, les attentes se portent logiquement sur une annonce durant ce mois de décembre, à tort ou à raison.

Et comme pour appuyer l'idée d'un lancement imminent, des indices suggèrent que Gemini 2.0 serait déjà plus ou moins accessible à certains utilisateurs, au moins en version expérimentale.

Un nouveau modèle Gemini-2.0-Pro-Exp-0111 a en effet été repéré dans une sous-section de Gemini Advanced, la version la plus performante de l'intelligence artificielle de Google, avec en sous-titre "notre nouveau modèle expérimental".

Gemini 2.0 pour contre le modèle o1 d'OpenAI

Difficile de savoir s'il s'agit de Gemini 2.0 ou d'une version de test d'un modèle d'IA actuel et s'il est réservé à une expérimentation en interne ou accessible plus largement.

Un utilisateur indique que ce nouveau modèle serait plus performant sur un test que le modèle o1-mini d'OpenAI, l'une des versions avancées de GPT-4 simulant une capacité de raisonnement à la façon d'un humain et censée préparer le terrain à une AGI, une intelligence artificielle générale.

Un insider, Jimmy Apples, suggère par ailleurs que Gemini 2.0 serait déjà déployé chez certains clients professionnels de Google, potentiellement pour avoir de premiers retours avant un lancement global.

Gemini 2.0 sera pleinement multimodal et devrait profiter des dernières avancées pour interpréter des requêtes écrites, vocales et par image / vidéo grâce à des capacités de raisonnement renforcées en matière de planification et résolution de problèmes, et des plages de tokens étendues.