Lancé en 2023 sous l'impulsion de Xavier Niel, fondateur de Free, mais aussi Rodophe Saadé (CMA-CGM) et d'Eric Schmidt, ancien dirigeant de Google, Kyutai est un laboratoire de recherche centré sur l'intelligence artificielle et chargé de développer les outils et fonctionnalités qui faciliteront les interactions avec les modèles d'IA.

Sa dernière invention s'appelle Unmute et elle consiste à donner une oreille et la voix à l'intelligence artificielle pour faciliter justement la façon de communiquer et d'échanger avec les modèles d'IA.

La base des modèles d'IA reste actuellement le prompt écrit auquel succède une réponse textuelle à la requête, même si l'on commence à voir d'autres modes d'interaction dans certaines variantes des modèles d'IA.

Converser avec l'IA de façon fluide et naturelle

Unmute change cette approche en proposant de transformer n'importe quelle IA textuelle en IA vocale : "Unmute est une technologie modulaire qui permet de transformer instantanément n'importe quel modèle textuel en IA vocale temps réel grâce à des modules de transcription et de synthèse de la parole développés par Kyutai".

Unmute utilise des fonctionnalités TTS (Text-to-Speech) et STT (Speech-to-Text) pour générer les interactions et les réponses à la voix en se focalisant sur la rapidité d'exécution de manière à créer l'illusion d'une discussion et de générer une certaine fluidité.

Kyutai indique de la "personnalité" de l'agent IA peut être ajustée par des prompts textuels tandis que l'on peut lui donner n'importe quelle voix à partir de quelques secondes d'échantillons audio.

Kyutai unmute

Unmute peut ainsi transcrire en temps réel la parole de l'utilisateur en étant capable de déterminer si ce dernier a fini une phrase ou marque simplement une pause au milieu de sa phrase.

Fluidifier les interactions en les rendant plus naturelles

L'objectif est d'offrir une réactivité avec une latence minimale et sans interrompre l'utilisateur dans la formulation de ses requêtes vocales. De même, Unmute permet à l'IA de commencer à vocaliser sa réponse sans attendre d'avoir la totalité de la réponse, là encore pour fluidifier l'échange entre utilisateur et IA et éviter les temps morts pénibles et les saccades dans le fonctionnement des modèles d'IA.

Kyutai

Unmute s'inscrit dans la philosophie de Kyutai qui assume que "l'interaction des humains avec et via les machines doit passer par la voix, pour être fluide, inclusive, riche de nuances et d'émotions".

Le laboratoire fournira tous les détails d'Unmute dans les semaines à venir, dans un esprit d'ouverture et d'accès aux travaux sur l'IA, mais il est déjà possible de tester ses capacités sur unmute.sh (avec l'IA Gemma 3 12B) en attendant les démonstrations sur l'événement VivaTech de Paris.