Le labo français Kyutai concurrence ChatGPT 4o avec Moshi, un modèle multimodal open-source

Prompt : Vive la France !

Le laboratoire français d’intelligence artificielle Kyutai a lancé hier Moshi, un modèle de langage multimodal open-source, capable d’écouter, de comprendre et de parler en temps réel avec une latence quasi inexistante de 200 millisecondes de bout en bout. Cette prouesse technologique permet des interactions plus fluides et naturelles, révolutionnant ainsi la façon dont les machines interagissent avec les humains.

À la différence d’autres modèles comme le GPT-4o d’OpenAI, présenté en mai, Moshi se distingue par son ouverture totale. Le code, le modèle et les documents seront bientôt accessibles à tous, ouvrant des perspectives inédites pour les développeurs et chercheurs en IA. Cette transparence, déjà visible chez le français Mistral ou Llama de Meta, favorise l’innovation et la collaboration, offrant à la communauté scientifique et technologique la possibilité d’améliorer Moshi de manière collaborative.

Ce lancement spectaculaire n’a pris que quatre mois à Kyutai, avec une équipe réduite de seulement huit personnes. De quoi démontrer le potentiel de l’ingéniérie française appliquée à l’IA en France – et démontrer que Yann Le Cun, directeur de l’IA de Meta, n’était pas qu’une exception au sein de l’Hexagone. Moshi promet de devenir un outil essentiel pour de nombreuses applications, allant de l’assistance vocale à l’interaction homme-machine, en passant par l’analyse en temps réel, permettant d’envisagerKyutai comme un acteur majeur de l’IA en Europe. Voilà pour la réaction à J+1 du lancement !

N’hésitez pas à tester cette IA juste ici !