Top 10 des meilleures IA génératives vidéo

Par la Réclame le 15/07/2024

Temps de lecture : 9 min

Sora, Runway, Luma… mais pas seulement !

Avec la montée en puissance des technologies d’intelligence artificielle, et l’explosion de son versant génératif, la création a franchi un nouveau cap. Après l’image, la vidéo se voit transformée par des outils capables de générer des contenus ultra-réalistes, bouleversant ainsi les industries du cinéma, de la publicité et des médias. 

Ces innovations ouvrent de nouvelles possibilités créatives et augmentent l’efficacité des productions visuelles. Pour vous aider à naviguer dans cette révolution, nous avons exploré les outils les plus performants et vous offrons un aperçu des 10 meilleures IA génératives de vidéo.

Pour comparer ces différentes IA, nous avons utilisé 3 prompts : 

– Notre prompt à base de chat bleu rugissant : in a realistic style, a angry blue cat roaring like a lion. (Nous avions précédemment ajouté un traveling compensé, façon Les dents de la mer, à ce prompt, mais une seule IA était capable de reproduire cet effet)

– Le prompt d’une vidéo démo de Sora  : A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

– Le prompt d’une vidéo démo de Runway Gen-3 : A cinematic pull back of a medieval warrior standing exhausted in the middle of a cold, wet and foggy battlefield.

Préface

Pour introduire ce top 10, Gilles Guerraz, touche à tout de l’IA générative, réalisateur publicitaire, consultant IA Gen et auteur de la newsletter GENERATIVE nous donne ses outils favoris :

La génération de vidéo par intelligence artificielle a connu une évolution considérable ces dernières semaines. Après une période de domination d’environ un an par Runway avec son modèle Gen-2, rapidement contesté par Pika, Haiper et quelques autres concurrents, il était temps de franchir une nouvelle étape. L’annonce de Sora le 15 février dernier avait suscité un vif intérêt et attisé les attentes de ceux qui anticipaient impatiemment les progrès en matière de vidéo générée par IA.

C’est donc avec un mélange d’enthousiasme et d’impatience que je me suis empressé de tester Luma Labs Dream Machine dès sa sortie. Les résultats peuvent être qualifiés de spectaculaires au regard des capacités antérieures de la technologie. Une semaine plus tard, Runway reprenait l’initiative avec la sortie publique de son modèle Gen-3, offrant des résultats véritablement extraordinaires.

Pour illustrer le niveau de qualité atteint, j’ai récemment formé des créatifs, graphistes et monteurs de grandes sociétés de production parisiennes, qui utilisent déjà Gen-3 pour générer du B-Roll broadcast pour des programmes télévisés.

Alors oui, le niveau de réalisme n’est pas encore parfait, et l’attente de Sora s’intensifie. Chaque semaine, ce dernier ressemble de plus en plus à une arlésienne, dont on ignore s’il sera un jour disponible dans sa version actuelle ou dans une version adaptée (bridée ?) pour le grand public.

J‘utilise ces outils plutôt que d’autres, car ils sont les plus performants du marché. Ils ont rendu obsolètes les outils de la génération précédente, qui s’apparentent désormais davantage à des instruments d’animation rudimentaires et frustrants, en raison du manque de contrôle et de l’aléatoire inhérent à la génération par intelligence artificielle.

Le contrôle est effectivement l’enjeu central de la génération vidéo. Runway l’a bien compris en proposant des contrôles de caméra et des zones animées avec le Motion Brush de Gen-2. Luma Labs a également intégré un système d’images-clés permettant d’animer une séquence avec davantage de précision. Il ne serait pas surprenant qu’une fonctionnalité d’image-to-video apparaisse prochainement dans Runway’s Gen-3, offrant un contrôle accru.

À terme, un contrôle plus global du mouvement de caméra, des éléments présents dans chaque clip, voire de la colorimétrie finale, sera nécessaire pour un usage professionnel. Nous assistons à l’émergence d’un nouveau médium, d’une manière inédite de créer des images en mouvement, avec un potentiel disruptif considérable sur l’ensemble des métiers de l’audiovisuel, dont il est encore difficile de mesurer pleinement les impacts.

1. Runway

Runway est un outil puissant et complet qui propose de nombreuses fonctionnalités pour la création vidéo, audio et image. Son interface intuitive permet de générer des vidéos de haute qualité à partir de textes et d’images (avec Gen-2 uniquement pour le moment concernant le prompt image-to-video). Le modèle Gen-2 de Runway est particulièrement apprécié pour sa précision et son rendu réaliste, bien que la plateforme puisse devenir coûteuse après épuisement des crédits gratuits. Sa nouvelle version alpha de Gen-3 est impressionnante par sa qualité et sa netteté. Son animation est cohérente ainsi que la morphologie des personnages.

C’est tout simplement l’IA gen vidéo la plus plébiscitée actuellement. Un leader.

Avantages :

– Facilité d’utilisation
– Fonctionnalités avancées pour les professionnels et les amateurs
– Possibilité d’utiliser une image comme prompt en plus du texte avec Gen-2
– Qualité élevée et morphologie des personnages cohérente
– Temps de rendu court

Inconvénients :

– Coût élevé des plans premium
– Effet ralenti en standard

2. Luma Dream Machine

Luma, avec son modèle Dream Machine, impressionne par sa capacité à générer des vidéos réalistes et de haute qualité. Les vidéos peuvent durer jusqu’à 5 secondes, soit une seconde de plus que la plupart des autres IA génératives. Luma IA est particulièrement efficace pour les effets de caméra et la précision des mouvements. Et le prompt par « keyframe » permet de fournir des images de référence en entrée et en sortie. C’est un très beau challenger à ce stade.

Avantages :

– Vidéos de haute qualité et réalistes
– Interface utilisateur facile
– Essais gratuits généreux (30)
– Possibilité de prompter avec une image de référence en entrée et une autre en sortie.

Inconvénients :

– Rendus parfois non réalistes
– Problèmes de morphologie
– Vidéos parfois trop rapides et « secouées »
– Limites sur certains effets complexes
– Flou fréquent
– A du mal avec les scènes irréalistes, ce qui peut limiter la créativité

3. BasedLabs

Avec une notoriété bien moindre que Runway, BasedLabs nous a agréablement surpris, taquinant parfois Luma sur certains prompts.

Avantages :

– Outils avancés pour la création de contenus
– Interface conviviale
– Qualité élevée avec génération d’image support pour animation

Inconvénients :

– IA pas très intuitive pour les débutants
– Problèmes de morphologie
– Animations saccadées et courtes

4. Kaiber

Kaiber IA offre une flexibilité unique en permettant aux utilisateurs de fournir des images et des fichiers audio pour générer des vidéos. L’IA ajuste le rythme et les mouvements de caméra en fonction de la bande sonore, créant ainsi des vidéos dynamiques et engageantes.

Avantages :

– Vidéos synchronisées avec la bande sonore
– Flexibilité dans les éléments d’entrée
– Choix du style de rendu
– Facile d’utilisation

Inconvénients :

– Temps de rendu longs
– Rendus saccadés et de basse qualité

5. Pika

Longtemps challenger de Runway Gen-2 qu’il a même pu bousculer, Pika semble aujourd’hui largué dans la course à l’IA gen vidéo qui mettra tout le monde d’accord. En attendant un futur saut qualitatif ?

Pika se distingue cependant par sa simplicité et son accessibilité, idéale pour les débutants pas trop regardants sur ce qu’ils produiront. Bien que l’outil soit limité pour des animations complexes ou des effets caméra spécifiques, il excelle dans la synchronisation labiale et offre des options de personnalisation de personnages et de styles de rendu (2D ou 3D).

Avantages :

– Facile à utiliser pour les débutants
– Bonnes options de personnalisation
– Fonctionnalité de lipsync
– Temps de rendu rapide

Inconvénients :

– Limitations pour les animations complexes
– Limitations des effets caméra
– Pas de photoréalisme
– Compréhension du prompt parfois erronée

6. PixVerse

PixVerse vise à simplifier le processus de production vidéo, rendant accessible la création de contenus visuels captivants même pour les non-experts. Voilà pour les intentions. La réalité est bien moins jolie, avec une IA qui semble aujourd’hui très loin du podium. Les dents de ce chat bleu sont vraiment terrifiantes !

Avantages :

– Interface utilisateur intuitive
– Accessible aussi bien pour les amateurs que les professionnels

Inconvénients :

– Information limitée sur les capacités avancées
– Difficulté à réaliser des modifications irréalistes
– Limite la créativité
– Pas d’animation ou minimale
– Effet de zoom
– Qualité de rendu basse
– Temps de rendu lent

Classement des IA encore indisponibles 

Parlons maintenant des IA qui ont déjà fait parler d’elle mais qui ne sont pas encore accessibles au plus grand nombre.

1- Kling

Kling, actuellement disponible en Chine uniquement, se distingue par sa capacité à générer des vidéos plus longues et plus réalistes que ses concurrents. Avec une résolution allant jusqu’à 1080p et une fréquence de 30ips, Kling offre une qualité de simulation du monde réel impressionnante. Cela se rapproche fortement d’un Sora… À noter aussi l’étonnant fonctionnalité text/image to video, qui permet d’animer deux images en une vidéo.

Avantages :

– Vidéos de longue durée (2 min) avec haute résolution
– Réalisme et fluidité des mouvements
– Morphologie cohérente 
– Les prompts pouvant mêler texte et image

Inconvénients :

– Disponibilité limitée pour le moment en dehors de Chine

2- Sora

Sora d’OpenAI (les créateurs de ChatGPT) est une IA prometteuse qui a tout l’air d’être un futur leader depuis son annonce en février. Ce modèle est capable de générer des vidéos complexes et réalistes à partir de prompts textuels (text-to-video), promettant de révolutionner la création de contenu audiovisuel. Voilà pour la théorie. À confirmer à sa sortie.

Avantages :

– Capacité à générer des vidéos complexes et d’une minute
– Haute qualité et réalisme des vidéos
– Morphologie cohérente 

Inconvénients :

– Pas encore disponible au public
– Les premiers beta-testeurs évoquent des temps de rendu très longs. Dans les 20 minutes. Aie !

3- Google Veo

Google Veo, encore en phase de tests, est une IA avancée permettant de créer des vidéos de longue durée avec une qualité allant jusqu’à 1080p. Destinée aux cinéastes et créateurs, elle est disponible sur inscription dans l’AI Test Kitchen de Google. C’est le concurrent direct de Sora.

Avantages :

– Vidéos de longue durée
– Haute qualité de résolution

Inconvénients :

– Accès limité aux bêta-testeurs

4- Make a video

Ce modèle révélé en 2022 par Meta a forcément pris un sacré coup de vieux. Il en est encore au stade de document de recherche. Date de sortie inconnue. Il est probable que le groupe de Mark Zuckerberg contre attaque avec un tout autre modèle aux goûts du jour.

Voilà pour ce top 10 ! Celui-ci sera mis à jour tout au long de l’année, l’actualité de l’IA générative étant particulièrement riche actuellement.

News Scan Book

1

2

3

4

5

Précédent Suivant