Les tâches robotiques dans le viseur.
Alors que la génération d’images via intelligence artificielle n’en finit par de rebattre les cartes de la création, entre onirisme surréaliste et réalisme confondant, l’IA générative vidéo promet d’incarner la prochaine étape dans la révolution à l’œuvre. Gain de temps, de productivité, de cout, fluidité et possibilités infinies, où en est l’avancée de l’IA générative vidéo par rapport à son pendant “statique” et ses leaders démocratisés comme Midjourney ou DALL-E 3 ? Quelles utilisations pour les professionnels com’ et marketing, et quels impacts sur les métiers de la communication ?
Early adopters, experts et testeurs aussi acharnés qu’agnostiques, Gilles Guerraz, réalisateur publicitaire, consultant IA Gen et auteur de la newsletter GENERATIVE, accompagné de Stéphane Galienni, artiste numérique derrière l’Incognito influencer project et directeur associé de BLSTK nous répondent sans filtre ou assistant numérique.
Où en est aujourd’hui l’IA gen vidéo vs l’IA gen d’images ?
Gilles Guerraz : L’intelligence artificielle générative vidéo n’est pas encore au niveau de la génération d’image, aujourd’hui capable de photoréalisme parfait dans beaucoup de cas de figures. Des outils comme Musavir donnent des résultats particulièrement frappants en termes de photoréalisme, même s’ils sont inégaux et présentent encore quelques bugs d’affichage ou bugs anatomiques.
Pour la vidéo, des progrès phénoménaux ont été réalisés depuis le début de l’année : il y a quelques mois, on avait du huit images par seconde avec des difformités presque monstrueuses, maintenant, on toque à la porte du photoréalisme sur une certaines typologies de générations, notamment en plan fixe ou paysage. En revanche, avec un peu de mouvement de caméra ou lorsqu’on veut représenter de l’humain, c’est encore peu convaincant.
Pour les besoins d’une pub télé, j’ai dû réaliser un travelling arrière à partir d’un paysage – un décor de montagne avec une forêt de pin – jusqu’à l’intérieur d’un loft. J’ai voulu explorer l’habillage génératif pour ce décor-là, mais je ne parviens pas encore à avoir un niveau satisfaisant en termes de réalisme. Dès lors qu’il y a du mouvement, cela génère encore des textures un peu trop “jeux vidéo”.
Stéphane Galienni : Il y a énormément d’outils à disposition aujourd’hui, et d’importantes évolutions depuis 3-4 mois, ça change constamment. Pour le 48h Film Festival, j’ai du réalisé un film de trois minutes en deux jours. C’est vous dire le challenge, entre le brief le vendredi et le rendu le dimanche soir : il faut écrire un scénario, faire des plans, les agencer, trouver de la musique, et les heures défilent. J’aime cette urgence dans la création.
À l’inverse de Gilles via sa newsletter GENERATIVE, je n’ai pas le temps de tout tester. Même si j’ai touché un peu à tous les outils évoqués, dont Pika, Midjourney et Magnific.ai. Pour ce film, je me suis concentré sur Runway, que j’utilise depuis cet été et tente de maitriser. Avec plus de temps, j’aurais sans doute utilisé différentes IA génératives, mais j’ai été assez étonné du résultat. L’avantage du text to video de Runway ce sont les previews : ça laisse une possibilité de choix, on teste, si ça rate, on recommence, on reprompte et on trouve des solutions rapidement.
Ces outils vont véritablement impacter le secteur audiovisuel, on pourra produire des sujets ou réaliser des plans de coupe ou de paysage, au drone notamment, sans débourser ce que ça coute aujourd’hui. Pour le 48h Film Festival, le genre science-fiction m’a été imposé, et sans être Georges Lucas, j’ai pu générer des univers très affirmés, avec des planètes, des vaisseaux… Il y a vraiment un champ des possibles créatifs incroyable.
Quels sont pour vous les principales IA utilisables ? Il est intéressant de remarquer que ce ne sont pas les leaders des IA texte et images qui se positionnent sur la vidéo.
G.G. : Chaque startup ou entreprise à son domaine d’expertise, celles qui ont créé les outils de génération d’images, ne sont pas les mêmes que celles qui ont créé les chatbots, à l’exception notable d’OpenAI, avec DALL-E et ChatGPT. Pour Stable Diffusion et Midjourney, les constructeurs n’ont pas conçu de LLM (large language model). C’est peut-être une question de marché : quand on fait un LLM, on touche le monde entier, avec la génération d’images et de vidéo, on touche plus des profils créatifs, donc beaucoup moins de monde de facto. Ce sont des questions de stratégie d’entreprise.
S.G. : J’ai échangé avec une femme qui a développé sa propre IA et va la commercialiser, mais qui ne connaissait même pas Magnific.ai. Moi-même, je fais des veilles – je suis abonné à la newsletter de Gilles (GENERATIVE) – et je découvre plein de choses de sources très variées.
Je mets en onglet les outils à tester, je les teste, mais je reviens toujours sur ceux que j’estime être les leaders du marché, comme Midjourney et Runway (avant Gen2 sur 10 itérations, je sortais 2 plans convenables, aujourd’hui, j’en sors 8). Si je commence à m’éparpiller, je ne pourrai pas mener à bien ma phase d’apprentissage et de maîtrise de ces outils. Magnific.ai en revanche est tout de suite entré dans ma boîte à outils parce qu’elle propose des fonctionnalités d’upscale et de réalisme d’images complémentaires aux autres outils. Aujourd’hui, on peut avoir 15-20 outils, mais on a que 24 heures par jour, et encore si on veut dormir. De toute ma vie, je n’ai jamais connu de tels outils, ça va bouleverser le secteur. Ça change ma vie sur le plan créatif.
Il y a un vrai dialogue homme-machine, chacun apprend de l’autre. On note ses rendus pour lui apprendre à répondre à nos besoins : c’est du machine learning. C’est en forgeant qu’on devient forgeant, il faut vraiment éprouver un outil, s’entrainer pour se perfectionner. Et laisser la machine faire des pas de côté et vous proposer des choses auxquels vous n’auriez pas pensé.
Que peut-on faire avec, pour un usage professionnel / com / marketing ?
G.G. : C’est toujours lié au projet. Pour sa com’ interne, le groupe Essilor souhaitaient des avatars de ses collaborateurs pour communiquer lors d’un événement autour de l’IA. Je leur ai proposé un panel de différentes technologies, avec différents résultats : la photo qui parle, le clone photoréaliste, etc. Ils ont opté pour une sorte d’avatar fixe, réalisé avec Midjourney et Insight Face, puis D-ID qui propose une meilleure synchronisation labiale qu’AI Gent. Et le résultat final est une vidéo générée par l’IA, comme Runway peut le faire.
Sur des projets un peu plus créatifs, je vais prendre Gen 2 (Runway). J’aime me laisser la possibilité d’utiliser Gen 1, un peu mal aimé à présent, alors que Martin Haerlin, spécialiste de cette version, fait de très bonnes vidéos – virales – dans lesquelles il se met en scène. Dont récemment pour de fausses pubs avec de l’IA générative.
Je suis agnostique pour les outils, tout dépend donc du projet et du résultat attendu : si on veut du photoréalisme ou pas, si ce sont des personnes à mettre en scène ou des objets animés.
S.G. : Effectivement, j’ai déjà commencé à l’utiliser ces outils avec des clients en B2B sur de la réalisation d’avatars. Mais ça reste encore un visage qui parle sur une photo. Même si des outils s’améliorent pour commencer à faire bouger les mains.
En B2B et audiovisuel corporate, des outils permettent de rendre un rapport annuel plus attractif qu’un simple texte. Dans le luxe en revanche, l’exigence est supérieure concernant l’image. Je sensibilise certains des clients de l’agence en leur montrant des exemples de productions qui pourraient être appliquées à leur univers. Ils voient que quelque chose est en train de se passer.
Beaucoup de gens pensent qu’il suffit d’appuyer sur un bouton pour obtenir une belle image. L’outil est démocratique, à portée de tout le monde, des personnes publient plein d’images sur Instagram, LinkedIn, etc. et sont très contents d’eux, alors que leur image n’est pas terrible. Il faut un vrai savoir-faire de réalisateur, de photographe, de créatif ou d’artiste, un talent qui ne pourra pas être remplacé, c’est une extension de notre créativité. Ce sont des outils, mais des outils qui demandent la connaissance et la compétence de celui qui met la main dans l’outil. Il faut en finir avec ce cliché : “Ma grand-mère peut le faire”. Déjà, ta grand-mère, elle ne sait pas utiliser Discord donc…
Ces outils vont aussi générer une sorte de flemmardise intellectuelle ou créative. Des personnes vont sortir plein de vidéos et d’images, mais ils ne vont pas progresser, seulement générer des contenus.
Selon vous, quel sera l’impact sur les métiers de la communication et est-ce que les sociétés de production ont des raisons de s’inquiéter ?
G.G. : Tout le monde n’a pas forcément de raison de s’inquiéter. Tout dépend des postes et des tâches. En revanche, elles ont toutes un intérêt fort à s’intéresser au sujet, à essayer de s’en emparer plutôt que de le réfuter. Je travaille actuellement avec un groupe majoritairement réfractaire à l’IA générative (ils ont des entités fictions, corporate, photo), cela les effraie et les angoisse. C’est un sentiment que je trouve parfaitement légitime. Toutefois, face à cette évidence technologique, des use case vont être Irréfutables, de la même manière que le digital a remplacé la bande magnétique (pellicule ou son). Sur la voix, nous avons déjà atteint un niveau de qualité tel que la question se pose en termes de coûts, et de flexibilité. On peut faire des modifications jusqu’au matin même de l’événement, ce qui aurait été bien évidemment impossible avec un studio d’enregistrement.
Selon les tâches, des métiers vont être très impactés, comme les assistants monteurs avec des solutions d’optimisation du workflow comme Aive. En partant d’un master vidéo d’une minute trente, l’IA va être capable de faire des cut-downs (une minute, 45 secondes, 30, 20, 15, 10), un montage pertinent avec l’histoire, mixer la musique pour qu’elle reste fluide sur tous les formats, et encore plus fort, recadrer pour toutes les sorties du vertical, du carré, en recentrant l’image sur le point d’intérêt. Et tout cela de manière quasi automatisée.
Dans un premier temps, des d’ajustements manuels seront peut-être nécessaires, mais ça laisse présager la disparition du métier d’assistant dans l’audiovisuel. Ce sont des tâches extrêmement techniques qui seront bientôt remplacées par l’IA. Est-ce qu’il faut s’inquiéter ? Ceux qui voulaient faire assistant-monteur, comédien-doublage ou comédien-voix, sans doute. Pour rester compétitives, les boîtes de production devront prendre la vague parce qu’elles vont se faire dépasser par des gens capables de produire mieux, plus rapidement et moins cher.
S.G. : Il y a un enjeu pour les boîtes de production, mais aussi pour les agences. Elles produisent aussi des contenus, notamment pour le social media avec beaucoup de tâches répétitives, comme mettre au format 4/5e, 9/16e, 16/9e, etc. En tant que directeur d’agence, je me suis dit : si je ne maîtrise pas ces outils, si je ne surfe pas sur la vague, elle va me submerger. Ce n’est pas la machine qui va piquer le business, ce sont ceux qui vont maîtriser ces outils et être plus compétitifs que les autres. Il y a plein d’outils qui permettent de gagner du temps sur petites tâches chronophages et qui vont être remplacées au fur et à mesure par l’automatisation.
Pour l’image, le premier métier en train de mourir est celui de storyboarder, le “roughman”. Au lieu de 40 vignettes à 25 euros la case comme on peut le demander en publicité, les storyboards peuvent être faits en une journée et le client se projette beaucoup mieux dans le film à produire. Quand on est une entreprise ou un.e PDG, on cherche à gagner en productivité pour avoir plus de marge. Économiquement parlant, des métiers vont mourir, du moins ceux qui ne savent pas s’adapter. Le roughman de demain peut très conserver son métier en devenant expert sur Midjourney et dire, ok j’arrête les croquis, je vous propose de super storyboards générés par IA. Son savoir-faire ne sera pas perdu.
Quid des avatars vidéo à la HeyGen, du sous-titrage et du doublage automatisé (et d’autres usages vidéo de l’IA, hors génération d’images) ?
S.G. : C’est typiquement le présentateur télé. Si on remet ça dans le monde de la communication et des entreprises, on a tous besoin de prendre la parole, que ce soit le président de l’entreprise ou le collaborateur. Aujourd’hui, avec la photo d’une personne, du text to speech, on peut obtenir un contenu podcast ou vidéocast en trois minutes, des podcasts ou des vidéocasts. On va gagner en agilité sur la communication au quotidien des entreprises.
Dans le secteur du luxe, une société de production va continuer à faire de très beaux films, puisque certaines entreprises ne veulent que l’excellence dans leur communication “publicitaire”. Aujourd’hui, la machine n’est pas encore au niveau de méthodes de production classiques. Il faut distinguer ce qu’on peut faire en snackable content ou en corporate de communication d’entreprise, et puis les heros movies ou les films qui coûtent cher parce qu’ls sont beaux, qu’ils créent de l’émotion.
C’est quoi l’étape d’après, justement, pour l’IA vidéo ? Est-ce que c’est la vidéo en live, par exemple ?
G.G. : La prochaine étape, celle qui devrait arriver d’ici quelques mois/semaines, c’est la possibilité de créer des vidéos photoréalistes, avec un outil qui va remettre en cause tous les process de prise de vue tels qu’on les connaît aujourd’hui. L’impact sera potentiellement extrêmement fort et large sur tout l’écosystème de la production visuelle.
Le “next step” sera le dialogue entre l’homme et la machine : lorsqu’on n’aura plus besoin de faire des images de référence, mais simplement des prompts à partir desquelles l’IA pourra créer tout ce qu’on veut. Idem pour le montage vidéo, il suffira de faire du prompt et expliquer ce que l’on souhaite comme résultat.
Concernant les avatars, on peut imaginer une nouvelle génération qui interagira en temps réel, dans des events, du service client, de l’influenceur 3.0, ou même des clones de star qui feront du fan service.
Nous sommes vraiment entrés dans une ère de science-fiction telle qu’on la voyait dans les films hollywoodiens, il y a 15 ou 20 ans. J’ai revu récemment Minority Report, un film de 2002, dont on est déjà proches dans certains aspects, et qui me semblaient extrêmement lointains il y a 20 ans. On assiste à une accélération avec un champ des possibles tellement vaste qu’il est difficile de l’imaginer distinctement.
S.G. : La science-fiction a toujours prophétisé ce qui se passera dans le futur. De mémoire, le film Voyage dans la Lune, de Méliès (1902), est sorti bien avant le premier pas de l’homme sur la Lune. C’est toujours intéressant de suivre la science-fiction, car ce sont des fantasmes de technologiques ou de modernité qui finissent par se réaliser 50 ans, 30 ans, 20 ans plus tard. La science-fiction est un bon indicateur de ce que pourrait être le futur. Stanley Kubrick et 2001, l’odyssée de l’espace en 1968, c’est la conquête spatiale, il pense déjà à l’IA avec HAL 9000 pour piloter la machine. Tout est logique, mais très avant-gardiste.
Pour le next step, avec le text to video, on y est presque déjà. Pour ma participation à iFashion Week il y a quatre semaines, j’ai réalisé un petit film. Il est déjà optimisable fois deux. L’évolution de ces outils est d’ores et déjà visibles dans les films sortis précédemment.
Du côté de l’influence, Alibaba a également présenté un outil qui propose d’associer des gestes corporels, comme danser, à une photo. Demain, on peut très bien créer un influenceur virtuel qui sera répété d’un contenu à l’autre, comme un vrai personnage, avec une histoire, doué de parole grâce au text to speech, de mouvements… c’est peut-être ce qui manque encore aujourd’hui. On tend vers ça, cette semaine tout le monde a parlé de l’influenceuse IA espagnole (Aitana Lopez, créée par le dirigeant de l’agence The Clueless, NDLR). Elle n’a rien d’exceptionnel, elle fait du fitness et a de jolies formes, mais fait presque 300K de followers et les marques commencent à s’intéresser à elle à cause de son audience. Pour le storytelling des marques, c’est juste une super nouvelle idée de faire “vivre” un tel influenceur dans le temps, comme une personne lambda.
Il faut quand même se rappeler que cette vague d’AI générative n’a qu’un an. Si tous ces outils ont complètement bouleversé ma façon de travailler et de produire, qu’est-ce que ce sera dans trois ans ? Je ne vois pas cela comme une menace, mais comme une super opportunité :
– pour un jeune qui rêve de faire du cinéma et n’a pas les moyens financiers ou la possibilité de rentrer dans une école de cinéma : il peut apprendre par lui-même et pourquoi pas devenir un grand réalisateur ;
– pour les entreprises. C’est un complément au savoir-faire existant : avec 25 ans de métier, ce n’est pas la machine qui vous remplacera, si vous parvenez à prendre le train en marche, vous continuerez d’avancer parce que la locomotive, c’est vous. Il faut être ouvert d’esprit, mettre les mains dans le cambouis, on n’apprend pas à conduire avec le code de la route.
Je suis persuadé que ceux qui maîtriseront le mieux ces outils, ce n’est pas la Gen Z, ni la Gen Y, mais la Gen X. Cette génération née dans les années 70-80 est arrivée au moment du choc pétrolier, en plein dans les années chômage, les années SIDA, etc. Elle a appris différents métiers par peur de la précarité. Cette génération a une polyvalence qu’on ne retrouve pas chez les générations suivantes, c’est elle qui va prendre en main ces outils.