Le text-to-speech au secours des éditeurs ?

Par Élodie C. le 11/07/2022

Temps de lecture : 7 min

Et de leurs revenus publicitaires.

Avec Focus Adtech, la Réclame souhaite donner la parole aux acteurs du marché pour expliquer les technologies à l’œuvre et dessiner les contours de l’industrie de demain. 

On ne cesse de le répéter, la voix est appelée à bouleverser nos usages et transforme déjà nos trajets quotidiens à coup de podcasts et autres contenus audios.

Pour pousser plus loin l’adoption, des technologies text-to-speech permettent désormais de convertir n’importe quel fichier texte en fichier audio. Permettant ainsi aux éditeurs – print / web – d’élargir leurs audiences et de trouver une nouvelles sources de revenus publicitaires. 

Nicolas Thorin, managing director d’Audion, start-up spécialisée dans les technologies publicitaires et l’audio digitale, lève le voile sur les atouts des technologies maisons PrintAudio et DCO pour les marques.

En mai dernier, vous annonciez un double partenariat avec M6 – un renouvellement – pour la monétisation de ses contenus audio (RTL, RTL2 et Fun Radio) ainsi que pour le déploiement de la solution text-to-speech d’Audion, PrintAudio, sur l’un des sites du groupe (Turbo.fr). Expliquez-nous les raisons de ce partenariat ?

Nicolas Thorin : Audion a été créé il y a presque 4 ans maintenant, autour d’un principe : aider les éditeurs à mieux monétiser leur inventaire audio digital. Comme sur tous les autres leviers du digital, un éditeur a toujours du mal à vendre lui-même l’ensemble de ses inventaires, que ce soit sur du display, de la vidéo, ou de l’audio digital.

Historiquement, nous travaillons avec 3 typologies d’acteurs : les plateformes, plutôt musicales (Spotify, Deezer, Soundcloud), les radios et tous les podcasts natifs qui ne sont pas repris et ou issus de la musique et de l’univers radio, comme Slate, Prisma, Binge et autres producteurs de contenus. Lors de nos discussions avec les groupes média, il apparaissait que la verticale presse/pure player ne parvenait pas à produire beaucoup de contenu et générer de l’audience. Ils produisaient des podcasts, mais réalisaient peu d’audience malgré un asset très fort de production de 30 à 300 news par jour. 

On observe un développement de l’audio, de la voix, de l’écoute de plus en plus important. Il y a un an maintenant, on a développé une technologie text-to-speech, PrintAudio, qui permet de transformer un contenu écrit en contenu audio. Tout cela avec une technologie end to end qui va de la transformation du contenu, à l’encodage, l’hébergement, le déploiement du player audio et la monétisation.

Le spectre de l’univers audio digital comprend désormais, en plus des plateformes, des radios, et des podcasts natifs, la déclinaison audio des contenus des éditeurs qui peuvent ainsi proposer un nouveau service à leurs lecteurs.

Nous accompagnons M6 depuis 3 ans sur tous leurs inventaires autour du prisme radio : toute la déclinaison de la radio en live, c’est-à-dire le live streaming digital de la radio, toutes les web radio et les replay des émissions radio du groupe. Pour aller plus loin, nous leur avons proposé de plugger une nouvelle technologie développée par nos soins sur Turbo.fr dans un premier temps.

Sur quelles technologies reposent ce partenariat et que permettent-elles ?

N.T. : La technologie de text-to-speech, PrintAudio permet de monétiser l’ensemble des assets du groupe M6 avec notre propre adserver en convertissant automatiquement leurs articles en format audio, de les diffuser automatiquement sur leurs pages et sur les plateformes de streaming audio, et de les monétiser. L’objectif est de proposer ce stack technologique de l’hébergement à tous les éditeurs pour les aider à valoriser, amplifier et monétiser au mieux tous les contenus.

Avec le text to speech, on transforme le contenu, le diffuse avec le player et le monétise. C’est assez simple : nous leur livrons un bout de code à implémenter sur leur site. En moins de 5 heures, vous pouvez transformer 10 000 pages vues en contenu audio. Le code s’adapte à la page en question, il est développé et personnalisé conjointement avec l’éditeur au cours d’une petite semaine d’échange. L’éditeur peut tout choisir : plusieurs voix, féminines ou masculines, différents débits, tons, etc. Le player est également customisable, certains le voudront aux couleur du site, d’autres avec un liseré pour le faire ressortir, ou avec un mode play particulier :

–  à l’initiative internaute, en clic to play ;
– en scroll to play, le player est lancé automatiquement avec un message avertissant de la lecture à mesure que l’utilisateur scroll la page. L’objectif est de ne pas être intrusif. 
– une 3e version est possible, mais nous ne le recommandons pas – d’ailleurs, personne ne l’a encore choisi : l’autoplay. Nous ne voulons pas tuer la voix avant de l’avoir lancer.

Audion propose également une technologie adserving et DCO (propriétaire). Nous sommes actuellement seulement 3 entreprises dans le monde à pouvoir la proposer. Elle permet l’optimisation de la production des spots, chaque création publicitaire étant insérée dynamiquement en temps réel par la plateforme – ce qui permet de délivrer jusqu’à plusieurs milliers de combinaisons par campagne.

Cette approche de DCO très contextuelle va dans le sens du futur cookieless : il ne s’agit pas tant de connaître l’internaute que de savoir dans quel univers il évolue. Il y a 10-15 ans, on pensait que parce qu’une personne portait des jeans et des New Balance, elle n’achètera que ça. Nous savons désormais que c’est faux. Proposer quelque chose de rafraîchissant un jour où il fait chaud fait sens, tout comme proposer quelque chose de différent le lundi où l’on démarre sa semaine du vendredi où l’on prépare son week-end. C’est du contexte et du bon sens.

Quel est son avantage sur le marché, sa valeur ajoutée ?

N.T. : Côté marque, nous sommes en mesure de proposer un service plus contextualisé à l’utilisateur que l’on veut toucher. Des études et post test faits montrent que plus on a de proximité avec un internaute, plus son intérêt augmente et sa mémorisation avec.

Par exemple avec Deliveroo, nos publicités DCO ne proposent pas la même chose s’il fait beau ou pas, le midi ou le soir, les envies ne sont tout simplement pas les mêmes. Tout cela est contextualisé et délivré en temps réel : toutes ces publicités sont assemblées à la volée. Nous avons 12 variables suivant les heures de la journée et x variables selon le temps qu’il fait. C’est en cela que l’audio digital est plus proche du digital que de la radio.

Ensuite avec PrintAudio, l’éditeur est en mesure de proposer un nouveau service à ses lecteurs via une technologie end-to-end. Nos concurrents ETX par exemple, ne proposent qu’une partie de la technologie, c’est-à-dire la transformation du texte en audio. Le publisher doit se tourner vers un autre prestataire pour l’hébergement, puis l’adserving et enfin la monétisation. Le coût peut être important : un article qui rencontre un certain succès, va être très écouté, et la bande passante sera logiquement plus importante.

Notre vraie plus value par rapport aux publishers est que nous sommes capable de transformer plus de 10 000 contenus en une journée. A date, nous sommes présents sur plus d’un milliard de pages vues sur tous les sites avec lesquels on travaille : Webedia, Sud Ouest, Unify, Prisma. C’est une source de revenus publicitaires supplémentaire pour eux, ainsi une possibilité d’élargir leur audience.

Comment voyez-vous cette technologie se déployer dans le futur ?

N.T. : Elle doit être embarquée par les éditeurs. Il y a un véritable avenir autour de cette technologie, car nous observons une vraie consommation de la voix. 

Il y a toutefois un vrai travail d’éducation, de marketing, d’évangélisation et d’explication à mener auprès des lecteurs. Il s’agit de leur présenter un nouveau mode de consommation de leur contenu : faut-il le lire ou l’écouter ? Pourquoi ? Comment ?

Cette façon de transformer les contenus existant en d’autres formes de contenu a un vrai potentiel. Spotify vient d’ailleurs de racheter Sonantic, une startup spécialisée dans le traitement des voix générées par IA ou assistant vocal. Chez Audion, nous croyons beaucoup en cette technologie, c’est là où il y a le plus de possibilités d’utilisation de la voix. D’autres industries s’y mettent déjà. Pourquoi ne pas convertir un mode d’emploi sous forme de QR code pour l’écouter plutôt que le fournir en format papier ? Cette technologie offre une multitude d’applications possibles.

Il y a un vrai intérêt à l’usage et mois après mois les chiffres ne font qu’augmenter, nous allons vite arriver à des pourcentage entre 5 à 10% d’utilisation de ce type d’usage au sein d’un site.

News Scan Book

Starbucks célèbre ses 20 ans en France

1

2

3

4

5

Précédent Suivant