Voice over et doublage automatique professionnel

Le recours au doublage automatique augmente proportionnellement à celui de l’usage de l’intelligence artificielle et à la croissance de la communication audiovisuelle. Ce qui était encore impensable 2 ou 3 ans en arrière devient progressivement la norme. Qui aurait pu croire que l’on pouvait, pour quelques centaines d’euros, réaliser un doublage ou une voix-off de qualité professionnelle ? Mais attention, sans un minimum d’effort et de contrôle, le résultat d’un doublage automatique est catastrophique. Alors comment produire un contenu de qualité à moindres frais ? Découvrez tout cela dans notre analyse.

La communication vidéo en plein boum

En 2022, les vidéos représentent 82 % du trafic mondial, soit une croissance multipliée par 15 en 5 ans et cette tendance ne semble pas prête de s’atténuer. Les annonceurs, les agences de publicité et de webmarketing ont massivement intégré la vidéo dans leur stratégie de communication, et les résultats sont positifs.

Que ce soit sur les plateformes, les sites web, lors d’événements, dans les e-mails, ou encore dans les publicités payantes, la vidéo émerge comme le principal outil pour capturer et retenir l’attention. Sur les réseaux sociaux, TikTok, plateforme dédiée aux vidéos, a vu le jour en 2016 et compte déjà près de 2 milliards d’utilisateurs actifs. Instagram (Meta) a opéré une transition récente de la photo à la vidéo, son algorithme privilégiant désormais les directs. Enfin, Facebook (Meta), X (ex Twitter) et LinkedIn affichent des taux d’engagement toujours croissants sur les vidéos.

Au cours des cinq dernières années, pour internationaliser l’audience, il fallait soit recourir au sous-titrage, soit enregistrer en anglais, soit multiplier le nombre de vidéos en autant de langues que de pays non-anglophones visés ce que n’hésita pas à faire Mr Beast (plus important youtubeur avec plus de 245 millions d’abonnés) jusqu’à ce que YouTube propose d’abord la fonctionnalité de doublage (qu’Atenao fut la première agence française à utiliser pour doubler les vidéos d’Amixem) puis très rapidement celle du doublage automatique.

Qu’est-ce que le voice cloning ?

Le clonage vocal (voice cloning) est une technologie qui utilise des algorithmes d’intelligence artificielle pour recréer la voix humaine de manière réaliste. Ces algorithmes sont capables d’analyser et de reproduire les modèles acoustiques et linguistiques d’une voix enregistrée, permettant ainsi de créer des discours générés artificiellement qui sonnent comme une personne réelle.

Le processus de clonage vocal implique généralement l’enregistrement d’un grand volume de données audio de la voix cible, puis l’utilisation de techniques d’apprentissage automatique, telles que les réseaux neuronaux profonds, pour modéliser et reproduire cette voix de manière précise. Plus les données d’entraînement sont nombreuses et diversifiées, meilleure est généralement la qualité du clonage vocal.

Le clonage vocal présente de nombreuses applications potentielles, notamment dans les domaines de la synthèse de discours pour les assistants vocaux, les systèmes de navigation vocale, les livres audio, les jeux vidéo, et même dans l’industrie du divertissement pour recréer les voix de célébrités décédées ou pour doubler des personnages de fiction.

Doublage automatique et voice cloning ? Oui, mais avec méthode

La plupart des plateformes de sous-titrage automatiques se sont mises au voice cloning. Elles sont en concurrence directe avec les sites web, des entreprises et des projets liés à l’IA référencés en .ai. Des Français checksub et lipitt (qui a fait fureur avec son post Linkedin de Zendaya et Timothée Chalamet), Vexub, en passant par les américain Lovo ou Rask sans oublier les sociétés chinoises qui arrivent sur le marché, la concurrence fait rage.

Pour réussir un doublage automatique, il est indispensable de respecter une certaine chronologie des actions. Nous avons plusieurs fois du intervenir pour corriger des vidéos doublées par IA qui pêchaient par la qualité de leur traduction. Voici les 7 étapes qui permettent d’obtenir un bon résultat.

Etape 1 : La Transcription

Pour ce travail, nous avons sélectionné Checksub. La plateforme marseillaise s’avère, de notre point de vue, supérieure à Rask ou Lovo. Par défaut La transcription timecodée automatique des textes de la vidéo consiste à obtenir un fichier au format SRT découpé en segments adaptés au sous-titrage. Les options permettent de remanier le fichier SRT pour l’adapter au voice over ou au doublage automatique via une segmentation par phrases complètes plutôt que par segments courts.

Etape 2 : la traduction

Traduction automatique neuronale via un abonnement professionnel de Deepl. Pourquoi la version pro ? Parce que lorsque vous utilisez un abonnement professionnel chez un fournisseur de traductions automatiques, c’est le cas tout au moins pour Deepl, les textes et les documents que vous nous transmettez ne sont pas stockés de manière permanente et ne sont conservés que temporairement, pour la durée nécessaire à la réalisation et à la transmission de vos traductions. Tous les textes ou documents soumis, de même que leurs traductions, sont supprimés après exécution complète des services contractuellement convenus. Lorsque vous utilisez DeepL Pro, sachez que vos textes ne sont pas utilisés par Deepl pour améliorer la qualité de son service de traduction. Les droits sont très différents sur Google translate ou sur la version gratuite de Deepl.

Etape 3 : post-édition ou correction de traduction automatique

Nous recommandons la post-édition qui implique une révision complète de la traduction par un traducteur professionnel. Si le budget ne le permet pas, nous effectuerons le minimum, c’est-à-dire, une correction qui permettra de corriger les erreurs d’orthographe, de grammaire et de syntaxe.

Au lieu de travailler les textes seuls et puis la vidéo, nous corrigeons les textes cible tout en écoutant la vidéo et identifiant les potentielles erreurs de prononciation en comparant avec le texte source simultanément.

Si vous fournissez la traduction automatique, nous vous demandons de nous soumettre un tableau à deux colonnes Source / cible incluant les timecodes tel que dans l’exemple ci-dessous.

Si vous réalisez vous-même l’enregistrement, il est impératif de nous soumettre le texte pour révision avant de générer la voix

Etape 4 : l’enregistrement

Application de la voix (voice cloning ou choix de voix)

Etape 5 : le contrôle voix

Contrôle de la qualité de la prononciation. le ton et le texte sont ils d’excellente qualité ? La formulation est elle irréprochable ?

Etape 6 : finalisation

La touche finale consiste à contrôler l’audio, le calage et la synchronisation labiale de l’enregistrement final. Le contrôle implique une dernière écoute par le traducteur réviseur pour d’éventuelles modifications résiduelles d’interprétation.

Etape 7 : le BAT

Livraison client, aller-retour éventuel de corrections puis Bon à Tirer.

L’indispensable qualité rédactionnelle de la source

La traduction automatique neuronale traduit, le plus souvent très littéralement et la traduction automatique faire rarement du bien au texte, elle a tendance à le déprécier. Par conséquent, un texte avec un rédactionnel de faible qualité donnera une traduction avec une qualité encore plus faible. Soigner la qualité de votre texte original, c’est permettre d’obtenir une traduction automatique acceptable.

La post-édition ne fera pas de votre texte traduit une merveille, mais gommera les mauvais choix terminologiques et syntaxiques de la traduction automatique.

Les limites du doublage par intelligence artificielle

D’abord, le clonage vocal soulève des préoccupations éthiques, notamment en ce qui concerne son utilisation pour créer de fausses déclarations ou des discours trompeurs, ainsi que des questions de confidentialité liées à la collecte et à l’utilisation des données vocales des individus. Ces préoccupations nécessitent une réflexion et une réglementation appropriées pour garantir que cette technologie est utilisée de manière responsable et éthique.

La limite technique est également non négligeable. Clairement, nous pensons que Lipitt, dans ses publications promotionnelles sur Linkedin dont celui avec Zendaya et Timothée Chalamet), minore l’importance du travail effectué pour accorder les mouvements des lèvres avec les traductions. Sans un important travail de correction d’image, la synchronisation labiale, indispensable dans un projet de doublage, s’avère médiocre avec l’IA. Pour réduire ce problème à la source, il convient d’optimiser la synchronisation labiale au moment de la traduction par un choix terminologique adapté aux mouvements des lèvres des comédiens ou des intervenants. Ce travail de synchronisation est réalisé par nos traducteurs.

Dernière limite importante à nos yeux, le SENS. Quel est le sens du voice cloning ? Pourquoi est-ce que l’on regarde des vidéos ? Parce que nos sens s’éveillent devant une personne qui parle, devant son attitude. Il y a une authenticité supérieure dans la vidéo par rapport à un texte ou à un audio seul. En ajoutant une voix qui n’est pas celle de la personne que l’on voit à l’écran, même si la différence n’est pas audible, en ajoutant des mouvements de lèvres qui ne sont pas ceux de la personne que l’on regarde et des mots qui ne sont pas les siens, on détruit l’originalité de la vidéo. De fait, est-il encore nécessaire de regarder la vidéo d’une personne qui n’est plus elle-même ? Au final, ne serait-il pas plus pertinent de remplacer la personne par une totale IA ? Le cinéma ne devrait pas tarder à utiliser ces techniques pour automatiser le doublage des longs-métrages, ajouter d’une couche d’artificiel et d’effet spécial ne devrait pas, en effet, poser de problème éthique aux producteurs hollywoodien. Quelle différence alors y aura-t-il entre l’animé et le film ?

Quand HugoDécrypte fait le choix de la voix-off au lieu du doublage dans l‘interview originale de Zendaya et Timothée Chalamet, il conserve volontairement la voix originale des deux acteurs, en fond. N’est-ce pas en premier lieu un témoignage de respect ? N’est-il ensuite pas plus agréable, pour nos sens, d’écouter les propres mots des acteurs, leur propre voix et, évidemment, de percevoir l’intégrité de leur visage ? Nous pensons que l’authenticité aura toujours plus de valeur et d’impact que le trucage.

Vitesse et rapport qualité prix au top !

C’est évidemment sur l’aspect vitesse de réalisation et le prix que le voice cloning est ultra performant. Et si un doublage de qualité reste onéreux, il est possible, pour quelques euros, de créer une voix-off de qualité.

Contactez-nous dès aujourd’hui pour la prise en charge d’un projet de doublage automatique ou de voice over