Correction de traduction automatique
La traduction automatique est désormais capable de produire des textes de qualité acceptable et parfois même professionnelle selon la combinaison linguistique, le domaine de traduction et le format de fichier. Par exemple, une traduction automatique de l’anglais vers l’espagnol par Deepl Pro d’un descriptif d’hébergements touristiques donnera immédiatement un résultat pleinement satisfaisant de qualité professionnelle qu’il ne sera même pas nécessaire de relire. Sur certaines combinaisons linguistiques, plus rares, la traduction automatique est clairement à proscrire. Et pour un grand nombre de combinaisons linguistiques, sur des sujets moyennement complexes, le résultat sera compréhensible, mais inutilisable professionnellement. Pour tous ces projets qui méritent un regard humain, nous proposons la vérification et la correction de traduction automatique.
Qu’est ce que la traduction automatique neuronale ?
La traduction automatique (TA) désigne le processus automatisé de traduction de texte ou de discours d’une langue à une autre en utilisant des algorithmes et des logiciels. L’évolution de la traduction automatique a commencé avec des systèmes qui utilisaient des règles linguistiques et des dictionnaires pour traduire le texte. Elle a progressé vers des modèles plus avancés basés sur des modèles statistiques et de grands corpus bilingues pour prédire les traductions. La dernière évolution est le système de Traduction Automatique Neuronale (TAN) qui emploie des réseaux neuronaux artificiels pour comprendre et générer des traductions, offrant des résultats plus fluides et Contextuellement appropriés.
L’architecture typique utilisée pour la TAN est le modèle encodeur-décodeur, associé à des mécanismes d’attention :
- Encodeur : Un réseau de neurones récurrents (RNN), une architecture de réseau de neurones convolutifs (CNN) ou un transformateur encode le texte source en une représentation vectorielle (un ensemble de vecteurs) qui capture le sens du texte.
- Décodeur : Un autre réseau de neurones utilise cette représentation vectorielle pour générer le texte dans la langue cible. Le décodeur prédit le mot suivant dans la séquence traduite en fonction des mots déjà traduits et de la représentation contextuelle fournie par l’encodeur.
- Le mécanisme d’attention permet au modèle de se concentrer sur différentes parties de la phrase source lors de la génération de chaque mot de la phrase cible. Cela améliore la qualité de la traduction, notamment pour les phrases longues et complexes.
Le modèle TAN est entraîné sur de grands corpus de textes parallèles (textes alignés dans deux langues). Le processus d’entraînement comprend les étapes suivantes :
- Pré-traitement des Données : Les textes sont nettoyés, tokenisés (découpés en mots ou sous-mots), et parfois enrichis de métadonnées linguistiques.
- Apprentissage Supervisé : Le modèle apprend à traduire en ajustant ses paramètres pour minimiser l’erreur de prédiction entre ses traductions et les traductions de référence humaines. Des algorithmes de rétropropagation et de descente de gradient sont utilisés pour optimiser les poids du réseau de neurones.
Lors de l’inférence (la traduction de nouveaux textes), le modèle utilise les paramètres appris pour générer des traductions. Le processus peut être résumé comme suit :
- Encodage : Le texte source est encodé en une représentation vectorielle.
- Décodage : Le modèle génère le texte cible mot par mot, utilisant les vecteurs d’attention pour se concentrer sur les parties pertinentes du texte source à chaque étape de la génération.
Diverses techniques sont employées pour améliorer la performance et l’efficacité des modèles TAN :
- Régularisation : Des techniques comme le dropout sont utilisées pour prévenir le sur-apprentissage.
- Ensembles de Modèles : Combiner plusieurs modèles pour améliorer la robustesse et la précision.
- Pré-entraînement et Affinage : Utiliser des modèles pré-entraînés sur de grandes quantités de données non supervisées, puis les affiner sur des données spécifiques à la tâche.
Limites de la traduction automatique neuronale
La TAN offre des traductions de meilleure qualité que les méthodes précédentes, surtout pour les langues riches en données. Elle est capable de capturer des nuances contextuelles et des structures syntaxiques complexes, mais elle rencontre des difficultés avec des langues peu dotées en données, des phrases très longues ou très complexes, et des textes spécialisés nécessitant une terminologie spécifique. C’est sur ce type de projets que nous intervenons pour corriger les erreurs de la traduction automatique neuronale.
L’importance de la correction humaine
La révision humaine d’une traduction automatique neuronale implique que des linguistes ou des locuteurs natifs évaluent le texte traduit automatiquement. Cette méthode tire parti de l’expertise humaine pour saisir les nuances et subtilités que les machines pourraient manquer. Les réviseurs humains peuvent fournir des commentaires précieux sur la fluidité, la précision et l’adéquation culturelle de la traduction. Il s’agit d’un travail de correction des erreurs majeures pour rendre le texte compréhensible. Ce travail s’apparente à de la Post-Édition Légère et se focalise sur :
- Les erreurs orthographiques, grammaticales, syntaxiques et typographiques : Les systèmes de traduction automatique font rarement ce types d’erreurs, mais la syntaxe n’est pas toujours très heureuse.
- la compréhension contextuelle: Les systèmes de traduction automatique peuvent manquer de compréhension contextuelle, entraînant des erreurs de traduction.
- Les nuances culturelles: Contrairement au locuteur humain, il est difficile, pour un système de traduction automatique, de capturer les expressions idiomatiques et les références culturelles.
- La terminologie spécialisée et le jargon : Les systèmes de traduction peuvent avoir du mal avec le vocabulaire technique et spécialisé, le réviseur humain détectes les erreurs et les approximations, se réfère au texte source pour corriger la traduction.
Principaux avantages de la correction de traduction automatique
- le prix : Avec un prix d’environ 4 centimes d’euros par mot relu, la traduction automatique est clairement à la portée de tous les budgets.
- Le délai : En moyenne, un réviseur humain peut corriger 7000 à 9000 mots par jour soit 4 à 6 fois plus qu’en traduction 100% humaine.