Traduction automatique - Machine translation

La traduction automatique , parfois désignée par l'abréviation MT (à ne pas confondre avec traduction assistée par ordinateur, traduction humaine assistée par ordinateur ou traduction interactive ), est un sous-domaine de la linguistique informatique qui étudie l'utilisation de logiciels pour traduire du texte ou de la parole. d'une langue à l'autre.

À un niveau de base, la TA effectue une substitution mécanique de mots dans une langue pour des mots dans une autre, mais cela seul produit rarement une bonne traduction car la reconnaissance de phrases entières et de leurs homologues les plus proches dans la langue cible est nécessaire. Tous les mots dans une langue n'ont pas des mots équivalents dans une autre langue, et de nombreux mots ont plus d'un sens.

Résoudre ce problème avec des techniques statistiques et neuronales de corpus est un domaine en croissance rapide qui conduit à de meilleures traductions, en gérant les différences de typologie linguistique , la traduction des idiomes et l'isolement des anomalies.

Les logiciels de traduction automatique actuels permettent souvent une personnalisation par domaine ou par profession (comme les bulletins météorologiques ), améliorant le rendement en limitant la portée des substitutions autorisées. Cette technique est particulièrement efficace dans les domaines où un langage formel ou formule est utilisé. Il s'ensuit que la traduction automatique de documents gouvernementaux et juridiques produit plus facilement des résultats utilisables qu'une conversation ou un texte moins standardisé.

Une meilleure qualité de sortie peut également être obtenue par une intervention humaine : par exemple, certains systèmes sont capables de traduire plus précisément si l'utilisateur a identifié sans ambiguïté quels mots du texte sont des noms propres. Avec l'aide de ces techniques, la TA s'est avérée utile comme outil pour aider les traducteurs humains et, dans un nombre très limité de cas, peut même produire une sortie qui peut être utilisée telle quelle (par exemple, des rapports météorologiques).

Les progrès et le potentiel de la traduction automatique ont fait l'objet de nombreux débats tout au long de son histoire. Depuis les années 1950, un certain nombre de chercheurs, en premier lieu et notamment Yehoshua Bar-Hillel , ont remis en question la possibilité de réaliser une traduction automatique entièrement automatique de haute qualité.

Histoire

Origines

Les origines de la traduction automatique remontent aux travaux d' Al-Kindi , un cryptographe arabe du IXe siècle qui a développé des techniques de traduction systémique des langues, notamment la cryptanalyse , l' analyse de fréquence , les probabilités et les statistiques , qui sont utilisées dans la traduction automatique moderne. L'idée de la traduction automatique est apparue plus tard au 17ème siècle. En 1629, René Descartes a proposé un langage universel, avec des idées équivalentes dans différentes langues partageant un même symbole.

L'idée d'utiliser des ordinateurs numériques pour la traduction des langues naturelles a été proposée dès 1946 par AD Booth d' Angleterre et Warren Weaver à la Fondation Rockefeller à la même époque. "Le mémorandum écrit par Warren Weaver en 1949 est peut-être la publication la plus influente des premiers jours de la traduction automatique." D'autres ont suivi. Une démonstration a été faite en 1954 sur la machine APEXC au Birkbeck College ( Université de Londres ) d'une traduction rudimentaire de l'anglais vers le français. Plusieurs articles sur le sujet ont été publiés à l'époque, et même des articles dans des revues populaires (par exemple un article de Cleave et Zacharov dans le numéro de septembre 1955 de Wireless World ). Une application similaire, également lancée au Birkbeck College à l'époque, lisait et composait des textes en braille par ordinateur.

années 1950

Le premier chercheur dans le domaine, Yehoshua Bar-Hillel , a commencé ses recherches au MIT (1951). Une équipe de recherche MT de l'Université de Georgetown , dirigée par le professeur Michael Zarechnak, a suivi (1951) avec une démonstration publique de son système d' expérience Georgetown-IBM en 1954. Des programmes de recherche MT ont fait leur apparition au Japon et en Russie (1955), et la première conférence de MT a été tenue à Londres (1956).

David G. Hays « a écrit sur le traitement du langage assisté par ordinateur dès 1957 » et « a été chef de projet sur la linguistique informatique chez Rand de 1955 à 1968 ».

1960-1975

Les chercheurs ont continué à se joindre au domaine lorsque l'Association for Machine Translation and Computational Linguistics a été formée aux États-Unis (1962) et la National Academy of Sciences a formé le Automatic Language Processing Advisory Committee (ALPAC) pour étudier la TA (1964). Les progrès réels ont été beaucoup plus lents, cependant, et après le rapport ALPAC (1966), qui a constaté que la recherche de dix ans n'avait pas répondu aux attentes, le financement a été considérablement réduit. Selon un rapport de 1972 du directeur de la recherche et de l'ingénierie pour la défense (DDR&E), la faisabilité de la MT à grande échelle a été rétablie par le succès du système Logos MT dans la traduction de manuels militaires en vietnamien pendant ce conflit.

L'Institut français du textile a également utilisé la TA pour traduire des résumés de et vers le français, l'anglais, l'allemand et l'espagnol (1970); L'université Brigham Young a lancé un projet de traduction automatique de textes mormons (1971).

1975 et au-delà

SYSTRAN , qui « a été le pionnier du domaine dans le cadre de contrats du gouvernement américain » dans les années 1960, a été utilisé par Xerox pour traduire des manuels techniques (1978). À partir de la fin des années 1980, alors que la puissance de calcul augmentait et devenait moins chère, un intérêt accru s'est manifesté pour les modèles statistiques pour la traduction automatique . La TA est devenue plus populaire après l'avènement des ordinateurs. Le premier système de mise en œuvre de SYSTRAN a été mis en œuvre en 1988 par le service en ligne de la Poste française appelé Minitel. Diverses sociétés de traduction assistée par ordinateur ont également été lancées, dont Trados (1984), qui a été la première à développer et à commercialiser la technologie de mémoire de traduction (1989), bien que ce ne soit pas la même chose que MT. Le premier système MT commercial pour le russe / l'anglais / l'allemand-ukrainien a été développé à l'Université d'État de Kharkov (1991).

En 1998, « pour aussi peu que 29,95 $ », on pouvait « acheter un programme pour traduire dans une seule direction entre l'anglais et une langue européenne majeure de votre choix » pour l'exécuter sur un PC.

MT sur le web a commencé avec SYSTRAN qui proposait la traduction gratuite de petits textes (1996) puis via AltaVista Babelfish, qui enregistrait 500 000 demandes par jour (1997). Le deuxième service de traduction gratuit sur le Web était GlobaLink de Lernout & Hauspie . Atlantic Magazine a écrit en 1998 que « Babelfish de Systran et Comprende de GlobaLink » traitaient « Ne misez pas dessus » avec une « performance compétente ».

Franz Josef Och (le futur responsable du développement de la traduction chez Google) a remporté le concours Speed ​​MT de la DARPA (2003). D'autres innovations au cours de cette période comprenaient MOSES, le moteur de traduction automatique statistique open source (2007), un service de traduction de texte/SMS pour les mobiles au Japon (2008) et un téléphone mobile avec une fonctionnalité de traduction vocale intégrée pour l'anglais. , japonais et chinois (2009). En 2012, Google a annoncé que Google Translate traduisait à peu près suffisamment de texte pour remplir 1 million de livres en une journée.

Processus de traduction

Le processus de traduction humaine peut être décrit comme :

  1. Décoder le sens du texte source ; et
  2. Ré- encoder ce sens dans la langue cible.

Derrière cette procédure ostensiblement simple se cache une opération cognitive complexe . Pour décoder le sens du texte source dans son intégralité, le traducteur doit interpréter et analyser toutes les caractéristiques du texte, un processus qui nécessite une connaissance approfondie de la grammaire , sémantique , syntaxe , idiomes , etc., de la langue source , ainsi que la culture de ses locuteurs. Le traducteur a besoin des mêmes connaissances approfondies pour ré-encoder le sens dans la langue cible.

C'est là que réside le défi de la traduction automatique : comment programmer un ordinateur qui « comprendra » un texte comme le fait une personne, et qui « créera » un nouveau texte dans la langue cible qui sonnera comme s'il avait été écrit par une personne . À moins d'être aidé par une « base de connaissances », la TA ne fournit qu'une approximation générale, bien qu'imparfaite, du texte original, en obtenant « l'essentiel » de celui-ci (un processus appelé « gisting »). C'est suffisant à de nombreuses fins, y compris pour tirer le meilleur parti du temps fini et coûteux d'un traducteur humain, réservé aux cas où une précision totale est indispensable.

Approches

Pyramide de Bernard Vauquois montrant les profondeurs comparatives de la représentation intermédiaire, la traduction automatique interlingue au sommet, suivie de la traduction par transfert, puis de la traduction directe.

La traduction automatique peut utiliser une méthode basée sur des règles linguistiques , ce qui signifie que les mots seront traduits de manière linguistique - les mots les plus appropriés (oralement) de la langue cible remplaceront ceux de la langue source.

Il est souvent avancé que le succès de la traduction automatique nécessite d'abord de résoudre le problème de la compréhension du langage naturel .

Généralement, les méthodes basées sur des règles analysent un texte, créant généralement une représentation symbolique intermédiaire, à partir de laquelle le texte dans la langue cible est généré. Selon la nature de la représentation intermédiaire, une approche est qualifiée de traduction automatique interlingue ou de traduction automatique par transfert . Ces méthodes nécessitent des lexiques étendus avec des informations morphologiques , syntaxiques et sémantiques , et de grands ensembles de règles.

Avec suffisamment de données, les programmes de traduction automatique fonctionnent souvent assez bien pour qu'un locuteur natif d'une langue obtienne le sens approximatif de ce qui est écrit par l'autre locuteur natif. La difficulté est d'obtenir suffisamment de données du bon type pour prendre en charge la méthode particulière. Par exemple, le grand corpus multilingue de données nécessaires au fonctionnement des méthodes statistiques n'est pas nécessaire pour les méthodes basées sur la grammaire. Mais alors, les méthodes de grammaire ont besoin d'un linguiste qualifié pour concevoir soigneusement la grammaire qu'elles utilisent.

Pour traduire entre des langues étroitement liées, la technique appelée traduction automatique basée sur des règles peut être utilisée.

Basé sur des règles

Le paradigme de traduction automatique basé sur des règles comprend la traduction automatique basée sur le transfert, la traduction automatique interlingue et les paradigmes de traduction automatique basés sur un dictionnaire. Ce type de traduction est principalement utilisé dans la création de dictionnaires et de programmes de grammaire. Contrairement à d'autres méthodes, RBMT implique plus d'informations sur la linguistique des langues source et cible, en utilisant les règles morphologiques et syntaxiques et l'analyse sémantique des deux langues. L'approche de base consiste à lier la structure de la phrase d'entrée à la structure de la phrase de sortie à l'aide d'un parseur et d'un analyseur pour la langue source, d'un générateur pour la langue cible et d'un lexique de transfert pour la traduction proprement dite. Le plus gros inconvénient de RBMT est que tout doit être rendu explicite : les variations orthographiques et les entrées erronées doivent faire partie de l'analyseur de langue source afin de les gérer, et des règles de sélection lexicales doivent être écrites pour toutes les instances d'ambiguïté. L'adaptation à de nouveaux domaines en soi n'est pas si difficile, car la grammaire de base est la même dans tous les domaines et l'ajustement spécifique au domaine est limité à l'ajustement de la sélection lexicale.

Traduction automatique basée sur le transfert

La traduction automatique basée sur le transfert est similaire à la traduction automatique interlingue en ce sens qu'elle crée une traduction à partir d'une représentation intermédiaire qui simule le sens de la phrase originale. Contrairement à la TA interlingue, elle dépend en partie de la paire de langues impliquée dans la traduction.

Interlingue

La traduction automatique interlingue est un exemple d'approches de traduction automatique basées sur des règles. Dans cette approche, la langue source, c'est-à-dire le texte à traduire, est transformée en une langue interlingue, c'est-à-dire une représentation « linguistique neutre », indépendante de toute langue. La langue cible est ensuite générée à partir de l' interlingua . L'un des principaux avantages de ce système est que l'interlingua gagne en valeur à mesure que le nombre de langues cibles vers lesquelles il peut être transformé augmente. Cependant, le seul système de traduction automatique interlingue qui a été rendu opérationnel au niveau commercial est le système KANT (Nyberg et Mitamura, 1992), qui est conçu pour traduire l'anglais technique Caterpillar (CTE) dans d'autres langues.

Basé sur un dictionnaire

La traduction automatique peut utiliser une méthode basée sur des entrées de dictionnaire , ce qui signifie que les mots seront traduits tels quels par un dictionnaire.

Statistique

La traduction automatique statistique essaie de générer des traductions à l'aide de méthodes statistiques basées sur des corpus de textes bilingues, tels que le corpus du hansard canadien , le dossier anglais-français du parlement canadien et EUROPARL , le dossier du Parlement européen . Lorsque de tels corpus sont disponibles, de bons résultats peuvent être obtenus en traduisant des textes similaires, mais de tels corpus sont encore rares pour de nombreuses paires de langues. Le premier logiciel statistique de traduction automatique était CANDIDE d' IBM . Google a utilisé SYSTRAN pendant plusieurs années, mais est passé à une méthode de traduction statistique en octobre 2007. En 2005, Google a amélioré ses capacités de traduction internes en utilisant environ 200 milliards de mots des documents des Nations Unies pour former son système ; précision de la traduction améliorée. Google Translate et les programmes de traduction statistique similaires fonctionnent en détectant des modèles dans des centaines de millions de documents qui ont déjà été traduits par des humains et en faisant des suppositions intelligentes sur la base des résultats. En général, plus il y a de documents traduits humainement disponibles dans une langue donnée, plus il est probable que la traduction sera de bonne qualité. Les nouvelles approches de la traduction automatique statistique telles que METIS II et PRESEMT utilisent une taille de corpus minimale et se concentrent plutôt sur la dérivation de la structure syntaxique par la reconnaissance de formes. Avec le développement ultérieur, cela peut permettre à la traduction automatique statistique de fonctionner à partir d'un corpus de texte monolingue. Le plus gros problème de SMT est qu'il dépend d'énormes quantités de textes parallèles, ses problèmes avec les langues riches en morphologie (en particulier avec la traduction dans ces langues) et son incapacité à corriger les erreurs singleton.

Basé sur des exemples

L'approche de traduction automatique basée sur des exemples (EBMT) a été proposée par Makoto Nagao en 1984. La traduction automatique basée sur des exemples est basée sur l'idée d'analogie. Dans cette approche, le corpus utilisé est celui qui contient des textes déjà traduits. Étant donné une phrase qui doit être traduite, des phrases de ce corpus sont sélectionnées qui contiennent des composants subsententielles similaires. Les phrases similaires sont ensuite utilisées pour traduire les composants sub-sententielles de la phrase originale dans la langue cible, et ces phrases sont assemblées pour former une traduction complète.

MT hybride

La traduction automatique hybride (HMT) tire parti des atouts des méthodologies de traduction statistiques et basées sur des règles. Plusieurs organisations de TA revendiquent une approche hybride qui utilise à la fois des règles et des statistiques. Les approches diffèrent à plusieurs égards :

  • Règles post-traitées par statistiques : Les traductions sont effectuées à l'aide d'un moteur basé sur des règles. Les statistiques sont ensuite utilisées pour tenter d'ajuster/corriger la sortie du moteur de règles.
  • Statistiques guidées par des règles : Les règles sont utilisées pour pré-traiter les données dans le but de mieux guider le moteur statistique. Des règles sont également utilisées pour post-traiter la sortie statistique afin d'exécuter des fonctions telles que la normalisation. Cette approche a beaucoup plus de puissance, de flexibilité et de contrôle lors de la traduction. Il fournit également un contrôle étendu sur la manière dont le contenu est traité pendant la pré-traduction (par exemple, le balisage du contenu et les termes non traduisibles) et la post-traduction (par exemple, les corrections et ajustements après la traduction).

Plus récemment, avec l'avènement de la traduction automatique neuronale, une nouvelle version de la traduction automatique hybride est en train d'émerger qui combine les avantages des règles, de la traduction automatique statistique et neuronale. L'approche permet de bénéficier du pré-traitement et du post-traitement dans un flux de travail guidé par des règles ainsi que de bénéficier de NMT et SMT. L'inconvénient est la complexité inhérente qui rend l'approche adaptée uniquement à des cas d'utilisation spécifiques.

TA neuronale

Un apprentissage en profondeur l' approche à base de MT, la traduction automatique de neurones a fait des progrès rapides ces dernières années, et Google a annoncé ses services de traduction utilisent maintenant cette technologie , de préférence sur ses méthodes statistiques précédentes. Une équipe de Microsoft a affirmé avoir atteint la parité humaine au WMT-2017 ("EMNLP 2017 Second Conference On Machine Translation") en 2018, marquant une étape historique. Cependant, de nombreux chercheurs ont critiqué cette affirmation, reprenant et discutant de leurs expériences ; le consensus actuel est que la soi-disant parité humaine atteinte n'est pas réelle, étant entièrement basée sur des domaines limités, des paires de langues et certaines combinaisons de tests, c'est-à-dire qu'elle manque de pouvoir de signification statistique. Il reste encore un long chemin à parcourir avant que NMT n'atteigne de réelles performances de parité humaine.

Pour traiter la traduction de phrases idiomatiques, les expressions multi-mots et les mots à basse fréquence (également appelés OOV, ou traduction de mots hors vocabulaire), les caractéristiques linguistiques axées sur la langue ont été explorées dans une machine neuronale de pointe. modèles de traduction (NMT). Par exemple, les décompositions de caractères chinois en radicaux et en traits se sont avérées utiles pour traduire des expressions à plusieurs mots en NMT.

Problèmes majeurs

La traduction automatique peut produire des phrases incompréhensibles.
Chinois cassé "沒有進入" de la traduction automatique à Bali, Indonésie . La phrase chinoise brisée sonne comme "il n'existe pas d'entrée" ou "je n'ai pas encore entré"

Désambiguïsation

La désambiguïsation du sens des mots consiste à trouver une traduction appropriée lorsqu'un mot peut avoir plus d'un sens. Le problème a été soulevé pour la première fois dans les années 1950 par Yehoshua Bar-Hillel . Il a souligné que sans une "encyclopédie universelle", une machine ne serait jamais capable de distinguer les deux sens d'un mot. Aujourd'hui, il existe de nombreuses approches conçues pour surmonter ce problème. Ils peuvent être approximativement divisés en approches « superficielles » et approches « profondes ».

Les approches superficielles supposent aucune connaissance du texte. Ils appliquent simplement des méthodes statistiques aux mots entourant le mot ambigu. Les approches profondes supposent une connaissance approfondie du mot. Jusqu'à présent, les approches superficielles ont eu plus de succès.

Claude Piron , traducteur de longue date pour les Nations Unies et l' Organisation mondiale de la santé , a écrit que la traduction automatique, à son meilleur, automatise la partie la plus facile du travail d'un traducteur ; la partie la plus difficile et la plus longue consiste généralement à effectuer des recherches approfondies pour résoudre les ambiguïtés dans le texte source , que les exigences grammaticales et lexicales de la langue cible exigent pour être résolues :

Pourquoi un traducteur a-t-il besoin d'une journée entière de travail pour traduire cinq pages, et non une heure ou deux ? ..... Environ 90% d'un texte moyen correspond à ces conditions simples. Mais malheureusement, il y a les 10 % restants. C'est cette partie qui nécessite six [plus] heures de travail. Il y a des ambiguïtés à résoudre. Par exemple, l'auteur du texte source, un médecin australien, a cité l'exemple d'une épidémie qui s'est déclarée pendant la Seconde Guerre mondiale dans un « camp de prisonniers de guerre japonais ». Parlait-il d'un camp américain avec des prisonniers japonais ou d'un camp japonais avec des prisonniers américains ? L'anglais a deux sens. Il faut donc faire des recherches, peut-être dans la mesure d'un coup de fil vers l'Australie.

L'approche profonde idéale exigerait que le logiciel de traduction effectue lui-même toutes les recherches nécessaires à ce type de désambiguïsation ; mais cela nécessiterait un degré d' IA plus élevé que celui qui a encore été atteint. Une approche superficielle qui devinerait simplement le sens de la phrase anglaise ambiguë que mentionne Piron (en fonction, peut-être, du type de camp de prisonniers de guerre le plus souvent mentionné dans un corpus donné) aurait une chance raisonnable de se tromper assez souvent. Selon l'estimation de Piron, une approche superficielle qui implique « interroger l'utilisateur sur chaque ambiguïté » n'automatiserait qu'environ 25 % du travail d'un traducteur professionnel, laissant les 75 % les plus difficiles à effectuer par un humain.

Discours non standard

L'un des principaux pièges de la traduction automatique est son incapacité à traduire une langue non standard avec la même précision que la langue standard. La TA basée sur des heuristiques ou des statistiques prend les entrées de diverses sources sous la forme standard d'un langage. La traduction basée sur des règles, par nature, n'inclut pas les usages non standard courants. Cela provoque des erreurs de traduction à partir d'une source vernaculaire ou dans une langue familière. Les limitations de la traduction à partir d'un discours informel présentent des problèmes dans l'utilisation de la traduction automatique dans les appareils mobiles.

Entités nommées

Dans l' extraction d'informations , les entités nommées, au sens étroit, font référence à des entités concrètes ou abstraites du monde réel telles que des personnes, des organisations, des entreprises et des lieux qui ont un nom propre : George Washington, Chicago, Microsoft. Il fait également référence à des expressions de temps, d'espace et de quantité comme le 1er juillet 2011, 500 $.

Dans la phrase « Smith est le président de Fabrionix », à la fois Smith et Fabrionix sont des entités nommées et peuvent être davantage qualifiés par le biais du prénom ou d'autres informations ; « président » ne l'est pas, car Smith aurait pu occuper plus tôt un autre poste chez Fabrionix, par exemple celui de vice-président. Le terme désignateur rigide est ce qui définit ces usages pour l'analyse en traduction automatique statistique.

Les entités nommées doivent d'abord être identifiées dans le texte ; sinon, ils peuvent être traduits à tort comme des noms communs, ce qui n'affecterait probablement pas la cote BLEU de la traduction, mais modifierait la lisibilité humaine du texte. Ils peuvent être omis de la traduction de sortie, ce qui aurait également des implications pour la lisibilité et le message du texte.

La translittération consiste à trouver les lettres dans la langue cible qui correspondent le plus au nom dans la langue source. Ceci, cependant, a été cité comme détériorant parfois la qualité de la traduction. Pour « Californie du Sud », le premier mot doit être traduit directement, tandis que le deuxième mot doit être translittéré. Les machines translittèrent souvent les deux parce qu'elles les traitaient comme une seule entité. Des mots comme ceux-ci sont difficiles à traiter pour les traducteurs automatiques, même ceux qui ont une composante de translittération.

Utilisation d'une liste « ne pas traduire », qui a le même objectif final : la translittération par opposition à la traduction. repose toujours sur l'identification correcte des entités nommées.

Une troisième approche est un modèle basé sur les classes. Les entités nommées sont remplacées par un jeton pour représenter leur « classe » ; « Ted » et « Erica » seraient tous deux remplacés par le jeton de classe « personne ». Ensuite, la distribution statistique et l'utilisation des noms de personnes, en général, peuvent être analysées au lieu de regarder les distributions de "Ted" et "Erica" ​​individuellement, de sorte que la probabilité d'un nom donné dans une langue spécifique n'affectera pas la probabilité attribuée d'une traduction. Une étude de Stanford sur l'amélioration de ce domaine de traduction donne des exemples selon lesquels différentes probabilités seront attribuées à "David va se promener" et "Ankit va se promener" pour l'anglais comme langue cible en raison du nombre différent d'occurrences pour chaque nom dans les données d'apprentissage. Un résultat frustrant de la même étude de Stanford (et d'autres tentatives pour améliorer la traduction de la reconnaissance nommée) est que plusieurs fois, une diminution des scores BLEU pour la traduction résultera de l'inclusion de méthodes pour la traduction d'entités nommées.

Les expressions « boire du thé avec du lait » et « boire du thé avec Molly » sont quelque peu liées.

Traduction à partir de sources multiparallèles

Certains travaux ont été effectués sur l'utilisation de corpus multiparallèles , c'est-à-dire un corps de texte qui a été traduit en 3 langues ou plus. En utilisant ces méthodes, un texte qui a été traduit dans 2 langues ou plus peut être utilisé en combinaison pour fournir une traduction plus précise dans une troisième langue par rapport à si une seule de ces langues sources était utilisée seule.

Les ontologies en TA

Une ontologie est une représentation formelle de la connaissance qui inclut les concepts (tels que les objets, les processus, etc.) dans un domaine et certaines relations entre eux. Si les informations stockées sont de nature linguistique, on peut parler de lexique. En TAL , les ontologies peuvent être utilisées comme source de connaissances pour les systèmes de traduction automatique. Avec l'accès à une large base de connaissances, les systèmes peuvent être activés pour résoudre de nombreuses ambiguïtés (surtout lexicales) par eux-mêmes. Dans les exemples classiques suivants, en tant qu'êtres humains, nous sommes capables d'interpréter la phrase prépositionnelle en fonction du contexte car nous utilisons notre connaissance du monde, stockée dans nos lexiques :

"J'ai vu un homme/une étoile/une molécule avec un microscope/un télescope/des jumelles."

Un système de traduction automatique ne serait initialement pas en mesure de différencier les significations car la syntaxe ne change pas. Cependant, avec une ontologie suffisamment grande comme source de connaissance, les interprétations possibles de mots ambigus dans un contexte spécifique peuvent être réduites. D' autres domaines d'utilisation pour les ontologies dans la PNL comprennent la recherche d'information , l' extraction de l' information et du texte summarization .

Construire des ontologies

L'ontologie générée pour le système de traduction automatique basé sur les connaissances PANGLOSS en 1993 peut servir d'exemple de la façon dont une ontologie à des fins de PNL peut être compilée :

  • Une ontologie à grande échelle est nécessaire pour faciliter l'analyse dans les modules actifs du système de traduction automatique.
  • Dans l'exemple PANGLOSS, environ 50 000 nœuds étaient destinés à être subsumés sous la région supérieure (abstraite) plus petite et construite manuellement de l'ontologie. En raison de sa taille, il a dû être créé automatiquement.
  • L'objectif était de fusionner les deux ressources LDOCE en ligne et WordNet pour combiner les avantages des deux : des définitions concises de Longman et des relations sémantiques permettant une taxonomisation semi-automatique à l'ontologie de WordNet.
    • Un algorithme de correspondance de définition a été créé pour fusionner automatiquement les significations correctes des mots ambigus entre les deux ressources en ligne, sur la base des mots que les définitions de ces significations ont en commun dans LDOCE et WordNet. À l'aide d'une matrice de similarité , l'algorithme a fourni des correspondances entre les significations, y compris un facteur de confiance. Cet algorithme seul, cependant, ne correspondait pas correctement à toutes les significations à lui seul.
    • Un deuxième algorithme de correspondance hiérarchique a donc été créé qui utilise les hiérarchies taxonomiques trouvées dans WordNet (hiérarchies profondes) et partiellement dans LDOCE (hiérarchies plates). Cela fonctionne en faisant d'abord correspondre des significations non ambiguës, puis en limitant l'espace de recherche aux seuls ancêtres et descendants respectifs de ces significations correspondantes. Ainsi, l'algorithme correspondait localement à des significations non ambiguës (par exemple, alors que le mot sceau en tant que tel est ambigu, il n'y a qu'une seule signification de « sceau » dans la sous - hiérarchie animale ).
  • Les deux algorithmes se sont complémentaires et ont aidé à construire une ontologie à grande échelle pour le système de traduction automatique. Les hiérarchies WordNet, couplées aux définitions correspondantes de LDOCE, étaient subordonnées à la région supérieure de l'ontologie . En conséquence, le système PANGLOSS MT a pu utiliser cette base de connaissances, principalement dans son élément de génération.

Applications

Bien qu'aucun système ne fournisse le Saint Graal d'une traduction automatique de haute qualité entièrement automatique de texte sans restriction, de nombreux systèmes entièrement automatisés produisent un résultat raisonnable. La qualité de la traduction automatique est considérablement améliorée si le domaine est restreint et contrôlé.

Malgré leurs limites inhérentes, les programmes de TA sont utilisés dans le monde entier. L'utilisateur institutionnel le plus important est probablement la Commission européenne . LesLe projet MOLTO , par exemple, coordonné par l' Université de Göteborg , a reçu un soutien de projet de plus de 2,375 millions d'euros de la part de l'UE pour créer un outil de traduction fiable qui couvre la majorité des langues de l'UE. La poursuite du développement des systèmes de TA intervient à un moment où les coupes budgétaires dans la traduction humaine peuvent accroître la dépendance de l'UE à l'égard de programmes de TA fiables. La Commission européenne a contribué 3,072 millions d'euros (via son programme ISA) à la création de MT@EC, un programme statistique de traduction automatique adapté aux besoins administratifs de l'UE, pour remplacer un ancien système de traduction automatique basé sur des règles.

En 2005, Google a affirmé que des résultats prometteurs avaient été obtenus en utilisant un moteur de traduction automatique statistique propriétaire. Le moteur de traduction statistique utilisé dans les outils linguistiques de Google pour l'arabe <-> l'anglais et le chinois <-> l'anglais a obtenu un score global de 0,4281 par rapport au score BLEU -4 d'IBM de 0,3954 (été 2006) lors des tests menés par le National Institut des normes et de la technologie.

Avec l'accent mis récemment sur le terrorisme, les sources militaires aux États-Unis ont investi des sommes importantes dans l'ingénierie du langage naturel. In-Q-Tel (un fonds de capital- risque, largement financé par la communauté américaine du renseignement, pour stimuler les nouvelles technologies par le biais d'entrepreneurs du secteur privé) a créé des sociétés comme Language Weaver . Actuellement, la communauté militaire s'intéresse à la traduction et au traitement de langues comme l' arabe , le pachto et le dari . Dans ces langues, l'accent est mis sur les phrases clés et la communication rapide entre les militaires et les civils grâce à l'utilisation d'applications pour téléphones mobiles. Le bureau de la technologie de traitement de l'information de la DARPA héberge des programmes tels que TIDES et le traducteur Babylon . L'US Air Force a attribué un contrat d'un million de dollars pour développer une technologie de traduction linguistique.

L'essor notable des réseaux sociaux sur le Web ces dernières années a créé un autre créneau pour l'application de logiciels de traduction automatique - dans des utilitaires tels que Facebook ou des clients de messagerie instantanée tels que Skype, GoogleTalk, MSN Messenger, etc. - permettant aux utilisateurs de parler différentes langues pour communiquer entre elles. Des applications de traduction automatique ont également été lancées pour la plupart des appareils mobiles, y compris les téléphones mobiles, les ordinateurs de poche, les PDA, etc. En raison de leur portabilité, ces instruments sont désormais désignés comme des outils de traduction mobiles permettant la mise en réseau d'entreprises mobiles entre partenaires parlant différentes langues, ou facilitant à la fois l'apprentissage des langues étrangères et les voyages non accompagnés dans des pays étrangers sans avoir besoin de l'intermédiation d'un traducteur humain.

Bien qu'elle ait été qualifiée de concurrent indigne de la traduction humaine en 1966 par l'Automated Language Processing Advisory Committee mis en place par le gouvernement des États-Unis, la qualité de la traduction automatique a maintenant été améliorée à des niveaux tels que son application dans la collaboration en ligne et dans le domaine médical sont à l'étude. L'application de cette technologie dans des milieux médicaux où les traducteurs humains sont absents est un autre sujet de recherche, mais des difficultés surviennent en raison de l'importance de traductions précises dans les diagnostics médicaux.

Évaluation

De nombreux facteurs affectent la façon dont les systèmes de traduction automatique sont évalués. Ces facteurs incluent l'utilisation prévue de la traduction, la nature du logiciel de traduction automatique et la nature du processus de traduction.

Différents programmes peuvent bien fonctionner à des fins différentes. Par exemple, la traduction automatique statistique (SMT) surpasse généralement la traduction automatique basée sur des exemples (EBMT), mais les chercheurs ont découvert que lors de l'évaluation de la traduction de l'anglais vers le français, l'EBMT fonctionne mieux. Le même concept s'applique aux documents techniques, qui peuvent être plus facilement traduits par SMT en raison de leur langage formel.

Dans certaines applications, cependant, par exemple, les descriptions de produits écrites dans une langue contrôlée , un système de traduction automatique basé sur un dictionnaire a produit des traductions satisfaisantes qui ne nécessitent aucune intervention humaine, à l'exception d'un contrôle qualité.

Il existe différents moyens d'évaluer la qualité de sortie des systèmes de traduction automatique. La plus ancienne est l'utilisation de juges humains pour évaluer la qualité d'une traduction. Même si l'évaluation humaine prend du temps, elle reste la méthode la plus fiable pour comparer différents systèmes tels que les systèmes basés sur des règles et les systèmes statistiques. Les moyens d'évaluation automatisés comprennent BLEU , NIST , METEOR et LEPOR .

S'appuyer exclusivement sur la traduction automatique non éditée ignore le fait que la communication en langage humain est ancrée dans le contexte et qu'il faut une personne pour comprendre le contexte du texte original avec un degré de probabilité raisonnable. Il est certainement vrai que même les traductions purement humaines sont sujettes à l'erreur. Par conséquent, pour garantir qu'une traduction générée par machine sera utile à un être humain et qu'une traduction de qualité publiable est obtenue, ces traductions doivent être révisées et éditées par un humain. Le regretté Claude Piron a écrit que la traduction automatique, à son meilleur, automatise la partie la plus facile du travail d'un traducteur ; la partie la plus difficile et la plus longue consiste généralement à faire des recherches approfondies pour résoudre les ambiguïtés dans le texte source , que les exigences grammaticales et lexicales de la langue cible exigent pour être résolues. Une telle recherche est un prélude nécessaire à la pré-édition nécessaire afin de fournir une entrée pour le logiciel de traduction automatique de telle sorte que la sortie ne soit pas dénuée de sens .

En plus des problèmes de désambiguïsation, une diminution de la précision peut se produire en raison des niveaux variables de données d'entraînement pour les programmes de traduction automatique. La traduction automatique basée sur des exemples et statistique repose sur une vaste gamme de phrases d'exemples réels comme base de traduction, et lorsque trop ou trop peu de phrases sont analysées, la précision est compromise. Les chercheurs ont découvert que lorsqu'un programme est formé sur 203 529 paires de phrases, la précision diminue en fait. Le niveau optimal des données d'apprentissage semble être d'un peu plus de 100 000 phrases, peut-être parce qu'à mesure que les données d'apprentissage augmentent, le nombre de phrases possibles augmente, ce qui rend plus difficile la recherche d'une traduction exacte.

Utiliser la traduction automatique comme outil pédagogique

Bien qu'il y ait eu des inquiétudes quant à l'exactitude de la traduction automatique, le Dr Ana Nino de l'Université de Manchester a étudié certains des avantages de l'utilisation de la traduction automatique en classe. L'une de ces méthodes pédagogiques s'appelle l'utilisation de « la TA en tant que mauvais modèle ». La TA en tant que mauvais modèle oblige l'apprenant à identifier les incohérences ou les aspects incorrects d'une traduction ; à son tour, l'individu possédera (espérons-le) une meilleure compréhension de la langue. Le Dr Nino cite que cet outil d'enseignement a été mis en œuvre à la fin des années 1980. À la fin de divers semestres, le Dr Nino a pu obtenir des résultats d'enquête auprès d'étudiants qui avaient utilisé la TA comme un mauvais modèle (ainsi que d'autres modèles). De manière écrasante, les étudiants ont estimé qu'ils avaient observé une meilleure compréhension, une récupération lexicale et une augmentation confiance dans leur langue cible.

Traduction automatique et langues des signes

Au début des années 2000, les options de traduction automatique entre les langues parlées et signées étaient très limitées. C'était une croyance commune que les personnes sourdes pouvaient utiliser des traducteurs traditionnels. Cependant, l'accent, l'intonation, la hauteur et le timing sont transmis de manière très différente dans les langues parlées par rapport aux langues des signes. Par conséquent, une personne sourde peut mal interpréter ou devenir confuse quant au sens d'un texte écrit basé sur une langue parlée.

Les chercheurs Zhao, et al. (2000), a développé un prototype appelé TEAM (traduction de l'anglais vers l'ASL par machine) qui a complété les traductions de l'anglais vers la langue des signes américaine (ASL). Le programme analyserait d'abord les aspects syntaxiques, grammaticaux et morphologiques du texte anglais. Après cette étape, le programme a accédé à un synthétiseur de signes, qui servait de dictionnaire pour l'ASL. Ce synthétiseur abritait le processus à suivre pour compléter les signes ASL, ainsi que la signification de ces signes. Une fois que le texte entier est analysé et que les signes nécessaires pour terminer la traduction sont localisés dans le synthétiseur, un humain généré par ordinateur est apparu et utiliserait l'ASL pour signer le texte anglais à l'utilisateur.

droits d'auteur

Seules les œuvres qui sont d' origine sont soumis à des droits d' auteur protection, de sorte que certains chercheurs affirment que les résultats de la traduction automatique ne sont pas le droit à la protection du droit d'auteur parce que MT ne comporte pas la créativité . Le droit d'auteur en cause concerne une œuvre dérivée ; l'auteur de l' œuvre originale dans la langue originale ne perd pas ses droits lorsqu'une œuvre est traduite : un traducteur doit avoir l'autorisation de publier une traduction.

Voir également

Remarques

Lectures complémentaires

Liens externes