Translation with Large Language Models

Le projet TraLaLaM

En l’espace de six courtes années (2017-2023), le domaine du traitement des langues (TAL) a été profondément transformé par les avancées des architectures neuronales génériques, qui sont à la fois utilisées pour apprendre des représentations profondes pour les unités linguistiques et pour générer du contenu textuel de haute qualité. Ces architectures sont aujourd’hui omniprésentes dans les applications de TAL ; entraînés à grande échelle, ces “grands modèles de langue” (LLM) offrent de multiples services (résumé, aide à la rédaction, traduction) dans un unique modèle grâce à des conversations presque naturelles et des techniques d’amorçage (prompting).

Ce projet vise à analyser cette nouvelle situation du point de vue de la traduction automatique (TA) et à étudier deux questions principales :

Les techniques d’amorçage permettent d’injecter facilement divers types d’informations susceptibles d’aider un système de traduction automatique à tenir compte du contexte, par exemple pour s’adapter à un domaine, à un genre, à un style, à la mémoire de traduction d’un client, aux compétences linguistiques du lecteur, etc. L’amorçage est-il également efficace dans toutes ces situations, à condition que de bonnes instructions puissent être construites, ou bien est-il illusoire d’espérer des améliorations sans un affinage (fine-tuning) du modèle ?
Comme les LLM peuvent être entraînés sans données parallèles, ils ouvrent la perspective d’une amélioration de la TA pour des domaines, styles et paires de langues pour lesquelles de telles ressources sont rares, voire inexistantes. Cette promesse peut-elle être tenue, en particulier pour les dialectes ou les langues régionales à faibles ressources ?

Pour répondre à ces deux questions, le projet TRaLaLaM va également :
collecter des données pour les langues peu dotées et les utiliser pour étendre les LLM existants,
développer de nouveaux corpus de test et des stratégies d’évaluation associées.

Les partenaires TraLaLaM

Le consortium est composé de deux équipes de recherche académique : ISIR/MLIA (Sorbonne-Université and CNRS) et ALMAnaCH (Inria , Paris) et une PME : SYSTRAN.

L'ISIR est un laboratoire commun à la Sorbonne-Université et au CNRS. Au sein de l'ISIR, l'équipe MLIA mène des recherches dans le domaine du Machine Learning (ML) en mettant l'accent sur les aspects algorithmiques et sur les applications impliquant l'analyse de données sémantiques et la modélisation de systèmes complexes.

Inria est l'Institut national de recherche en sciences et technologies du numérique. ALMAnaCH est l'équipe de recherche en traitement du langage naturel d'Inria Paris. Elle mène des recherches dans le domaine du traitement du langage naturel et des humanités numériques.

Depuis sa création en 1968, SYSTRAN a été un pionnier dans les technologies de la traduction automatique. Fortement axée sur la recherche et le développement, SYSTRAN compte environ 100 employés et réalise un chiffre d'affaires de 20 millions d'euros.