Meta a annoncé l’élaboration du NLLB-200 « No Language Left Behind » en code source ouvert, un modèle d’IA unique, le premier à traduire 200 langues différentes, dont 55 langues africaines, avec des résultats probants. Meta utilise des techniques de modélisation et des enseignements issus de ce projet pour améliorer et élargir les traductions sur Facebook, Instagram et Wikipedia.
Dans le but de développer des capacités de traduction automatique de bonne qualité pour les langues à faibles ressources à travers le monde, ce modèle d’IA unique a été conçu en priorité pour les langues africaines. Elles sont considérées comme compliquées pour une traduction automatique. Les modèles d’IA nécessitent de nombreuses données pour les aider à décoder, sachant que pour ces langues, il existe peu de données de formation qui sont traduites par un humain. A titre d’exemple, il existe plus de 20 millions de personnes qui parlent et écrivent en Luganda, mais les exemples d’écrits en cette langue sont extrêmement rares sur Internet.
Nous avons collaboré avec plusieurs traducteurs professionnels pour chacune de ces langues afin de développer une référence fiable qui puisse automatiquement évaluer la qualité de la traduction de ces langues à faibles ressources. Nous travaillons également avec des traducteurs professionnels pour effectuer une évaluation humaine, impliquant des personnes natives de ces langues pour évaluer la traduction fournie par l’IA. Cependant la réalité est qu’une poignée de langues dominent le Web, ce qui signifie que seule une partie du monde peut accéder au contenu du Web et y participer dans leurs propres langues. Nous souhaitons changer cela en créant des systèmes de traduction automatique plus inclusifs – des systèmes qui déverrouillent l’accès au Web pour plus de 4 milliards de personnes à travers le monde qui se trouvent actuellement exclues sous prétexte qu’elles ne parlent pas l’une des rares langues dans laquelle le contenu est disponible.
« C’est impressionnant de voir à quel point l’IA améliore l’ensemble de nos services. Nous venons de développer et de mettre en place un modèle d’IA en code source ouvert qui peut traduire prés de 200 langues différentes, dont beaucoup ne sont pas prises en compte par les systèmes de traduction actuels. Nous avons nommé ce projet No Language Left Behind, et les techniques de modélisation de l’IA que nous avons utilisées permettent de réaliser des traductions de bonne qualité pour des langues parlées par des milliards de personnes dans le monde. Pour donner une idée de l’ampleur des choses, ce modèle en 200 langues compte plus de 50 milliards de paramètres, et nous l’avons formé à l’aide de notre nouveau Research SuperCluster, qui est l’une des super-machines de l’IA, les plus rapides au monde. Ces progrès permettront plus de 25 milliards de traductions chaque jour sur nos applications. La communication à travers les langues est une superpuissance fournie par l’IA, mais au fur et à mesure que nous évoluons dans nos projets d’IA, nous améliorons en même temps l’ensemble de nos travaux – de l’affichage des contenus les plus intéressants sur Facebook et Instagram, à la recommandation de publicités les plus pertinentes, en passant par la sécurité de nos services pour tous nos utilisateurs », a déclaré Mark Zuckerberg, PDG de Meta, dans un message sur son profil Facebook.
La langue est notre culture, notre identité et notre survie dans ce monde. Cependant, comme des outils de traduction de bonne qualité n’existent pas pour des centaines de langues, des milliards de personnes aujourd’hui ne peuvent pas accéder au contenu numérique ou participer pleinement aux échanges en ligne, et interagir avec les communautés d’internautes en parlant leur langue préférée ou leur langue maternelle. C’est une réalité qui concerne plus particulièrement les centaines de millions de personnes qui parlent les nombreuses langues d’Afrique.
« L’Afrique est un continent avec une grande diversité linguistique, cependant les barrières linguistiques font partie du quotidien. Nous sommes ravis d’annoncer que 55 langues africaines seront incluses dans cet outil de recherche de traduction automatique, ce qui représente une percée majeure pour notre continent », a déclaré Balkissa Ide Siddo, Directrice des Politiques Publiques pour l’Afrique chez Meta, en parlant du lancement du modèle d’IA. « Imaginez visiter votre groupe Facebook préféré à l’avenir et y retrouver un message en Igbo ou en Luganda, et être capable de le comprendre dans votre propre langue en cliquant simplement sur un bouton – c’est ce résultat que nous escomptons à travers des recherches comme celles-ci. Des traductions précises dans plusieurs langues pourraient également aider à identifier les contenus préjudiciables et la mésinformation, à protéger l’intégrité des élections, et à réduire les cas d’exploitation sexuelle et de trafic humain en ligne. »
Au sujet de l’accessibilité et l’inclusion dans le développement d’un Métavers équitable, Balkissa Ide Siddo a ajouté que « Chez Meta, nous travaillons aujourd’hui pour garantir à autant de personnes que possible l’accès aux nouvelles opportunités éducatives, sociales et économiques que la prochaine évolution de l’Internet apportera à la technologie future et à la vie quotidienne de demain. »
Afin de garantir une bonne qualité des traductions, Meta a également créé un nouvel ensemble de données d’évaluation, FLORES-200 et a mesuré les performances de NLLB-200 dans chaque langue. Les résultats ont révélé que NLLB-200 dépasse la performance de la précédente technologie la plus pointue en la matière de 44 % en moyenne.
Meta a également mis le modèle NLLB-200 en code source ouvert et a développé une multitude d’outils de recherche pour permettre à d’autres chercheurs d’étendre ce travail à d’autres langues et créer des technologies plus inclusives. Meta AI offre également jusqu’à 200 000 $ de subventions à des organisations à but non lucratif pour des applications réelles pour NLLB-200.
Il existe des versions de Wikipédia dans plus de 300 langues, mais la plupart de ces versions disposent de peu d’articles comparés à plus de 6 millions disponibles en anglais. Suite au partenariat de Meta avec la Wikimedia Foundation, l’organisation à but non lucratif qui héberge Wikipédia ainsi que d’autres projets de contenus gratuits, les techniques de modélisation et les enseignements retenus de la recherche NLLB sont désormais appliqués aux systèmes de traduction utilisés par les éditeurs de Wikipédia. À l’aide du Content Translation Tool de Wikimedia Foundation, les articles peuvent désormais être facilement traduits dans plus de 20 langues à faibles ressources (celles ne disposant pas d’assez de données pour former les systèmes d’IA), dont 10 qui auparavant n’étaient prises en compte par aucun outil de traduction automatique sur cette plateforme. Pour visionner une démonstration de NLLB-200 montrant comment le modèle peut traduire des récits du monde entier, rendez-vous ici. Vous pouvez également lire le document de recherche ici
200 langues pour un seul modèle d’IA : une percée dans la traduction automatique de qualité
- Meta AI a mis au point un modèle d’IA unique, NLLB-200, qui est le premier à traduire dans 200 langues différentes avec une qualité de pointe validée par des évaluations poussées pour chacune d’entre elles.
- Nous avons également créé un nouvel ensemble de données d’évaluation, FLORES-200, et mesuré les performances de NLLB-200 dans chaque langue pour confirmer que les traductions sont de qualité. En moyenne, NLLB-200 a réalisé des scores 44 % supérieurs au précédent modèle le plus performant.
- Nous nous appuyons désormais sur des techniques de modélisation et sur les conclusions tirées du projet pour améliorer et étendre les traductions sur Facebook, Instagram et Wikipédia.
- Nous mettons en libre accès les modèles NLLB-200, l’ensemble de données FLORES-200, le code d’apprentissage des modèles et le code permettant de recréer l’ensemble de données d’apprentissage afin d’aider d’autres chercheurs à améliorer leurs outils de traduction et à s’appuyer sur nos travaux.
La langue est notre culture, notre identité et notre lien avec le monde. Mais compte tenu de l’absence d’outils de traduction de qualité pour des centaines de langues, des milliards de personnes ne peuvent pas accéder aux contenus numériques ni participer pleinement aux conversations et aux communautés en ligne dans leur langue de prédilection ou maternelle. Cela est particulièrement vrai pour les centaines de millions de locuteurs des diverses langues d’Afrique et d’Asie.
Pour aider tout un chacun à mieux se connecter aujourd’hui et à prendre part au métavers de demain, les chercheurs de Meta AI ont créé No Language Left Behind (NLLB), une initiative visant à développer des fonctionnalités de traduction automatique de haute qualité pour la plupart des langues du monde. Nous annonçons aujourd’hui une avancée importante concernant NLLB : nous avons développé un modèle d’IA unique appelé NLLB-200, qui traduit 200 langues différentes avec des résultats exceptionnels. Nombre de ces langues, telles que le kamba et le lao, n’étaient pas ou peu prises en charge, même par les meilleurs outils de traduction existants aujourd’hui. Moins de 25 langues africaines sont actuellement prises en charge par les outils de traduction les plus répandus, dont beaucoup sont de mauvaise qualité. En comparaison, NLLB-200 prend en charge 55 langues africaines avec des résultats exceptionnels. Au total, ce modèle unique peut fournir des traductions de qualité pour des langues parlées par des milliards de locuteurs dans le monde. En moyenne, les scores BLEU du modèle NLLB-200 sont supérieurs de 44 % à ceux du précédent modèle le plus performant sur l’ensemble des 10 000 sens de traduction des données de référence FLORES-101. Pour certaines langues africaines et indiennes, cette différence dépasse 70 % par rapport aux systèmes de traduction récents.
Nous mettons désormais le modèle NLLB-200 en libre accès et publions un ensemble d’outils pour aider d’autres chercheurs à étendre nos travaux à de nouvelles langues et à mettre au point des technologies plus inclusives. Meta AI verse également jusqu’à 200 000 $ de subventions à des organisations à but non lucratif afin de les aider à développer des applications concrètes du modèle NLLB-200.
Les avancées scientifiques réalisées grâce à l’initiative NLLB permettront d’améliorer plus de 25 milliards de traductions effectuées chaque jour sur le fil d’actualité de Facebook, Instagram et nos autres plateformes. Imaginez-vous pouvoir consulter votre groupe Facebook favori, trouver une publication en igbo ou luganda et la comprendre dans votre propre langue d’un simple clic. L’amélioration de la précision des traductions dans plusieurs langues pourra également faciliter le repérage des contenus nuisibles et des fausses informations, afin de préserver l’intégrité des élections et lutter contre les phénomènes d’exploitation sexuelle et de traite d’êtres humains en ligne. Les techniques de modélisation et les découvertes de notre recherche NLLB sont désormais utilisées par les systèmes de traduction des éditeurs de Wikipédia.
La traduction est l’une des perspectives les plus intéressantes de l’IA, car elle a beaucoup d’incidence sur le quotidien des internautes. L’initiative NLLB ne vise pas seulement à renforcer l’accessibilité des contenus sur le web. Elle permet aux internautes d’échanger et de partager plus facilement des informations entre plusieurs langues. Nous avons encore du chemin à parcourir, mais ces récents progrès nous remplissent d’espoir et nous aident à mieux accomplir la mission de Meta.
Vous trouverez ici une démonstration du modèle NLLB-200 pour constater sa capacité à traduire des histoires du monde entier. Vous pourrez également lire nos travaux de recherche.
Proposer des outils de traduction à des milliards de locuteurs supplémentaires
Nous avons travaillé en partenariat avec la fondation Wikimédia, une organisation à but non lucratif qui héberge Wikipédia et d’autres sites d’accès gratuit au savoir, pour aider à améliorer les systèmes de traduction de Wikipédia. Wikipédia possède des versions en plus de 300 langues, mais la plupart des versions sont loin d’approcher les plus de 6 millions d’articles du Wikipédia anglais. Cet écart est particulièrement marqué pour les langues principalement parlées en dehors de l’Europe et de l’Amérique du Nord. Par exemple, il n’existe qu’environ 3 260 articles de Wikipédia en lingala, une langue qui compte 45 millions de locuteurs dans la République démocratique du Congo, la République du Congo, la République Centrafrique et le Soudan du Sud. À titre de comparaison, il existe plus de 2,5 millions d’articles en suédois, alors que cette langue est parlée par 10 millions de locuteurs en Suède et en Finlande.
Les éditeurs de Wikipédia ont désormais accès à la technologie à l’origine du modèle NLLB-200 via l’outil de traduction de contenu de la fondation Wikimédia. Ils peuvent ainsi traduire des articles dans plus de 20 langues pour lesquelles peu de ressources existent (qui manquent d’ensembles de données exhaustifs pour entraîner des systèmes d’IA), dont 10 qui n’étaient pas encore prises en charge par les outils de traduction automatique de la plateforme.
Réussir à construire un seul modèle pour des centaines de langues
Les systèmes de traduction automatique, comme tous les modèles d’IA, sont entraînés sur des données. Dans le cas des systèmes de traduction textuelle, cela représente généralement des millions de phrases soigneusement mises en correspondance dans plusieurs langues. Mais le volume disponible de phrases parallèles n’est simplement pas le même en anglais qu’en peul. Les modèles de traduction actuels essaient de combler cet écart en extrayant des données du web. Mais cela donne souvent des résultats de piètre qualité, car le texte source n’est pas le même pour toutes les langues. De plus, le web contient un grand nombre de fautes et d’incohérences orthographiques. Les accents et les autres signes diacritiques y sont souvent omis.
Un autre défi important à relever consiste à optimiser un seul modèle de façon à le faire fonctionner pour des centaines de langues sans perdre en performances ou en qualité de la traduction. Traditionnellement, le meilleur moyen d’obtenir la plus haute qualité de traduction possible était de créer un modèle distinct pour chaque combinaison de langues. Mais cette approche est peu évolutive : les performances et la qualité de la traduction se dégradent lors de l’ajout de nouvelles langues.
Les modèles de traduction génèrent également des erreurs qui sont difficiles à repérer. Ces systèmes sont basés sur les mêmes réseaux neuronaux que ceux utilisés pour la génération de texte. Ils génèrent donc naturellement les mêmes types d’erreurs : affirmations fausses, inexactitude, contenu dangereux, etc. En règle générale, certaines langues disposent simplement d’un nombre plus réduit d’éléments de référence et d’ensembles de données, ce qui complique drastiquement les processus de test et d’amélioration des modèles.
Innover dans les domaines de l’architecture, de la collecte de données, de l’établissement de références et autres
Au cours des dernières années, nous avons fait d’importants progrès pour franchir tous ces obstacles. En 2020, nous avons présenté notre modèle de traduction en 100 langues, le M2M-100, qui s’appuyait sur de nouvelles méthodes d’acquisition des données d’entraînement, de nouvelles architectures permettant d’ajuster la taille du modèle sans nuire aux performances, ainsi que de nouveaux moyens d’évaluer et d’améliorer les résultats. Pour ajouter 100 langues supplémentaires, nous avons dû progresser sur ces trois derniers points.
Étoffer les ressources d’entraînement
Pour collecter des textes parallèles de grande qualité dans un plus grand nombre de langues, nous avons amélioré LASER, notre boîte à outils de transfert zero-shot pour le traitement naturel du langage. La nouvelle version LASER3, qui remplace les réseaux LSTM, utilise un modèle Transformer auto-entraîné avec l’objectif MLM (masked language modeling). Nous avons amélioré ses performances en recourant à des procédures d’entraînement professeur-élève, ainsi qu’en créant des encodeurs propres à chaque groupe de langues. Cela nous a permis d’élargir la couverture linguistique du LASER3 et de produire d’importants volumes de phrases parallèles, y compris pour les langues pâtissant d’un manque de ressources. Nous mettons la méthode d’incorporation multilingue du LASER3 à la libre disposition des autres chercheurs. Nous publions également des milliards de phrases parallèles dans plusieurs combinaisons de langues que nous avons extraites et nettoyées à l’aide des techniques décrites ici.
Comme nous avons élargi nos sources de données d’entraînement en plusieurs langues, nous devions impérativement nous assurer que les exemples resteraient de bonne qualité. Nous avons entièrement repensé notre pipeline de nettoyage des données pour pouvoir traiter 200 langues en ajoutant plusieurs étapes essentielles de filtrage. Par exemple, nous commençons par utiliser nos modèles LID-200 pour filtrer les données et réduire le bruit des corpus web avec un haut niveau de précision. Nous avons établi des listes d’expressions toxiques pour chacune des 200 langues et les avons utilisées pour évaluer et filtrer les résultats potentiellement nuisibles. Ces étapes nous ont permis de nous assurer que nous disposons d’ensemble de données plus propres et moins offensants avec des langues correctement identifiées. Ce travail est important pour améliorer la qualité de la traduction et réduire le risque d’expressions toxiques (introduction de contenu nuisible par le système lors du processus de traduction).
Ajuster la taille du modèle sans nuire aux performances
Les systèmes de traduction multilingue présentent deux principaux avantages. Ils permettent de partager des données d’entraînement entre des langues qui se ressemblent, comme l’assamais et le bengali qui utilisent tous les deux l’alphasyllabaire bengali. Ils aident ainsi à améliorer considérablement la qualité de la traduction pour les langues disposant d’une faible quantité de ressources quand elles sont entraînées avec des langues plus documentées. Les chercheurs peuvent également reproduire, redimensionner et tester plus facilement un seul modèle multilingue que des centaines ou des milliers de modèles bilingues.
Toutefois, l’élargissement d’un modèle de 100 à 200 langues présente d’autres défis ardus. Lors de l’augmentation du nombre de paires de langues pour lesquelles nous disposons de peu de ressources dans les données d’entraînement, les modèles multilingues tendent progressivement vers une situation de surajustement au fur et à mesure de leur entraînement. Nous avons résolu ces problèmes en innovant sur trois fronts : régularisation et apprentissage progressif, auto-apprentissage et diversification de la retraduction.
Nous avons commencé par développer des réseaux de type Mixture of Experts avec une capacité partagée et spécialisée afin de rediriger automatiquement les langues avec peu de données vers cette capacité. Conjointement avec l’utilisation de systèmes de régularisation plus efficaces, cela permet d’éviter le surajustement. Nous avons également adopté une approche d’apprentissage progressif en deux étapes. Tout d’abord, nous avons entraîné les langues disposant de ressources abondantes pendant quelques itérations avant d’ajouter les paires de langues pour lesquelles nous disposions de peu de ressources afin de réduire le problème de surajustement. Ensuite, pour faire face à la faible quantité de données bitextuelles parallèles des langues moins représentées, nous avons mis à profit un modèle d’auto-apprentissage sur les données monolingues de ces langues ainsi que des langues mieux représentées qui leur ressemblent afin d’améliorer les performances globales du modèle.
Enfin, nous avons analysé la meilleure façon de générer des données de retraduction et avons découvert que le mélange de données retraduites à l’aide de modèles de traduction statistique bilingue et de traduction neuronale multilingue permettait d’améliorer les performances de traduction des langues moins représentées grâce à la plus grande diversité des données synthétiques générées. Pour entraîner le modèle NLLB-200, qui comporte 54 milliards de paramètres, nous nous sommes servis de notre tout nouveau superordinateur d’IA Research SuperCluster (RSC), un des plus rapides au monde.
Concevoir des outils d’évaluation et de réduction des risques pour plus de 200 langues
Pour évaluer et améliorer le modèle NLLB-200, nous avons mis au point un ensemble de données d’évaluation plusieurs-à-plusieurs unique, baptisé FLORES-200. Cet ensemble permet aux chercheurs d’évaluer les performances du modèle dans 40 000 sens de traduction différents. Nous mettons en libre accès cet ensemble de données pour aider d’autres chercheurs à tester rapidement et à améliorer leurs modèles de traduction. L’ensemble FLORES-200 permet d’évaluer les systèmes de traduction pour un grand nombre d’applications, notamment des brochures santé, des films, des livres et du contenu en ligne dans des pays ou des régions dont les langues sont représentées par un faible nombre de ressources.
Le passage à 200 langues nécessitait de prévenir les risques de génération de contenu toxique, qui peuvent être difficiles à gérer dans un système de traduction multilingue. Pour ce faire, nous avons établi une liste d’expressions toxiques pour toutes les langues prises en charge afin de permettre la détection et le filtrage des injures et de tout autre contenu potentiellement offensant. Nous publions nos références et nos listes d’évaluation des expressions toxiques pour l’ensemble des 200 langues afin de donner aux autres chercheurs un outil leur permettant de réduire les risques de leurs modèles.
Pour être certains d’œuvrer de la manière la plus responsable possible, nous avons fait appel à une équipe interdisciplinaire de linguistes, de sociologues et d’ethnologues pour chacune des langues concernées.
Le graphique ci-dessus indique le score BLEU moyen sur le corpus FLORES-101 de traductions de 100 langues à partir de l’anglais et vers celui-ci. À gauche, M2M et Delta LM, deux modèles de pointe publiés qui prennent en charge 100 langues. À droite, des modèles qui prennent en charge 200 langues : un modèle Transformer de référence avec 3,3 milliards de paramètres, un modèle de référence avec auto-apprentissage, un modèle de référence avec retraduction, et NLLB-200, un modèle de type Mixture of Experts qui exploite l’auto-apprentissage et la retraduction.
Développer la traduction et renforcer l’inclusion
Les outils de traduction de haute qualité peuvent être révolutionnaires. Aujourd’hui, la réalité est que le web est dominé par une poignée de langues, notamment l’anglais, le mandarin, l’espagnol et l’arabe. Les locuteurs natifs de ces langues peuvent avoir du mal à se représenter l’importance de pouvoir lire quelque chose dans sa langue natale. Nous pensons que l’initiative NLLB aidera à préserver le message original de chaque langue plutôt que de risquer souvent de le perdre en faisant appel à une langue intermédiaire.
Outre la traduction, elle permettra également de réaliser des progrès dans d’autres domaines du traitement naturel des langues. Cela peut inclure le développement d’assistants fonctionnant dans des langues tels que le javanais ou l’ouzbek, ou encore la création de systèmes permettant de sous-titrer précisément des films de Bollywood en swahili ou oromo. Avec l’émergence du métavers, la possibilité de créer des technologies qui fonctionnent correctement dans des centaines ou même des milliers de langues facilitera grandement l’accès du plus grand nombre à de nouvelles expériences immersives dans des mondes virtuels.
Il y a seulement quelques années, la traduction automatique de haute qualité ne fonctionnait que dans quelques langues. Grâce au modèle NLLB-200, nous avons fait un pas de plus vers des systèmes permettant à tout le monde de communiquer avec tous les interlocuteurs de son choix. Nous sommes enthousiastes à l’idée de tout ce que cela peut représenter aujourd’hui et à l’avenir, et nous continuerons de repousser les limites de la traduction automatique.
Ce travail a été réalisé par une équipe pluridisciplinaire de Meta AI, notamment : Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang et Al Youngblood.