Dans un monde dominé par l’anglais, la recherche menée par Apple, en collaboration avec Inria Paris, École Polytechnique et Sapienza University of Rome, vise à réduire les biais linguistiques dans les modèles de langage. Ils introduisent des métriques novatrices pour améliorer la naturalité lexicale et syntactique des sorties non-anglophones.
La Recherche d’Apple sur l’Accent Anglais des IA
Performance des Modèles de Langage
Demandez à un locuteur non natif de l’anglais, et il vous dira probablement que les modèles de langage de grande taille (LLM) performent bien mieux dans la langue de Shakespeare que dans la leur. Parfois, la différence est subtile, mais à d’autres moments, elle est marquante, voire dangereuse. Une étude de Carnegie Mellon en 2023 a révélé que les entrées en non-anglais pouvaient plus facilement contourner les filtres de sécurité.
Une Étude Coécrite
Apple a collaboré avec des chercheurs d’Inria Paris, de l’École Polytechnique, et de l’Université de Rome La Sapienza pour proposer une nouvelle méthode visant à réduire cette disparité. Selon les explications d’Apple :
Les modèles de langage actuels sont principalement conçus avec l’anglais comme langue principale, et même ceux qui sont multilingues présentent souvent des biais centrés sur l’anglais.
De la même manière que les apprenants d’une seconde langue peuvent produire des expressions maladroites, les LLM génèrent souvent des résultats peu naturels dans les langues autres que l’anglais en reflétant des structures lexicales et grammaticales anglophones.
Les Résultats des Tests
Pour tester cette hypothèse, les chercheurs ont introduit deux nouvelles métriques :
- Naturalité Lexicale : Le modèle utilise-t-il un vocabulaire similaire à celui d’un locuteur natif ?
- Naturalité Syntactique : Le modèle structure-t-il ses phrases de manière conforme à la grammaire native ?
Ils ont comparé les sorties des modèles aux articles Wikipédia écrits par des natifs en chinois, français et anglais. Les résultats ont confirmé les biais observés. Même le modèle Qwen, développé en Chine, a montré de mauvaises performances dans toutes les langues, y compris le chinois. Le modèle Llama 3.1 de Meta s’est révélé être le plus naturel dans l’ensemble, mais est resté loin des résultats de niveau humain.
La Solution Proposée par Apple
Pour réduire l’écart, Apple a entraîné un modèle à privilégier des sorties sonnant naturelles plutôt qu’inhabituelles, en utilisant une méthode astucieuse : plutôt que de collecter manuellement des exemples peu naturels, ils les ont générés automatiquement par le biais de la rétro-traduction.
Une réponse fluide rédigée en chinois serait traduite en anglais, puis de nouveau en chinois. Ce processus introduit des schémas subtils non naturels connus sous le nom de « translationese ». Ces résultats manipulés servaient d’exemples négatifs, tandis que les originaux étaient utilisés comme réponses préférées.
En entraînant le modèle à privilégier la version plus naturelle, Apple a pu améliorer de manière significative le choix lexical et la grammaire, sans dégrader les performances générales sur les critères d’évaluation standard.
Conclusion
Ainsi, les efforts d’Apple pour aborder la problématique des biais linguistiques dans l’IA montrent un engagement sérieux envers une meilleure intégration des langues autres que l’anglais. Les recherches associées à des institutions prestigieuses renforcent la pertinence et l’importance de cette initiative dans le domaine de l’intelligence artificielle.
Mon avis :
La recherche d’Apple sur les biais linguistiques des LLMs souligne des avancées significatives en améliorant la naturalité des sorties non anglaises, mais elle ne résout pas entièrement les défis de translationese. Bien que ses métriques améliorent qualité et adaptation, des limitations subsistent, surtout face à des modèles concurrents.
Les questions fréquentes :
Qu’est-ce que l’étude coécrite par Apple propose ?
L’étude coécrite par Apple propose une nouvelle méthode visant à réduire le biais des modèles de langage en anglais, qui affecte leur performance dans d’autres langues. Les chercheurs ont introduit des métriques telles que la naturalité lexicale et syntaxique pour évaluer comment ces modèles se comportent par rapport à des textes écrits par des natifs.
Quels sont les résultats de l’étude concernant les modèles de langage ?
Les résultats de l’étude ont confirmé que même les modèles développés en Chine, comme Qwen, ont des performances inférieures dans toutes les langues, y compris en chinois. Le modèle Llama 3.1 de Meta a été le plus naturel dans l’ensemble, mais il restait en deçà des niveaux attendus d’un auteur humain.
Comment Apple a-t-il amélioré les performances des modèles de langage ?
Apple a amélioré les performances des modèles de langage en formant un modèle à privilégier des sorties qui sonnent plus naturelles. Cela a été fait en générant automatiquement des exemples non naturels par traduction inverse, permettant au modèle d’apprendre des préférences linguistiques plus naturelles.
Pourquoi les modèles de langage présentent-ils des biais envers l’anglais ?
Les modèles de langage sont principalement conçus avec l’anglais comme langue de référence, ce qui entraîne des biais linguistiques. Lorsque ces modèles génèrent des textes dans d’autres langues, ils reproduisent souvent des schémas grammaticaux et de vocabulaire influencés par l’anglais, ce qui entraîne des résultats moins naturels.