Ces dernières années, l’émergence des Large Language Models (LLM) a entraîné des changements importants dans les routines quotidiennes des consommateurs. Les individus peuvent désormais entreprendre un large éventail de tâches, telles que la récupération d'informations, la rédaction de textes et l'affinage de documents grâce à ces puissants outils linguistiques. Cette intégration des LLM dans la vie quotidienne a entraîné une augmentation notable de la productivité, tant au travail que dans les efforts personnels.
Cependant, il est important de reconnaître que tous les consommateurs n’ont pas bénéficié de la même manière de ces avantages. En effet, un nombre considérable de personnes dans le monde qui parlent des langues moins courantes ne sont pas en mesure d'interagir avec les LLM, principalement en raison de l'inadéquation des modèles linguistiques conçus pour ces langues spécifiques. Avec 7 000 langues actuellement parlées dans le monde, les plus grands LLM multilingues ont été formés en utilisant seulement moins d'une centaine de langues, laissant ainsi de nombreuses langues et personnes complètement de côté.
La prise en charge de langues autres que l’anglais nécessite des sources de données abondantes et de haute qualité, qui peuvent être difficiles à trouver et à accéder. Et non seulement ces modèles fonctionnent moins bien, mais cela a également été rapporté par
La performance des LLM adaptés aux langages à faibles ressources (LRL) est entravée par plusieurs défis clés.
Premièrement, les modèles de base de nombreux LLM reposent sur des données extraites d’Internet, qui manque souvent d’une couverture complète des LRL. Le graphique ci-dessous montre une répartition des données sur Internet divisée en groupes linguistiques. Alors que les langages les plus courants disposent de centaines de Go de données potentiellement disponibles pour les modèles de formation, les langages situés à la fin du graphique ne disposent que de données disponibles dans une plage de centaines de mégaoctets.
Cette limitation est encore amplifiée par l’absence d’ensembles de données d’instructions affinées pour de nombreux LRL. Un ensemble de données d'instruction se compose d'un ensemble de questions associées à des réponses idéales et constitue un élément crucial de la formation LLM - dans ce cas, dans des langues spécifiques. C'est ainsi que le modèle apprend à suivre des instructions, et sans cet atout, les modèles ne sont capables que de prédire le mot suivant dans la séquence au lieu d'aider les humains à résoudre des questions complexes et des tâches de résolution de problèmes.
Ce qui précède est dû au fait que les LLM sont formés par étapes séquentielles. La première étape consiste à apprendre la langue en lisant une grande quantité de texte non annoté, ce qui donne au modèle la capacité de prédire le monde suivant dans la séquence. La deuxième étape consiste à adapter ce comportement prédictif pour suivre des instructions spécifiques, telles que répondre à des questions, rédiger des résumés ou extraire des données. C'est pourquoi le réglage fin des ensembles de données est d'une telle importance, car leur qualité déterminera davantage la capacité du LLM à aider les utilisateurs dans les tâches requises.
Dans la section suivante, nous présenterons une méthode pour créer un ensemble de données de haute qualité pour le swahili qui peut être utilisé pour affiner le LLM pour cette langue. La méthode peut être appliquée à n’importe quelle langue à faibles ressources.
Le swahili est une langue parlée par plus de 200 millions de personnes dans 14 pays africains différents et est la langue nationale officielle en Tanzanie, au Kenya, en Ouganda et en République démocratique du Congo. Il appartient au groupe des langages à faibles ressources et constitue un exemple de langage qui ne dispose pas d'un ensemble de données d'instructions prêtes à l'emploi pour le réglage fin du LLM.
En général, trois approches existent pour créer un ensemble de données de réglage fin pour une langue. La première est la génération directe d’un ensemble de données par des évaluateurs, en l’occurrence des experts en langues, ce qui nécessite de développer à la fois des questions et des réponses idéales dans la langue souhaitée. Cela peut s’avérer difficile pour la langue swahili, car les évaluateurs doivent être des experts de haut niveau et le processus est généralement coûteux.
Une autre solution potentielle consiste à prendre un ensemble de données d’instructions existant en anglais et à le traduire en swahili. Cela pourrait être fait par des traducteurs parlant à la fois le swahili et l’anglais, mais cela peut également demander beaucoup de temps et de ressources. Un traducteur automatique peut être utilisé, mais cela entraîne généralement des résultats insuffisants ou de mauvaise qualité.
Une autre solution combine traduction automatisée et validation humaine, offrant une approche rentable et évolutive, essentielle pour garantir que les modèles LRL sont précis, reflètent les coutumes et normes locales et sont utiles aux communautés qui les utiliseront. Cette méthode utilise le meilleur traducteur automatique disponible du swahili vers l'anglais, puis demande aux locuteurs natifs du swahili de filtrer les exemples qui ne répondent pas aux normes de qualité.
Toloka a récemment entrepris un projet de développement dans le cadre duquel ils ont créé un ensemble de données de 11 000 mises au point pour le swahili à partir des 15 000 données originales.
L'ensemble de données a ensuite été utilisé pour améliorer
Alors que les développeurs et les organisations s’efforcent de créer un écosystème d’IA plus inclusif, l’évaluation devient encore plus critique, tout comme l’implication humaine dans la formation des LLM. Le récent lancement par Cohere de