Nos últimos anos, o surgimento de Large Language Models (LLMs) trouxe mudanças significativas nas rotinas diárias dos consumidores. Os indivíduos agora podem realizar uma ampla gama de tarefas, como recuperar informações, redigir textos e refinar documentos por meio dessas poderosas ferramentas de linguagem. Esta integração dos LLMs na vida diária resultou em aumentos notáveis na produtividade, tanto no trabalho como nos empreendimentos pessoais.
No entanto, é importante reconhecer que nem todos os consumidores experimentaram estes benefícios igualmente. Na verdade, um número considerável de pessoas em todo o mundo que falam línguas menos comuns não são capazes de interagir com LLMs, principalmente devido à inadequação dos modelos linguísticos concebidos para estas línguas específicas. Com 7.000 idiomas falados atualmente no mundo, os maiores LLMs multilíngues foram treinados usando apenas menos de cem idiomas, deixando assim muitos idiomas e pessoas completamente para trás.
O suporte a idiomas diferentes do inglês requer fontes de dados abundantes e de alta qualidade, que podem ser difíceis de encontrar e acessar. E não só esses modelos têm pior desempenho, mas também foi relatado por
O desempenho de LLMs adaptados para línguas de poucos recursos (LRL) é dificultado por vários desafios importantes.
Em primeiro lugar, os modelos básicos de muitos LLMs baseiam-se em dados extraídos da Internet, que muitas vezes carecem de uma cobertura abrangente dos LRLs. O gráfico abaixo mostra uma distribuição de dados pela Internet divididos em grupos de idiomas. Embora as linguagens mais comuns tenham centenas de GB de dados potencialmente disponíveis para modelos de treinamento, as linguagens na parte final do gráfico possuem apenas dados disponíveis na faixa de centenas de megabytes.
Esta limitação é ainda ampliada pela ausência de conjuntos de dados de instruções ajustados para muitos LRLs. Um conjunto de dados de instrução consiste em um conjunto de perguntas emparelhado com respostas ideais e é uma parte crucial do treinamento LLM – neste caso, em idiomas específicos. É assim que o modelo aprende a seguir as instruções e, sem esse recurso, os modelos só são capazes de prever a próxima palavra na sequência, em vez de ajudar os humanos com questões complexas e tarefas de resolução de problemas.
O acima exposto é causado pelo fato de que os LLMs são treinados em etapas sequenciais. O primeiro passo é aprender o idioma lendo uma grande quantidade de texto não anotado, o que dá ao modelo a capacidade de prever o próximo mundo na sequência. A segunda etapa é adaptar esse comportamento preditivo para seguir instruções específicas, como responder perguntas, escrever resumos ou extrair dados. É por isso que o ajuste fino dos conjuntos de dados é tão importante, já que sua qualidade determinará ainda mais a capacidade do LLM de ajudar os usuários nas tarefas necessárias.
Na seção seguinte, apresentaremos um método para criar um conjunto de dados de alta qualidade para suaíli que pode ser usado para ajustar o LLM para este idioma. O método pode ser aplicado a qualquer linguagem de poucos recursos.
O suaíli é uma língua falada por mais de 200 milhões de pessoas em 14 países africanos diferentes e é a língua nacional oficial na Tanzânia, no Quénia, no Uganda e na República Democrática do Congo. Ela pertence ao grupo de linguagens de poucos recursos e é um exemplo de linguagem que não possui um conjunto de dados de instruções pronto para uso para ajuste fino do LLM.
Em geral, existem três abordagens para criar um conjunto de dados de ajuste fino para uma linguagem. A primeira é a geração direta de um conjunto de dados pelos avaliadores, neste caso, especialistas em idiomas, o que exige o desenvolvimento de perguntas e respostas ideais no idioma desejado. Isto pode ser um desafio para a língua suaíli porque os avaliadores necessitam de ser especialistas de alto nível e o processo é geralmente dispendioso.
Outra solução potencial é pegar um conjunto de dados de instruções existente em inglês e traduzi-lo para suaíli. Isto poderia ser feito por tradutores que falam suaíli e inglês, mas também pode consumir muito tempo e recursos. Um tradutor automático poderia ser usado, no entanto, isso normalmente resulta em resultados insuficientes ou de baixa qualidade.
Outra solução combina tradução automatizada com validação humana, oferecendo uma abordagem econômica e escalonável, o que é fundamental para garantir que os modelos LRL sejam precisos, reflitam os costumes e normas locais e sejam úteis para as comunidades que os utilizarão. Este método utiliza o melhor tradutor automático disponível de suaíli para inglês e depois pede aos falantes nativos de suaíli que filtrem exemplos que não atendem aos padrões de qualidade.
Toloka empreendeu recentemente um projeto de desenvolvimento, onde criou um conjunto de dados de ajuste fino de 11.000 para suaíli a partir dos 15.000 originais
O conjunto de dados foi então usado para melhorar
À medida que os desenvolvedores e as organizações se esforçam para criar um ecossistema de IA mais inclusivo, a avaliação torna-se ainda mais crítica, assim como o envolvimento humano na formação de LLMs. O recente lançamento da Cohere