paint-brush
LLaMA de ajuste fino para recuperação de texto em vários estágiosby@textmodels
623
623

LLaMA de ajuste fino para recuperação de texto em vários estágios

Este estudo explora o aprimoramento da recuperação de texto usando modelos LLaMA de última geração. Aperfeiçoados como RepLLaMA e RankLLaMA, esses modelos alcançam eficácia superior tanto para passagem quanto para recuperação de documentos, aproveitando sua capacidade de lidar com contextos mais longos e exibindo forte desempenho de disparo zero.
featured image - LLaMA de ajuste fino para recuperação de texto em vários estágios
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autores:

(1) Xueguang Ma, Escola de Ciência da Computação David R. Cheriton, Universidade de Waterloo;

(2) Liang Wang, Pesquisa da Microsoft;

(3) Nan Yang, Pesquisa da Microsoft;

(4) Furu Wei, Pesquisa da Microsoft;

(5) Jimmy Lin, Escola de Ciência da Computação David R. Cheriton, Universidade de Waterloo.

Tabela de links

Resumo e introdução

Método

Experimentos

Estudo e análise de ablação

Trabalho relatado

Conclusão, Agradecimentos e Referências

Abstrato

A eficácia da recuperação de texto em vários estágios foi solidamente demonstrada desde antes da era dos modelos de linguagem pré-treinados. No entanto, a maioria dos estudos existentes utiliza modelos anteriores aos avanços recentes em grandes modelos de linguagem (LLMs). Este estudo procura explorar melhorias potenciais que os LLMs de última geração podem trazer. Conduzimos um estudo abrangente, ajustando o modelo LLaMA mais recente, tanto como um recuperador denso (RepLLaMA) quanto como um reclassificador pontual (RankLLaMA) para recuperação de passagens e recuperação de documentos usando os conjuntos de dados MS MARCO. Nossas descobertas demonstram que a eficácia dos grandes modelos de linguagem supera de fato a dos modelos menores. Além disso, como os LLMs podem lidar inerentemente com contextos mais longos, eles podem representar documentos inteiros de forma holística, eliminando a necessidade de estratégias tradicionais de segmentação e agrupamento. Além disso, as avaliações no BEIR demonstram que nosso pipeline RepLLaMA – RankLLaMA apresenta forte eficácia de disparo zero. Os pontos de verificação do modelo deste estudo estão disponíveis no HuggingFace.1

1. Introdução

A recuperação de texto, que envolve identificar e classificar os documentos ou trechos de texto mais relevantes em resposta a uma consulta, é crucial em várias tarefas de compreensão de linguagem de domínio aberto (Petroni et al., 2021), incluindo pesquisa na web (Bajaj et al., 2016), resposta a perguntas de domínio aberto (Chen et al., 2017) e verificação de fatos (Thorne et al., 2018). A recuperação também desempenha um papel importante no aumento da eficácia de grandes modelos de linguagem (LLMs) em um pipeline de geração aumentada de recuperação (RAG) (Lewis et al., 2020b; Shi et al., 2023). Esta abordagem não só mitiga as alucinações, mas também permite que os LLMs acedam a conhecimentos que não são capturados dentro dos seus parâmetros (Yang et al., 2023; Jiang et al., 2023).


Um pipeline típico de recuperação de texto de vários estágios consiste em um recuperador, projetado para localizar com eficiência os principais textos relevantes de um corpus, e um reclassificador, que refina ainda mais a ordem dos candidatos recuperados para melhorar a qualidade da saída (Nogueira e Cho, 2019 ). Tanto os recuperadores quanto os reclassificadores se beneficiaram significativamente com o advento de modelos de linguagem pré-treinados baseados em Transformers (Vaswani et al., 2017), como BERT (Devlin et al., 2019) e T5 (Raffel et al., 2020). Esses modelos são treinados para codificar consultas e documentos em representações vetoriais para recuperação (Karpukhin et al., 2020; Lin, 2021) ou para pontuar diretamente a relevância entre uma consulta e um documento para reclassificação (Nogueira et al., 2019; Zhuang et al., 2019; Zhuang et al., 2019; Zhuang et al., 2020; Lin, 2021). al., 2023).


Grandes modelos de linguagem recentes com bilhões de parâmetros, ajustados para seguir instruções, como InstructGPT (Ouyang et al., 2022), GPT-4 (OpenAI, 2023) e LLaMA (Touvron et al., 2023a,b), exibiram capacidades extraordinárias em muitas tarefas de PNL, superando modelos de linguagem pré-treinados menores anteriores (Zhao et al., 2023). Para recuperação, métodos recentes como LRL (Ma et al., 2023), RankGPT (Sun et al., 2023) e PRP (Qin et al., 2023) exploraram a solicitação de LLMs para realizar reclassificação zero-shot usando pares ou abordagens de lista. Esses métodos aproveitam os LLMs ao ver a reclassificação como geração de texto.


No entanto, vemos uma série de problemas potenciais. Primeiro, esses métodos não abordam todo o pipeline de vários estágios, pois é um desafio transformar a recuperação de um grande corpus em uma tarefa de geração de texto. Em segundo lugar, não utilizam dados rotulados quando disponíveis. Finalmente, esses reclassificadores não são eficientes porque não suportam pontuação paralela e são retardados pelo seu design de decodificação multipassagem.


Portanto, argumentamos que o ajuste fino de grandes modelos de linguagem de última geração para funcionar como recuperadores e reclassificadores pode produzir melhor eficácia do que modelos menores anteriores. Essa abordagem também pode utilizar LLMs de maneira otimizada em pipelines de vários estágios. Assim, estamos motivados a investigar a seguinte questão de pesquisa: Como funcionam os grandes modelos de linguagem de última geração quando ajustados especificamente para recuperação de texto em vários estágios?


Nosso estudo visa responder a esta questão conduzindo uma investigação abrangente sobre o ajuste fino do mais recente modelo LLaMA-2 (Touvron et al., 2023b), um modelo de linguagem grande de código aberto e de última geração, tanto como recuperador quanto como um reclassificador, ao qual nos referimos como RepLLaMA e RankLLaMA, respectivamente. Especificamente, utilizamos os conjuntos de dados MS MARCO (Bajaj et al., 2016) e BEIR (Thakur et al., 2021) para nossos experimentos. Nossas descobertas sugerem que os modelos de linguagem grandes superam os modelos menores anteriores, alcançando eficácia de última geração tanto para recuperação quanto para reclassificação por meio de um regime de treinamento direto e exibindo forte eficácia de disparo zero. Além disso, observamos que os LLMs, que são inerentemente pré-treinados em contextos mais longos, demonstram potencial na representação de documentos inteiros, eliminando assim a necessidade de estratégias tradicionais de segmentação e agrupamento para recuperação de documentos.


Este artigo está disponível no arxiv sob licença CC 4.0.



1 https://huggingface.co/castorini