paint-brush
Affiner LLaMA pour la récupération de texte en plusieurs étapesby@textmodels
623
623

Affiner LLaMA pour la récupération de texte en plusieurs étapes

Cette étude explore l'amélioration de la récupération de texte à l'aide de modèles LLaMA de pointe. Affinés sous les noms RepLLaMA et RankLLaMA, ces modèles atteignent une efficacité supérieure à la fois pour le passage et la récupération de documents, en tirant parti de leur capacité à gérer des contextes plus longs et en présentant de solides performances sans tir.
featured image - Affiner LLaMA pour la récupération de texte en plusieurs étapes
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Auteurs:

(1) Xueguang Ma, École d'informatique David R. Cheriton, Université de Waterloo ;

(2) Liang Wang, Microsoft Research ;

(3) Nan Yang, Microsoft Research ;

(4) Furu Wei, Microsoft Research ;

(5) Jimmy Lin, École d'informatique David R. Cheriton, Université de Waterloo.

Tableau des liens

Résumé et introduction

Méthode

Expériences

Étude et analyse sur l'ablation

Travaux connexes

Conclusion, remerciements et références

Abstrait

L'efficacité de la récupération de texte en plusieurs étapes a été solidement démontrée bien avant l'ère des modèles linguistiques pré-entraînés. Cependant, la plupart des études existantes utilisent des modèles antérieurs aux progrès récents des grands modèles de langage (LLM). Cette étude vise à explorer les améliorations potentielles que les LLM de pointe peuvent apporter. Nous menons une étude complète, affinant le dernier modèle LLaMA à la fois en tant que récupérateur dense (RepLLaMA) et en tant que reclasseur ponctuel (RankLLaMA) pour la récupération de passages et la récupération de documents à l'aide des ensembles de données MS MARCO. Nos résultats démontrent que l’efficacité des grands modèles linguistiques dépasse effectivement celle des modèles plus petits. De plus, étant donné que les LLM peuvent intrinsèquement gérer des contextes plus longs, ils peuvent représenter des documents entiers de manière holistique, évitant ainsi le besoin de stratégies traditionnelles de segmentation et de regroupement. De plus, les évaluations sur BEIR démontrent que notre pipeline RepLLaMA – RankLLaMA présente une forte efficacité sans tir. Les modèles de points de contrôle de cette étude sont disponibles sur HuggingFace.1

1. Introduction

La récupération de texte, qui implique d'identifier et de classer les documents ou extraits de texte les plus pertinents en réponse à une requête, est cruciale dans diverses tâches de compréhension du langage en domaine ouvert (Petroni et al., 2021), y compris la recherche sur le Web (Bajaj et al., 2016), réponse aux questions en domaine ouvert (Chen et al., 2017) et vérification des faits (Thorne et al., 2018). La récupération joue également un rôle important dans l’amélioration de l’efficacité des grands modèles de langage (LLM) dans un pipeline de génération augmentée par récupération (RAG) (Lewis et al., 2020b ; Shi et al., 2023). Cette approche atténue non seulement les hallucinations, mais permet également aux LLM d'accéder à des connaissances qui ne sont pas capturées dans leurs paramètres (Yang et al., 2023 ; Jiang et al., 2023).


Un pipeline typique de récupération de texte en plusieurs étapes se compose d'un récupérateur, conçu pour localiser efficacement les k premiers textes pertinents d'un corpus, et d'un reclasseur, qui affine davantage l'ordre des candidats récupérés pour améliorer la qualité du résultat (Nogueira et Cho, 2019). ). Les récupérateurs et les reclasseurs ont considérablement bénéficié de l'avènement de modèles de langage pré-entraînés basés sur Transformers (Vaswani et al., 2017) tels que BERT (Devlin et al., 2019) et T5 (Raffel et al., 2020). Ces modèles sont entraînés pour coder des requêtes et des documents dans des représentations vectorielles à des fins de récupération (Karpukhin et al., 2020 ; Lin, 2021) ou pour évaluer directement la pertinence entre une requête et un document pour un reclassement (Nogueira et al., 2019 ; Zhuang et al., 2023).


De grands modèles de langage récents avec des milliards de paramètres, affinés pour suivre des instructions, tels que InstructGPT (Ouyang et al., 2022), GPT-4 (OpenAI, 2023) et LLaMA (Touvron et al., 2023a, b), ont fait preuve de capacités extraordinaires dans de nombreuses tâches de PNL, surpassant les précédents modèles linguistiques pré-entraînés plus petits (Zhao et al., 2023). Pour la récupération, des méthodes récentes telles que LRL (Ma et al., 2023), RankGPT (Sun et al., 2023) et PRP (Qin et al., 2023) ont exploré l'incitation des LLM à effectuer un reclassement zéro en utilisant des paires ou des paires. approches par liste. Ces méthodes exploitent les LLM en considérant le reclassement comme une génération de texte.


Cependant, nous voyons un certain nombre de problèmes potentiels. Premièrement, ces méthodes ne couvrent pas l’ensemble du pipeline à plusieurs étapes, car il est difficile de transformer la récupération à partir d’un grand corpus en une tâche de génération de texte. Deuxièmement, ils n’exploitent pas les données étiquetées lorsqu’elles sont disponibles. Enfin, ces rerankers ne sont pas efficaces car ils ne prennent pas en charge la notation parallèle et sont ralentis par leur conception de décodage multi-passes.


Par conséquent, nous soutenons qu’affiner les grands modèles de langage de pointe pour qu’ils fonctionnent comme des récupérateurs et des reclasseurs peut produire une meilleure efficacité que les modèles plus petits précédents. Cette approche peut également utiliser de manière optimale les LLM dans des pipelines à plusieurs étages. Ainsi, nous sommes motivés à étudier la question de recherche suivante : comment fonctionnent les grands modèles de langage de pointe lorsqu'ils sont spécifiquement réglés pour la récupération de texte en plusieurs étapes ?


Notre étude vise à répondre à cette question en menant une enquête approfondie sur la mise au point du dernier modèle LLaMA-2 (Touvron et al., 2023b), un modèle de langage étendu open source de pointe, à la fois en tant que récupérateur et un reranker, que nous appelons respectivement RepLLaMA et RankLLaMA. Plus précisément, nous utilisons les ensembles de données MS MARCO (Bajaj et al., 2016) et BEIR (Thakur et al., 2021) pour nos expériences. Nos résultats suggèrent que les grands modèles de langage surpassent les modèles plus petits précédents, atteignant une efficacité de pointe en matière de récupération et de reclassement grâce à un régime de formation simple et présentant une forte efficacité sans tir. De plus, nous observons que les LLM, qui sont intrinsèquement pré-entraînés sur des contextes plus longs, démontrent leur potentiel à représenter des documents entiers, éliminant ainsi le besoin de stratégies traditionnelles de segmentation et de regroupement pour la récupération de documents.


Cet article est disponible sur arxiv sous licence CC 4.0.



1 https://huggingface.co/castorini