663 讀數

用于多阶段文本检索的微调 LLaMA

经过 Writings, Papers and Blogs on Text Models4m2024/07/05

太長; 讀書

本研究探索如何使用最先进的 LLaMA 模型来增强文本检索。这些模型经过 RepLLaMA 和 RankLLaMA 的微调，在段落和文档检索方面都取得了卓越的效果，充分利用了它们处理较长上下文的能力，并表现出强大的零样本性能。

‘a llama on a computer screen’ Image created by HackerNoon AI Image Generator

作者：

（1）马学光，滑铁卢大学计算机科学学院 David R. Cheriton；

（2）王亮，微软研究院；

（3）南杨，微软研究院；

（4）Furu Wei，微软研究院；

（5）Jimmy Lin，滑铁卢大学 David R. Cheriton 计算机科学学院

链接表

抽象的

在预训练语言模型出现之前，多阶段文本检索的有效性已经得到充分证明。然而，大多数现有研究使用的模型早于大型语言模型 (LLM) 的最新进展。本研究旨在探索最先进的 LLM 可能带来的潜在改进。我们进行了一项全面的研究，使用 MS MARCO 数据集对最新的 LLaMA 模型进行了微调，将其作为密集检索器 (RepLLaMA) 和逐点重排器 (RankLLaMA)，用于段落检索和文档检索。我们的研究结果表明，大型语言模型的有效性确实超过了小型模型。此外，由于 LLM 本身可以处理较长的上下文，因此它们可以整体地表示整个文档，从而无需使用传统的分段和池化策略。此外，对 BEIR 的评估表明，我们的 RepLLaMA–RankLLaMA 管道表现出很强的零样本有效性。本研究中的模型检查点可在 HuggingFace 上找到。1

1 简介

文本检索是指识别和排序与查询最相关的文档或文本片段，这在各种开放域语言理解任务（Petroni 等人，2021 年）中至关重要，包括网络搜索（Bajaj 等人，2016 年）、开放域问答（Chen 等人，2017 年）和事实验证（Thorne 等人，2018 年）。检索在增强检索增强生成 (RAG) 流程中的大型语言模型 (LLM) 的有效性方面也发挥着重要作用（Lewis 等人，2020b 年；Shi 等人，2023 年）。这种方法不仅可以减轻幻觉，而且还使 LLM 能够访问其参数中未捕获的知识（Yang 等人，2023 年；Jiang 等人，2023 年）。

典型的多阶段文本检索流程由检索器和重排器组成，检索器旨在有效地从语料库中定位前 k 个相关文本，重排器进一步细化检索到的候选文本的顺序以提高输出质量 (Nogueira 和 Cho，2019)。检索器和重排器都从基于 Transformer (Vaswani 等人，2017) 的预训练语言模型的出现中受益匪浅，例如 BERT (Devlin 等人，2019) 和 T5 (Raffel 等人，2020)。这些模型经过训练，可以将查询和文档编码为向量表示以供检索 (Karpukhin 等人，2020；Lin，2021)，或者直接对查询和文档之间的相关性进行评分以进行重排 (Nogueira 等人，2019；Zhuang 等人，2023)。

最近的大型语言模型具有数十亿个参数，经过微调以遵循指令，例如 InstructGPT（Ouyang 等人，2022 年）、GPT-4（OpenAI，2023 年）和 LLaMA（Touvron 等人，2023a、b），它们在许多 NLP 任务中表现出非凡的能力，超越了之前规模较小的预训练语言模型（Zhao 等人，2023 年）。对于检索，最近的方法（例如 LRL（Ma 等人，2023 年）、RankGPT（Sun 等人，2023 年）和 PRP（Qin 等人，2023 年））探索了使用成对或列表方法提示 LLM 执行零样本重排序。这些方法通过将重排序视为文本生成来利用 LLM。

然而，我们发现了一些潜在的问题。首先，这些方法没有解决整个多阶段流程，因为将大型语料库中的检索任务转换为文本生成任务具有挑战性。其次，它们不会在可用时利用标记数据。最后，这些重新排序器效率不高，因为它们不支持并行评分，并且由于其多通道解码设计而变慢。

因此，我们认为，对最先进的大型语言模型进行微调，使其充当检索器和重新排序器，可以产生比以前的小型模型更好的效果。这种方法还可以在多阶段管道中最佳地利用 LLM。因此，我们致力于研究以下研究问题：最先进的大型语言模型在专门针对多阶段文本检索进行微调时表现如何？

我们的研究旨在通过对最新的 LLaMA-2 模型（Touvron 等人，2023b）进行全面调查来回答这个问题，LLAMA-2 模型是一种最先进的开源大型语言模型，既可以用作检索器，也可以用作重新排序器，我们分别将其称为 RepLLaMA 和 RankLLaMA。具体来说，我们在实验中使用 MS MARCO（Bajaj 等人，2016 年）和 BEIR（Thakur 等人，2021 年）数据集。我们的研究结果表明，大型语言模型超越了以前的小型模型，通过简单的训练机制实现了最先进的检索和重新排序效果，并表现出强大的零样本效果。此外，我们观察到 LLM 本质上是在较长的上下文中预先训练的，具有表示整个文档的潜力，从而无需使用传统的分段和池化策略进行文档检索。