著者:
(1)Xueguang Ma、David R. Cheriton School of Computer Science、ウォータールー大学
(2)マイクロソフトリサーチのリアン・ワン氏
(3)ナン・ヤン、マイクロソフトリサーチ
(4)マイクロソフトリサーチのFuru Wei氏
(5)ジミー・リン、デイビッド・R・チェリトン・スクール・オブ・コンピュータサイエンス、ウォータールー大学。
多段階テキスト検索の有効性は、事前学習済み言語モデルの時代以前から、しっかりと実証されてきました。しかし、既存の研究のほとんどは、大規模言語モデル (LLM) の最近の進歩より前のモデルを利用しています。この研究では、最先端の LLM がもたらす可能性のある改善点を探ります。私たちは包括的な研究を行い、MS MARCO データセットを使用して、パッセージ検索とドキュメント検索の両方について、最新の LLaMA モデルを高密度リトリーバー (RepLLaMA) とポイントワイズ再ランク付け (RankLLaMA) の両方として微調整します。私たちの調査結果は、大規模言語モデルの有効性が確かに小規模モデルの有効性を上回ることを示しています。さらに、LLM は本質的に長いコンテキストを処理できるため、ドキュメント全体を全体的に表現でき、従来のセグメント化およびプーリング戦略が不要になります。さらに、BEIR での評価では、RepLLaMA–RankLLaMA パイプラインが強力なゼロショット有効性を示すことが実証されています。この研究のモデルチェックポイントはHuggingFace.1で入手可能です。
テキスト検索は、クエリに応じて最も関連性の高いドキュメントまたはテキストスニペットを識別してランク付けすることを含み、Web 検索 (Bajaj et al., 2016)、オープンドメインの質問応答 (Chen et al., 2017)、事実検証 (Thorne et al., 2018) など、さまざまなオープンドメイン言語理解タスク (Petroni et al., 2021) で重要です。検索は、検索拡張生成 (RAG) パイプラインで大規模言語モデル (LLM) の有効性を高める上でも重要な役割を果たします (Lewis et al., 2020b; Shi et al., 2023)。このアプローチは、幻覚を軽減するだけでなく、LLM がパラメーター内でキャプチャされていない知識にアクセスできるようにします (Yang et al., 2023; Jiang et al., 2023)。
一般的な多段階テキスト検索パイプラインは、コーパスから上位 k 件の関連テキストを効率的に見つけるように設計されたリトリーバーと、検索された候補の順序をさらに絞り込んで出力品質を向上させるリランカーで構成されています (Nogueira and Cho、2019)。リトリーバーとリランカーはどちらも、BERT (Devlin et al., 2019) や T5 (Raffel et al., 2020) などの Transformer (Vaswani et al., 2017) に基づく事前トレーニング済み言語モデルの出現から大きな恩恵を受けています。これらのモデルは、検索用にクエリとドキュメントをベクトル表現にエンコードするように (Karpukhin et al., 2020; Lin, 2021)、またはリランキング用にクエリとドキュメント間の関連性を直接スコアリングするように (Nogueira et al., 2019; Zhuang et al., 2023) トレーニングされています。
InstructGPT (Ouyang et al., 2022)、GPT-4 (OpenAI, 2023)、LLaMA (Touvron et al., 2023a,b) など、指示に従うように微調整された数十億のパラメータを持つ最近の大規模言語モデルは、多くの NLP タスクで並外れた機能を発揮し、以前の小規模な事前トレーニング済み言語モデルを上回っています (Zhao et al., 2023)。検索については、LRL (Ma et al., 2023)、RankGPT (Sun et al., 2023)、PRP (Qin et al., 2023) などの最近の方法では、ペアワイズまたはリストワイズアプローチを使用して、LLM にゼロショット再ランキングを実行するように促すことが検討されています。これらの方法では、再ランキングをテキスト生成と見なすことで LLM を活用します。
しかし、潜在的な問題がいくつかあります。まず、これらの方法は、大規模なコーパスからの検索をテキスト生成タスクとして扱うのが難しいため、マルチステージ パイプライン全体に対応していません。次に、ラベル付きデータが利用可能な場合でも、ラベル付きデータを活用しません。最後に、これらの再ランク付けは、並列スコアリングをサポートしておらず、マルチパス デコード設計によって速度が低下するため、効率的ではありません。
したがって、最先端の大規模言語モデルをリトリーバーやリランカーとして機能するように微調整すると、以前の小規模モデルよりも優れた効果が得られる可能性があると主張します。このアプローチは、多段階パイプライン内で LLM を最適に活用することもできます。したがって、私たちは次の研究上の質問を調査する動機があります。最先端の大規模言語モデルは、多段階テキスト検索用に特別に微調整された場合、どのように機能するのでしょうか。
私たちの研究は、最先端のオープンソースの大規模言語モデルである最新の LLaMA-2 モデル (Touvron et al., 2023b) を、リトリーバーとリランカーの両方として微調整するための包括的な調査を実施することで、この質問に答えることを目指しています。これらをそれぞれ RepLLaMA と RankLLaMA と呼びます。具体的には、MS MARCO (Bajaj et al., 2016) と BEIR (Thakur et al., 2021) のデータセットを実験に利用します。私たちの調査結果は、大規模言語モデルが以前の小規模モデルを上回り、簡単なトレーニング体制で検索と再ランク付けの両方で最先端の有効性を達成し、強力なゼロショット有効性を示していることを示唆しています。さらに、本質的に長いコンテキストで事前トレーニングされている LLM は、ドキュメント全体を表現する可能性を示し、ドキュメント検索のための従来のセグメント化およびプーリング戦略の必要性を排除することがわかりました。
この論文はCC 4.0ライセンスの下でarxivで公開されています。
1 https://huggingface.co/castorini