Авторы:
(1) Сюэгуан Ма, Школа компьютерных наук Дэвида Р. Черитона, Университет Ватерлоо;
(2) Лян Ван, Microsoft Research;
(3) Нань Ян, Microsoft Research;
(4) Фуру Вэй, Microsoft Research;
(5) Джимми Лин, Школа компьютерных наук Дэвида Р. Черитона, Университет Ватерлоо.
Заключение, благодарности и ссылки
Эффективность многоэтапного поиска текста была убедительно продемонстрирована еще до эпохи предварительно обученных языковых моделей. Однако в большинстве существующих исследований используются модели, предшествовавшие недавним достижениям в области моделей больших языков (LLM). Целью данного исследования является изучение потенциальных улучшений, которые могут принести современные программы LLM. Мы проводим комплексное исследование, настраивая последнюю модель LLaMA как для плотного поиска (RepLLaMA), так и для точечного переранжирования (RankLLaMA) как для поиска отрывков, так и для поиска документов с использованием наборов данных MS MARCO. Наши результаты показывают, что эффективность больших языковых моделей действительно превосходит эффективность моделей меньшего размера. Кроме того, поскольку LLM по своей сути могут обрабатывать более длинные контексты, они могут представлять целые документы целостно, устраняя необходимость в традиционных стратегиях сегментации и объединения. Более того, оценки BEIR показывают, что наш конвейер RepLLaMA–RankLLaMA демонстрирует высокую эффективность с нулевым выстрелом. Контрольные точки модели из этого исследования доступны на HuggingFace.1.
Поиск текста, который влечет за собой идентификацию и ранжирование наиболее релевантных документов или текстовых фрагментов в ответ на запрос, имеет решающее значение в различных задачах понимания языка открытого домена (Petroni et al., 2021), включая веб-поиск (Bajaj et al., 2016), ответы на открытые вопросы (Chen et al., 2017) и проверка фактов (Thorne et al., 2018). Поиск также играет важную роль в повышении эффективности больших языковых моделей (LLM) в конвейере генерации с расширенным поиском (RAG) (Lewis et al., 2020b; Shi et al., 2023). Этот подход не только смягчает галлюцинации, но и позволяет магистрантам получить доступ к знаниям, которые не отражены в их параметрах (Yang et al., 2023; Jiang et al., 2023).
Типичный конвейер многоэтапного поиска текста состоит из средства извлечения, предназначенного для эффективного поиска топ-k релевантных текстов из корпуса, и средства переранжирования, которое дополнительно уточняет порядок извлеченных кандидатов для улучшения качества вывода (Nogueira and Cho, 2019). ). Как ретриверы, так и реранжеры получили значительную выгоду от появления предварительно обученных языковых моделей на основе трансформеров (Васвани и др., 2017), таких как BERT (Девлин и др., 2019) и T5 (Раффель и др., 2020). Эти модели обучены кодировать запросы и документы в векторные представления для поиска (Карпухин и др., 2020; Лин, 2021) или напрямую оценивать релевантность между запросом и документом для повторного ранжирования (Nogueira et al., 2019; Zhuang et др., 2023).
Последние модели больших языков с миллиардами параметров, точно настроенные для выполнения инструкций, такие как InstructGPT (Ouyang et al., 2022), GPT-4 (OpenAI, 2023) и LLaMA (Touvron et al., 2023a,b), продемонстрировали выдающиеся способности во многих задачах НЛП, превзойдя предыдущие небольшие предварительно обученные языковые модели (Чжао и др., 2023). Для поиска последние методы, такие как LRL (Ma et al., 2023), RankGPT (Sun et al., 2023) и PRP (Qin et al., 2023), исследовали побуждение LLM к выполнению нулевого повторного ранжирования с использованием парных или списочный подход. Эти методы используют LLM, рассматривая реранжирование как генерацию текста.
Однако мы видим ряд потенциальных проблем. Во-первых, эти методы не охватывают весь многоэтапный конвейер, поскольку сложно представить извлечение из большого корпуса как задачу генерации текста. Во-вторых, они не используют размеченные данные, если они доступны. Наконец, эти программы реранжирования неэффективны, поскольку они не поддерживают параллельную оценку и замедляются из-за конструкции многопроходного декодирования.
Поэтому мы утверждаем, что точная настройка современных больших языковых моделей для работы в качестве средств извлечения и изменения ранжирования может дать большую эффективность, чем предыдущие модели меньшего размера. Этот подход также позволяет оптимально использовать LLM в многоэтапных конвейерах. Таким образом, у нас есть мотивация изучить следующий исследовательский вопрос: как работают современные модели больших языков, специально настроенные для многоэтапного поиска текста?
Наше исследование направлено на ответ на этот вопрос путем проведения всестороннего исследования по точной настройке новейшей модели LLaMA-2 (Touvron et al., 2023b), современной модели большого языка с открытым исходным кодом, которая одновременно выполняет функции ретривера и реранкер, который мы называем RepLLaMA и RankLLaMA соответственно. В частности, для наших экспериментов мы используем наборы данных MS MARCO (Bajaj et al., 2016) и BEIR (Thakur et al., 2021). Наши результаты показывают, что большие языковые модели превосходят предыдущие более мелкие модели, достигая современной эффективности как для поиска, так и для изменения ранжирования благодаря простому режиму обучения и демонстрируя высокую эффективность с нулевым выстрелом. Кроме того, мы наблюдаем, что LLM, которые по своей сути предварительно обучены на более длинных контекстах, демонстрируют потенциал в представлении целых документов, тем самым устраняя необходимость в традиционных стратегиях сегментации и объединения для поиска документов.
Этот документ доступен на arxiv под лицензией CC 4.0.
1 https://huggingface.co/castorini