tác giả:  (1) Xueguang Ma, Trường Khoa học Máy tính David R. Cheriton, Đại học Waterloo;  (2) Liang Wang, Nghiên cứu của Microsoft;  (3) Nan Yang, Nghiên cứu của Microsoft;  (4) Furu Wei, Nghiên cứu của Microsoft;  (5) Jimmy Lin, Trường Khoa học Máy tính David R. Cheriton, Đại học Waterloo.  Bảng liên kết   Tóm tắt và giới thiệu   Phương pháp   Thí nghiệm   Nghiên cứu và phân tích Ablation   Công việc có liên quan   Kết luận, lời cảm ơn và tài liệu tham khảo  trừu tượng  Hiệu quả của việc tra cứu văn bản nhiều giai đoạn đã được chứng minh rõ ràng từ trước thời đại của các mô hình ngôn ngữ được đào tạo trước. Tuy nhiên, hầu hết các nghiên cứu hiện tại đều sử dụng các mô hình có trước những tiến bộ gần đây về mô hình ngôn ngữ lớn (LLM). Nghiên cứu này tìm cách khám phá những cải tiến tiềm năng mà LLM hiện đại có thể mang lại. Chúng tôi tiến hành một nghiên cứu toàn diện, tinh chỉnh mô hình LLaMA mới nhất vừa là công cụ truy xuất dày đặc (RepLLaMA) vừa là công cụ xếp hạng lại theo điểm (RankLLaMA) cho cả truy xuất đoạn văn và truy xuất tài liệu bằng bộ dữ liệu MS MARCO. Phát hiện của chúng tôi chứng minh rằng hiệu quả của các mô hình ngôn ngữ lớn thực sự vượt trội so với các mô hình nhỏ hơn. Ngoài ra, vì LLM vốn có thể xử lý các ngữ cảnh dài hơn nên chúng có thể thể hiện toàn bộ tài liệu một cách tổng thể, loại bỏ nhu cầu về các chiến lược phân đoạn và tổng hợp truyền thống. Hơn nữa, các đánh giá về BEIR chứng minh rằng quy trình RepLLaMA–RankLLaMA của chúng tôi thể hiện tính hiệu quả cao. Điểm kiểm tra mô hình từ nghiên cứu này có sẵn trên HuggingFace.1  1. Giới thiệu  Truy xuất văn bản, bao gồm việc xác định và xếp hạng các tài liệu hoặc đoạn văn bản có liên quan nhất để phản hồi một truy vấn, rất quan trọng trong các nhiệm vụ hiểu ngôn ngữ miền mở khác nhau (Petroni và cộng sự, 2021), bao gồm tìm kiếm trên web (Bajaj và cộng sự, 2016), trả lời câu hỏi trong miền mở (Chen và cộng sự, 2017) và xác minh thực tế (Thorne và cộng sự, 2018). Việc truy xuất cũng đóng một vai trò quan trọng trong việc nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLM) trong quy trình thế hệ tăng cường truy xuất (RAG) (Lewis và cộng sự, 2020b; Shi và cộng sự, 2023). Cách tiếp cận này không chỉ giảm thiểu ảo giác mà còn cho phép LLM tiếp cận những kiến thức không được nắm bắt trong giới hạn của chúng (Yang và cộng sự, 2023; Jiang và cộng sự, 2023).  Một quy trình truy xuất văn bản nhiều giai đoạn điển hình bao gồm một trình truy xuất, được thiết kế để định vị hiệu quả các văn bản có liên quan top-k từ một kho văn bản và một trình sắp xếp lại, giúp tinh chỉnh thêm thứ tự của các ứng cử viên được truy xuất để cải thiện chất lượng đầu ra (Nogueira và Cho, 2019 ). Cả trình truy xuất và trình sắp xếp lại đều được hưởng lợi đáng kể từ sự ra đời của các mô hình ngôn ngữ được đào tạo trước dựa trên Transformers (Vaswani và cộng sự, 2017) như BERT (Devlin và cộng sự, 2019) và T5 (Raffel và cộng sự, 2020). Các mô hình này được đào tạo để mã hóa các truy vấn và tài liệu thành biểu diễn vectơ để truy xuất (Karpukhin và cộng sự, 2020; Lin, 2021) hoặc để trực tiếp chấm điểm mức độ liên quan giữa truy vấn và tài liệu để sắp xếp lại (Nogueira và cộng sự, 2019; Zhuang và cộng sự, 2023).  Các mô hình ngôn ngữ lớn gần đây với hàng tỷ tham số, được tinh chỉnh để làm theo hướng dẫn, chẳng hạn như InstructGPT (Ouyang et al., 2022), GPT-4 (OpenAI, 2023) và LLaMA (Touvron et al., 2023a,b), đã thể hiện khả năng phi thường trong nhiều nhiệm vụ NLP, vượt qua các mô hình ngôn ngữ được đào tạo trước nhỏ hơn trước đó (Zhao và cộng sự, 2023). Để truy xuất, các phương pháp gần đây như LRL (Ma và cộng sự, 2023), RankGPT (Sun và cộng sự, 2023) và PRP (Qin và cộng sự, 2023) đã khám phá việc thúc đẩy LLM thực hiện sắp xếp lại không bắn bằng cách sử dụng theo cặp hoặc cách tiếp cận theo danh sách. Các phương pháp này tận dụng LLM bằng cách xem việc xếp hạng lại là tạo văn bản.  Tuy nhiên, chúng tôi thấy một số vấn đề tiềm ẩn. Đầu tiên, các phương pháp này không giải quyết được toàn bộ quy trình nhiều tầng, vì việc truy xuất từ một kho văn bản lớn thành một tác vụ tạo văn bản là một thách thức. Thứ hai, họ không tận dụng dữ liệu được dán nhãn khi có sẵn. Cuối cùng, những công cụ sắp xếp lại này không hiệu quả vì chúng không hỗ trợ tính điểm song song và bị chậm lại do thiết kế giải mã nhiều lượt.  Do đó, chúng tôi lập luận rằng việc tinh chỉnh các mô hình ngôn ngữ lớn hiện đại để hoạt động như công cụ truy xuất và sắp xếp lại có thể mang lại hiệu quả tốt hơn so với các mô hình nhỏ hơn trước đây. Cách tiếp cận này cũng có thể sử dụng LLM một cách tối ưu trong các đường ống nhiều giai đoạn. Vì vậy, chúng tôi có động lực nghiên cứu câu hỏi nghiên cứu sau: Các mô hình ngôn ngữ lớn hiện đại hoạt động như thế nào khi được tinh chỉnh cụ thể để truy xuất văn bản nhiều giai đoạn?  Nghiên cứu của chúng tôi nhằm mục đích trả lời câu hỏi này bằng cách tiến hành một cuộc điều tra toàn diện về việc hoàn thiện mô hình LLaMA-2 mới nhất (Touvron và cộng sự, 2023b), một mô hình ngôn ngữ lớn mã nguồn mở, hiện đại, vừa là công cụ tìm kiếm vừa là công cụ tìm kiếm. một trình xếp hạng lại mà chúng tôi gọi lần lượt là RepLLaMA và RankLLaMA. Cụ thể, chúng tôi sử dụng bộ dữ liệu MS MARCO (Bajaj và cộng sự, 2016) và BEIR (Thakur và cộng sự, 2021) cho các thử nghiệm của mình. Phát hiện của chúng tôi cho thấy các mô hình ngôn ngữ lớn vượt trội hơn các mô hình nhỏ hơn trước đó, đạt được hiệu quả tiên tiến cho cả việc truy xuất và sắp xếp lại thông qua chế độ đào tạo đơn giản và thể hiện tính hiệu quả cao. Hơn nữa, chúng tôi nhận thấy rằng LLM, vốn đã được đào tạo trước về các bối cảnh dài hơn, thể hiện tiềm năng trong việc thể hiện toàn bộ tài liệu, do đó loại bỏ nhu cầu về các chiến lược phân đoạn và tổng hợp truyền thống để truy xuất tài liệu.  Bài viết này   theo giấy phép CC 4.0. có sẵn trên arxiv  1 https://huggingface.co/castorini

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

Tinh chỉnh LLaMA để truy xuất văn bản nhiều giai đoạn

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

309 Stories To Learn About Smart Contracts

223 Stories To Learn About Science

240 Stories To Learn About Astounding Stories

581 Stories To Learn About Non Fiction

309 Stories To Learn About Smart Contracts

223 Stories To Learn About Science

240 Stories To Learn About Astounding Stories

581 Stories To Learn About Non Fiction

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps