paint-brush
Tinh chỉnh LLaMA để truy xuất văn bản nhiều giai đoạnby@textmodels
623
623

Tinh chỉnh LLaMA để truy xuất văn bản nhiều giai đoạn

Nghiên cứu này khám phá việc tăng cường truy xuất văn bản bằng cách sử dụng các mô hình LLaMA tiên tiến nhất. Được tinh chỉnh như RepLLaMA và RankLLaMA, các mô hình này đạt được hiệu quả vượt trội cho cả việc truy xuất đoạn văn và tài liệu, tận dụng khả năng xử lý các bối cảnh dài hơn và thể hiện hiệu suất không bị bắn mạnh mẽ.
featured image - Tinh chỉnh LLaMA để truy xuất văn bản nhiều giai đoạn
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

tác giả:

(1) Xueguang Ma, Trường Khoa học Máy tính David R. Cheriton, Đại học Waterloo;

(2) Liang Wang, Nghiên cứu của Microsoft;

(3) Nan Yang, Nghiên cứu của Microsoft;

(4) Furu Wei, Nghiên cứu của Microsoft;

(5) Jimmy Lin, Trường Khoa học Máy tính David R. Cheriton, Đại học Waterloo.

Bảng liên kết

Tóm tắt và giới thiệu

Phương pháp

Thí nghiệm

Nghiên cứu và phân tích Ablation

Công việc có liên quan

Kết luận, lời cảm ơn và tài liệu tham khảo

trừu tượng

Hiệu quả của việc tra cứu văn bản nhiều giai đoạn đã được chứng minh rõ ràng từ trước thời đại của các mô hình ngôn ngữ được đào tạo trước. Tuy nhiên, hầu hết các nghiên cứu hiện tại đều sử dụng các mô hình có trước những tiến bộ gần đây về mô hình ngôn ngữ lớn (LLM). Nghiên cứu này tìm cách khám phá những cải tiến tiềm năng mà LLM hiện đại có thể mang lại. Chúng tôi tiến hành một nghiên cứu toàn diện, tinh chỉnh mô hình LLaMA mới nhất vừa là công cụ truy xuất dày đặc (RepLLaMA) vừa là công cụ xếp hạng lại theo điểm (RankLLaMA) cho cả truy xuất đoạn văn và truy xuất tài liệu bằng bộ dữ liệu MS MARCO. Phát hiện của chúng tôi chứng minh rằng hiệu quả của các mô hình ngôn ngữ lớn thực sự vượt trội so với các mô hình nhỏ hơn. Ngoài ra, vì LLM vốn có thể xử lý các ngữ cảnh dài hơn nên chúng có thể thể hiện toàn bộ tài liệu một cách tổng thể, loại bỏ nhu cầu về các chiến lược phân đoạn và tổng hợp truyền thống. Hơn nữa, các đánh giá về BEIR chứng minh rằng quy trình RepLLaMA–RankLLaMA của chúng tôi thể hiện tính hiệu quả cao. Điểm kiểm tra mô hình từ nghiên cứu này có sẵn trên HuggingFace.1

1. Giới thiệu

Truy xuất văn bản, bao gồm việc xác định và xếp hạng các tài liệu hoặc đoạn văn bản có liên quan nhất để phản hồi một truy vấn, rất quan trọng trong các nhiệm vụ hiểu ngôn ngữ miền mở khác nhau (Petroni và cộng sự, 2021), bao gồm tìm kiếm trên web (Bajaj và cộng sự, 2016), trả lời câu hỏi trong miền mở (Chen và cộng sự, 2017) và xác minh thực tế (Thorne và cộng sự, 2018). Việc truy xuất cũng đóng một vai trò quan trọng trong việc nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLM) trong quy trình thế hệ tăng cường truy xuất (RAG) (Lewis và cộng sự, 2020b; Shi và cộng sự, 2023). Cách tiếp cận này không chỉ giảm thiểu ảo giác mà còn cho phép LLM tiếp cận những kiến thức không được nắm bắt trong giới hạn của chúng (Yang và cộng sự, 2023; Jiang và cộng sự, 2023).


Một quy trình truy xuất văn bản nhiều giai đoạn điển hình bao gồm một trình truy xuất, được thiết kế để định vị hiệu quả các văn bản có liên quan top-k từ một kho văn bản và một trình sắp xếp lại, giúp tinh chỉnh thêm thứ tự của các ứng cử viên được truy xuất để cải thiện chất lượng đầu ra (Nogueira và Cho, 2019 ). Cả trình truy xuất và trình sắp xếp lại đều được hưởng lợi đáng kể từ sự ra đời của các mô hình ngôn ngữ được đào tạo trước dựa trên Transformers (Vaswani và cộng sự, 2017) như BERT (Devlin và cộng sự, 2019) và T5 (Raffel và cộng sự, 2020). Các mô hình này được đào tạo để mã hóa các truy vấn và tài liệu thành biểu diễn vectơ để truy xuất (Karpukhin và cộng sự, 2020; Lin, 2021) hoặc để trực tiếp chấm điểm mức độ liên quan giữa truy vấn và tài liệu để sắp xếp lại (Nogueira và cộng sự, 2019; Zhuang và cộng sự, 2023).


Các mô hình ngôn ngữ lớn gần đây với hàng tỷ tham số, được tinh chỉnh để làm theo hướng dẫn, chẳng hạn như InstructGPT (Ouyang et al., 2022), GPT-4 (OpenAI, 2023) và LLaMA (Touvron et al., 2023a,b), đã thể hiện khả năng phi thường trong nhiều nhiệm vụ NLP, vượt qua các mô hình ngôn ngữ được đào tạo trước nhỏ hơn trước đó (Zhao và cộng sự, 2023). Để truy xuất, các phương pháp gần đây như LRL (Ma và cộng sự, 2023), RankGPT (Sun và cộng sự, 2023) và PRP (Qin và cộng sự, 2023) đã khám phá việc thúc đẩy LLM thực hiện sắp xếp lại không bắn bằng cách sử dụng theo cặp hoặc cách tiếp cận theo danh sách. Các phương pháp này tận dụng LLM bằng cách xem việc xếp hạng lại là tạo văn bản.


Tuy nhiên, chúng tôi thấy một số vấn đề tiềm ẩn. Đầu tiên, các phương pháp này không giải quyết được toàn bộ quy trình nhiều tầng, vì việc truy xuất từ một kho văn bản lớn thành một tác vụ tạo văn bản là một thách thức. Thứ hai, họ không tận dụng dữ liệu được dán nhãn khi có sẵn. Cuối cùng, những công cụ sắp xếp lại này không hiệu quả vì chúng không hỗ trợ tính điểm song song và bị chậm lại do thiết kế giải mã nhiều lượt.


Do đó, chúng tôi lập luận rằng việc tinh chỉnh các mô hình ngôn ngữ lớn hiện đại để hoạt động như công cụ truy xuất và sắp xếp lại có thể mang lại hiệu quả tốt hơn so với các mô hình nhỏ hơn trước đây. Cách tiếp cận này cũng có thể sử dụng LLM một cách tối ưu trong các đường ống nhiều giai đoạn. Vì vậy, chúng tôi có động lực nghiên cứu câu hỏi nghiên cứu sau: Các mô hình ngôn ngữ lớn hiện đại hoạt động như thế nào khi được tinh chỉnh cụ thể để truy xuất văn bản nhiều giai đoạn?


Nghiên cứu của chúng tôi nhằm mục đích trả lời câu hỏi này bằng cách tiến hành một cuộc điều tra toàn diện về việc hoàn thiện mô hình LLaMA-2 mới nhất (Touvron và cộng sự, 2023b), một mô hình ngôn ngữ lớn mã nguồn mở, hiện đại, vừa là công cụ tìm kiếm vừa là công cụ tìm kiếm. một trình xếp hạng lại mà chúng tôi gọi lần lượt là RepLLaMA và RankLLaMA. Cụ thể, chúng tôi sử dụng bộ dữ liệu MS MARCO (Bajaj và cộng sự, 2016) và BEIR (Thakur và cộng sự, 2021) cho các thử nghiệm của mình. Phát hiện của chúng tôi cho thấy các mô hình ngôn ngữ lớn vượt trội hơn các mô hình nhỏ hơn trước đó, đạt được hiệu quả tiên tiến cho cả việc truy xuất và sắp xếp lại thông qua chế độ đào tạo đơn giản và thể hiện tính hiệu quả cao. Hơn nữa, chúng tôi nhận thấy rằng LLM, vốn đã được đào tạo trước về các bối cảnh dài hơn, thể hiện tiềm năng trong việc thể hiện toàn bộ tài liệu, do đó loại bỏ nhu cầu về các chiến lược phân đoạn và tổng hợp truyền thống để truy xuất tài liệu.


Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.



1 https://huggingface.co/castorini