লেখক:
(1) Xueguang Ma, David R. Cheriton School of Computer Science, University of Waterloo;
(2) লিয়াং ওয়াং, মাইক্রোসফ্ট গবেষণা;
(3) নান ইয়াং, মাইক্রোসফ্ট গবেষণা;
(4) Furu Wei, Microsoft Research;
(5) Jimmy Lin, David R. Cheriton School of Computer Science, University of Waterloo.
উপসংহার, স্বীকৃতি এবং রেফারেন্স
বহু-পর্যায়ের পাঠ্য পুনরুদ্ধারের কার্যকারিতা প্রাক-প্রশিক্ষিত ভাষা মডেলের যুগের আগে থেকে দৃঢ়ভাবে প্রদর্শিত হয়েছে। যাইহোক, বেশিরভাগ বিদ্যমান অধ্যয়নগুলি এমন মডেলগুলি ব্যবহার করে যা বৃহৎ ভাষার মডেলগুলিতে (এলএলএম) সাম্প্রতিক অগ্রগতির পূর্ববর্তী। এই অধ্যয়নটি সম্ভাব্য উন্নতিগুলি অন্বেষণ করতে চায় যা অত্যাধুনিক এলএলএমগুলি আনতে পারে৷ আমরা MS MARCO ডেটাসেট ব্যবহার করে উত্তরণ পুনরুদ্ধার এবং নথি পুনরুদ্ধার উভয়ের জন্য একটি ঘন পুনরুদ্ধারকারী (RepLLaMA) এবং পয়েন্টওয়াইজ রিরাঙ্কার (RankLLaMA) উভয়ের জন্য সর্বশেষ LLaMA মডেলকে ফাইন-টিউনিং করে একটি ব্যাপক অধ্যয়ন করি। আমাদের অনুসন্ধানগুলি দেখায় যে বড় ভাষার মডেলগুলির কার্যকারিতা প্রকৃতপক্ষে ছোট মডেলগুলির থেকে ছাড়িয়ে যায়। অতিরিক্তভাবে, যেহেতু এলএলএমগুলি অন্তর্নিহিতভাবে দীর্ঘ প্রসঙ্গগুলি পরিচালনা করতে পারে, তাই তারা ঐতিহ্যগত বিভাজন এবং পুলিং কৌশলগুলির প্রয়োজনীয়তা দূর করে সমগ্র নথিগুলিকে সামগ্রিকভাবে উপস্থাপন করতে পারে। উপরন্তু, BEIR-এর মূল্যায়ন দেখায় যে আমাদের RepLLaMA–RankLLaMA পাইপলাইন শক্তিশালী শূন্য-শট কার্যকারিতা প্রদর্শন করে। এই গবেষণার মডেল চেকপয়েন্টগুলি HuggingFace.1-এ উপলব্ধ
টেক্সট পুনরুদ্ধার, যা একটি প্রশ্নের উত্তরে সবচেয়ে প্রাসঙ্গিক নথি বা পাঠ্য স্নিপেটগুলি সনাক্তকরণ এবং র্যাঙ্কিং করে, বিভিন্ন ওপেনডোমেন ভাষা বোঝার কাজগুলিতে (পেট্রোনি এট আল।, 2021), ওয়েব অনুসন্ধান সহ (বাজাজ এট আল।, 2016) গুরুত্বপূর্ণ। ওপেন-ডোমেন প্রশ্নের উত্তর (চেন এট আল।, 2017), এবং সত্য যাচাইকরণ (থর্ন এট আল।, 2018)। পুনরুদ্ধার একটি পুনরুদ্ধার-অগমেন্টেড জেনারেশন (RAG) পাইপলাইনে (Lewis et al., 2020b; Shi et al., 2023) বড় ভাষা মডেলের (LLMs) কার্যকারিতা বাড়ানোর ক্ষেত্রেও গুরুত্বপূর্ণ ভূমিকা পালন করে। এই পদ্ধতিটি শুধুমাত্র হ্যালুসিনেশনকে প্রশমিত করে না বরং এলএলএম-কে সেই জ্ঞান অ্যাক্সেস করতে সক্ষম করে যা তাদের প্যারামিটারের মধ্যে ধরা পড়ে না (ইয়াং এট আল।, 2023; জিয়াং এট আল।, 2023)।
একটি সাধারণ মাল্টি-স্টেজ টেক্সট পুনরুদ্ধার পাইপলাইন একটি পুনরুদ্ধার নিয়ে গঠিত, একটি কর্পাস থেকে শীর্ষ-কে প্রাসঙ্গিক পাঠ্যগুলিকে দক্ষতার সাথে সনাক্ত করার জন্য ডিজাইন করা হয়েছে, এবং একটি রিরেঙ্কার, যা আউটপুট গুণমান উন্নত করতে পুনরুদ্ধার করা প্রার্থীদের ক্রমকে আরও পরিমার্জিত করে (নোগুইরা এবং চো, 2019) ) ট্রান্সফরমার (ভাসওয়ানি এট আল।, 2017) যেমন BERT (Devlin et al., 2019) এবং T5 (Raffel et al., 2020) এর উপর ভিত্তি করে প্রাক-প্রশিক্ষিত ভাষা মডেলের আবির্ভাব থেকে উদ্ধারকারী এবং পুনঃরাঙ্কার উভয়ই উল্লেখযোগ্যভাবে উপকৃত হয়েছে। এই মডেলগুলিকে পুনরুদ্ধারের জন্য ভেক্টর উপস্থাপনাগুলিতে প্রশ্ন এবং নথিগুলিকে এনকোড করতে প্রশিক্ষিত করা হয় (কারপুখিন এট আল।, 2020; লিন, 2021) বা পুনরায় র্যাঙ্কিংয়ের জন্য একটি কোয়েরি এবং একটি নথির মধ্যে প্রাসঙ্গিকতা সরাসরি স্কোর করার জন্য (নোগুইরা এট আল।, 2019; ঝুয়াং এবং আল।, 2023)।
বিলিয়ন প্যারামিটার সহ সাম্প্রতিক বৃহৎ ভাষার মডেল, নির্দেশাবলী অনুসরণ করার জন্য সূক্ষ্ম সুর করা হয়েছে, যেমন InstructGPT (Ouyang et al., 2022), GPT-4 (OpenAI, 2023), এবং LLaMA (Touvron et al., 2023a,b), পূর্ববর্তী ছোট প্রাক-প্রশিক্ষিত ভাষার মডেলগুলিকে ছাড়িয়ে অনেক NLP কাজে অসাধারণ ক্ষমতা প্রদর্শন করেছে (ঝাও এট আল।, 2023)। পুনরুদ্ধারের জন্য, সাম্প্রতিক পদ্ধতি যেমন LRL (Ma et al., 2023), RankGPT (Sun et al., 2023), এবং PRP (Qin et al., 2023) অন্বেষণ করেছে এলএলএমগুলিকে জোড়ায় বা ব্যবহার করে জিরো-শট পুনঃর্যাঙ্কিং করার জন্য প্রম্পট করছে তালিকা অনুযায়ী পন্থা। এই পদ্ধতিগুলি টেক্সট জেনারেশন হিসাবে পুনঃর্যাঙ্কিং দেখে এলএলএমগুলিকে লাভ করে।
যাইহোক, আমরা সম্ভাব্য কিছু সমস্যা দেখতে পাই। প্রথমত, এই পদ্ধতিগুলি সম্পূর্ণ মাল্টিস্টেজ পাইপলাইনকে সম্বোধন করে না, কারণ এটি একটি টেক্সট জেনারেশন টাস্ক হিসাবে একটি বড় কর্পাস থেকে পুনরুদ্ধার করা চ্যালেঞ্জিং। দ্বিতীয়ত, তারা যখন উপলভ্য হয় তখন লেবেলযুক্ত ডেটা লাভ করে না। অবশেষে, এই রির্যাঙ্কারগুলি দক্ষ নয় কারণ তারা সমান্তরাল স্কোরিং সমর্থন করে না এবং তাদের মাল্টি-পাস ডিকোডিং ডিজাইন দ্বারা ধীর হয়ে যায়।
অতএব, আমরা যুক্তি দিয়েছি যে পুনরুদ্ধারকারী এবং পুনঃরাঙ্কার হিসাবে কাজ করার জন্য অত্যাধুনিক বৃহৎ ভাষার মডেলগুলিকে সূক্ষ্ম-টিউনিং পূর্ববর্তী ছোট মডেলগুলির তুলনায় আরও ভাল কার্যকারিতা দিতে পারে। এই পদ্ধতিটি মাল্টি-স্টেজ পাইপলাইনের মধ্যে এলএলএমগুলিকে সর্বোত্তমভাবে ব্যবহার করতে পারে। এইভাবে, আমরা নিম্নলিখিত গবেষণা প্রশ্নটি তদন্ত করতে অনুপ্রাণিত হয়েছি: মাল্টি-স্টেজ টেক্সট পুনরুদ্ধারের জন্য বিশেষভাবে সূক্ষ্ম সুর করা হলে অত্যাধুনিক বৃহৎ ভাষার মডেলগুলি কীভাবে কাজ করে?
আমাদের অধ্যয়নের লক্ষ্য হল সর্বশেষ LLaMA-2 মডেল (Touvron et al., 2023b), একটি অত্যাধুনিক, ওপেন সোর্স বৃহৎ ভাষা মডেল, একটি পুনরুদ্ধারকারী এবং উভয়ই হিসাবে ফাইনটিউনিং করার জন্য একটি বিস্তৃত তদন্ত পরিচালনা করে এই প্রশ্নের উত্তর দেওয়া। একটি রিরেঙ্কার, যাকে আমরা যথাক্রমে RepLLaMA এবং RankLLaMA হিসাবে উল্লেখ করি। বিশেষভাবে, আমরা আমাদের পরীক্ষার জন্য MS MARCO (Bajaj et al., 2016) এবং BEIR (Thakur et al., 2021) ডেটাসেটগুলি ব্যবহার করি৷ আমাদের অনুসন্ধানগুলি পরামর্শ দেয় যে বৃহৎ ভাষার মডেলগুলি পূর্ববর্তী ছোট মডেলগুলিকে ছাড়িয়ে যায়, একটি সরল প্রশিক্ষণ ব্যবস্থার মাধ্যমে পুনরুদ্ধার এবং পুনঃর্যাঙ্কিং উভয়ের জন্য অত্যাধুনিক কার্যকারিতা অর্জন করে এবং শক্তিশালী শূন্য-শট কার্যকারিতা প্রদর্শন করে। তদ্ব্যতীত, আমরা লক্ষ্য করি যে LLM, যেগুলি অন্তর্নিহিতভাবে দীর্ঘ প্রেক্ষাপটে প্রাক-প্রশিক্ষিত, সমগ্র নথির প্রতিনিধিত্ব করার সম্ভাব্যতা প্রদর্শন করে, যার ফলে নথি পুনরুদ্ধারের জন্য ঐতিহ্যগত বিভাজন এবং পুলিং কৌশলগুলির প্রয়োজনীয়তা দূর হয়।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।
1 https://huggingface.co/castorini