663 পড়া

মাল্টি-স্টেজ টেক্সট পুনরুদ্ধারের জন্য ফাইন-টিউনিং LLaMA

দ্বারা Writings, Papers and Blogs on Text Models4m2024/07/05

অতিদীর্ঘ; পড়তে

এই অধ্যয়নটি অত্যাধুনিক LLaMA মডেলগুলি ব্যবহার করে পাঠ্য পুনরুদ্ধার বাড়ানোর অন্বেষণ করে। RepLLaMA এবং RankLLaMA হিসাবে সূক্ষ্ম-সুরিত, এই মডেলগুলি উত্তরণ এবং নথি পুনরুদ্ধার উভয়ের জন্য উচ্চতর কার্যকারিতা অর্জন করে, দীর্ঘ প্রসঙ্গগুলি পরিচালনা করার এবং শক্তিশালী শূন্য-শট পারফরম্যান্স প্রদর্শন করার তাদের ক্ষমতাকে কাজে লাগিয়ে।

featured image - মাল্টি-স্টেজ টেক্সট পুনরুদ্ধারের জন্য ফাইন-টিউনিং LLaMA

‘a llama on a computer screen’ Image created by HackerNoon AI Image Generator

লেখক:

(1) Xueguang Ma, David R. Cheriton School of Computer Science, University of Waterloo;

(2) লিয়াং ওয়াং, মাইক্রোসফ্ট গবেষণা;

(3) নান ইয়াং, মাইক্রোসফ্ট গবেষণা;

(4) Furu Wei, Microsoft Research;

(5) Jimmy Lin, David R. Cheriton School of Computer Science, University of Waterloo.

লিঙ্কের টেবিল

বিমূর্ত এবং ভূমিকা

পদ্ধতি

পরীক্ষা-নিরীক্ষা

অবলেশন স্টাডি এবং বিশ্লেষণ

সম্পর্কিত কাজ

উপসংহার, স্বীকৃতি এবং রেফারেন্স

বিমূর্ত

বহু-পর্যায়ের পাঠ্য পুনরুদ্ধারের কার্যকারিতা প্রাক-প্রশিক্ষিত ভাষা মডেলের যুগের আগে থেকে দৃঢ়ভাবে প্রদর্শিত হয়েছে। যাইহোক, বেশিরভাগ বিদ্যমান অধ্যয়নগুলি এমন মডেলগুলি ব্যবহার করে যা বৃহৎ ভাষার মডেলগুলিতে (এলএলএম) সাম্প্রতিক অগ্রগতির পূর্ববর্তী। এই অধ্যয়নটি সম্ভাব্য উন্নতিগুলি অন্বেষণ করতে চায় যা অত্যাধুনিক এলএলএমগুলি আনতে পারে৷ আমরা MS MARCO ডেটাসেট ব্যবহার করে উত্তরণ পুনরুদ্ধার এবং নথি পুনরুদ্ধার উভয়ের জন্য একটি ঘন পুনরুদ্ধারকারী (RepLLaMA) এবং পয়েন্টওয়াইজ রিরাঙ্কার (RankLLaMA) উভয়ের জন্য সর্বশেষ LLaMA মডেলকে ফাইন-টিউনিং করে একটি ব্যাপক অধ্যয়ন করি। আমাদের অনুসন্ধানগুলি দেখায় যে বড় ভাষার মডেলগুলির কার্যকারিতা প্রকৃতপক্ষে ছোট মডেলগুলির থেকে ছাড়িয়ে যায়। অতিরিক্তভাবে, যেহেতু এলএলএমগুলি অন্তর্নিহিতভাবে দীর্ঘ প্রসঙ্গগুলি পরিচালনা করতে পারে, তাই তারা ঐতিহ্যগত বিভাজন এবং পুলিং কৌশলগুলির প্রয়োজনীয়তা দূর করে সমগ্র নথিগুলিকে সামগ্রিকভাবে উপস্থাপন করতে পারে। উপরন্তু, BEIR-এর মূল্যায়ন দেখায় যে আমাদের RepLLaMA–RankLLaMA পাইপলাইন শক্তিশালী শূন্য-শট কার্যকারিতা প্রদর্শন করে। এই গবেষণার মডেল চেকপয়েন্টগুলি HuggingFace.1-এ উপলব্ধ

1। পরিচিতি

টেক্সট পুনরুদ্ধার, যা একটি প্রশ্নের উত্তরে সবচেয়ে প্রাসঙ্গিক নথি বা পাঠ্য স্নিপেটগুলি সনাক্তকরণ এবং র‌্যাঙ্কিং করে, বিভিন্ন ওপেনডোমেন ভাষা বোঝার কাজগুলিতে (পেট্রোনি এট আল।, 2021), ওয়েব অনুসন্ধান সহ (বাজাজ এট আল।, 2016) গুরুত্বপূর্ণ। ওপেন-ডোমেন প্রশ্নের উত্তর (চেন এট আল।, 2017), এবং সত্য যাচাইকরণ (থর্ন এট আল।, 2018)। পুনরুদ্ধার একটি পুনরুদ্ধার-অগমেন্টেড জেনারেশন (RAG) পাইপলাইনে (Lewis et al., 2020b; Shi et al., 2023) বড় ভাষা মডেলের (LLMs) কার্যকারিতা বাড়ানোর ক্ষেত্রেও গুরুত্বপূর্ণ ভূমিকা পালন করে। এই পদ্ধতিটি শুধুমাত্র হ্যালুসিনেশনকে প্রশমিত করে না বরং এলএলএম-কে সেই জ্ঞান অ্যাক্সেস করতে সক্ষম করে যা তাদের প্যারামিটারের মধ্যে ধরা পড়ে না (ইয়াং এট আল।, 2023; জিয়াং এট আল।, 2023)।

একটি সাধারণ মাল্টি-স্টেজ টেক্সট পুনরুদ্ধার পাইপলাইন একটি পুনরুদ্ধার নিয়ে গঠিত, একটি কর্পাস থেকে শীর্ষ-কে প্রাসঙ্গিক পাঠ্যগুলিকে দক্ষতার সাথে সনাক্ত করার জন্য ডিজাইন করা হয়েছে, এবং একটি রিরেঙ্কার, যা আউটপুট গুণমান উন্নত করতে পুনরুদ্ধার করা প্রার্থীদের ক্রমকে আরও পরিমার্জিত করে (নোগুইরা এবং চো, 2019) ) ট্রান্সফরমার (ভাসওয়ানি এট আল।, 2017) যেমন BERT (Devlin et al., 2019) এবং T5 (Raffel et al., 2020) এর উপর ভিত্তি করে প্রাক-প্রশিক্ষিত ভাষা মডেলের আবির্ভাব থেকে উদ্ধারকারী এবং পুনঃরাঙ্কার উভয়ই উল্লেখযোগ্যভাবে উপকৃত হয়েছে। এই মডেলগুলিকে পুনরুদ্ধারের জন্য ভেক্টর উপস্থাপনাগুলিতে প্রশ্ন এবং নথিগুলিকে এনকোড করতে প্রশিক্ষিত করা হয় (কারপুখিন এট আল।, 2020; লিন, 2021) বা পুনরায় র‌্যাঙ্কিংয়ের জন্য একটি কোয়েরি এবং একটি নথির মধ্যে প্রাসঙ্গিকতা সরাসরি স্কোর করার জন্য (নোগুইরা এট আল।, 2019; ঝুয়াং এবং আল।, 2023)।

বিলিয়ন প্যারামিটার সহ সাম্প্রতিক বৃহৎ ভাষার মডেল, নির্দেশাবলী অনুসরণ করার জন্য সূক্ষ্ম সুর করা হয়েছে, যেমন InstructGPT (Ouyang et al., 2022), GPT-4 (OpenAI, 2023), এবং LLaMA (Touvron et al., 2023a,b), পূর্ববর্তী ছোট প্রাক-প্রশিক্ষিত ভাষার মডেলগুলিকে ছাড়িয়ে অনেক NLP কাজে অসাধারণ ক্ষমতা প্রদর্শন করেছে (ঝাও এট আল।, 2023)। পুনরুদ্ধারের জন্য, সাম্প্রতিক পদ্ধতি যেমন LRL (Ma et al., 2023), RankGPT (Sun et al., 2023), এবং PRP (Qin et al., 2023) অন্বেষণ করেছে এলএলএমগুলিকে জোড়ায় বা ব্যবহার করে জিরো-শট পুনঃর্যাঙ্কিং করার জন্য প্রম্পট করছে তালিকা অনুযায়ী পন্থা। এই পদ্ধতিগুলি টেক্সট জেনারেশন হিসাবে পুনঃর্যাঙ্কিং দেখে এলএলএমগুলিকে লাভ করে।

যাইহোক, আমরা সম্ভাব্য কিছু সমস্যা দেখতে পাই। প্রথমত, এই পদ্ধতিগুলি সম্পূর্ণ মাল্টিস্টেজ পাইপলাইনকে সম্বোধন করে না, কারণ এটি একটি টেক্সট জেনারেশন টাস্ক হিসাবে একটি বড় কর্পাস থেকে পুনরুদ্ধার করা চ্যালেঞ্জিং। দ্বিতীয়ত, তারা যখন উপলভ্য হয় তখন লেবেলযুক্ত ডেটা লাভ করে না। অবশেষে, এই রির্যাঙ্কারগুলি দক্ষ নয় কারণ তারা সমান্তরাল স্কোরিং সমর্থন করে না এবং তাদের মাল্টি-পাস ডিকোডিং ডিজাইন দ্বারা ধীর হয়ে যায়।

অতএব, আমরা যুক্তি দিয়েছি যে পুনরুদ্ধারকারী এবং পুনঃরাঙ্কার হিসাবে কাজ করার জন্য অত্যাধুনিক বৃহৎ ভাষার মডেলগুলিকে সূক্ষ্ম-টিউনিং পূর্ববর্তী ছোট মডেলগুলির তুলনায় আরও ভাল কার্যকারিতা দিতে পারে। এই পদ্ধতিটি মাল্টি-স্টেজ পাইপলাইনের মধ্যে এলএলএমগুলিকে সর্বোত্তমভাবে ব্যবহার করতে পারে। এইভাবে, আমরা নিম্নলিখিত গবেষণা প্রশ্নটি তদন্ত করতে অনুপ্রাণিত হয়েছি: মাল্টি-স্টেজ টেক্সট পুনরুদ্ধারের জন্য বিশেষভাবে সূক্ষ্ম সুর করা হলে অত্যাধুনিক বৃহৎ ভাষার মডেলগুলি কীভাবে কাজ করে?

আমাদের অধ্যয়নের লক্ষ্য হল সর্বশেষ LLaMA-2 মডেল (Touvron et al., 2023b), একটি অত্যাধুনিক, ওপেন সোর্স বৃহৎ ভাষা মডেল, একটি পুনরুদ্ধারকারী এবং উভয়ই হিসাবে ফাইনটিউনিং করার জন্য একটি বিস্তৃত তদন্ত পরিচালনা করে এই প্রশ্নের উত্তর দেওয়া। একটি রিরেঙ্কার, যাকে আমরা যথাক্রমে RepLLaMA এবং RankLLaMA হিসাবে উল্লেখ করি। বিশেষভাবে, আমরা আমাদের পরীক্ষার জন্য MS MARCO (Bajaj et al., 2016) এবং BEIR (Thakur et al., 2021) ডেটাসেটগুলি ব্যবহার করি৷ আমাদের অনুসন্ধানগুলি পরামর্শ দেয় যে বৃহৎ ভাষার মডেলগুলি পূর্ববর্তী ছোট মডেলগুলিকে ছাড়িয়ে যায়, একটি সরল প্রশিক্ষণ ব্যবস্থার মাধ্যমে পুনরুদ্ধার এবং পুনঃর্যাঙ্কিং উভয়ের জন্য অত্যাধুনিক কার্যকারিতা অর্জন করে এবং শক্তিশালী শূন্য-শট কার্যকারিতা প্রদর্শন করে। তদ্ব্যতীত, আমরা লক্ষ্য করি যে LLM, যেগুলি অন্তর্নিহিতভাবে দীর্ঘ প্রেক্ষাপটে প্রাক-প্রশিক্ষিত, সমগ্র নথির প্রতিনিধিত্ব করার সম্ভাব্যতা প্রদর্শন করে, যার ফলে নথি পুনরুদ্ধারের জন্য ঐতিহ্যগত বিভাজন এবং পুলিং কৌশলগুলির প্রয়োজনীয়তা দূর হয়।

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।

1 https://huggingface.co/castorini

L O A D I N G
. . . comments & more!

About Author

Writings, Papers and Blogs on Text Models@textmodels

We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

Read my stories

আসে ট্যাগ

tech-stories #llama #llm-fine-tuning #fine-tuning-llama #multi-stage-text-retrieval #rankllama #bi-encoder-architecture #transformer-architecture #hackernoon-top-story

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Terminal

Lite

Also published here

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

মাল্টি-স্টেজ টেক্সট পুনরুদ্ধারের জন্য ফাইন-টিউনিং LLaMA

অতিদীর্ঘ; পড়তে

লিঙ্কের টেবিল

বিমূর্ত

1। পরিচিতি

About Author

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

সম্পর্কিত গল্প