paint-brush
বড় ভাষার মডেলের জন্য দক্ষ নির্দেশিত প্রজন্ম: বিমূর্ত এবং ভূমিকাদ্বারা@textmodels
102 পড়া

বড় ভাষার মডেলের জন্য দক্ষ নির্দেশিত প্রজন্ম: বিমূর্ত এবং ভূমিকা

দ্বারা Writings, Papers and Blogs on Text Models3m2024/06/02
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

গবেষকরা টেক্সট জেনারেশনের জন্য একটি সসীম-স্টেট মেশিন ফ্রেমওয়ার্ক প্রস্তাব করেন, যা সুনির্দিষ্ট নিয়ন্ত্রণ এবং উন্নত কর্মক্ষমতা প্রদান করে।
featured image - বড় ভাষার মডেলের জন্য দক্ষ নির্দেশিত প্রজন্ম: বিমূর্ত এবং ভূমিকা
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

লেখক:

(1) ব্র্যান্ডন টি. উইলার্ড, নরমাল কম্পিউটিং;

(2) রেমি লাউফ, সাধারণ কম্পিউটিং।

লিঙ্কের টেবিল

বিমূর্ত

এই প্রবন্ধে আমরা দেখাই যে কীভাবে স্নায়বিক পাঠ্য প্রজন্মের সমস্যাটিকে একটি সসীম-রাষ্ট্রের যন্ত্রের অবস্থার মধ্যে পরিবর্তনের ক্ষেত্রে গঠনমূলকভাবে সংস্কার করা যেতে পারে। এই কাঠামোটি একটি ভাষার মডেলের শব্দভান্ডারের উপর একটি সূচক তৈরি করার অনুমতি দিয়ে নিয়মিত অভিব্যক্তি এবং প্রসঙ্গ-মুক্ত ব্যাকরণ সহ পাঠ্য প্রজন্মকে গাইড করার জন্য একটি দক্ষ পদ্ধতির দিকে নিয়ে যায়। পদ্ধতিটি মডেল অজ্ঞেয়বাদী, এটি একজনকে ডোমেন-নির্দিষ্ট জ্ঞান এবং সীমাবদ্ধতাগুলি প্রয়োগ করার অনুমতি দেয় এবং জেনারেট করা পাঠ্যের কাঠামোর গ্যারান্টি দিয়ে নির্ভরযোগ্য ইন্টারফেস তৈরি করতে সক্ষম করে। এটি টোকেন সিকোয়েন্স জেনারেশন প্রক্রিয়ায় সামান্য ওভারহেড যোগ করে এবং বিদ্যমান সমাধানগুলিকে উল্লেখযোগ্যভাবে ছাড়িয়ে যায়। ওপেন সোর্স পাইথন লাইব্রেরির আউটলাইন [লাউফ এবং উইলার্ড]-এ একটি বাস্তবায়ন প্রদান করা হয়েছে।

1। পরিচিতি

আমরা একটি বৃহৎ ভাষা মডেল (LLM) [Vaswani et al., 2017, Radford et al., 2019] থেকে টোকেনগুলির ক্রম তৈরি করার সমস্যা নিয়ে উদ্বিগ্ন যা নিয়মিত অভিব্যক্তি বা প্রসঙ্গ-মুক্ত ব্যাকরণ (CFGs) এর সাথে সামঞ্জস্যপূর্ণ। এই ধরনের গাইডেড এলএলএম জেনারেশন ব্যবহার করা হয় এলএলএম মডেল আউটপুটকে অনমনীয় ফরম্যাটিং প্রয়োজনীয়তার অধীনে ব্যবহারযোগ্য করতে যা হয় কঠিন বা ব্যয়বহুল হয় একা ফাইন-টিউনিংয়ের মাধ্যমে ক্যাপচার করা [Beurer-Kellner et al., 2023, Scholak et al., 2021, Poesia et al. al., 2022a, Rabinovich et al., 2017, Weng, 2021, Dong et al., 2023, Poesia et al., 2022b, Geng et al., 2023, Wang et al., 2023]। এই ধরনের বৈশিষ্ট্যগুলি সম্প্রতি লাইব্রেরি এবং ইন্টারফেসগুলিকে প্রম্পট করার ক্ষেত্রে সাধারণীকরণ করা হয়েছে [Microsoft, 2023, Beurer-Kellner et al., 2023, Rickard, 2023a,b], কিন্তু তাদের প্রযোজ্যতা তাদের স্কেলিং খরচ দ্বারা সীমিত হতে পারে।


গাইডেড জেনারেশনের বেশিরভাগ বাস্তবায়ন একটি LLM এর শব্দভান্ডারে টোকেনগুলির সম্ভাব্যতা নির্ধারণ করতে ব্যবহৃত স্কোর মানকে পক্ষপাত করে। একটি সাধারণ এবং পর্যাপ্ত পদ্ধতির মধ্যে কোন টোকেনগুলি বৈধ তা নির্ধারণ করার জন্য সম্পূর্ণ শব্দভাণ্ডারে বারবার মূল্যায়ন জড়িত – সীমাবদ্ধতা এবং পূর্বে নমুনাযুক্ত টোকেনগুলি অনুসারে–এবং অবৈধ টোকেনগুলির সম্ভাব্যতা শূন্যে সেট করা। এই পদ্ধতিতে উত্পন্ন প্রতিটি টোকেনের জন্য একটি নির্দিষ্ট O(N) খরচ যোগ করা হয়, যেখানে N হল LLM-এর শব্দভান্ডারের আকার।


আমরা একটি পদ্ধতির প্রস্তাব করি যা নিয়মিত এক্সপ্রেশনের সীমিত স্টেট মেশিন (FSM) ফর্মুলেশন ব্যবহার করে নির্বিচারে নির্দেশিত জেনারেশন শুরু এবং বন্ধ করতে এবং একটি সূচক নির্মাণের অনুমতি দেয় যার সাহায্যে প্রতিটি ধাপে অশূন্য-সম্ভাব্যতা টোকেনের সেট দক্ষতার সাথে প্রাপ্ত করা যায়। ফলাফল হল একটি অ্যালগরিদম যার দাম O(1) গড়ে।


রেগুলার এক্সপ্রেশন কেসের জন্য, আমাদের পন্থা কুচনিক এট আল-এর সাথে সবচেয়ে বেশি মিল শেয়ার করে। [2023], যা একটি ভাষা মডেলের শব্দভাণ্ডারে সংজ্ঞায়িত FSM প্রাপ্ত করার জন্য একটি ট্রান্সডুসার ফর্মুলেশন ব্যবহার করে, এবং এই FSMগুলিতে এখানে বর্ণিত সূচকগুলির মতো একই তথ্য এবং স্কেলিং সুবিধা রয়েছে। আমাদের পদ্ধতির সম্পূর্ণ ট্রান্সডুসার বিমূর্তকরণের প্রয়োজন হয় না এবং অন্তর্নিহিত অটোমেটন এবং তাদের বাস্তবায়ন পরিবর্তন না করে বিদ্যমান, দক্ষ নিয়মিত এক্সপ্রেশন লাইব্রেরিগুলিকে আরও সহজে প্রসারিত করতে ব্যবহার করা যেতে পারে।


আরও গুরুত্বপূর্ণভাবে, জনপ্রিয় ডেটা ফরম্যাট এবং প্রোগ্রামিং ভাষা (যেমন JSON, পাইথন, SQL, ইত্যাদি) অনুযায়ী দক্ষ নির্দেশিত প্রজন্মের জন্য মঞ্জুরি দেওয়ার জন্য আমাদের ইন্ডেক্সিং পদ্ধতি CFGs এবং LALR(1) পার্সারগুলিতেও প্রসারিত করা যেতে পারে। পার্সিং-এ রূপান্তরটি ঐতিহ্যগত LALR(1) পার্সার উপাদান এবং ক্রিয়াকলাপগুলিতে বৃদ্ধির মাধ্যমে তৈরি করা হয়, এটিকে-আবার-একটি পদ্ধতি তৈরি করে যা বিদ্যমান পার্সার বাস্তবায়নকে প্রসারিত করতে ব্যবহার করা যেতে পারে।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ