paint-brush
বৃহৎ ভাষার মডেলের জন্য দক্ষ নির্দেশিত প্রজন্ম: আলোচনা, তথ্যসূত্র এবং স্বীকৃতি দ্বারা@textmodels
168 পড়া

বৃহৎ ভাষার মডেলের জন্য দক্ষ নির্দেশিত প্রজন্ম: আলোচনা, তথ্যসূত্র এবং স্বীকৃতি

দ্বারা Writings, Papers and Blogs on Text Models
Writings, Papers and Blogs on Text Models HackerNoon profile picture

Writings, Papers and Blogs on Text Models

@textmodels

We publish the best academic papers on rule-based techniques, LLMs,...

4 মিনিট read2024/06/02
Read on Terminal Reader
Read this story in a terminal
Print this story

অতিদীর্ঘ; পড়তে

গবেষকরা টেক্সট জেনারেশনের জন্য একটি সসীম-স্টেট মেশিন ফ্রেমওয়ার্ক প্রস্তাব করেন, যা সুনির্দিষ্ট নিয়ন্ত্রণ এবং উন্নত কর্মক্ষমতা প্রদান করে।
featured image - বৃহৎ ভাষার মডেলের জন্য দক্ষ নির্দেশিত প্রজন্ম: আলোচনা, তথ্যসূত্র এবং স্বীকৃতি
Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models

Writings, Papers and Blogs on Text Models

@textmodels

We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

লেখক:

(1) ব্র্যান্ডন টি. উইলার্ড, নরমাল কম্পিউটিং;

(2) রেমি লাউফ, সাধারণ কম্পিউটিং।

লিঙ্কের টেবিল

5. আলোচনা

এই কাগজে প্রবর্তিত শব্দভান্ডার সূচী নির্দেশিত প্রজন্মের মধ্যে একটি নিষিদ্ধ রান-টাইম স্কেলিং বাধা দূর করে। স্বাভাবিকভাবেই, এটি প্রক্রিয়াকরণ এবং মেমরির মধ্যে একটি লেনদেন তৈরি করে, কিন্তু আমরা বিশ্বাস করি যে মেমরির খরচ গড়ে তুলনামূলকভাবে কম এবং–যখন না হয়–প্রথাগত উপায়ে কমানো যায়৷


পাইথন ব্যাকরণের একটি সামান্য পরিবর্ধিত সংস্করণ ব্যবহার করে আমাদের পরীক্ষায়, আমরা দেখতে পাই যে এমনকি নির্বোধভাবে নির্মিত সূচকগুলি (যেমন অব্যবহৃত এবং অপ্রয়োজনীয় পার্সার এবং FSM স্টেট কনফিগারেশন রয়েছে) এখনও মাত্র 50 MB এর কাছাকাছি। তদ্ব্যতীত, এই সূচকগুলি অ-হ্রাসকৃত ডিএফএগুলির সাথে তৈরি করা হয়েছিল, যা বোঝায় যে অনেকগুলি অপ্রয়োজনীয় অবস্থা রয়েছে যা অপ্রয়োজনীয়ভাবে সূচকগুলির আকার বাড়িয়েছে। একইভাবে, যদি রাষ্ট্রীয় মেশিনগুলির সঠিক উপস্থাপনা কখনও একটি সমস্যা হয়, তবে এটি সম্ভব যে নিম্ন মেমরির প্রয়োজনীয়তা সহ অন্যান্য রাষ্ট্রীয় মেশিন ফর্মুলেশন যথেষ্ট হতে পারে (যেমন NFAs)।


এই কাজের প্রভাব শুধুমাত্র নিউরাল টেক্সট জেনারেশনের মধ্যে সীমাবদ্ধ নয়। উদাহরণস্বরূপ, যখন কাঠামোগত আউটপুটগুলির প্রয়োজন হয় তখন কেউ প্রশিক্ষণ বা এলএলএম-এর সূক্ষ্ম-টিউনিংয়ে সহায়তা করার জন্য এখানে বর্ণিত ইন্ডেক্সিং পদ্ধতি ব্যবহার করতে পারে। আমরা অনুমান করতে পারি যে প্রশিক্ষণের সময় সহায়ক প্রজন্ম সিনট্যাকটিক বিবরণ শেখার জন্য একটি মডেলের প্রয়োজনীয়তা হ্রাস করতে পারে।


উপরন্তু, এই পদ্ধতি বর্তমান মডেল মূল্যায়ন একটি বিকল্প উপায় প্রদান করে. উদাহরণস্বরূপ, কেউ আমাদের পদ্ধতি দ্বারা উত্পন্ন মুখোশযুক্ত লজিট এবং মডেল দ্বারা উত্পন্ন কাঁচা লগিটগুলির মধ্যে পার্থক্য পরিমাপ করার চেষ্টা করতে পারে। যা একটি মডেলের প্রশিক্ষণের উদ্দেশ্য সম্পর্কে জানাতে পারে।


ভাষা মডেলগুলিতে এই পদ্ধতির দ্বারা গণনা করা মুখোশগুলিকে "উত্তোলন" করাও সম্ভব হতে পারে। মূলত, মুখোশগুলি স্পষ্টভাবে নির্ধারণ করে যে কোন গণনাগুলি সম্পাদন করার প্রয়োজন নেই। আমাদের বর্তমান ফর্মুলেশন শুধুমাত্র সর্বনিম্ন স্তরে মুখোশগুলিকে প্রয়োগ করে, কিন্তু, মডেলের আর্কিটেকচারে মুখোশগুলিকে আরও উপরে তোলার মাধ্যমে, আমরা অপ্রয়োজনীয়ভাবে অপারেশন করার আগে মডেলের প্যারামিটারগুলির কোন স্লাইসগুলি প্রয়োজন তা মডিউল করতে সক্ষম হতে পারি৷ এতে কম্পিউটেশনাল খরচ আরও কমানোর সম্ভাবনা রয়েছে।

তথ্যসূত্র

লুকা বিউর-কেলনার, মার্ক ফিশার এবং মার্টিন ভেচেভ। প্রম্পটিং হল প্রোগ্রামিং: বড় ভাষার মডেলের জন্য একটি কোয়েরি ভাষা। প্রোগ্রামিং ল্যাঙ্গুয়েজে ACM-এর কার্যক্রম, 7(PLDI):1946–1969, 2023।


ইহং ডং, জি লি এবং ঝি জিন। কোডপ: সাধারণ-উদ্দেশ্য কোড জেনারেশনের জন্য ব্যাকরণগত Seq2Seq মডেল। সফ্টওয়্যার টেস্টিং অ্যান্ড অ্যানালাইসিস, ISSTA 2023, পৃষ্ঠা 188-198, নিউ ইয়র্ক, NY, USA, জুলাই 2023-এর 32 তম ACM SIGSOFT ইন্টারন্যাশনাল সিম্পোজিয়ামের কার্যক্রমে। কম্পিউটিং মেশিনারির জন্য সমিতি। ISBN 9798400702211. doi: 10.1145/3597926. 3598048।


সাইবো গেং, মার্টিন জোসিফোস্কি, ম্যাক্সিম পেয়ারার্ড এবং রবার্ট ওয়েস্ট। ভাষা মডেলের জন্য নমনীয় ব্যাকরণ-ভিত্তিক সীমাবদ্ধ ডিকোডিং, মে 2023।


মাইকেল কুচনিক, ভার্জিনিয়া স্মিথ এবং জর্জ আমভ্রোসিয়াদিস। relm সহ বড় ভাষার মডেল যাচাই করা হচ্ছে। মেশিন লার্নিং এবং সিস্টেমের কার্যপ্রণালী, 5, 2023।


আলেকজান্ডার কে. লিউ, তান ঝি-জুয়ান, গ্যাব্রিয়েল গ্র্যান্ড এবং বিকাশ কে. মানসিংহকা। সম্ভাব্য প্রোগ্রাম ব্যবহার করে বড় ভাষার মডেলের অনুক্রমিক মন্টে কার্লো স্টিয়ারিং। arXiv প্রিপ্রিন্ট arXiv:2306.03081, 2023।


রেমি লাউফ এবং ব্র্যান্ডন টি. উইলার্ড। রূপরেখা: জেনারেটিভ মডেল প্রোগ্রামিং। URL https://github.com/normal-computing/outlines।


মাইক্রোসফট। নির্দেশনা। Microsoft, জুলাই 2023. URL https://github.com/ microsoft/guidance.


গ্যাব্রিয়েল পোয়েসিয়া, অলেক্সান্ডার পোলোজভ, ভু লে, আশিস তিওয়ারি, গুস্তাভো সোয়ারেস, ক্রিস্টোফার মিক এবং সুমিত গুলওয়ানি। সিনক্রোমেশ: প্রাক-প্রশিক্ষিত ভাষা মডেল থেকে নির্ভরযোগ্য কোড তৈরি। arXiv প্রিপ্রিন্ট arXiv:2201.11227, 2022a।


গ্যাব্রিয়েল পোয়েসিয়া, অলেক্সান্ডার পোলোজভ, ভু লে, আশিস তিওয়ারি, গুস্তাভো সোয়ারেস, ক্রিস্টোফার মিক এবং সুমিত গুলওয়ানি। সিনক্রোমেশ: প্রাক-প্রশিক্ষিত ভাষা মডেল থেকে নির্ভরযোগ্য কোড তৈরি, জানুয়ারী 2022b।


ম্যাক্সিম রাবিনোভিচ, মিচেল স্টার্ন এবং ড্যান ক্লেইন। কোড জেনারেশন এবং সিমেন্টিক পার্সিংয়ের জন্য বিমূর্ত সিনট্যাক্স নেটওয়ার্ক। arXiv প্রিপ্রিন্ট arXiv:1704.07535, 2017।


অ্যালেক র‌্যাডফোর্ড, জেফরি উ, রেওন চাইল্ড, ডেভিড লুয়ান, দারিও আমোদি এবং ইলিয়া সুটস্কেভার। ভাষার মডেলগুলি তত্ত্বাবধানহীন মাল্টিটাস্ক লার্নার্স। OpenAI ব্লগ, 1(8):9, 2019।


ম্যাট রিকার্ড। parserLLM, জুলাই 2023a. URL https://github.com/r2d4/ parserllm।


ম্যাট রিকার্ড। R2d4/rellm: যেকোন ভাষা মডেলের সম্পূর্ণতা থেকে সঠিক কাঠামো।, 2023b। URL https://github.com/r2d4/rellm.


টর্স্টেন স্কোলাক, নাথান শুচার এবং ডিজমিত্রি বাহদানাউ। PICARD: ভাষা মডেল থেকে সীমাবদ্ধ স্বয়ংক্রিয়-রিগ্রেসিভ ডিকোডিংয়ের জন্য ক্রমবর্ধমান পার্সিং। arXiv প্রিপ্রিন্ট arXiv:2109.05093, 2021।


রিকো সেনরিচ, ব্যারি হ্যাডো এবং আলেকজান্দ্রা বার্চ। সাবওয়ার্ড ইউনিট সহ বিরল শব্দের নিউরাল মেশিন অনুবাদ। arXiv প্রিপ্রিন্ট arXiv:1508.07909, 2015।


মাইকেল সিপসার। কম্পিউটেশন তত্ত্বের ভূমিকা। আন্তর্জাতিক থমসন পাবলিশিং, 1996।


আশিস ভাসওয়ানি, নোয়াম শাজির, নিকি পারমার, জ্যাকব উসকোরিট, লিয়ন জোন্স, আইদান এন. গোমেজ, লুকাজ কায়সার এবং ইলিয়া পোলোসুখিন। মনোযোগ আপনার প্রয়োজন সব. নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি, 30, 2017।


বেলিন ওয়াং, জি ওয়াং, জুয়েঝি ওয়াং, ইউয়ান কাও, রিফ এ. সৌরস এবং ইউন কিম। বড় ভাষার মডেল সহ ডোমেন-নির্দিষ্ট ভাষা তৈরির জন্য ব্যাকরণ প্রম্পটিং, মে 2023।


লিলিয়ান ওয়েং। নিয়ন্ত্রণযোগ্য নিউরাল টেক্সট জেনারেশন, জানুয়ারী 2021। URL https://lilianweng.github.io/posts/ 2021-01-02-controllable-text-generation/।

স্বীকৃতি

আমরা তাদের সমর্থন এবং গঠনমূলক প্রতিক্রিয়ার জন্য Dan Gerlanc এবং Dan Simpson কে ধন্যবাদ জানাতে চাই।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


L O A D I N G
. . . comments & more!

About Author

Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models@textmodels
We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD