We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.
Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.
লেখক:
(1) ব্র্যান্ডন টি. উইলার্ড, নরমাল কম্পিউটিং;
(2) রেমি লাউফ, সাধারণ কম্পিউটিং।
এই কাগজে প্রবর্তিত শব্দভান্ডার সূচী নির্দেশিত প্রজন্মের মধ্যে একটি নিষিদ্ধ রান-টাইম স্কেলিং বাধা দূর করে। স্বাভাবিকভাবেই, এটি প্রক্রিয়াকরণ এবং মেমরির মধ্যে একটি লেনদেন তৈরি করে, কিন্তু আমরা বিশ্বাস করি যে মেমরির খরচ গড়ে তুলনামূলকভাবে কম এবং–যখন না হয়–প্রথাগত উপায়ে কমানো যায়৷
পাইথন ব্যাকরণের একটি সামান্য পরিবর্ধিত সংস্করণ ব্যবহার করে আমাদের পরীক্ষায়, আমরা দেখতে পাই যে এমনকি নির্বোধভাবে নির্মিত সূচকগুলি (যেমন অব্যবহৃত এবং অপ্রয়োজনীয় পার্সার এবং FSM স্টেট কনফিগারেশন রয়েছে) এখনও মাত্র 50 MB এর কাছাকাছি। তদ্ব্যতীত, এই সূচকগুলি অ-হ্রাসকৃত ডিএফএগুলির সাথে তৈরি করা হয়েছিল, যা বোঝায় যে অনেকগুলি অপ্রয়োজনীয় অবস্থা রয়েছে যা অপ্রয়োজনীয়ভাবে সূচকগুলির আকার বাড়িয়েছে। একইভাবে, যদি রাষ্ট্রীয় মেশিনগুলির সঠিক উপস্থাপনা কখনও একটি সমস্যা হয়, তবে এটি সম্ভব যে নিম্ন মেমরির প্রয়োজনীয়তা সহ অন্যান্য রাষ্ট্রীয় মেশিন ফর্মুলেশন যথেষ্ট হতে পারে (যেমন NFAs)।
এই কাজের প্রভাব শুধুমাত্র নিউরাল টেক্সট জেনারেশনের মধ্যে সীমাবদ্ধ নয়। উদাহরণস্বরূপ, যখন কাঠামোগত আউটপুটগুলির প্রয়োজন হয় তখন কেউ প্রশিক্ষণ বা এলএলএম-এর সূক্ষ্ম-টিউনিংয়ে সহায়তা করার জন্য এখানে বর্ণিত ইন্ডেক্সিং পদ্ধতি ব্যবহার করতে পারে। আমরা অনুমান করতে পারি যে প্রশিক্ষণের সময় সহায়ক প্রজন্ম সিনট্যাকটিক বিবরণ শেখার জন্য একটি মডেলের প্রয়োজনীয়তা হ্রাস করতে পারে।
উপরন্তু, এই পদ্ধতি বর্তমান মডেল মূল্যায়ন একটি বিকল্প উপায় প্রদান করে. উদাহরণস্বরূপ, কেউ আমাদের পদ্ধতি দ্বারা উত্পন্ন মুখোশযুক্ত লজিট এবং মডেল দ্বারা উত্পন্ন কাঁচা লগিটগুলির মধ্যে পার্থক্য পরিমাপ করার চেষ্টা করতে পারে। যা একটি মডেলের প্রশিক্ষণের উদ্দেশ্য সম্পর্কে জানাতে পারে।
ভাষা মডেলগুলিতে এই পদ্ধতির দ্বারা গণনা করা মুখোশগুলিকে "উত্তোলন" করাও সম্ভব হতে পারে। মূলত, মুখোশগুলি স্পষ্টভাবে নির্ধারণ করে যে কোন গণনাগুলি সম্পাদন করার প্রয়োজন নেই। আমাদের বর্তমান ফর্মুলেশন শুধুমাত্র সর্বনিম্ন স্তরে মুখোশগুলিকে প্রয়োগ করে, কিন্তু, মডেলের আর্কিটেকচারে মুখোশগুলিকে আরও উপরে তোলার মাধ্যমে, আমরা অপ্রয়োজনীয়ভাবে অপারেশন করার আগে মডেলের প্যারামিটারগুলির কোন স্লাইসগুলি প্রয়োজন তা মডিউল করতে সক্ষম হতে পারি৷ এতে কম্পিউটেশনাল খরচ আরও কমানোর সম্ভাবনা রয়েছে।
লুকা বিউর-কেলনার, মার্ক ফিশার এবং মার্টিন ভেচেভ। প্রম্পটিং হল প্রোগ্রামিং: বড় ভাষার মডেলের জন্য একটি কোয়েরি ভাষা। প্রোগ্রামিং ল্যাঙ্গুয়েজে ACM-এর কার্যক্রম, 7(PLDI):1946–1969, 2023।
ইহং ডং, জি লি এবং ঝি জিন। কোডপ: সাধারণ-উদ্দেশ্য কোড জেনারেশনের জন্য ব্যাকরণগত Seq2Seq মডেল। সফ্টওয়্যার টেস্টিং অ্যান্ড অ্যানালাইসিস, ISSTA 2023, পৃষ্ঠা 188-198, নিউ ইয়র্ক, NY, USA, জুলাই 2023-এর 32 তম ACM SIGSOFT ইন্টারন্যাশনাল সিম্পোজিয়ামের কার্যক্রমে। কম্পিউটিং মেশিনারির জন্য সমিতি। ISBN 9798400702211. doi: 10.1145/3597926. 3598048।
সাইবো গেং, মার্টিন জোসিফোস্কি, ম্যাক্সিম পেয়ারার্ড এবং রবার্ট ওয়েস্ট। ভাষা মডেলের জন্য নমনীয় ব্যাকরণ-ভিত্তিক সীমাবদ্ধ ডিকোডিং, মে 2023।
মাইকেল কুচনিক, ভার্জিনিয়া স্মিথ এবং জর্জ আমভ্রোসিয়াদিস। relm সহ বড় ভাষার মডেল যাচাই করা হচ্ছে। মেশিন লার্নিং এবং সিস্টেমের কার্যপ্রণালী, 5, 2023।
আলেকজান্ডার কে. লিউ, তান ঝি-জুয়ান, গ্যাব্রিয়েল গ্র্যান্ড এবং বিকাশ কে. মানসিংহকা। সম্ভাব্য প্রোগ্রাম ব্যবহার করে বড় ভাষার মডেলের অনুক্রমিক মন্টে কার্লো স্টিয়ারিং। arXiv প্রিপ্রিন্ট arXiv:2306.03081, 2023।
রেমি লাউফ এবং ব্র্যান্ডন টি. উইলার্ড। রূপরেখা: জেনারেটিভ মডেল প্রোগ্রামিং। URL https://github.com/normal-computing/outlines।
মাইক্রোসফট। নির্দেশনা। Microsoft, জুলাই 2023. URL https://github.com/ microsoft/guidance.
গ্যাব্রিয়েল পোয়েসিয়া, অলেক্সান্ডার পোলোজভ, ভু লে, আশিস তিওয়ারি, গুস্তাভো সোয়ারেস, ক্রিস্টোফার মিক এবং সুমিত গুলওয়ানি। সিনক্রোমেশ: প্রাক-প্রশিক্ষিত ভাষা মডেল থেকে নির্ভরযোগ্য কোড তৈরি। arXiv প্রিপ্রিন্ট arXiv:2201.11227, 2022a।
গ্যাব্রিয়েল পোয়েসিয়া, অলেক্সান্ডার পোলোজভ, ভু লে, আশিস তিওয়ারি, গুস্তাভো সোয়ারেস, ক্রিস্টোফার মিক এবং সুমিত গুলওয়ানি। সিনক্রোমেশ: প্রাক-প্রশিক্ষিত ভাষা মডেল থেকে নির্ভরযোগ্য কোড তৈরি, জানুয়ারী 2022b।
ম্যাক্সিম রাবিনোভিচ, মিচেল স্টার্ন এবং ড্যান ক্লেইন। কোড জেনারেশন এবং সিমেন্টিক পার্সিংয়ের জন্য বিমূর্ত সিনট্যাক্স নেটওয়ার্ক। arXiv প্রিপ্রিন্ট arXiv:1704.07535, 2017।
অ্যালেক র্যাডফোর্ড, জেফরি উ, রেওন চাইল্ড, ডেভিড লুয়ান, দারিও আমোদি এবং ইলিয়া সুটস্কেভার। ভাষার মডেলগুলি তত্ত্বাবধানহীন মাল্টিটাস্ক লার্নার্স। OpenAI ব্লগ, 1(8):9, 2019।
ম্যাট রিকার্ড। parserLLM, জুলাই 2023a. URL https://github.com/r2d4/ parserllm।
ম্যাট রিকার্ড। R2d4/rellm: যেকোন ভাষা মডেলের সম্পূর্ণতা থেকে সঠিক কাঠামো।, 2023b। URL https://github.com/r2d4/rellm.
টর্স্টেন স্কোলাক, নাথান শুচার এবং ডিজমিত্রি বাহদানাউ। PICARD: ভাষা মডেল থেকে সীমাবদ্ধ স্বয়ংক্রিয়-রিগ্রেসিভ ডিকোডিংয়ের জন্য ক্রমবর্ধমান পার্সিং। arXiv প্রিপ্রিন্ট arXiv:2109.05093, 2021।
রিকো সেনরিচ, ব্যারি হ্যাডো এবং আলেকজান্দ্রা বার্চ। সাবওয়ার্ড ইউনিট সহ বিরল শব্দের নিউরাল মেশিন অনুবাদ। arXiv প্রিপ্রিন্ট arXiv:1508.07909, 2015।
মাইকেল সিপসার। কম্পিউটেশন তত্ত্বের ভূমিকা। আন্তর্জাতিক থমসন পাবলিশিং, 1996।
আশিস ভাসওয়ানি, নোয়াম শাজির, নিকি পারমার, জ্যাকব উসকোরিট, লিয়ন জোন্স, আইদান এন. গোমেজ, লুকাজ কায়সার এবং ইলিয়া পোলোসুখিন। মনোযোগ আপনার প্রয়োজন সব. নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি, 30, 2017।
বেলিন ওয়াং, জি ওয়াং, জুয়েঝি ওয়াং, ইউয়ান কাও, রিফ এ. সৌরস এবং ইউন কিম। বড় ভাষার মডেল সহ ডোমেন-নির্দিষ্ট ভাষা তৈরির জন্য ব্যাকরণ প্রম্পটিং, মে 2023।
লিলিয়ান ওয়েং। নিয়ন্ত্রণযোগ্য নিউরাল টেক্সট জেনারেশন, জানুয়ারী 2021। URL https://lilianweng.github.io/posts/ 2021-01-02-controllable-text-generation/।
আমরা তাদের সমর্থন এবং গঠনমূলক প্রতিক্রিয়ার জন্য Dan Gerlanc এবং Dan Simpson কে ধন্যবাদ জানাতে চাই।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।
বৃহৎ ভাষার মডেলের জন্য দক্ষ নির্দেশিত প্রজন্ম: আলোচনা, তথ্যসূত্র এবং স্বীকৃতি | HackerNoon