লেখক:
(1) আলবার্ট গু, মেশিন লার্নিং বিভাগ, কার্নেগি মেলন বিশ্ববিদ্যালয় এবং সমান অবদানের সাথে;
(2) ট্রাই ডাও, কম্পিউটার সায়েন্স বিভাগ, প্রিন্সটন ইউনিভার্সিটি এবং সমান অবদানের সাথে।
3 সিলেক্টিভ স্টেট স্পেস মডেল এবং 3.1 অনুপ্রেরণা: কম্প্রেশনের মাধ্যম হিসাবে নির্বাচন
3.2 নির্বাচনের সাথে SSMs উন্নত করা
3.3 নির্বাচনী SSM এর দক্ষ বাস্তবায়ন
3.4 একটি সরলীকৃত SSM আর্কিটেকচার
3.5 নির্বাচন প্রক্রিয়ার বৈশিষ্ট্য
4 অভিজ্ঞতামূলক মূল্যায়ন এবং 4.1 সিন্থেটিক কাজ
একটি আলোচনা: নির্বাচন প্রক্রিয়া
সি মেকানিক্স অফ সিলেক্টিভ এসএসএম
D নির্বাচনী SSM-এর জন্য হার্ডওয়্যার-সচেতন অ্যালগরিদম
E পরীক্ষামূলক বিবরণ এবং অতিরিক্ত ফলাফল
ফাউন্ডেশন মডেলগুলি, এখন গভীর শিক্ষার বেশিরভাগ উত্তেজনাপূর্ণ অ্যাপ্লিকেশনগুলিকে শক্তি দেয়, প্রায় সর্বজনীনভাবে ট্রান্সফরমার আর্কিটেকচার এবং এর মূল মনোযোগ মডিউলের উপর ভিত্তি করে। অনেক সাবকোয়াড্র্যাটিক-টাইম আর্কিটেকচার যেমন লিনিয়ার অ্যাটেনশন, গেটেড কনভোলিউশন এবং রিকরেন্ট মডেল এবং স্ট্রাকচার্ড স্টেট স্পেস মডেল (এসএসএম) দীর্ঘ ক্রমগুলিতে ট্রান্সফরমারের গণনাগত অদক্ষতাকে মোকাবেলা করার জন্য তৈরি করা হয়েছে, কিন্তু সেগুলি গুরুত্বপূর্ণ পদ্ধতিতে তেমন মনোযোগ দেয়নি যেমন ভাষা হিসাবে। আমরা শনাক্ত করি যে এই ধরনের মডেলগুলির একটি প্রধান দুর্বলতা হল তাদের বিষয়বস্তু-ভিত্তিক যুক্তি সঞ্চালন করতে অক্ষমতা, এবং বেশ কিছু উন্নতি করতে। প্রথমত, কেবলমাত্র SSM প্যারামিটারগুলিকে ইনপুটের ফাংশন হতে দেওয়া বিচ্ছিন্ন পদ্ধতির সাথে তাদের দুর্বলতার সমাধান করে, মডেলটিকে বর্তমান টোকেনের উপর নির্ভর করে সিকোয়েন্স দৈর্ঘ্যের মাত্রা বরাবর তথ্য নির্বাচনীভাবে প্রচার বা ভুলে যেতে দেয়। দ্বিতীয়ত, যদিও এই পরিবর্তনটি দক্ষ কনভোলিউশনের ব্যবহারকে বাধা দেয়, আমরা পৌনঃপুনিক মোডে একটি হার্ডওয়্যার-সচেতন সমান্তরাল অ্যালগরিদম ডিজাইন করি। আমরা এই বাছাইকৃত এসএসএমগুলিকে মনোযোগ ছাড়াই একটি সরলীকৃত এন্ড-টু-এন্ড নিউরাল নেটওয়ার্ক আর্কিটেকচারে একীভূত করি বা এমনকি MLP ব্লক (মাম্বা)। Mamba দ্রুত অনুমান (ট্রান্সফরমারের তুলনায় 5× বেশি থ্রুপুট) এবং ক্রম দৈর্ঘ্যে রৈখিক স্কেলিং উপভোগ করে এবং এর কার্যক্ষমতা মিলিয়ন-দৈর্ঘ্যের ক্রম পর্যন্ত বাস্তব ডেটাতে উন্নত হয়। একটি সাধারণ সিকোয়েন্স মডেল ব্যাকবোন হিসাবে, মাম্বা ভাষা, অডিও এবং জিনোমিক্সের মতো বিভিন্ন পদ্ধতিতে অত্যাধুনিক পারফরম্যান্স অর্জন করে। ভাষা মডেলিং-এ, আমাদের Mamba-3B মডেল একই আকারের ট্রান্সফরমারকে ছাড়িয়ে যায় এবং ট্রান্সফরমারের সাথে তার আকারের দ্বিগুণ মেলে, উভয় প্রি-ট্রেনিং এবং ডাউনস্ট্রিম মূল্যায়নে।
ফাউন্ডেশন মডেল (FMs), বা বিশাল ডেটার উপর প্রশিক্ষিত বৃহৎ মডেলগুলি তারপরে ডাউনস্ট্রিম কাজের জন্য অভিযোজিত, আধুনিক মেশিন লার্নিংয়ে একটি কার্যকর দৃষ্টান্ত হিসাবে আবির্ভূত হয়েছে। এই এফএমগুলির মেরুদণ্ড প্রায়শই সিকোয়েন্স মডেল হয়, ভাষা, ছবি, বক্তৃতা, অডিও, টাইম সিরিজ এবং জিনোমিক্সের মতো বিভিন্ন ধরণের ডোমেন থেকে ইনপুটগুলির নির্বিচারে সিকোয়েন্সের উপর কাজ করে (Brown et al. 2020; Dosovitskiy et al. 2020; ইসমাইল ফাওয়াজ এট আল 2019; 2016; Poli et al 2023; Sutskever, Vinyals এবং Quoc V Le 2014)। যদিও এই ধারণাটি মডেল আর্কিটেকচারের একটি নির্দিষ্ট পছন্দের জন্য অজ্ঞেয়বাদী, আধুনিক এফএমগুলি প্রধানত একটি একক ধরণের সিকোয়েন্স মডেলের উপর ভিত্তি করে: ট্রান্সফরমার (ভাসওয়ানি এট আল। 2017) এবং এর মূল মনোযোগ স্তর (Bahdanau, Cho, and Bengio 2015) স্ব-মনোযোগের কার্যকারিতা একটি প্রসঙ্গ উইন্ডোর মধ্যে ঘনত্বে তথ্য রুট করার ক্ষমতাকে দায়ী করা হয়, এটি জটিল ডেটা মডেল করার অনুমতি দেয়। যাইহোক, এই বৈশিষ্ট্যটি মৌলিক ত্রুটিগুলি নিয়ে আসে: একটি সীমিত উইন্ডোর বাইরে কিছু মডেল করতে অক্ষমতা, এবং জানালার দৈর্ঘ্যের ক্ষেত্রে দ্বিঘাত স্কেলিং। এই ত্রুটিগুলি (Tay, Dehgani, Bahri, et al. 2022) কাটিয়ে ওঠার জন্য মনোযোগের আরও দক্ষ রূপের উপর গবেষণার একটি বিশাল সংস্থা উপস্থিত হয়েছে, তবে প্রায়শই এটিকে কার্যকর করে তোলে এমন বৈশিষ্ট্যগুলির ব্যয়ে। এখনও পর্যন্ত, এই বৈকল্পিকগুলির কোনটিই ডোমেন জুড়ে স্কেলে অভিজ্ঞতাগতভাবে কার্যকর বলে দেখানো হয়নি।
সম্প্রতি, স্ট্রাকচার্ড স্টেট স্পেস সিকোয়েন্স মডেল (SSMs) (Gu, Goel, and Ré 2022; Gu, Johnson, Goel, et al. 2021) সিকোয়েন্স মডেলিংয়ের জন্য আর্কিটেকচারের একটি প্রতিশ্রুতিশীল শ্রেণী হিসেবে আবির্ভূত হয়েছে। ক্লাসিক্যাল স্টেট স্পেস মডেল (কালমান 1960) থেকে অনুপ্রেরণা নিয়ে এই মডেলগুলিকে পুনরাবৃত্ত নিউরাল নেটওয়ার্ক (RNN) এবং কনভোল্যুশনাল নিউরাল নেটওয়ার্ক (CNNs) এর সংমিশ্রণ হিসাবে ব্যাখ্যা করা যেতে পারে। এই শ্রেণীর মডেলগুলি ক্রমিক দৈর্ঘ্যে রৈখিক বা কাছাকাছি-রৈখিক স্কেলিং সহ একটি পুনরাবৃত্তি বা কনভল্যুশন হিসাবে খুব দক্ষতার সাথে গণনা করা যেতে পারে। অতিরিক্তভাবে, নির্দিষ্ট ডেটা মোডালিটিতে লং-রেঞ্জ নির্ভরতা (Gu, Dao, et al. 2020) মডেল করার জন্য তাদের নীতিগত প্রক্রিয়া রয়েছে এবং লং রেঞ্জ এরিনা (Tay, Dehghani, Abnar, et al. 2021) এর মতো বেঞ্চমার্কে প্রাধান্য পেয়েছে। SSMs-এর অনেক ফ্লেভার (Gu, Goel, and Ré 2022; Gu, Gupta, et al. 2022; Gupta, Gu, and Berant 2022; Y. Li et al. 2023; Ma et al. 2023; Orvieto et al. 2023; Smith, Warrington, and Linderman 2023) সফল হয়েছে অডিও এবং ভিশনের মতো অবিচ্ছিন্ন সিগন্যাল ডেটা জড়িত ডোমেনগুলি (গোয়েল এট আল। 2022; নগুয়েন, গোয়েল, এট আল। 2022; সাওন, গুপ্তা, এবং কুই 2023)। যাইহোক, তারা পাঠ্যের মতো বিচ্ছিন্ন এবং তথ্য-ঘন ডেটা মডেলিংয়ে কম কার্যকর হয়েছে।
আমরা সিলেক্টিভ স্টেট স্পেস মডেলের একটি নতুন ক্লাসের প্রস্তাব করছি, যা ক্রম দৈর্ঘ্যে রৈখিকভাবে স্কেলিং করার সময় ট্রান্সফরমারের মডেলিং ক্ষমতা অর্জনের জন্য বেশ কয়েকটি অক্ষের পূর্বের কাজগুলিতে উন্নতি করে।
নির্বাচন প্রক্রিয়া। প্রথমত, আমরা পূর্ববর্তী মডেলগুলির একটি মূল সীমাবদ্ধতা চিহ্নিত করি: একটি ইনপুট-নির্ভর পদ্ধতিতে দক্ষতার সাথে ডেটা নির্বাচন করার ক্ষমতা (যেমন নির্দিষ্ট ইনপুটগুলিতে ফোকাস করা বা উপেক্ষা করা)। সিলেক্টিভ কপি এবং ইন্ডাকশন হেডের মতো গুরুত্বপূর্ণ সিন্থেটিক কাজগুলির উপর ভিত্তি করে অন্তর্দৃষ্টির উপর ভিত্তি করে, আমরা ইনপুটের উপর ভিত্তি করে এসএসএম প্যারামিটারগুলিকে প্যারামিটারাইজ করে একটি সাধারণ নির্বাচন প্রক্রিয়া ডিজাইন করি। এটি মডেলটিকে অপ্রাসঙ্গিক তথ্য ফিল্টার করতে এবং প্রাসঙ্গিক তথ্য অনির্দিষ্টকালের জন্য মনে রাখতে দেয়।
হার্ডওয়্যার-সচেতন অ্যালগরিদম। এই সাধারণ পরিবর্তনটি মডেলের গণনার জন্য একটি প্রযুক্তিগত চ্যালেঞ্জ তৈরি করে; প্রকৃতপক্ষে, গণনাগতভাবে দক্ষ হওয়ার জন্য সমস্ত পূর্ববর্তী SSMs মডেল অবশ্যই সময়- এবং ইনপুট-অপরিবর্তনীয় হতে হবে। আমরা এটিকে একটি হার্ডওয়্যার-সচেতন অ্যালগরিদম দিয়ে কাটিয়ে উঠি যা কনভল্যুশনের পরিবর্তে স্ক্যানের মাধ্যমে বারবার মডেলটিকে গণনা করে, কিন্তু GPU মেমরি শ্রেণিবিন্যাসের বিভিন্ন স্তরের মধ্যে IO অ্যাক্সেস এড়াতে প্রসারিত অবস্থাকে বাস্তবায়িত করে না। ফলস্বরূপ বাস্তবায়ন পূর্ববর্তী পদ্ধতির তুলনায় দ্রুততর উভয় তত্ত্বে (সমস্ত কনভল্যুশন-ভিত্তিক SSM-এর জন্য সিউডো-লিনিয়ারের তুলনায় ক্রম দৈর্ঘ্যে রৈখিকভাবে স্কেল করা) এবং আধুনিক হার্ডওয়্যারে (A100 GPU-তে 3× পর্যন্ত দ্রুত)।
স্থাপত্য । আমরা ট্রান্সফরমারের এমএলপি ব্লকের সাথে পূর্বের এসএসএম আর্কিটেকচারের নকশা (দাও, ফু, সাব, এট আল. 2023) একত্রিত করে পূর্বের গভীর সিকোয়েন্স মডেল আর্কিটেকচারগুলিকে একটি একক ব্লকে পরিণত করি, যার ফলে একটি সাধারণ এবং সমজাতীয় আর্কিটেকচার ডিজাইন (মাম্বা) হয়। নির্বাচনী রাষ্ট্রীয় স্থান।
সিলেক্টিভ এসএসএম, এবং এক্সটেনশনের মাধ্যমে মাম্বা আর্কিটেকচার হল মূল বৈশিষ্ট্য সহ সম্পূর্ণ পৌনঃপুনিক মডেল যা তাদেরকে সিকোয়েন্সে কাজ করা সাধারণ ভিত্তি মডেলের মেরুদণ্ড হিসেবে উপযুক্ত করে তোলে। (i) উচ্চ গুণমান: সিলেক্টিভিটি ভাষা এবং জিনোমিক্সের মতো ঘন পদ্ধতিতে শক্তিশালী কর্মক্ষমতা নিয়ে আসে। (ii) দ্রুত প্রশিক্ষণ এবং অনুমান: প্রশিক্ষণের সময় ক্রমিক দৈর্ঘ্যে গণনা এবং মেমরি স্কেল রৈখিকভাবে, এবং অনুমানের সময় মডেলটিকে অটোরিগ্রেসিভভাবে আনরোল করার জন্য প্রতি ধাপে শুধুমাত্র ধ্রুবক সময় প্রয়োজন কারণ এটির জন্য পূর্ববর্তী উপাদানগুলির ক্যাশের প্রয়োজন হয় না। (iii) দীর্ঘ প্রেক্ষাপট: গুণমান এবং দক্ষতা একসাথে ক্রম দৈর্ঘ্য 1M পর্যন্ত বাস্তব ডেটাতে কর্মক্ষমতা উন্নতি করে।
আমরা পরীক্ষামূলকভাবে মাম্বার সম্ভাব্যতাকে একটি সাধারণ সিকোয়েন্স এফএম ব্যাকবোন হিসাবে যাচাই করি, উভয় প্রি-ট্রেনিং কোয়ালিটি এবং ডোমেন-নির্দিষ্ট টাস্ক পারফরম্যান্সে, বিভিন্ন ধরনের পদ্ধতি এবং সেটিংসে:
• সিন্থেটিক্স। কপি করা এবং ইন্ডাকশন হেডের মত গুরুত্বপূর্ণ সিন্থেটিক কাজগুলিতে যেগুলিকে বৃহৎ ভাষার মডেলের চাবিকাঠি হিসাবে প্রস্তাব করা হয়েছে, Mamba শুধুমাত্র সেগুলিকে সহজে সমাধান করে না কিন্তু অনির্দিষ্টকালের জন্য সমাধানগুলি এক্সট্রাপোলেট করতে পারে (>1M টোকেন)।
• অডিও এবং জিনোমিক্স। মাম্বা পূর্বের অত্যাধুনিক মডেল যেমন SaShiMi, হায়েনা এবং ট্রান্সফর্মারগুলিকে অডিও ওয়েভফর্ম এবং ডিএনএ সিকোয়েন্সের মডেলিং-এ আউট-পারফর্ম করে, প্রি-ট্রেনিং কোয়ালিটি এবং ডাউনস্ট্রিম মেট্রিক্স উভয় ক্ষেত্রেই (যেমন একটি চ্যালেঞ্জিং স্পিচ জেনারেশন ডেটাসেটে এফআইডি অর্ধেকেরও বেশি হ্রাস করা ) উভয় সেটিংসেই, এর কর্মক্ষমতা মিলিয়ন-দৈর্ঘ্যের ক্রম পর্যন্ত দীর্ঘ প্রসঙ্গ সহ উন্নত হয়।
• ভাষা মডেলিং। Mamba হল প্রথম লিনিয়ার-টাইম সিকোয়েন্স মডেল যা সত্যিকার অর্থে ট্রান্সফরমার-গুণমানের কার্যকারিতা অর্জন করে, উভয় ক্ষেত্রেই বিভ্রান্তি এবং ডাউনস্ট্রিম মূল্যায়ন। 1B প্যারামিটার পর্যন্ত স্কেলিং আইনের মাধ্যমে, আমরা দেখাই যে Mamba LLaMa (Touvron et al. 2023) এর উপর ভিত্তি করে অত্যন্ত শক্তিশালী আধুনিক ট্রান্সফরমার প্রশিক্ষণ রেসিপি সহ বেসলাইনের একটি বৃহৎ পরিসরের কর্মক্ষমতাকে ছাড়িয়ে গেছে। আমাদের মাম্বা ভাষার মডেলে একই আকারের ট্রান্সফরমারের তুলনায় 5× প্রজন্মের থ্রুপুট রয়েছে এবং Mamba-3B-এর গুণমান ট্রান্সফরমারের তুলনায় দ্বিগুণ মেলে (যেমন Pythia-3B-এর তুলনায় সাধারণ জ্ঞানের যুক্তিতে 4 পয়েন্ট বেশি গড় এমনকি Pythia-7B-এরও বেশি )
এই কাগজটি CC BY 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।