1,102 পড়া

সম্ভাব্য সর্বনিম্ন সর্বোত্তম সময়ের জটিলতা সহ ট্রান্সফরমার অ্যালগরিদম

দ্বারা Thomas Cherickal17m2024/05/26

অতিদীর্ঘ; পড়তে

DPO, LoRa ইত্যাদির মতো ট্রান্সফরমারগুলিতে কিছু অবিশ্বাস্য অগ্রগতি হয়েছে৷ কিন্তু মৌলিক ট্রান্সফরমার অ্যালগরিদমও উন্নত করা হয়েছে! আমরা ট্রান্সফরমারগুলি সম্পূর্ণ নতুন স্তরে সঞ্চালন দেখতে যাচ্ছি। এই আবিস্কারের মাত্রাকে অত্যধিক মূল্যায়ন করা যায় না! এটি বিপ্লবী।

featured image - সম্ভাব্য সর্বনিম্ন সর্বোত্তম সময়ের জটিলতা সহ ট্রান্সফরমার অ্যালগরিদম

মনোযোগ, মাম্বা, জাম্বা এবং xLSTM তুলনা করা

প্রস্তাবনা

আমরা এই নিবন্ধে শুধুমাত্র সময়ের জটিলতা সম্পর্কে কথা বলছি - ইচ্ছাকৃতভাবে।

স্থান জটিলতার জন্য, এখানে উপলব্ধ 1-বিট ট্রান্সফরমারের উপর আমার নিবন্ধটি পড়ুন:

ভূমিকা

জেনারেটিভ এআই প্রযুক্তির ক্ষেত্রে আমরা ভবিষ্যতের দিকে এগিয়ে যাচ্ছি এবং বড় ভাষার মডেলগুলির পিছনের অ্যালগরিদমগুলিও এর ব্যতিক্রম নয়। এই নিবন্ধে, আমরা সম্প্রতি জেনারেটিভ AI ক্ষেত্রের তিনটি সবচেয়ে উত্তেজনাপূর্ণ উন্নয়নের কভার করতে যাচ্ছি, এবং সেগুলি সম্পর্কে বিস্তারিতভাবে কথা বলব। তাদের মধ্যে একটি বৃহৎ ভাষার মডেল অ্যালগরিদম চালানোর জন্য সর্বোত্তম সময় জটিলতা অর্জন করেছে। অন্য কথায়, একটি সাম্প্রতিক বিকাশ সম্ভব সবচেয়ে দ্রুততম LLM ট্রান্সফরমার অ্যালগরিদম হয়ে উঠেছে - এটি, আমাদের বর্তমান মডেলগুলির দ্বারা, ধ্রুবক সময়ের অপ্টিমাইজেশন ব্যতীত, অ্যাসিম্পটোটিক সময় জটিলতা যতদূর উদ্বিগ্ন, তার চেয়ে দ্রুত যাওয়া সম্ভব নয়। যেহেতু আমরা শত শত বিলিয়ন প্যারামিটারের সাথে কাজ করছি, ধ্রুবকগুলির গতি-আপ বরং বড় হতে পারে! আমি আশা করি আপনি আমার মতোই উত্তেজিত কারণ এটি একটি উত্তেজনাপূর্ণ রাইড হবে!

দায়িত্বশীল অ্যালগরিদম - মনোযোগ-ভিত্তিক ট্রান্সফরমার

প্রত্যেকেই সেমিনাল 2017 এর সাথে পরিচিত, আপনার কেবল কাগজেরই প্রয়োজন মনোযোগ দিন, তবে আমি যাইহোক এটিকে সংক্ষিপ্ত করতে যাচ্ছি যাতে নতুনদের কাছে আমরা যে বিষয়ে কথা বলছি তার একটি পরিষ্কার চিত্র পাবে।

এই গবেষণাপত্রের লিঙ্ক:

মনোযোগ আপনার প্রয়োজন সব

কাগজের ভূমিকা থেকে:

পুনরাবৃত্ত নিউরাল নেটওয়ার্ক, দীর্ঘ স্বল্পমেয়াদী মেমরি এবং বিশেষ করে গেটেড রিকারেন্ট নিউরাল নেটওয়ার্ক, সিকোয়েন্স মডেলিং এবং ট্রান্সডাকশন সমস্যা যেমন ল্যাঙ্গুয়েজ মডেলিং এবং মেশিন ট্রান্সলেশনের ক্ষেত্রে অত্যাধুনিক পন্থা হিসেবে দৃঢ়ভাবে প্রতিষ্ঠিত হয়েছে।

এর পর থেকে পুনরাবৃত্তিমূলক ভাষার মডেল এবং এনকোডার-ডিকোডার আর্কিটেকচারের সীমানাকে ঠেলে দেওয়ার জন্য অসংখ্য প্রচেষ্টা অব্যাহত রয়েছে।

পুনরাবৃত্ত মডেলগুলি সাধারণত ইনপুট এবং আউটপুট সিকোয়েন্সের প্রতীক অবস্থান বরাবর গণনাকে ফ্যাক্টর করে।

গণনা সময়ের ধাপে অবস্থানগুলি সারিবদ্ধ করে, তারা পূর্ববর্তী লুকানো অবস্থা ℎ𝑡−1 এবং অবস্থান 𝑡 এর জন্য ইনপুট হিসাবে, লুকানো অবস্থা ℎ𝑡 এর একটি ক্রম তৈরি করে।

এই অন্তর্নিহিত ক্রমিক প্রকৃতি প্রশিক্ষণ উদাহরণের মধ্যে সমান্তরালকরণকে বাধা দেয়, যা দীর্ঘ ক্রম দৈর্ঘ্যে গুরুত্বপূর্ণ হয়ে ওঠে, কারণ স্মৃতির সীমাবদ্ধতা উদাহরণ জুড়ে ব্যাচিং সীমাবদ্ধ করে।

সাম্প্রতিক কাজ ফ্যাক্টরাইজেশন কৌশল এবং শর্তসাপেক্ষ গণনার মাধ্যমে গণনার দক্ষতায় উল্লেখযোগ্য উন্নতি অর্জন করেছে, পাশাপাশি পরবর্তীটির ক্ষেত্রে মডেলের কার্যকারিতাও উন্নত করেছে।

ক্রমিক গণনার মৌলিক সীমাবদ্ধতা অবশ্য রয়ে গেছে।

মনোযোগ মেকানিজম বিভিন্ন কাজে বাধ্যতামূলক সিকোয়েন্স মডেলিং এবং ট্রান্সডাকশন মডেলের একটি অবিচ্ছেদ্য অংশ হয়ে উঠেছে, ইনপুট বা আউটপুট সিকোয়েন্সে তাদের দূরত্ব বিবেচনা না করে নির্ভরতার মডেলিংয়ের অনুমতি দেয়।

কিছু ক্ষেত্রে বাদে সব ক্ষেত্রে, তবে, এই ধরনের মনোযোগের প্রক্রিয়াগুলি একটি পুনরাবৃত্ত নেটওয়ার্কের সাথে একত্রে ব্যবহৃত হয়।

এই কাজটিতে আমরা ট্রান্সফরমারের প্রস্তাব করছি, একটি মডেল আর্কিটেকচার যা পুনরাবৃত্তিকে এড়িয়ে চলেছে এবং পরিবর্তে ইনপুট এবং আউটপুটের মধ্যে বিশ্বব্যাপী নির্ভরতা আঁকতে একটি মনোযোগ প্রক্রিয়ার উপর সম্পূর্ণ নির্ভর করে।

ট্রান্সফরমারটি উল্লেখযোগ্যভাবে আরও সমান্তরালকরণের অনুমতি দেয় এবং আটটি P100 GPU-তে বারো ঘন্টার মতো প্রশিক্ষণের পরে অনুবাদের গুণমানে শিল্পের একটি নতুন অবস্থায় পৌঁছাতে পারে।

এবং আমরা জানি, GPT-1, GPT-2, GPT-3 এবং GPT 3.5 ট্রান্সফরমারগুলি শীঘ্রই জেনারেটিভ AI চিরতরে বিপ্লব ঘটিয়েছে।

হঠাৎ মেশিন আপাতদৃষ্টিতে মানুষের ইংরেজি বলতে পারে।

এটি ছিল ক্লাসিক ডায়াগ্রাম যা পরবর্তী দুই বছরের জন্য নিবন্ধ এবং গবেষণা সংবাদ বুলেটিনগুলিতে আধিপত্য বিস্তার করেছিল:

তারপর GPT-4 বেরিয়ে এল-এবং জীবন আর আগের মত হবে না।

আমরা একটি টিপিং পয়েন্ট অতিক্রম করেছিলাম।

কিন্তু, এই ট্রান্সফরমারগুলি ব্যয়বহুল, প্রশিক্ষণের জন্য ধীর এবং তাদের অত্যন্ত উচ্চ পরিচালন ব্যয়ের কারণে স্থাপন করা কঠিন ছিল।

ট্রান্সফরমার অ্যালগরিদমের সময় জটিলতা ছিল চতুর্মুখী, বা O(n*n) যেখানে n ছিল ইনপুট প্যারামিটারের সংখ্যা ।

𝐿 স্তর সহ একটি স্ট্যান্ডার্ড ট্রান্সফরমার মডেলের জন্য, অনুমান অ্যালগরিদমের সময় জটিলতা হল 𝑂( L*n*n*d ) যেখানে L ছিল স্তরের সংখ্যা, n ইনপুট টোকেনের সংখ্যা এবং d ট্রান্সফরমারের গভীরতা।

কিছুক্ষণের জন্য এটি শিল্পের রাষ্ট্র বলে মনে হয়েছিল।

2021 সালের প্রথম দিকে অন্য একটি গবেষণাপত্রে কোয়ান্টাইজেশন চালু করা হয়েছিল, এবং এটি পরবর্তী অত্যাধুনিক প্রক্রিয়া বলে মনে হয়েছিল ( প্রিলিউড বিভাগটি দেখুন)।

কিন্তু শীঘ্রই আমাদের আরও একজন প্রতিযোগী হতে চলেছে।

মাম্বা অ্যালগরিদমে স্বাগতম

এটি প্রাসঙ্গিক গবেষণা পত্র ছিল:

মাম্বা: সিলেক্টিভ স্টেট স্পেস সহ লিনিয়ার-টাইম সিকোয়েন্স মডেলিং

গবেষণা পত্র বিমূর্ত থেকে:

ফাউন্ডেশন মডেলগুলি, এখন গভীর শিক্ষার বেশিরভাগ উত্তেজনাপূর্ণ অ্যাপ্লিকেশনগুলিকে শক্তি দেয়, প্রায় সর্বজনীনভাবে ট্রান্সফরমার আর্কিটেকচার এবং এর মূল মনোযোগ মডিউলের উপর ভিত্তি করে।

অনেক সাবকোয়াড্র্যাটিক-টাইম আর্কিটেকচার যেমন লিনিয়ার অ্যাটেনশন, গেটেড কনভোলিউশন এবং রিকরেন্ট মডেল এবং স্ট্রাকচার্ড স্টেট স্পেস মডেল (এসএসএম) দীর্ঘ ক্রমগুলিতে ট্রান্সফরমারের গণনাগত অদক্ষতাকে মোকাবেলা করার জন্য তৈরি করা হয়েছে, কিন্তু তারা গুরুত্বপূর্ণ পদ্ধতির উপর তেমন মনোযোগ দেয়নি। ভাষা হিসাবে।

আমরা শনাক্ত করি যে এই ধরনের মডেলগুলির একটি প্রধান দুর্বলতা হল বিষয়বস্তু-ভিত্তিক যুক্তি সম্পাদন করতে এবং বেশ কিছু উন্নতি করতে তাদের অক্ষমতা।

প্রথমত, কেবলমাত্র SSM প্যারামিটারগুলিকে ইনপুটের ফাংশন হতে দেওয়া বিচ্ছিন্ন পদ্ধতির সাথে তাদের দুর্বলতার সমাধান করে, মডেলটিকে বর্তমান টোকেনের উপর নির্ভর করে সিকোয়েন্স দৈর্ঘ্যের মাত্রা বরাবর তথ্য নির্বাচনীভাবে প্রচার বা ভুলে যেতে দেয়।

দ্বিতীয়ত, যদিও এই পরিবর্তনটি দক্ষ কনভোলিউশনের ব্যবহারকে বাধা দেয়, আমরা পৌনঃপুনিক মোডে একটি হার্ডওয়্যার-সচেতন সমান্তরাল অ্যালগরিদম ডিজাইন করি।

আমরা এই বাছাইকৃত এসএসএমগুলিকে মনোযোগ ছাড়াই একটি সরলীকৃত এন্ড-টু-এন্ড নিউরাল নেটওয়ার্ক আর্কিটেকচারে একীভূত করি বা এমনকি MLP ব্লক (মাম্বা)।

Mamba দ্রুত অনুমান (ট্রান্সফরমারের তুলনায় 5× বেশি থ্রুপুট) এবং ক্রম দৈর্ঘ্যে রৈখিক স্কেলিং উপভোগ করে এবং এর কার্যক্ষমতা মিলিয়ন-দৈর্ঘ্যের ক্রম পর্যন্ত বাস্তব ডেটাতে উন্নত হয়।

একটি সাধারণ সিকোয়েন্স মডেল ব্যাকবোন হিসাবে, মাম্বা ভাষা, অডিও এবং জিনোমিক্সের মতো বিভিন্ন পদ্ধতিতে অত্যাধুনিক পারফরম্যান্স অর্জন করে।

ভাষা মডেলিং-এ, আমাদের Mamba-3B মডেল একই আকারের ট্রান্সফরমারকে ছাড়িয়ে যায় এবং ট্রান্সফরমারের সাথে তার আকারের দ্বিগুণ মেলে, উভয় প্রি-ট্রেনিং এবং ডাউনস্ট্রিম মূল্যায়নে।

হঠাৎ

হঠাৎ করে শহরে আমাদের এক নতুন প্রতিযোগী!

Mamba- ট্রান্সফরমার অ্যালগরিদমের প্রধান সুবিধা ছিল:

হাইব্রিড আর্কিটেকচার :
Mamba ট্রান্সফর্মার এবং Mamba স্তরগুলিকে একত্রিত করেছে, যা একটি পরিচালনাযোগ্য মেমরি পদচিহ্ন বজায় রাখার সাথে সাথে উন্নত কর্মক্ষমতা এবং উচ্চতর থ্রুপুটের অনুমতি দেয়।
চ্যালেঞ্জ মোকাবেলা :
- মেমরি এবং কম্পিউট দক্ষতা : মাম্বা ট্রান্সফরমারের উচ্চ মেমরি এবং গণনার প্রয়োজনীয়তাগুলিকে সম্বোধন করেছে, বিশেষ করে দীর্ঘ প্রসঙ্গের জন্য।
- সংক্ষিপ্ত অবস্থা : ট্রান্সফরমারের বিপরীতে, মাম্বা একটি একক সারাংশের অবস্থা প্রদান করে, দ্রুত অনুমান সক্ষম করে।
স্থাপত্য বিস্তারিত :
- ট্রান্সফরমার স্তর : Mamba ট্রান্সফরমার স্তর অন্তর্ভুক্ত.
- মাম্বা লেয়ারস : মাম্বা স্টেট-স্পেস মডেলিং (SSM) লেয়ার প্রবর্তন করে, যা দক্ষতার সাথে দীর্ঘ প্রসঙ্গ পরিচালনা করে।
- মিক্সচার-অফ-এক্সপার্টস (MoE) : Mamba কম্পিউটের প্রয়োজনীয়তা উল্লেখযোগ্যভাবে বৃদ্ধি না করে মডেলের ক্ষমতা বাড়াতে MoE স্তর ব্যবহার করে।
কর্মক্ষমতা :
Mamba 256K টোকেন পর্যন্ত প্রসঙ্গ দৈর্ঘ্য সমর্থন করার সময় Mixtral-8x7B এবং Llama-2 70B এর মতো বিদ্যমান মডেলগুলির সাথে তুলনামূলকভাবে পারফর্ম করেছে।
কার্যকারিতা : দীর্ঘ প্রেক্ষাপটের জন্য মাম্বার থ্রুপুট ছিল Mixtral-8x7B এর 3x, এবং এটি একটি একক GPU-তে এমনকি বড় প্রসঙ্গগুলির সাথেও লাগানো হয়েছে৷

মাম্বা আর্কিটেকচার ট্রান্সফরমার এবং এসএসএম উভয় পদ্ধতির শক্তিকে একত্রিত করে বৃহৎ ভাষার মডেলে একটি উল্লেখযোগ্য অগ্রগতির প্রতিনিধিত্ব করে।

যাইহোক, পরীক্ষা অব্যাহত থাকায়, এটি পাওয়া গেছে যে মাম্বা অ্যালগরিদম সমস্ত ব্যবহারের ক্ষেত্রে উপযুক্ত প্রতিযোগী ছিল না।

বিশেষ করে, IMDB ডেটাসেটের সাথে উপস্থাপন করার সময় Mamba অ্যালগরিদম খারাপভাবে ব্যর্থ হয়েছে।

যাইহোক, স্থাপত্যটি এখনও অত্যাধুনিক ছিল, এবং এটি দৃষ্টি ব্যবহারের ক্ষেত্রে অত্যন্ত কার্যকর বলে মনে করা হয়েছিল।

আপনি এখানে পাইথনে একটি বাস্তবায়ন দেখতে পারেন:

এবং এটি তত্ত্বের সাথে মাম্বা অ্যালগরিদমের একটি চমৎকার ব্যাখ্যাও দেওয়া হয়েছে।

এবং এখানে PyPI তে স্ট্যান্ডার্ড মাম্বা বাস্তবায়ন রয়েছে:

মাম্বা অ্যালগরিদমের দিন ছিল এবং এখনও গবেষণার একটি অত্যন্ত সক্রিয় ক্ষেত্র। একজন উত্তরসূরি শীঘ্রই বেরিয়ে এসেছে, কিন্তু আমরা শেষের জন্য সেরাটি সংরক্ষণ করব।

আমরা পরবর্তী প্রতিযোগী - xLSTM অ্যালগরিদমে চলে যাব

xLSTM অ্যালগরিদম

আপনি এখানে গবেষণাপত্রটি উল্লেখ করতে পারেন:

xLSTM: বর্ধিত দীর্ঘ স্বল্প-মেয়াদী মেমরি - arXiv ।

গবেষণা পত্র বিমূর্ত থেকে:

1990 এর দশকে, ধ্রুবক ত্রুটি ক্যারোজেল এবং গেটিং লং শর্ট-টার্ম মেমরি (LSTM) এর কেন্দ্রীয় ধারণা হিসাবে প্রবর্তিত হয়েছিল।

তারপর থেকে, LSTMs সময়ের পরীক্ষায় দাঁড়িয়েছে এবং অসংখ্য গভীর শিক্ষার সাফল্যের গল্পে অবদান রেখেছে, বিশেষ করে তারা প্রথম বড় ভাষা মডেল (LLMs) গঠন করেছে।

যাইহোক, ট্রান্সফরমার প্রযুক্তির আবির্ভাব এর মূল অংশে সমান্তরাল স্ব-মনোযোগ সহ একটি নতুন যুগের সূচনা করেছে, যা LSTM-কে স্কেলে ছাড়িয়ে গেছে।

আমরা এখন একটি সহজ প্রশ্ন উত্থাপন করি: LSTMs কে বিলিয়ন প্যারামিটারে স্কেল করার সময়, আধুনিক LLMs থেকে সর্বশেষ কৌশলগুলি ব্যবহার করে, কিন্তু LSTM-এর পরিচিত সীমাবদ্ধতাগুলি প্রশমিত করার সময় আমরা ভাষার মডেলিংয়ে কতদূর যেতে পারি?

প্রথমত, আমরা যথাযথ স্বাভাবিককরণ এবং স্থিতিশীলকরণ কৌশল সহ সূচকীয় গেটিং প্রবর্তন করি।

দ্বিতীয়ত, আমরা LSTM মেমরি গঠন সংশোধন করি, প্রাপ্তি:

(i) একটি স্কেলার মেমরি, একটি স্কেলার আপডেট এবং নতুন মেমরি মিক্সিং সহ sLSTM,

(ii) mLSTM যা একটি ম্যাট্রিক্স মেমরি এবং একটি কোভেরিয়েন্স আপডেট নিয়মের সাথে সম্পূর্ণ সমান্তরাল।

এই LSTM এক্সটেনশনগুলিকে অবশিষ্ট ব্লক ব্যাকবোনে একত্রিত করার ফলে xLSTM ব্লকগুলি পাওয়া যায় যেগুলি তারপরে xLSTM আর্কিটেকচারে অবশিষ্টভাবে স্ট্যাক করা হয়।

এক্সপোনেনশিয়াল গেটিং এবং পরিবর্তিত মেমরি স্ট্রাকচারগুলি পারফরম্যান্স এবং স্কেলিং উভয় ক্ষেত্রেই অত্যাধুনিক ট্রান্সফরমার এবং স্টেট স্পেস মডেলের সাথে তুলনা করার সময় অনুকূলভাবে পারফর্ম করার জন্য xLSTM ক্ষমতা বৃদ্ধি করে।

লং শর্ট-টার্ম মেমরি (LSTM) অ্যালগরিদম তার দিনে অত্যন্ত কার্যকর ছিল এবং এর সাফল্যের ন্যায্য অংশ ছিল।

xLSTM একই মডেল ব্যবহার করেছে কিন্তু সম্পূর্ণ ভিন্ন আর্কিটেকচারে।

এটি ছিল প্রধান উদ্ভাবন, গবেষণা পত্রের এই চিত্রটিতে সংক্ষিপ্ত করা হয়েছে:

xLSTM এর প্রধান সুবিধা ছিল:

ট্রান্সফরমার অ্যালগরিদমের সাথে তুলনা করলে xLSTM এর সুবিধা:

লং সিকোয়েন্স হ্যান্ডলিং :
- xLSTM বিশেষভাবে এর গেটিং পদ্ধতির সাথে দীর্ঘ ক্রম পরিচালনা করার জন্য ডিজাইন করা হয়েছিল যা তথ্যের প্রবাহকে নিয়ন্ত্রণ করে। এটি ঐতিহ্যগত LSTM এর তুলনায় অনুক্রমিক ডেটাতে দীর্ঘমেয়াদী নির্ভরতা ক্যাপচারে এটিকে আরও কার্যকর করে তুলেছে।
কম্পিউটেশনাল দক্ষতা :
- xLSTM নির্দিষ্ট কাজের জন্য আরও গণনাগতভাবে দক্ষ হতে পারে, বিশেষ করে যখন ছোট ডেটাসেটগুলির সাথে কাজ করা হয় বা যখন ক্রম দৈর্ঘ্য অত্যধিক বড় না হয়।
- অন্যদিকে, ট্রান্সফরমারগুলির জন্য তাদের স্ব-মনোযোগ ব্যবস্থার কারণে উল্লেখযোগ্য গণনামূলক সংস্থানগুলির প্রয়োজন হয়, যা ক্রম দৈর্ঘ্যের সাথে চতুর্মুখীভাবে স্কেল করে।
মেমরি ব্যবহার :
- xLSTM সাধারণত ট্রান্সফরমারের তুলনায় কম মেমরির প্রয়োজন হয়।
- ট্রান্সফরমারের স্ব-মনোযোগ ব্যবস্থার জন্য বৃহৎ মনোযোগের ম্যাট্রিক্স সংরক্ষণ করা প্রয়োজন, যা স্মৃতি-নিবিড় হতে পারে, বিশেষ করে দীর্ঘ ক্রমগুলির জন্য।
প্রশিক্ষণের স্থিতিশীলতা :
- এক্সএলএসটিএম প্রশিক্ষণের সময় আরও স্থিতিশীল হতে পারে কারণ এর পুনরাবৃত্ত প্রকৃতি এবং গেটিং প্রক্রিয়া যা অদৃশ্য হয়ে যাওয়া গ্রেডিয়েন্ট সমস্যা প্রশমিত করতে সহায়তা করেছিল।
- ট্রান্সফরমার, শক্তিশালী হলেও, কখনও কখনও প্রশিক্ষণের জন্য আরও চ্যালেঞ্জিং হতে পারে এবং হাইপারপ্যারামিটার এবং নিয়মিতকরণের কৌশলগুলির যত্নশীল টিউনিংয়ের প্রয়োজন হতে পারে।
সরলতা এবং ব্যাখ্যাযোগ্যতা :
- ট্রান্সফরমারের তুলনায় xLSTM মডেলগুলি বোঝা এবং ব্যাখ্যা করা সহজ হতে পারে।
- এলএসটিএম-এর পুনরাবৃত্ত প্রকৃতি নেটওয়ার্কের মাধ্যমে তথ্যের প্রবাহকে ট্রেস করা সহজ করে তোলে, যেখানে ট্রান্সফরমারগুলিতে মনোযোগের প্রক্রিয়া আরও বিমূর্ত এবং ব্যাখ্যা করা কঠিন হতে পারে।
ছোট ডেটাসেটের কর্মক্ষমতা :
- xLSTM ছোট ডেটাসেটগুলিতে বা লেবেলযুক্ত ডেটা সীমিত হলে ভাল পারফর্ম করতে পারে।
- ট্রান্সফরমারদের সাধারণত তাদের পূর্ণ সম্ভাবনা অর্জনের জন্য প্রচুর পরিমাণে ডেটার প্রয়োজন হয়, যা সীমিত ডেটা প্রাপ্যতা সহ পরিস্থিতিতে xLSTM কে একটি ভাল পছন্দ করে তোলে
  .
অনুক্রমিক তথ্য :
- নির্দিষ্ট ধরণের অনুক্রমিক ডেটার জন্য, যেমন টাইম সিরিজ বা নির্দিষ্ট ধরণের প্রাকৃতিক ভাষা প্রক্রিয়াকরণ কাজের জন্য, xLSTM অনুক্রম পরিচালনার জন্য এর অন্তর্নিহিত নকশার কারণে আরও ভাল কার্যকারিতা সরবরাহ করতে পারে।

যাইহোক, এটি লক্ষ করা গুরুত্বপূর্ণ ছিল যে ট্রান্সফরমারগুলির নিজস্ব সুবিধার সেট রয়েছে, যেমন ভাল সমান্তরালকরণ ক্ষমতা, বড় ডেটাসেটে উচ্চতর কর্মক্ষমতা এবং অনেকগুলি এনএলপি কাজগুলিতে অত্যাধুনিক ফলাফল।

xLSTM এবং ট্রান্সফরমারের মধ্যে পছন্দটি নির্দিষ্ট প্রয়োজনীয়তা এবং হাতে থাকা কাজের সীমাবদ্ধতার উপর ভিত্তি করে করা উচিত।

আপনি এখানে PyTorch এ xLSTM এর একটি বাস্তবায়ন দেখতে পারেন:

আপনি এখানে xLSTM এর বিস্তারিত ব্যাখ্যা দেখতে পারেন:

এটি তার বর্তমান অবস্থার একটি ভাল সারসংক্ষেপ:

কিন্তু মাম্বার একজন উত্তরসূরি ছিল যেটি হলি গ্রেইলে আঘাত করেছিল - এলএলএম অ্যালগরিদমের জন্য সর্বোত্তম সময়ের জটিলতা

জাম্বা - মাম্বা উত্তরসূরি যে এটি হাতে-নামে বীট!

গবেষণাপত্রটি এখানে পাওয়া যাবে:

জাম্বা: একটি হাইব্রিড ট্রান্সফরমার-মাম্বা ভাষার মডেল

গবেষণাপত্রের বিমূর্ত থেকে:

আমরা জাম্বা উপস্থাপন করছি, একটি নভেল হাইব্রিড ট্রান্সফরমার-মাম্বা মিক্সচার-অফ-বিশেষজ্ঞ (MoE) আর্কিটেকচারের উপর ভিত্তি করে একটি নতুন বেস বড় ভাষার মডেল।

বিশেষত, জাম্বা ট্রান্সফরমার এবং মাম্বা স্তরগুলির ব্লকগুলিকে আন্তঃলিভ করে, উভয় মডেল পরিবারের সুবিধাগুলি উপভোগ করে।

সক্রিয় প্যারামিটার ব্যবহার পরিচালনাযোগ্য রেখে মডেলের ক্ষমতা বাড়ানোর জন্য এই স্তরগুলির মধ্যে কয়েকটিতে MoE যুক্ত করা হয়েছে।

এই নমনীয় আর্কিটেকচার সম্পদ- এবং উদ্দেশ্য-নির্দিষ্ট কনফিগারেশনের অনুমতি দেয়।

আমরা যে নির্দিষ্ট কনফিগারেশনটি প্রয়োগ করেছি, আমরা একটি শক্তিশালী মডেলের সাথে শেষ করেছি যা একটি একক 80GB GPU-তে ফিট করে।

বড় আকারে নির্মিত, জাম্বা ভ্যানিলা ট্রান্সফরমারের তুলনায় উচ্চ থ্রুপুট এবং ছোট মেমরি ফুটপ্রিন্ট প্রদান করে এবং একই সাথে স্ট্যান্ডার্ড ল্যাঙ্গুয়েজ মডেল বেঞ্চমার্ক এবং দীর্ঘ-প্রসঙ্গ মূল্যায়নে অত্যাধুনিক পারফরম্যান্স প্রদান করে।

উল্লেখযোগ্যভাবে, মডেলটি 256K টোকেন প্রসঙ্গ দৈর্ঘ্য পর্যন্ত শক্তিশালী ফলাফল উপস্থাপন করে।

আমরা বিভিন্ন স্থাপত্য সংক্রান্ত সিদ্ধান্তগুলি অধ্যয়ন করি, যেমন ট্রান্সফরমার এবং মাম্বা স্তরগুলিকে কীভাবে একত্রিত করা যায় এবং কীভাবে বিশেষজ্ঞদের মিশ্রিত করা যায় এবং দেখায় যে তাদের মধ্যে কয়েকটি বড় আকারের মডেলিংয়ের ক্ষেত্রে গুরুত্বপূর্ণ।

আমরা এই স্থাপত্যের বেশ কিছু আকর্ষণীয় বৈশিষ্ট্যও বর্ণনা করি যা জাম্বার প্রশিক্ষণ এবং মূল্যায়ন প্রকাশ করেছে, এবং এই অভিনব স্থাপত্যের আরও অন্বেষণকে উত্সাহিত করার জন্য বিভিন্ন অ্যাবলেশন রান থেকে চেকপয়েন্টগুলি ছেড়ে দেওয়ার পরিকল্পনা করেছি।

আমরা আমাদের জাম্বা বাস্তবায়নের ওজন একটি অনুমতিমূলক লাইসেন্সের অধীনে সর্বজনীনভাবে উপলব্ধ করি।

বাস্তবায়ন এখানে HuggingFace সংগ্রহস্থলে উপলব্ধ:

মডেল: https://huggingface.co/ai21labs/Jamba-v0.1

অন্যান্য মডেলের সাথে তুলনা :
- বিভিন্ন মানদণ্ড জুড়ে মূল্যায়ন করা, জাম্বা অন্যান্য অত্যাধুনিক মডেল যেমন Mistral-8x7B , Llama-2 70B , এবং Mixtral-8x7B এর সাথে তুলনামূলক কর্মক্ষমতা প্রদর্শন করে।
- উল্লেখযোগ্যভাবে, জাম্বা 256K টোকেন পর্যন্ত প্রসঙ্গ দৈর্ঘ্য সমর্থন করে , যা সর্বজনীনভাবে উপলব্ধ মডেলগুলির মধ্যে দীর্ঘতম
- Hellaswag , Arc Challenge , এবং PIQA এর মত কাজগুলিতে , জাম্বা লামা 2 , মিক্সট্রাল 8x7B , এবং জেমার মত মডেলগুলিকে ছাড়িয়ে যায়৷

সংক্ষেপে, জাম্বার হাইব্রিড আর্কিটেকচার ট্রান্সফরমার এবং মাম্বা স্তরগুলির শক্তিকে একত্রিত করে, যার ফলে চিত্তাকর্ষক কর্মক্ষমতা এবং মাপযোগ্যতা।

মনে রাখার মূল চিত্রটি উপরের এই গবেষণাপত্রে উপস্থাপিত:

মাম্বা এবং ট্রান্সফরমার মডেলগুলির আন্তঃস্থাপন সময় জটিলতার একটি অবিশ্বাস্য বৃদ্ধির দিকে পরিচালিত করে, যা নীচের নিবন্ধে সুন্দরভাবে সংক্ষিপ্ত করা হয়েছে:

মাম্বা এবং জাম্বা — সহজভাবে ব্যাখ্যা করা হয়েছে

লেখক : নিমৃতা কৌল
তারিখ : এপ্রিল 1, 2024
সারসংক্ষেপ :
- জাম্বা হল AI21 দ্বারা প্রবর্তিত প্রথম প্রোডাকশন-গ্রেড মাম্বা-ভিত্তিক বড় ভাষা মডেল।
- এটি ট্রান্সফরমার এবং মাম্বা উভয় আর্কিটেকচারের শক্তিকে একত্রিত করে।
- - ট্রান্সফরমার-ভিত্তিক মডেলগুলি তাদের প্রশিক্ষণের সময় O(n²) এর জটিলতার কারণে দীর্ঘ ক্রমগুলির সাথে লড়াই করে।
  - মাম্বা আর্কিটেকচার রৈখিক প্রশিক্ষণের সময় জটিলতা ( O(n) ) এবং ধ্রুবক অনুমান সময় ( O(1) ) প্রদান করে।
  - মাম্বা স্টেট স্পেস মডেল (SSM) আর্কিটেকচারের উপর ভিত্তি করে তৈরি।
  - SSMs ডিফারেনশিয়াল বা পার্থক্য সমীকরণ ব্যবহার করে একটি সিস্টেম বর্ণনা করতে স্টেট ভেরিয়েবল ব্যবহার করে।
  - মাম্বার হাইব্রিড পদ্ধতির লক্ষ্য বিদ্যমান মডেলগুলির সীমাবদ্ধতাগুলিকে মোকাবেলা করা।

আপনি এখানে সম্পূর্ণ নিবন্ধ পড়তে পারেন:

মাম্বা এবং জাম্বা — সহজভাবে ব্যাখ্যা করেছেন , নিমৃতা কৌল, মিডিয়াম ডটকমে।

সর্বোত্তম আবদ্ধ হয়েছে পৌঁছেছেন!

এখানে উল্লেখ্য মূল বিষয় হল যে, প্রশিক্ষণের জন্য, অ্যালগরিদমকে প্রতিটি ইনপুট টোকেনকে অন্তত একবার দেখতে হবে, O(n) এর সময় জটিলতা প্রদান করে।

এছাড়াও, যেকোন LLM মডেলের জন্য অনুমান যে দ্রুততম গতিতে নিতে পারে তা হল O(1)- ধ্রুবক সময়, টোকেনের দৈর্ঘ্যের থেকে স্বাধীন (একটি অবিশ্বাস্য কৃতিত্ব)!

জাম্বা অ্যালগরিদমের ক্ষেত্রে এই উভয় সীমা পৌঁছে গেছে!

তাই ধ্রুব-সময়ের উন্নতির অধীনে - যা এখনও খুব বেশি হতে পারে (এই সংখ্যাগুলি কয়েকশ বিলিয়নের মধ্যে):

জাম্বা একটি ট্রান্সফরমার অ্যালগরিদমের জন্য সময় জটিলতার সর্বোত্তম সীমানায় পৌঁছেছে!

প্রদত্ত সিস্টেমের অবস্থার অধীনে, যদি না নতুন প্রযুক্তি চালু করা হয় (কোয়ান্টাম কম্পিউটিং, যে কেউ) আমাদের সহজভাবে দ্রুত অ্যাসিম্পোটিক সময় জটিলতা থাকতে পারে না!

যা খুবই তাৎপর্যপূর্ণ ফলাফল!

A121 ল্যাব দ্বারা আনুষ্ঠানিক ঘোষণা:

জাম্বার উপর মাঝারি আরেকটি ভাল নিবন্ধ:

এই মুহূর্তে উপলব্ধ জাম্বার সেরা বাস্তবায়নগুলির মধ্যে একটি:

আবার, HuggingFace হাবের জাম্বা মডেল:

উপসংহার

এইভাবে জাম্বা চূড়ান্ত সময়ের জটিলতায় পৌঁছে যা বিদ্যমান সিস্টেমের অধীনে একটি বর্তমান ট্রান্সফরমার অ্যালগরিদম দ্বারা একটি ধ্রুবক স্তরের পরিবর্তনে অর্জন করা যেতে পারে। পুনরাবৃত্তি; ধ্রুবকগুলি খুব বড় হতে পারে, কারণ এগুলি শত শত কোটি পদের ক্রম অনুসারে! যাইহোক, এটি এখনও একটি উল্লেখযোগ্য অর্জন। এবং বিশেষ করে DPO (ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান) এবং কোয়ান্টাইজেশনের সাথে মিলিত হলে এই বিষয়ে গবেষণা কোথায় যেতে পারে তার কোন সীমাবদ্ধতা নেই - আরও জানতে উপসংহার দেখুন।

উপসংহার:

এর একটা দিক আছে যেটা নিয়ে কেউ খোলাখুলি কাজ করছে বলে মনে হয় না।

মাম্বা, এক্সএলএসটিএম এবং জাম্বা মডেলগুলি কি 1-বিট নির্ভুলতার সাথে পরিমাপ করা যেতে পারে?

অবশ্যই!

আমি মাম্বা এবং জাম্বার পারফরম্যান্সের উন্নতি একবার এক-বিট পরিমাপ করার জন্য অপেক্ষা করতে পারি না! অথবা 1.58 বিট {-1, 0, 1}।

আবার, আরো বিস্তারিত জানার জন্য এই নিবন্ধটি দেখুন:

https://hackernoon.com/why-1-bit-transformers-will-change-the-world

এই প্রযুক্তির ভবিষ্যত অবিশ্বাস্যভাবে উত্তেজনাপূর্ণ হতে চলেছে!

এই ক্ষেত্রে কাজ করার আনন্দ এবং রোমাঞ্চ সবসময় আপনার সাথে থাকুক!

চিয়ার্স!

তথ্যসূত্র:

উপরের নিবন্ধে স্পষ্টভাবে উল্লিখিতগুলি ছাড়া:

ট্রান্সফরমার-এক্সএল: একটি নির্দিষ্ট দৈর্ঘ্যের প্রেক্ষাপটের বাইরে মনোযোগী ভাষার মডেল
- Dai, Z., Yang, Z., Yang, Y., Carbonell, J., & Le, QV (2019)। ট্রান্সফরমার-এক্সএল: একটি স্থির-দৈর্ঘ্যের প্রেক্ষাপটের বাইরে মনোযোগী ভাষার মডেল ।
লংফর্মার: লং-ডকুমেন্ট ট্রান্সফরমার
- Beltagy, I., Peters, ME, & Cohan, A. (2020)। লংফর্মার: লং-ডকুমেন্ট ট্রান্সফরমার ।
সংস্কারক: দক্ষ ট্রান্সফরমার
- Kitaev, N., Kaiser, Ł., & Levskaya, A. (2020)। সংস্কারক: দক্ষ ট্রান্সফরমার ।
লিনফর্মার: রৈখিক জটিলতার সাথে স্ব-মনোযোগ
- Wang, S., Li, BZ, Khabsa, M., Fang, H., & Ma, H. (2020)। লিনফর্মার: লিনিয়ার কমপ্লেক্সিটির সাথে স্ব-মনোযোগ ।
স্টেট স্পেস মডেল: মডেলিং টাইম সিরিজ ডেটার জন্য একটি সাধারণ কাঠামো
- Durbin, J., & Koopman, SJ (2012)। স্টেট স্পেস মডেল: মডেলিং টাইম সিরিজ ডেটার জন্য একটি সাধারণ ফ্রেমওয়ার্ক ।
S4: স্ট্রাকচার্ড স্টেট স্পেস সহ সিকোয়েন্স মডেলিং
- Gu, A., Goel, K., & Re, C. (2021)। S4: স্ট্রাকচার্ড স্টেট স্পেস সহ সিকোয়েন্স মডেলিং ।
বৃহৎ ভাষার মডেলের কম্পিউটেশনাল দক্ষতার উপর
- বেনামী লেখক. (বছর উল্লেখ করা হয়নি)। [বড় ভাষার মডেলের কম্পিউটেশনাল দক্ষতার উপর](ইউআরএল দেওয়া হয়নি)।
দক্ষ ট্রান্সফরমার: একটি সমীক্ষা
- Tay, Y., Dehgani, M., Bahri, D., & Metzler, D. (2020)। দক্ষ ট্রান্সফরমার: একটি সমীক্ষা ।
দক্ষ পূর্ণসংখ্যা-পাটিগণিত-শুধুমাত্র অনুমানের জন্য নিউরাল নেটওয়ার্কের কোয়ান্টাইজেশন এবং প্রশিক্ষণ
- Jacob, B., Kligys, S., Chen, B., Zhu, M., Tang, M., Howard, A., ... & Adam, H. (2018)। দক্ষ পূর্ণসংখ্যা-পাটিগণিত-শুধুমাত্র অনুমানের জন্য নিউরাল নেটওয়ার্কের কোয়ান্টাইজেশন এবং প্রশিক্ষণ।
Q-BERT: BERT-এর হেসিয়ান ভিত্তিক আল্ট্রা লো প্রিসিশন কোয়ান্টাইজেশন
- Shen, S., Dong, Z., Ye, J., Ma, L., & Gholami, A. (2020)। Q-BERT: BERT-এর হেসিয়ান ভিত্তিক আল্ট্রা লো প্রিসিশন কোয়ান্টাইজেশন
BERT: ভাষা বোঝার জন্য গভীর দ্বিমুখী ট্রান্সফরমারের প্রাক-প্রশিক্ষণ
- Devlin, J., Chang, MW, Lee, K., & Toutanova, K. (2018)। BERT: ভাষা বোঝার জন্য গভীর দ্বিমুখী ট্রান্সফরমারের প্রাক-প্রশিক্ষণ ।
GPT-3: ভাষার মডেলগুলি অল্প সংখ্যক শিক্ষার্থী
- Brown, TB, Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020)। GPT-3: ভাষার মডেলগুলি অল্প-শট লার্নার্স ।
RoBERta: একটি দৃঢ়ভাবে অপ্টিমাইজ করা BERT প্রিট্রেনিং পদ্ধতি
- Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., ... & Stoyanov, V. (2019)। RoBERta: একটি দৃঢ়ভাবে অপ্টিমাইজ করা BERT প্রিট্রেনিং পদ্ধতি ।
আলবার্ট: ভাষা প্রতিনিধিত্বের স্ব-তত্ত্বাবধানে শেখার জন্য একটি হালকা BERT
- Lan, Z., Chen, M., Goodman, S., Gimpel, K., শর্মা, P., & Soricut, R. (2019)। আলবার্ট: ভাষা প্রতিনিধিত্বের স্ব-তত্ত্বাবধানে শেখার জন্য একটি হালকা BERT ।
T5: একটি ইউনিফাইড টেক্সট-টু-টেক্সট ট্রান্সফরমারের মাধ্যমে ট্রান্সফার শেখার সীমা অন্বেষণ করা
- Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, PJ (2019)। T5: একটি ইউনিফাইড টেক্সট-টু-টেক্সট ট্রান্সফরমারের মাধ্যমে ট্রান্সফার শেখার সীমা অন্বেষণ করা।
DistilBERT, BERT এর একটি পাতিত সংস্করণ: ছোট, দ্রুত, সস্তা এবং হালকা
- Sanh, V., Debut, L., Chaumon, J., & Wolf, T. (2019)। DistilBERT, BERT এর একটি পাতিত সংস্করণ: ছোট, দ্রুত, সস্তা এবং হালকা ।

প্রস্তাবনা এবং উপসংহার জন্য

পরিমাপকরণের জন্য, এই কাগজটি অবশ্যই পড়ার যোগ্য:

গবেষণাপত্র - বিটনেট: বড় ভাষার মডেলের জন্য 1-বিট ট্রান্সফরমার স্কেলিং :
- বিমূর্ত : বড় ভাষা মডেলের ক্রমবর্ধমান আকার স্থাপনার জন্য চ্যালেঞ্জ তৈরি করেছে এবং উচ্চ শক্তি খরচের কারণে পরিবেশগত প্রভাব সম্পর্কে উদ্বেগ উত্থাপন করেছে। এই কাজে, আমরা বিটনেট প্রবর্তন করি, একটি মাপযোগ্য এবং স্থিতিশীল 1-বিট ট্রান্সফরমার আর্কিটেকচার যা বড় ভাষার মডেলের জন্য ডিজাইন করা হয়েছে। বিশেষভাবে, আমরা 1-বিট ওজনকে স্ক্র্যাচ থেকে প্রশিক্ষিত করার জন্য nn.Linear স্তরের ড্রপ-ইন প্রতিস্থাপন হিসাবে বিটলাইনারকে প্রবর্তন করি। ভাষা মডেলিংয়ের পরীক্ষামূলক ফলাফল দেখায় যে বিটনেট অত্যাধুনিক 8-বিট কোয়ান্টাইজেশন পদ্ধতি এবং FP16 ট্রান্সফরমার বেসলাইনের তুলনায় মেমরির পদচিহ্ন এবং শক্তি খরচ উল্লেখযোগ্যভাবে হ্রাস করার সাথে সাথে প্রতিযোগিতামূলক কর্মক্ষমতা অর্জন করে । অধিকন্তু, BitNet সম্পূর্ণ-নির্ভুল ট্রান্সফরমারের অনুরূপ একটি স্কেলিং আইন প্রদর্শন করে , যা দক্ষতা এবং কর্মক্ষমতা সুবিধা বজায় রেখে আরও বড় ভাষার মডেলগুলিতে কার্যকর স্কেলিং করার সম্ভাবনার পরামর্শ দেয়।
  সম্পূর্ণ গবেষণা কাগজ পড়ুন
  
  https://arxiv.org/abs/2310.11453

এবং HuggingFace এর মডেল:

আলিঙ্গন মুখ সংগ্রহস্থল - বিটনেট b1.58-3B কোয়ান্টাইজড :
- এই সংগ্রহস্থলে BitNet b1.58-3B মডেলের একটি কোয়ান্টাইজড সংস্করণ রয়েছে।
  যদিও মূল সংগ্রহস্থল চিত্তাকর্ষক বৈধতা ফলাফল প্রদর্শন করে, এটি বিটনেটের রৈখিক স্তরগুলিকে অনুকরণ করে, যার ফলে FP16 মডেলের মতো মেমরি ব্যবহার হয়।
  
  আলিঙ্গন মুখ মডেল অন্বেষণ
  
  https://huggingface.co/kousw/bitnet_b1_58-3B_quantized