লেখক:
(1) ববি হে, কম্পিউটার সায়েন্স বিভাগ, ইটিএইচ জুরিখ (এর সাথে চিঠিপত্র: [email protected].);
(2) টমাস হফম্যান, কম্পিউটার সায়েন্স বিভাগ, ইটিএইচ জুরিখ।
আলোচনা, প্রজননযোগ্যতা বিবৃতি, স্বীকৃতি এবং রেফারেন্স
রৈখিক স্তরে কম ওজনযুক্ত অবশিষ্টাংশ এবং সীমাবদ্ধ আপডেটগুলির মধ্যে একটি দ্বৈততা
ডিপ ট্রান্সফরমারগুলির জন্য একটি সাধারণ ডিজাইনের রেসিপি হল অভিন্ন বিল্ডিং ব্লকগুলি রচনা করা। কিন্তু স্ট্যান্ডার্ড ট্রান্সফরমার ব্লকগুলি সরল, ইন্টারওয়েভিং অ্যাটেনশন এবং এমএলপি সাব-ব্লকগুলি থেকে দূরে নয় যাতে সংযোগগুলি এড়িয়ে যায় এবং সুনির্দিষ্ট বিন্যাসে স্বাভাবিককরণ স্তর থাকে। এই জটিলতা ভঙ্গুর আর্কিটেকচারের দিকে নিয়ে যায়, যেখানে আপাতদৃষ্টিতে ছোটখাটো পরিবর্তনগুলি উল্লেখযোগ্যভাবে প্রশিক্ষণের গতি হ্রাস করতে পারে, বা মডেলগুলিকে প্রশিক্ষণের অযোগ্য করে তুলতে পারে। এই কাজে, আমরা জিজ্ঞাসা করি কতটা স্ট্যান্ডার্ড ট্রান্সফরমার ব্লককে সরলীকরণ করা যায়? সংকেত প্রচার তত্ত্ব এবং অভিজ্ঞতামূলক পর্যবেক্ষণের সংমিশ্রণে, আমরা এমন পরিবর্তনগুলিকে অনুপ্রাণিত করি যা প্রশিক্ষণের গতির কোন ক্ষতি ছাড়াই অনেক ব্লকের উপাদানগুলিকে সরিয়ে ফেলার অনুমতি দেয়, সংযোগগুলি এড়িয়ে যাওয়া, অভিক্ষেপ বা মান পরামিতি, অনুক্রমিক সাব-ব্লক এবং স্বাভাবিককরণ স্তরগুলি সহ। অটোরিগ্রেসিভ ডিকোডার-অনলি এবং BERT এনকোডার-শুধু উভয় মডেলের পরীক্ষায়, আমাদের সরলীকৃত ট্রান্সফরমারগুলি 15% দ্রুত প্রশিক্ষণ থ্রুপুট উপভোগ করার সময়, এবং 15% কম পরামিতি ব্যবহার করে প্রতি-আপডেট প্রশিক্ষণের গতি এবং স্ট্যান্ডার্ড ট্রান্সফরমারগুলির কার্যকারিতা অনুকরণ করে।
ট্রান্সফরমার আর্কিটেকচার (Vaswani et al., 2017) গভীর শিক্ষায় সাম্প্রতিক অনেক সাফল্যের পেছনে যুক্তিযুক্তভাবে কাজ করে। একটি গভীর ট্রান্সফরমার আর্কিটেকচার তৈরি করার একটি সহজ উপায় হল একাধিক অভিন্ন ট্রান্সফরমার "ব্লক" ক্রমানুসারে একের পর এক স্ট্যাক করা। প্রতিটি ব্লক, তবে, আরও জটিল এবং অনেকগুলি বিভিন্ন উপাদান নিয়ে গঠিত, যা ভাল কার্যক্ষমতা অর্জনের জন্য নির্দিষ্ট ব্যবস্থায় একত্রিত করা প্রয়োজন। আশ্চর্যজনকভাবে, বেস ট্রান্সফরমার ব্লকটি তার সূচনা থেকে খুব কম পরিবর্তিত হয়েছে, যদিও অনেক গবেষকের আগ্রহ আকর্ষণ করেছে।
এই কাজে, আমরা স্ট্যান্ডার্ড ট্রান্সফরমার ব্লককে সরলীকরণ করা যায় কিনা তা অধ্যয়ন করি। আরও নির্দিষ্টভাবে, আমরা সংযোগ বাদ, অভিক্ষেপ/মান ম্যাট্রিক্স, অনুক্রমিক সাব-ব্লক এবং স্বাভাবিককরণ স্তর সহ বেশ কয়েকটি ব্লক উপাদানের প্রয়োজনীয়তা অনুসন্ধান করি। প্রতিটি বিবেচিত উপাদানের জন্য, আমরা জিজ্ঞাসা করি যে এটি প্রশিক্ষণের গতি (প্রতি-আপডেট পদক্ষেপ এবং রানটাইম উভয় ক্ষেত্রেই) ক্ষতি ছাড়াই সরানো যেতে পারে এবং এটি করার জন্য ট্রান্সফরমার ব্লকে কী কী স্থাপত্য পরিবর্তন করতে হবে।
আমরা বিশ্বাস করি যে প্রশিক্ষণের গতির সাথে আপস না করে ট্রান্সফরমার ব্লকগুলি সরল করার সমস্যাটি বিভিন্ন কারণে একটি আকর্ষণীয় গবেষণা প্রশ্ন। প্রথমত, আধুনিক নিউরাল নেটওয়ার্ক (NN) আর্কিটেকচারে অনেকগুলি উপাদানের সাথে জটিল নকশা রয়েছে এবং NN প্রশিক্ষণের গতিবিদ্যায় এই বিভিন্ন উপাদানগুলির দ্বারা কী ভূমিকা পালন করা হয় বা তারা কীভাবে একে অপরের সাথে যোগাযোগ করে তা স্পষ্ট নয়। গভীর শিক্ষায় তত্ত্ব এবং অনুশীলনের মধ্যে বিদ্যমান ব্যবধানের কারণে এটি বিশেষভাবে প্রাসঙ্গিক, যেখানে গভীর শিক্ষার প্রক্রিয়া বোঝার জন্য কাজ করা তাত্ত্বিকরা প্রায়শই সুবিধার কারণে সরলীকৃত স্থাপত্যকে বিবেচনা করেন, অগত্যা অনুশীলনে ব্যবহৃত আধুনিক স্থাপত্যের প্রতিফলন নয়। অনুশীলনে ব্যবহৃত NN আর্কিটেকচারগুলিকে সরলীকরণ করা এই বিভাজনের সেতুতে সাহায্য করতে পারে
একটি সম্পর্কিত তাত্ত্বিক নোটে, আমাদের কাজ উভয় শক্তি এবং সংকেত প্রচারের বর্তমান সীমাবদ্ধতাগুলিকে হাইলাইট করে: একটি তত্ত্ব যা গভীর NN স্থাপত্যগুলিতে ব্যবহারিক নকশা পছন্দগুলিকে অনুপ্রাণিত করার ক্ষমতার কারণে প্রভাবশালী প্রমাণিত হয়েছে৷ সংকেত প্রচার (Poole et al., 2016; Schoenholz et al., 2017; Hayou et al., 2019) একটি NN-তে জ্যামিতিক তথ্যের বিবর্তন অধ্যয়ন করে, ইনপুট জুড়ে স্তরভিত্তিক উপস্থাপনাগুলির অভ্যন্তরীণ পণ্যগুলির মাধ্যমে ক্যাপচার করা হয় এবং অনেককে অনুপ্রাণিত করেছে গভীর এনএন প্রশিক্ষণে চিত্তাকর্ষক ফলাফল (Xiao et al., 2018; Brock et al., 2021; Martens et al., 2021; Zaidi et al., 2023)। যাইহোক, বর্তমান তত্ত্বটি শুধুমাত্র প্রাথমিককরণের সময় একটি মডেলকে বিবেচনা করে এবং প্রায়শই শুধুমাত্র প্রাথমিক ফরওয়ার্ড পাসকে বিবেচনা করে। যেমন, বর্তমানে সংকেত প্রচার গভীর এনএন প্রশিক্ষণ গতিবিদ্যার অনেক জটিলতার উপর আলোকপাত করতে অক্ষম, উদাহরণস্বরূপ প্রশিক্ষণের গতির জন্য সংযোগগুলি এড়িয়ে যাওয়ার সুবিধাগুলি। যদিও সংকেত প্রচার আমাদের পরিবর্তনগুলিকে অনুপ্রাণিত করার জন্য অত্যন্ত গুরুত্বপূর্ণ, আমরা একা তত্ত্ব থেকে আমাদের সরলীকৃত ট্রান্সফরমার ব্লকগুলিতে পৌঁছাতে পারতাম না, এবং অভিজ্ঞতামূলক অন্তর্দৃষ্টির উপরও নির্ভর করতাম।
পরিশেষে, ব্যবহারিক দিক থেকে, আজকাল প্রশিক্ষণের অত্যধিক খরচ এবং বড় ট্রান্সফরমার মডেল স্থাপনের প্রেক্ষিতে, ট্রান্সফরমার আর্কিটেকচারের জন্য প্রশিক্ষণ এবং অনুমান পাইপলাইনে যেকোন দক্ষতা অর্জন উল্লেখযোগ্য সম্ভাব্য সঞ্চয়ের প্রতিনিধিত্ব করে। অপ্রয়োজনীয় উপাদানগুলি সরিয়ে ট্রান্সফরমার ব্লককে সরল করা উভয়ই প্যারামিটারের সংখ্যা হ্রাস করে এবং আমাদের মডেলগুলিতে থ্রুপুট বাড়ায়। বিশেষ করে, আমরা দেখাই যে ট্রেনিং স্পিড এবং ডাউনস্ট্রিম টাস্ক পারফরম্যান্সের পরিপ্রেক্ষিতে স্ট্যান্ডার্ড ট্রান্সফরমারের সাথে মিল রেখে সংযোগ, মান প্যারামিটার, প্রজেকশন প্যারামিটার এবং অনুক্রমিক সাব-ব্লকগুলি সরিয়ে ফেলা সম্ভব। ফলস্বরূপ, আমরা পরামিতি গণনা 16% পর্যন্ত হ্রাস করি এবং ট্রেন এবং অনুমান উভয় সময়ে 16% এর থ্রুপুট বৃদ্ধি লক্ষ্য করি।
ট্রান্সফরমার ব্লক সরলীকরণের জন্য আমাদের শুরুর পয়েন্ট হল He et al. (2023), যারা দেখায় যে সিগন্যাল প্রচারের নীতিগুলিকে সম্মান করা একজনকে সংযোগগুলি এড়িয়ে যাওয়া বা স্বাভাবিককরণ স্তর ছাড়াই গভীর ট্রান্সফর্মারগুলিকে প্রশিক্ষণের অনুমতি দেয়, তবে প্রতি প্যারামিটার আপডেটে উল্লেখযোগ্যভাবে কম কনভারজেন্স গতিতে। আমরা প্রথমে দেখাই যে মান এবং অভিক্ষেপের পরামিতিগুলির আপডেটগুলিকে নিয়ন্ত্রণ করা (সেক. 4.1), বা প্রকৃতপক্ষে সেগুলিকে সম্পূর্ণরূপে সরিয়ে দেওয়া (সেক. 4.2), স্কিপলেস মনোযোগ সাব-ব্লকগুলির কার্যকারিতা উন্নত করে এবং রিপোর্ট করা প্রতি-আপডেট প্রশিক্ষণের গতি হারানো পুনরুদ্ধার করে তিনি এবং অন্যান্য দ্বারা. (2023)। এটি মনোযোগ সাব-ব্লকের অর্ধেক পরামিতি এবং ম্যাট্রিক্স-গুণকে সরিয়ে দেয়। সেকেন্ডে। 4.3, আমরা আমাদের সরলীকরণগুলি সমান্তরাল সাব-ব্লকগুলির সাথে লাভজনকভাবে একত্রিত করে দেখাই (Wang & Komatsuzaki, 2021), যা আমাদের প্রতি-আপডেট প্রশিক্ষণের গতির সাথে আপোস না করে বাকি সমস্ত স্কিপ সংযোগ এবং অনুক্রমিক সাব-ব্লকগুলিকে সরাতে দেয়, যেখানে থ্রুপুট বৃদ্ধিকে আরও বাড়িয়ে দেয় আমাদের বাস্তবায়নে 16% হতে হবে। অবশেষে, সেকেন্ডে। 5, আমরা দেখাই যে আমাদের সরলীকৃত ব্লকগুলি যখন বৃহত্তর গভীরতায় স্কেল করা হয় তখন উন্নত হয়, শুধুমাত্র এনকোডার এবং শুধুমাত্র ডিকোডার-আর্কিটেকচারে ভালভাবে কাজ করে এবং প্রশিক্ষণের দৈর্ঘ্য স্কেলিং করার সময় আমাদের ফলাফলগুলিও ধরে রাখে। আমরা সেকেন্ডে সীমাবদ্ধতা এবং ভবিষ্যত কাজের আলোচনা দিয়ে শেষ করছি। 6.
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।