paint-brush
দক্ষতার ত্যাগ ছাড়াই ট্রান্সফরমার ব্লককে সরলীকরণ করা দ্বারা@autoencoder
463 পড়া
463 পড়া

দক্ষতার ত্যাগ ছাড়াই ট্রান্সফরমার ব্লককে সরলীকরণ করা

দ্বারা Auto Encoder: How to Ignore the Signal Noise4m2024/06/18
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

এই অধ্যয়নটি অ-প্রয়োজনীয় উপাদানগুলি সরিয়ে ট্রান্সফরমার ব্লকগুলিকে সরল করে, যার ফলে কর্মক্ষমতা বজায় রাখার সময় 15% দ্রুত প্রশিক্ষণ থ্রুপুট এবং 15% কম পরামিতি পাওয়া যায়।
featured image - দক্ষতার ত্যাগ ছাড়াই ট্রান্সফরমার ব্লককে সরলীকরণ করা
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
0-item

লেখক:

(1) ববি হে, কম্পিউটার সায়েন্স বিভাগ, ইটিএইচ জুরিখ (এর সাথে চিঠিপত্র: [email protected].);

(2) টমাস হফম্যান, কম্পিউটার সায়েন্স বিভাগ, ইটিএইচ জুরিখ।

লিঙ্কের টেবিল

বিমূর্ত এবং ভূমিকা

সম্পর্কিত কাজ

প্রাথমিক

ট্রান্সফরমার ব্লক সরলীকরণ

আরও পরীক্ষামূলক বিশ্লেষণ

আলোচনা, প্রজননযোগ্যতা বিবৃতি, স্বীকৃতি এবং রেফারেন্স

রৈখিক স্তরে কম ওজনযুক্ত অবশিষ্টাংশ এবং সীমাবদ্ধ আপডেটগুলির মধ্যে একটি দ্বৈততা

B ব্লক লেআউট

C অতিরিক্ত পরীক্ষা-নিরীক্ষা

D বাস্তবায়নের বিবরণ

বিমূর্ত

ডিপ ট্রান্সফরমারগুলির জন্য একটি সাধারণ ডিজাইনের রেসিপি হল অভিন্ন বিল্ডিং ব্লকগুলি রচনা করা। কিন্তু স্ট্যান্ডার্ড ট্রান্সফরমার ব্লকগুলি সরল, ইন্টারওয়েভিং অ্যাটেনশন এবং এমএলপি সাব-ব্লকগুলি থেকে দূরে নয় যাতে সংযোগগুলি এড়িয়ে যায় এবং সুনির্দিষ্ট বিন্যাসে স্বাভাবিককরণ স্তর থাকে। এই জটিলতা ভঙ্গুর আর্কিটেকচারের দিকে নিয়ে যায়, যেখানে আপাতদৃষ্টিতে ছোটখাটো পরিবর্তনগুলি উল্লেখযোগ্যভাবে প্রশিক্ষণের গতি হ্রাস করতে পারে, বা মডেলগুলিকে প্রশিক্ষণের অযোগ্য করে তুলতে পারে। এই কাজে, আমরা জিজ্ঞাসা করি কতটা স্ট্যান্ডার্ড ট্রান্সফরমার ব্লককে সরলীকরণ করা যায়? সংকেত প্রচার তত্ত্ব এবং অভিজ্ঞতামূলক পর্যবেক্ষণের সংমিশ্রণে, আমরা এমন পরিবর্তনগুলিকে অনুপ্রাণিত করি যা প্রশিক্ষণের গতির কোন ক্ষতি ছাড়াই অনেক ব্লকের উপাদানগুলিকে সরিয়ে ফেলার অনুমতি দেয়, সংযোগগুলি এড়িয়ে যাওয়া, অভিক্ষেপ বা মান পরামিতি, অনুক্রমিক সাব-ব্লক এবং স্বাভাবিককরণ স্তরগুলি সহ। অটোরিগ্রেসিভ ডিকোডার-অনলি এবং BERT এনকোডার-শুধু উভয় মডেলের পরীক্ষায়, আমাদের সরলীকৃত ট্রান্সফরমারগুলি 15% দ্রুত প্রশিক্ষণ থ্রুপুট উপভোগ করার সময়, এবং 15% কম পরামিতি ব্যবহার করে প্রতি-আপডেট প্রশিক্ষণের গতি এবং স্ট্যান্ডার্ড ট্রান্সফরমারগুলির কার্যকারিতা অনুকরণ করে।

1। পরিচিতি

ট্রান্সফরমার আর্কিটেকচার (Vaswani et al., 2017) গভীর শিক্ষায় সাম্প্রতিক অনেক সাফল্যের পেছনে যুক্তিযুক্তভাবে কাজ করে। একটি গভীর ট্রান্সফরমার আর্কিটেকচার তৈরি করার একটি সহজ উপায় হল একাধিক অভিন্ন ট্রান্সফরমার "ব্লক" ক্রমানুসারে একের পর এক স্ট্যাক করা। প্রতিটি ব্লক, তবে, আরও জটিল এবং অনেকগুলি বিভিন্ন উপাদান নিয়ে গঠিত, যা ভাল কার্যক্ষমতা অর্জনের জন্য নির্দিষ্ট ব্যবস্থায় একত্রিত করা প্রয়োজন। আশ্চর্যজনকভাবে, বেস ট্রান্সফরমার ব্লকটি তার সূচনা থেকে খুব কম পরিবর্তিত হয়েছে, যদিও অনেক গবেষকের আগ্রহ আকর্ষণ করেছে।


এই কাজে, আমরা স্ট্যান্ডার্ড ট্রান্সফরমার ব্লককে সরলীকরণ করা যায় কিনা তা অধ্যয়ন করি। আরও নির্দিষ্টভাবে, আমরা সংযোগ বাদ, অভিক্ষেপ/মান ম্যাট্রিক্স, অনুক্রমিক সাব-ব্লক এবং স্বাভাবিককরণ স্তর সহ বেশ কয়েকটি ব্লক উপাদানের প্রয়োজনীয়তা অনুসন্ধান করি। প্রতিটি বিবেচিত উপাদানের জন্য, আমরা জিজ্ঞাসা করি যে এটি প্রশিক্ষণের গতি (প্রতি-আপডেট পদক্ষেপ এবং রানটাইম উভয় ক্ষেত্রেই) ক্ষতি ছাড়াই সরানো যেতে পারে এবং এটি করার জন্য ট্রান্সফরমার ব্লকে কী কী স্থাপত্য পরিবর্তন করতে হবে।


আমরা বিশ্বাস করি যে প্রশিক্ষণের গতির সাথে আপস না করে ট্রান্সফরমার ব্লকগুলি সরল করার সমস্যাটি বিভিন্ন কারণে একটি আকর্ষণীয় গবেষণা প্রশ্ন। প্রথমত, আধুনিক নিউরাল নেটওয়ার্ক (NN) আর্কিটেকচারে অনেকগুলি উপাদানের সাথে জটিল নকশা রয়েছে এবং NN প্রশিক্ষণের গতিবিদ্যায় এই বিভিন্ন উপাদানগুলির দ্বারা কী ভূমিকা পালন করা হয় বা তারা কীভাবে একে অপরের সাথে যোগাযোগ করে তা স্পষ্ট নয়। গভীর শিক্ষায় তত্ত্ব এবং অনুশীলনের মধ্যে বিদ্যমান ব্যবধানের কারণে এটি বিশেষভাবে প্রাসঙ্গিক, যেখানে গভীর শিক্ষার প্রক্রিয়া বোঝার জন্য কাজ করা তাত্ত্বিকরা প্রায়শই সুবিধার কারণে সরলীকৃত স্থাপত্যকে বিবেচনা করেন, অগত্যা অনুশীলনে ব্যবহৃত আধুনিক স্থাপত্যের প্রতিফলন নয়। অনুশীলনে ব্যবহৃত NN আর্কিটেকচারগুলিকে সরলীকরণ করা এই বিভাজনের সেতুতে সাহায্য করতে পারে


একটি সম্পর্কিত তাত্ত্বিক নোটে, আমাদের কাজ উভয় শক্তি এবং সংকেত প্রচারের বর্তমান সীমাবদ্ধতাগুলিকে হাইলাইট করে: একটি তত্ত্ব যা গভীর NN স্থাপত্যগুলিতে ব্যবহারিক নকশা পছন্দগুলিকে অনুপ্রাণিত করার ক্ষমতার কারণে প্রভাবশালী প্রমাণিত হয়েছে৷ সংকেত প্রচার (Poole et al., 2016; Schoenholz et al., 2017; Hayou et al., 2019) একটি NN-তে জ্যামিতিক তথ্যের বিবর্তন অধ্যয়ন করে, ইনপুট জুড়ে স্তরভিত্তিক উপস্থাপনাগুলির অভ্যন্তরীণ পণ্যগুলির মাধ্যমে ক্যাপচার করা হয় এবং অনেককে অনুপ্রাণিত করেছে গভীর এনএন প্রশিক্ষণে চিত্তাকর্ষক ফলাফল (Xiao et al., 2018; Brock et al., 2021; Martens et al., 2021; Zaidi et al., 2023)। যাইহোক, বর্তমান তত্ত্বটি শুধুমাত্র প্রাথমিককরণের সময় একটি মডেলকে বিবেচনা করে এবং প্রায়শই শুধুমাত্র প্রাথমিক ফরওয়ার্ড পাসকে বিবেচনা করে। যেমন, বর্তমানে সংকেত প্রচার গভীর এনএন প্রশিক্ষণ গতিবিদ্যার অনেক জটিলতার উপর আলোকপাত করতে অক্ষম, উদাহরণস্বরূপ প্রশিক্ষণের গতির জন্য সংযোগগুলি এড়িয়ে যাওয়ার সুবিধাগুলি। যদিও সংকেত প্রচার আমাদের পরিবর্তনগুলিকে অনুপ্রাণিত করার জন্য অত্যন্ত গুরুত্বপূর্ণ, আমরা একা তত্ত্ব থেকে আমাদের সরলীকৃত ট্রান্সফরমার ব্লকগুলিতে পৌঁছাতে পারতাম না, এবং অভিজ্ঞতামূলক অন্তর্দৃষ্টির উপরও নির্ভর করতাম।



পরিশেষে, ব্যবহারিক দিক থেকে, আজকাল প্রশিক্ষণের অত্যধিক খরচ এবং বড় ট্রান্সফরমার মডেল স্থাপনের প্রেক্ষিতে, ট্রান্সফরমার আর্কিটেকচারের জন্য প্রশিক্ষণ এবং অনুমান পাইপলাইনে যেকোন দক্ষতা অর্জন উল্লেখযোগ্য সম্ভাব্য সঞ্চয়ের প্রতিনিধিত্ব করে। অপ্রয়োজনীয় উপাদানগুলি সরিয়ে ট্রান্সফরমার ব্লককে সরল করা উভয়ই প্যারামিটারের সংখ্যা হ্রাস করে এবং আমাদের মডেলগুলিতে থ্রুপুট বাড়ায়। বিশেষ করে, আমরা দেখাই যে ট্রেনিং স্পিড এবং ডাউনস্ট্রিম টাস্ক পারফরম্যান্সের পরিপ্রেক্ষিতে স্ট্যান্ডার্ড ট্রান্সফরমারের সাথে মিল রেখে সংযোগ, মান প্যারামিটার, প্রজেকশন প্যারামিটার এবং অনুক্রমিক সাব-ব্লকগুলি সরিয়ে ফেলা সম্ভব। ফলস্বরূপ, আমরা পরামিতি গণনা 16% পর্যন্ত হ্রাস করি এবং ট্রেন এবং অনুমান উভয় সময়ে 16% এর থ্রুপুট বৃদ্ধি লক্ষ্য করি।


ট্রান্সফরমার ব্লক সরলীকরণের জন্য আমাদের শুরুর পয়েন্ট হল He et al. (2023), যারা দেখায় যে সিগন্যাল প্রচারের নীতিগুলিকে সম্মান করা একজনকে সংযোগগুলি এড়িয়ে যাওয়া বা স্বাভাবিককরণ স্তর ছাড়াই গভীর ট্রান্সফর্মারগুলিকে প্রশিক্ষণের অনুমতি দেয়, তবে প্রতি প্যারামিটার আপডেটে উল্লেখযোগ্যভাবে কম কনভারজেন্স গতিতে। আমরা প্রথমে দেখাই যে মান এবং অভিক্ষেপের পরামিতিগুলির আপডেটগুলিকে নিয়ন্ত্রণ করা (সেক. 4.1), বা প্রকৃতপক্ষে সেগুলিকে সম্পূর্ণরূপে সরিয়ে দেওয়া (সেক. 4.2), স্কিপলেস মনোযোগ সাব-ব্লকগুলির কার্যকারিতা উন্নত করে এবং রিপোর্ট করা প্রতি-আপডেট প্রশিক্ষণের গতি হারানো পুনরুদ্ধার করে তিনি এবং অন্যান্য দ্বারা. (2023)। এটি মনোযোগ সাব-ব্লকের অর্ধেক পরামিতি এবং ম্যাট্রিক্স-গুণকে সরিয়ে দেয়। সেকেন্ডে। 4.3, আমরা আমাদের সরলীকরণগুলি সমান্তরাল সাব-ব্লকগুলির সাথে লাভজনকভাবে একত্রিত করে দেখাই (Wang & Komatsuzaki, 2021), যা আমাদের প্রতি-আপডেট প্রশিক্ষণের গতির সাথে আপোস না করে বাকি সমস্ত স্কিপ সংযোগ এবং অনুক্রমিক সাব-ব্লকগুলিকে সরাতে দেয়, যেখানে থ্রুপুট বৃদ্ধিকে আরও বাড়িয়ে দেয় আমাদের বাস্তবায়নে 16% হতে হবে। অবশেষে, সেকেন্ডে। 5, আমরা দেখাই যে আমাদের সরলীকৃত ব্লকগুলি যখন বৃহত্তর গভীরতায় স্কেল করা হয় তখন উন্নত হয়, শুধুমাত্র এনকোডার এবং শুধুমাত্র ডিকোডার-আর্কিটেকচারে ভালভাবে কাজ করে এবং প্রশিক্ষণের দৈর্ঘ্য স্কেলিং করার সময় আমাদের ফলাফলগুলিও ধরে রাখে। আমরা সেকেন্ডে সীমাবদ্ধতা এবং ভবিষ্যত কাজের আলোচনা দিয়ে শেষ করছি। 6.


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ