2017 সালে, গবেষকদের একটি দল (গুগল এবং টরন্টো বিশ্ববিদ্যালয় থেকে) প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) কাজগুলি পরিচালনা করার জন্য একটি নতুন উপায় চালু করেছে। তাদের বিপ্লবী কাগজ " " ট্রান্সফরমার মডেল উপস্থাপন করেছে, একটি আর্কিটেকচার যা আজ অনেক উন্নত এআই সিস্টেমের ভিত্তি হয়ে উঠেছে। মডেলের কর্মক্ষমতা, স্কেলেবিলিটি এবং বহুমুখিতা এর ব্যাপক গ্রহণের দিকে পরিচালিত করেছে, যা BERT (বাইডাইরেশনাল এনকোডার রিপ্রেজেন্টেশন) এবং GPT (জেনারেটিভ প্রি-ট্রেইনড ট্রান্সফরমার) এর মতো অত্যাধুনিক মডেলগুলির মেরুদণ্ড তৈরি করেছে। অনটেনশন ইজ অল ইউ নিড ট্রান্সফরমার মডেলের আগে, বেশিরভাগ AI মডেল যেগুলি ভাষা প্রক্রিয়াকরণ করে সেগুলি রিকারেন্ট নিউরাল নেটওয়ার্ক (RNN) বা এর উন্নত সংস্করণ, লং শর্ট-টার্ম মেমরি নেটওয়ার্ক (LSTM) নামে এক ধরণের নিউরাল নেটওয়ার্কের উপর খুব বেশি নির্ভর করত। বিশেষ করে, ভাষা মডেলিং এবং মেশিন অনুবাদের মতো সমস্যা (যাকে সিকোয়েন্স ট্রান্সডাকশনও বলা হয়)। এই মডেলগুলি বাম থেকে ডানে (বা তদ্বিপরীত) একটি ক্রমানুসারে শব্দগুলিকে প্রক্রিয়াজাত করে৷ যদিও এই পদ্ধতিটি বোধগম্য হয়েছিল কারণ একটি বাক্যে শব্দগুলি প্রায়শই পূর্ববর্তী শব্দগুলির উপর নির্ভর করে, এর কিছু উল্লেখযোগ্য ত্রুটি ছিল: ট্রেনে ধীরগতি: যেহেতু RNN এবং LSTM এক সময়ে একটি শব্দ প্রক্রিয়া করে, তাই বড় ডেটাসেটে এই মডেলগুলির প্রশিক্ষণ সময়সাপেক্ষ ছিল৷ দীর্ঘ বাক্যে অসুবিধা: এই মডেলগুলি প্রায়শই একটি বাক্যে অনেক দূরে থাকা শব্দগুলির মধ্যে সম্পর্ক বোঝার জন্য লড়াই করে। সীমিত সমান্তরালকরণ: যেহেতু শব্দগুলি ক্রমানুসারে প্রক্রিয়া করা হয়েছিল, তাই আধুনিক কম্পিউটিং হার্ডওয়্যারের সুবিধা নেওয়া কঠিন ছিল যা একসাথে অনেকগুলি ক্রিয়াকলাপ (সমান্তরালকরণ) করে। মূল ধারণা: আর্কিটেকচারের প্রতি মনোযোগ ট্রান্সফরমার মডেলের পিছনে মূল ধারণাটি "মনোযোগ" নামে পরিচিত। সহজ শর্তে, মনোযোগ একটি শব্দের অর্থ/প্রসঙ্গ বোঝার চেষ্টা করার সময় একটি বাক্যের নির্দিষ্ট অংশগুলিতে ফোকাস করতে মডেলটিকে সাহায্য করে। বাক্যটি বিবেচনা করুন, "গ্যারেজে পার্ক করা গাড়িটি নীল।" আপনি যখন নীল শব্দটি সম্পর্কে চিন্তা করেন, তখন আপনি স্বাভাবিকভাবেই বাক্যটির আগে "কার" শব্দটিতে ফোকাস করেন কারণ এটি আপনাকে নীল কী বলে। মেশিন অনুবাদ মডেলগুলি "নীল" গাড়ি বা গ্যারেজকে নির্দেশ করছে কিনা তা সনাক্ত করতে সমস্যা হবে। স্ব-মনোযোগ এটিই করে - এটি মডেলটিকে প্রাসঙ্গিক শব্দগুলিতে ফোকাস করতে সহায়তা করে, সেগুলি বাক্যে যেখানেই থাকুক না কেন। লক্ষ্য করুন যে মনোযোগ একটি নতুন ধারণা ছিল না এবং ইতিমধ্যেই RNN-এর সাথে তাল মিলিয়ে ব্যবহার করা হচ্ছে। ট্রান্সফরমার ছিল প্রথম ট্রান্সডাকশন মডেল যা শুধুমাত্র মনোযোগের উপর নির্ভর করে, যার ফলে নিউরাল নেটওয়ার্কের প্রয়োজনীয়তা দূর হয়। এটি নিম্নলিখিত সুবিধা দিয়েছে: সমান্তরাল প্রক্রিয়াকরণ: RNN-এর বিপরীতে, যা একের পর এক শব্দ প্রক্রিয়াকরণ করে, ট্রান্সফরমার একই সময়ে একটি বাক্যে সমস্ত শব্দ প্রক্রিয়া করতে পারে। এটি প্রশিক্ষণকে আরও দ্রুত করে তোলে। প্রসঙ্গ সম্পর্কে আরও ভাল বোঝা: স্ব-মনোযোগ ব্যবস্থার কারণে, ট্রান্সফরমার শব্দগুলির মধ্যে সম্পর্কগুলিকে ক্যাপচার করতে পারে সেগুলি একটি বাক্যে যতই দূরে থাকুক না কেন। জটিল বাক্য বোঝার জন্য এটি অত্যন্ত গুরুত্বপূর্ণ। স্কেলেবিলিটি: মডেলটিকে আরও লেয়ার যোগ করে সহজে স্কেল করা যেতে পারে, এটিকে খুব বড় ডেটাসেট এবং জটিল কাজগুলি পরিচালনা করার অনুমতি দেয়। আপনি দেখতে পাচ্ছেন, নতুন মডেলটি শুধুমাত্র নিউরাল নেটওয়ার্কের সমস্ত অসুবিধা দূর করেনি কিন্তু প্রকৃতপক্ষে মেশিন অনুবাদের কার্যকারিতাও উন্নত করেছে! যেহেতু মূল কাগজটি বোঝা একটু কঠিন হতে পারে, এখানে কাগজে বর্ণিত মডেল আর্কিটেকচারের একটি সহজ ব্যাখ্যা দেওয়া হল। : ট্রান্সফরমারে একটি এনকোডার স্ট্যাক (বাম দিকে) এবং একটি ডিকোডার স্ট্যাক (ডানদিকে) থাকে। এনকোডার স্ট্যাক ইনপুট সিকোয়েন্সকে (বাক্যের মতো) একটি ধারাবাহিক উপস্থাপনাগুলির একটি সেটে রূপান্তরিত করে, যখন ডিকোডার স্ট্যাক এই উপস্থাপনাগুলিকে একটি আউটপুট অনুক্রমে (অনুবাদের মতো) রূপান্তরিত করে। প্রতিটি স্ট্যাকের জন্য, নীচে থেকে উপরে যাওয়া, এখানে মডেলের মূল উপাদানগুলি একটি উদাহরণ সহ ব্যাখ্যা করা হয়েছে৷ এনকোডার এবং ডিকোডার স্ট্যাক এনকোডারে ইনপুট বাক্য প্রক্রিয়াকরণ : আপনি যে পাঠ্যটি অনুবাদ করতে চান। যেমন "গ্যারেজে যে গাড়িটি পার্ক করা হয়েছিল সেটি নীল।" ইনপুট : শব্দকে স্থির-দৈর্ঘ্যের সংখ্যাসূচক উপস্থাপনায় (ভেক্টর) রূপান্তর করে যা এম্বেডিং বলে। এই এমবেডিংগুলি এমনভাবে শব্দের শব্দার্থিক অর্থ ক্যাপচার করে যাতে মডেলটি বুঝতে পারে। আমাদের উদাহরণ থেকে: ইনপুট এমবেডিং "দ্য" -> [0.9, -0.4, 0.2, ...] "কার" -> [0.5, 0.1, -0.7, ...] "যে" -> [-০.৮, ০.২, ০.৮, ...] এবং একইভাবে উপরের বাক্যে প্রতিটি শব্দের জন্য। : যেহেতু মডেলটি ইনপুট এম্বেডিং প্রক্রিয়া করে, যার কোনো ক্রম নেই, তাই একটি বাক্যে শব্দের ক্রম বোঝার একটি উপায় প্রয়োজন। অবস্থানগত এনকোডিং ক্রমানুসারে প্রতিটি শব্দের অবস্থান সম্পর্কে এই তথ্যটি এর এমবেডিংয়ে যুক্ত করে। পজিশনাল এনকোডিং পজিশন 1-এর "The" [0.9 + P1, -0.4 + P1, 0.2 + P1, ...]-এর সাথে সামঞ্জস্য করা যেতে পারে, যেখানে P1 প্রথম অবস্থানের জন্য অবস্থানগত এনকোডিং উপস্থাপন করে, এইভাবে একটি নতুন এমবেডিং তৈরি করে যা P1 অবস্থানের জন্য অনন্য। . : পূর্বে বর্ণিত হিসাবে, এটি মডেলটিকে প্রেক্ষাপটের উপর নির্ভর করে একটি বাক্যে বিভিন্ন শব্দের উপর ফোকাস করতে দেয়। প্রতিটি শব্দের জন্য, স্ব-মনোযোগ ব্যবস্থা একটি স্কোর গণনা করে যা বর্তমান শব্দটি এনকোড করার সময় অন্যান্য শব্দগুলিতে কতটা ফোকাস দেওয়া উচিত তা প্রতিনিধিত্ব করে। স্ব-মনোযোগ প্রক্রিয়া "গাড়ি" শব্দের জন্য স্ব-মনোযোগ নির্ধারণ করতে পারে যে "পার্ক করা", "গ্যারেজ", এবং "নীল" এর প্রসঙ্গ বোঝার ক্ষেত্রে বিশেষভাবে প্রাসঙ্গিক। : ট্রান্সফরমার মডেলের অভিনব অংশ। মাল্টি-হেড অ্যাটেনশন হল কেবলমাত্র একাধিক স্ব-মনোযোগ স্তর/অপারেশনগুলি সমান্তরালভাবে এবং রৈখিকভাবে সংযুক্ত। মাল্টি-হেড মনোযোগ উদাহরণস্বরূপ, একটি মাথা মূল বিষয় ("গাড়ি") এবং এর বৈশিষ্ট্য ("নীল") এর উপর ফোকাস করতে পারে, যখন অন্য মাথা আপেক্ষিক ধারায় ফোকাস করতে পারে ("যা গ্যারেজে পার্ক করা ছিল")। মাল্টি হেড অ্যাটেনশন মডিউল মডেলটিকে বোঝার ক্ষমতা দেয় যে গ্যারেজের তুলনায় গাড়ির সাথে "নীল" বেশি প্রাসঙ্গিক। : স্ব-মনোযোগ স্তরের পরে, আউটপুট একটি ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্কের মাধ্যমে পাস করা হয় যা প্রতিটি অবস্থানে আলাদাভাবে এবং অভিন্নভাবে প্রয়োগ করা হয় (আবারও, সমান্তরালভাবে চালানো যেতে পারে!)। এর মধ্যে একটি ReLU অ্যাক্টিভেশন সহ দুটি রৈখিক রূপান্তর রয়েছে। ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্ক : অবশিষ্ট সংযোগ (যোগ) একটি স্তরের ইনপুট এর আউটপুটে যোগ করার জন্য ব্যবহার করা হয়, যা তারপর স্বাভাবিক করা হয় (আদর্শ)। এটি গ্রেডিয়েন্টগুলিকে অদৃশ্য হওয়া বা বিস্ফোরিত হওয়া থেকে রোধ করে গভীর নেটওয়ার্কগুলিকে প্রশিক্ষণ দিতে সহায়তা করে। যোগ এবং আদর্শ ডিকোডারে অনুবাদ তৈরি করা হচ্ছে NLP-তে, বিশেষ অক্ষর <SOS> দিয়ে স্টার্ট-অফ-সিকোয়েন্স টোকেনের শুরু এবং <EOS> দিয়ে সিকোয়েন্সের শেষ নির্দেশ করা সাধারণ। ডিকোডারটি এনকোডার থেকে প্রক্রিয়াকৃত ইনপুট নেয় এবং ফরাসি অনুবাদ তৈরি করে "La voiture qui était garée dans le garage est bleue।" এই অংশটি কীভাবে কাজ করে তা এখানে: : ডিকোডারটি এনকোডার থেকে ইংরেজি বাক্যের এনকোডেড উপস্থাপনা দিয়ে শুরু হয়। আপনি যদি লক্ষ্য করেন, ডিকোডার ইনপুট হিসাবে তার নিজস্ব আউটপুট নেয়। যেহেতু এটিতে প্রাথমিক শব্দের জন্য একটি ইনপুট থাকবে না, তাই আমরা শুরুতে <SOS> টোকেন সন্নিবেশ করি (অতএব ডানদিকে সরানো হয়েছে) এবং শেষ শব্দটি সরিয়ে ফেলি। এই স্থানান্তরিত ক্রম যা ডিকোডারে খাওয়ানো হয়। ডিকোডারে ইনপুট : ডিকোডারে, একটি মুখোশযুক্ত স্ব-মনোযোগ প্রক্রিয়া নিশ্চিত করে যে আউটপুট ক্রম-এর প্রতিটি শব্দ শুধুমাত্র তার আগে থাকা শব্দগুলিতে উপস্থিত হতে পারে। এটি মডেলটিকে সামনের দিকে তাকাতে বাধা দেয় এবং এটি নিশ্চিত করে যে এটি বাম থেকে ডানে এক সময়ে অনুবাদ একটি শব্দ তৈরি করে৷ মুখোশযুক্ত স্ব-মনোযোগ উদাহরণস্বরূপ, যখন ডিকোডারটি "লা" (ফরাসি ভাষায় প্রথম শব্দ) শব্দটি তৈরি করতে চলেছে, তখন এটি শুধুমাত্র <SOS> থেকে প্রসঙ্গ জানে এবং "Voiture" এর মতো ভবিষ্যতের শব্দগুলি নয়। : ডিকোডার এই তথ্যটিকে আরও প্রক্রিয়া করার জন্য অন্য একটি ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্ক প্রয়োগ করে, ধাপে ধাপে অনুবাদ পরিমার্জন করে। ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্ক ডিকোডারে, মুখোশযুক্ত স্ব-মনোযোগ, এনকোডার-ডিকোডার মনোযোগ এবং ফিড-ফরোয়ার্ড নেটওয়ার্কগুলির একাধিক স্তরের মাধ্যমে ইনপুট বাক্য প্রক্রিয়াকরণের পরে, আমরা লক্ষ্য বাক্যের প্রতিটি অবস্থানের জন্য ক্রমাগত উপস্থাপনা (ফ্লোটগুলির ভেক্টর) একটি ক্রম পাই (ফরাসি আমাদের ক্ষেত্রে)। এই উপস্থাপনাগুলোকে বাস্তব শব্দে রূপান্তরিত করা দরকার। এখানেই চূড়ান্ত রৈখিক এবং সফটম্যাক্স স্তরটি কার্যকর হয়। : এই স্তরটি সম্পূর্ণরূপে সংযুক্ত নিউরাল নেটওয়ার্ক স্তর যা শেষ ডিকোডার স্তরের আউটপুটকে (প্রতিটি অবস্থানের জন্য একটি ঘন ভেক্টর উপস্থাপনা) লক্ষ্য শব্দভান্ডারের আকারের ভেক্টরে রূপান্তরিত করে (উদাহরণস্বরূপ, ফরাসি ভাষায় সমস্ত সম্ভাব্য শব্দ) ) রৈখিক স্তর : রৈখিক রূপান্তরের পরে, এই লগিটগুলিকে (কাঁচা স্কোর) সম্ভাব্যতায় রূপান্তর করতে একটি সফটম্যাক্স ফাংশন প্রয়োগ করা হয়। এই সম্ভাবনাগুলি লক্ষ্য শব্দভান্ডারের প্রতিটি শব্দ অনুবাদের সঠিক পরবর্তী শব্দ হওয়ার সম্ভাবনা নির্দেশ করে। এটি আমাদের অনুমান করতে সক্ষম করে যে ফরাসি শব্দভাণ্ডার থেকে কোন শব্দটি নির্বাচন করা উচিত (সর্বোচ্চ সম্ভাবনার ঘর)। সফ্টম্যাক্স লেয়ার ডিকোডার মূলত এটি করে: প্রথম ধাপ: ডিকোডারটি <SOS> দিয়ে শুরু হয় এবং প্রথম শব্দ "La" তৈরি করে। দ্বিতীয় ধাপ: ইনপুট <SOS> La দিয়ে, মডেলটি পরবর্তী শব্দের ভবিষ্যদ্বাণী করে, "Voiture।" তৃতীয় ধাপ: ডিকোডার <SOS> La Voiture নেয় এবং "প্রস্থান" শব্দটি তৈরি করে। ক্রমাগত প্রক্রিয়া: এই প্রক্রিয়াটি চলতে থাকে, "এটাইট," "গ্যারি," "ড্যান্স," "লে," "গ্যারেজ," "এস্ট" এবং অবশেষে "ব্লু" তৈরি করে। এন্ড-অফ-সিকোয়েন্স টোকেন: অনুবাদ সম্পূর্ণ হয়েছে তা বোঝাতে ডিকোডার অবশেষে একটি শেষ-অফ-সিকোয়েন্স টোকেন <EOS> তৈরি করে। এই ধাপগুলিকে একত্রিত করে, ট্রান্সফরমার পূর্ববর্তী মডেলগুলির তুলনায় সম্পূর্ণ বাক্যের গঠন এবং অর্থ আরও কার্যকরভাবে বুঝতে পারে। স্ব-মনোযোগ ব্যবস্থা এবং সমান্তরাল প্রক্রিয়াকরণ ট্রান্সফরমারকে উত্স এবং লক্ষ্য ভাষা উভয়ের সূক্ষ্মতা এবং কাঠামোকে কার্যকরভাবে ক্যাপচার করতে সক্ষম করে, এটি মেশিন অনুবাদের মতো কাজে অত্যন্ত দক্ষ করে তোলে।