লেখক:
(1) পি আদিত্য শ্রীকর, আমাজন এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন {[email protected]};
(2) সাহিল ভার্ম, আমাজন এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন {[email protected];}
(3) বরুণ মাধবন, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি, খড়গপুর। অ্যামাজন {[email protected]} এ ইন্টার্নশিপের সময় কাজ করা হয়েছে;
(4) অভিষেক প্রসাদ, আমাজন {[email protected]}।
ট্রান্সফরমার আর্কিটেকচার (Vaswani et al., 2017) একাধিক এনকোডার ব্লককে স্ট্যাক করে তৈরি করা হয়েছে, যেখানে প্রতিটি ব্লক ইনপুট হিসাবে এমবেডিংয়ের একটি ক্রম নেয় এবং প্রসঙ্গ সচেতন এমবেডিংয়ের একটি ক্রম আউটপুট করে। এনকোডার ব্লকে একটি মাল্টি-হেড সেল্ফ-অ্যাটেনশন (MHSA) লেয়ার থাকে যার পরে একটি পজিশন-ওয়াইজ ফিড-ফরোয়ার্ড লেয়ার থাকে, প্রতিটি লেয়ারের আগে অবশিষ্ট সংযোগ এবং লেয়ার নর্ম। MHSA স্তরে হেড নামে একাধিক স্ব-মনোযোগ ইউনিট রয়েছে, যা ইনপুট এম্বেডিংয়ের মধ্যে মিথস্ক্রিয়া শিখে।
আউটপুট সিকোয়েন্সটি পরবর্তী এনকোডার স্তরগুলির মধ্য দিয়ে পুনরাবৃত্তভাবে পাস করা হয়, যার ফলে প্রতিটি পরের স্তর উচ্চ ক্রম বৈশিষ্ট্য মিথস্ক্রিয়া শিখতে পারে। ট্রান্সফরমারের গভীরতা শেখা উপস্থাপনের জটিলতা নিয়ন্ত্রণ করে, কারণ গভীর স্তর বৈশিষ্ট্যগুলির মধ্যে আরও জটিল মিথস্ক্রিয়া ক্যাপচার করে। আরও, MHSA-তে একাধিক স্ব-মনোযোগ শিরোনাম ব্যবহার করা হয়, প্রতিটি মাথাকে বিভিন্ন বৈশিষ্ট্যের সাব-স্পেসগুলিতে উপস্থিত হতে এবং তাদের মধ্যে মিথস্ক্রিয়া শিখতে সক্ষম করে, সমষ্টিগতভাবে বৈশিষ্ট্য মিথস্ক্রিয়াগুলির একাধিক স্বাধীন সেট শিখতে পারে।
একটি প্যাকেজের রেট কার্ডে একাধিক বৈশিষ্ট্যের ধরন রয়েছে, যথা মাত্রিক, রুট, পরিষেবা, আইটেম এবং চার্জ (চিত্র 1a), যেখানে প্রতিটি বৈশিষ্ট্যের ধরণ একাধিক সংখ্যাসূচক এবং শ্রেণীবদ্ধ বৈশিষ্ট্যগুলি নিয়ে গঠিত। মাত্রিক, রুট এবং পরিষেবা বৈশিষ্ট্যগুলিকে নির্দিষ্ট দৈর্ঘ্য বৈশিষ্ট্যের ধরন হিসাবে উল্লেখ করা হয়, কারণ তাদের প্রত্যেকটিতে নির্দিষ্ট সংখ্যক বৈশিষ্ট্য রয়েছে। একটি মিশ্র এম্বেডিং লেয়ার (MEL) ব্যবহার করে স্থির দৈর্ঘ্যের বৈশিষ্ট্যের ধরন টোকেনগুলির একটি ক্রম এম্বেড করা হয়। উদাহরণস্বরূপ, মাত্রিক বৈশিষ্ট্য d ∈ S[md, nd] দৈর্ঘ্য md + nd এর একটি d-মাত্রিক টোকেন অনুক্রমের সাথে এম্বেড করা হয়েছে। এমইএল-এ একাধিক এম্বেডিং ব্লক রয়েছে, এম্বেড করা বৈশিষ্ট্যের ধরণে প্রতিটি বৈশিষ্ট্যের জন্য একটি। এম্বেডিং লুকআপ টেবিলগুলি শ্রেণীগত বৈশিষ্ট্যগুলি এম্বেড করার জন্য ব্যবহার করা হয়, যখন সংখ্যাসূচক বৈশিষ্ট্যগুলি অবিচ্ছিন্ন এমবেডিং ব্লকগুলি ব্যবহার করে এমবেড করা হয়, যেমনটি চালু করা হয়েছে (Gorishniy et al., 2021)৷
বৈশিষ্ট্য টোকেনগুলির ক্রমটি L ট্রান্সফরমার এনকোডার স্তরগুলির একটি স্ট্যাকে ইনপুট হিসাবে প্রেরণ করা হয় যা বৈশিষ্ট্যগুলির মধ্যে জটিল, উচ্চ ক্রম মিথস্ক্রিয়া শিখতে সক্ষম হয়। পরিশেষে, পুল করা ট্রান্সফরমার আউটপুটকে একটি ফিডফরোয়ার্ড লেয়ারে খাওয়ানো হয় যাতে চিত্র 1b-এ দেখানো শিপিং খরচ Cˆ এর পূর্বাভাস দেওয়া হয়।
আমরা সম্পূর্ণ আর্কিটেকচারকে রেট কার্ড ট্রান্সফরমার (RCT) বলি। পূর্বাভাসিত এবং প্রকৃত শিপিং খরচের মধ্যে L1 ক্ষতি কমানোর জন্য প্রশিক্ষিত (সমীকরণ 3), RCT গতিশীল রেট কার্ডের একটি কার্যকর উপস্থাপনা শিখে যা এটি শিপিং খরচের সঠিকভাবে পূর্বাভাস দিতে দেয়।
এই কাগজটি CC BY-NC-ND 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।