paint-brush
শিপিং খরচ পূর্বাভাসের জন্য স্ব-মনোযোগের শক্তি উন্মোচন: পদ্ধতিদ্বারা@convolution
124 পড়া

শিপিং খরচ পূর্বাভাসের জন্য স্ব-মনোযোগের শক্তি উন্মোচন: পদ্ধতি

অতিদীর্ঘ; পড়তে

নতুন এআই মডেল (রেট কার্ড ট্রান্সফরমার) আরও সঠিকভাবে শিপিং খরচের পূর্বাভাস দিতে প্যাকেজের বিবরণ (আকার, ক্যারিয়ার ইত্যাদি) বিশ্লেষণ করে।
featured image - শিপিং খরচ পূর্বাভাসের জন্য স্ব-মনোযোগের শক্তি উন্মোচন: পদ্ধতি
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

লেখক:

(1) পি আদিত্য শ্রীকর, আমাজন এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন {[email protected]};

(2) সাহিল ভার্ম, আমাজন এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন {[email protected];}

(3) বরুণ মাধবন, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি, খড়গপুর। অ্যামাজন {[email protected]} এ ইন্টার্নশিপের সময় কাজ করা হয়েছে;

(4) অভিষেক প্রসাদ, আমাজন {[email protected]}।

লিঙ্কের টেবিল

3. পদ্ধতি

3.1। সমস্যা বিবৃতি

3.2। পটভূমি

ট্রান্সফরমার আর্কিটেকচার (Vaswani et al., 2017) একাধিক এনকোডার ব্লককে স্ট্যাক করে তৈরি করা হয়েছে, যেখানে প্রতিটি ব্লক ইনপুট হিসাবে এমবেডিংয়ের একটি ক্রম নেয় এবং প্রসঙ্গ সচেতন এমবেডিংয়ের একটি ক্রম আউটপুট করে। এনকোডার ব্লকে একটি মাল্টি-হেড সেল্ফ-অ্যাটেনশন (MHSA) লেয়ার থাকে যার পরে একটি পজিশন-ওয়াইজ ফিড-ফরোয়ার্ড লেয়ার থাকে, প্রতিটি লেয়ারের আগে অবশিষ্ট সংযোগ এবং লেয়ার নর্ম। MHSA স্তরে হেড নামে একাধিক স্ব-মনোযোগ ইউনিট রয়েছে, যা ইনপুট এম্বেডিংয়ের মধ্যে মিথস্ক্রিয়া শিখে।




আউটপুট সিকোয়েন্সটি পরবর্তী এনকোডার স্তরগুলির মধ্য দিয়ে পুনরাবৃত্তভাবে পাস করা হয়, যার ফলে প্রতিটি পরের স্তর উচ্চ ক্রম বৈশিষ্ট্য মিথস্ক্রিয়া শিখতে পারে। ট্রান্সফরমারের গভীরতা শেখা উপস্থাপনের জটিলতা নিয়ন্ত্রণ করে, কারণ গভীর স্তর বৈশিষ্ট্যগুলির মধ্যে আরও জটিল মিথস্ক্রিয়া ক্যাপচার করে। আরও, MHSA-তে একাধিক স্ব-মনোযোগ শিরোনাম ব্যবহার করা হয়, প্রতিটি মাথাকে বিভিন্ন বৈশিষ্ট্যের সাব-স্পেসগুলিতে উপস্থিত হতে এবং তাদের মধ্যে মিথস্ক্রিয়া শিখতে সক্ষম করে, সমষ্টিগতভাবে বৈশিষ্ট্য মিথস্ক্রিয়াগুলির একাধিক স্বাধীন সেট শিখতে পারে।

3.3। রেট কার্ড ট্রান্সফরমার

একটি প্যাকেজের রেট কার্ডে একাধিক বৈশিষ্ট্যের ধরন রয়েছে, যথা মাত্রিক, রুট, পরিষেবা, আইটেম এবং চার্জ (চিত্র 1a), যেখানে প্রতিটি বৈশিষ্ট্যের ধরণ একাধিক সংখ্যাসূচক এবং শ্রেণীবদ্ধ বৈশিষ্ট্যগুলি নিয়ে গঠিত। মাত্রিক, রুট এবং পরিষেবা বৈশিষ্ট্যগুলিকে নির্দিষ্ট দৈর্ঘ্য বৈশিষ্ট্যের ধরন হিসাবে উল্লেখ করা হয়, কারণ তাদের প্রত্যেকটিতে নির্দিষ্ট সংখ্যক বৈশিষ্ট্য রয়েছে। একটি মিশ্র এম্বেডিং লেয়ার (MEL) ব্যবহার করে স্থির দৈর্ঘ্যের বৈশিষ্ট্যের ধরন টোকেনগুলির একটি ক্রম এম্বেড করা হয়। উদাহরণস্বরূপ, মাত্রিক বৈশিষ্ট্য d ∈ S[md, nd] দৈর্ঘ্য md + nd এর একটি d-মাত্রিক টোকেন অনুক্রমের সাথে এম্বেড করা হয়েছে। এমইএল-এ একাধিক এম্বেডিং ব্লক রয়েছে, এম্বেড করা বৈশিষ্ট্যের ধরণে প্রতিটি বৈশিষ্ট্যের জন্য একটি। এম্বেডিং লুকআপ টেবিলগুলি শ্রেণীগত বৈশিষ্ট্যগুলি এম্বেড করার জন্য ব্যবহার করা হয়, যখন সংখ্যাসূচক বৈশিষ্ট্যগুলি অবিচ্ছিন্ন এমবেডিং ব্লকগুলি ব্যবহার করে এমবেড করা হয়, যেমনটি চালু করা হয়েছে (Gorishniy et al., 2021)৷



বৈশিষ্ট্য টোকেনগুলির ক্রমটি L ট্রান্সফরমার এনকোডার স্তরগুলির একটি স্ট্যাকে ইনপুট হিসাবে প্রেরণ করা হয় যা বৈশিষ্ট্যগুলির মধ্যে জটিল, উচ্চ ক্রম মিথস্ক্রিয়া শিখতে সক্ষম হয়। পরিশেষে, পুল করা ট্রান্সফরমার আউটপুটকে একটি ফিডফরোয়ার্ড লেয়ারে খাওয়ানো হয় যাতে চিত্র 1b-এ দেখানো শিপিং খরচ Cˆ এর পূর্বাভাস দেওয়া হয়।


আমরা সম্পূর্ণ আর্কিটেকচারকে রেট কার্ড ট্রান্সফরমার (RCT) বলি। পূর্বাভাসিত এবং প্রকৃত শিপিং খরচের মধ্যে L1 ক্ষতি কমানোর জন্য প্রশিক্ষিত (সমীকরণ 3), RCT গতিশীল রেট কার্ডের একটি কার্যকর উপস্থাপনা শিখে যা এটি শিপিং খরচের সঠিকভাবে পূর্বাভাস দিতে দেয়।



এই কাগজটি CC BY-NC-ND 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ