paint-brush
শিপিং খরচ পূর্বাভাস জন্য স্ব-মনোযোগের শক্তি উন্মোচন: পরীক্ষাদ্বারা@convolution
118 পড়া

শিপিং খরচ পূর্বাভাস জন্য স্ব-মনোযোগের শক্তি উন্মোচন: পরীক্ষা

অতিদীর্ঘ; পড়তে

নতুন এআই মডেল (রেট কার্ড ট্রান্সফরমার) আরও সঠিকভাবে শিপিং খরচের পূর্বাভাস দিতে প্যাকেজের বিবরণ (আকার, ক্যারিয়ার ইত্যাদি) বিশ্লেষণ করে।
featured image - শিপিং খরচ পূর্বাভাস জন্য স্ব-মনোযোগের শক্তি উন্মোচন: পরীক্ষা
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

লেখক:

(1) পি আদিত্য শ্রীকর, আমাজন এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন {[email protected]};

(2) সাহিল ভার্ম, আমাজন এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন {[email protected];}

(3) বরুণ মাধবন, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি, খড়গপুর। অ্যামাজন {[email protected]} এ ইন্টার্নশিপের সময় কাজ করা হয়েছে;

(4) অভিষেক প্রসাদ, আমাজন {[email protected]}।

লিঙ্কের টেবিল

4. পরীক্ষা

এই বিভাগে, RCT-এর কার্যকারিতা 2022 সালে পাঠানো প্যাকেজগুলির ডেটাসেটে প্রদর্শিত হয়। পূর্বাভাসিত এবং প্রকৃত শিপিং খরচের মধ্যে গড় পরম ত্রুটি (MAE) পারফরম্যান্স মেট্রিক হিসাবে নির্বাচিত হয়, কারণ এটি সম্পূর্ণ ত্রুটির প্রতিনিধিত্ব করে আর্থিক শর্তাবলী এই কাগজে, MAE মানগুলি দিনের 0 হিউরিস্টিক অনুমানের MAE দ্বারা স্বাভাবিক করা হয়, যা MAE শতাংশ (MAE%) হিসাবে প্রকাশ করা হয়। এই মেট্রিক হিউরিস্টিক বেসলাইনের বিরুদ্ধে অর্জিত উন্নতির উপর জোর দেয়।


4.1। পরীক্ষামূলক সেটআপ

4.1.1। আর্কিটেকচার এবং হাইপারমিটার


এমবেডিং ডাইমেনশন 128 এ সেট করা হয়েছে এবং 6টি ট্রান্সফরমার এনকোডার লেয়ার ব্যবহার করা হয়েছে, প্রতিটিতে 16টি স্ব-মনোযোগ হেড রয়েছে। অ্যাডাম অপটিমাইজার (কিংমা এবং বা, 2014) 0.0001 এর শুরুর শেখার হার এবং 2048 এর ব্যাচ আকারের সাথে ব্যবহার করা হয়েছিল। কনভারজেন্স উন্নত করার জন্য, প্রতিবার বৈধতা মেট্রিক মালভূমিতে শেখার হার 0.7 এর একটি ফ্যাক্টর দ্বারা হ্রাস করা হয়েছিল। মডেল কোডটি PyTorch (Prokhorenkova et al., 2018) এবং PyTorch Lightning (Falcon and The PyTorch Lightning team, 2019) ফ্রেমওয়ার্ক ব্যবহার করে প্রয়োগ করা হয়েছিল।


4.1.2। ডেটা প্রস্তুতি


10M প্যাকেজগুলির একটি প্রশিক্ষণ ডেটাসেট 2022 সালে 45-দিনের সময়কালে পাঠানো প্যাকেজগুলি থেকে নমুনা করা হয়েছিল৷ ডেটাটি লেবেল এনকোডিং শ্রেণীগত বৈশিষ্ট্য এবং সংখ্যাসূচক বৈশিষ্ট্যগুলির মানককরণের মাধ্যমে প্রিপ্রসেস করা হয়েছিল৷ পরীক্ষার ডেটাসেটে সমস্ত প্যাকেজ রয়েছে (নমুনা ছাড়াই) যেগুলি 2022 থেকে একটি পৃথক, অ-ওভারল্যাপিং সপ্তাহে পাঠানো হয়েছিল।


4.1.3। বেঞ্চমার্ক পদ্ধতি


আমরা জটিলতার ক্রমবর্ধমান স্তরের সাথে বিভিন্ন মডেলের সাথে RCT-এর কর্মক্ষমতা তুলনা করি: GBDT, AWS AutoGluon (Erickson et al., 2020), Feedforward নিউরাল নেটওয়ার্ক, TabTransformer এবং FT-Transformer। GBDT মডেলের জন্য, সংখ্যাসূচক বৈশিষ্ট্যগুলি প্রমিত করা হয়নি, এবং লক্ষ্য এনকোডিং (Micci-Barreca, 2001) লেবেল এনকোডিংয়ের পরিবর্তে শ্রেণীগত বৈশিষ্ট্যগুলিকে এনকোড করতে ব্যবহৃত হয়েছিল। AWS AutoGluon-কে LightGBM (Ke et al., 2017) মডেলের একটি সংকলন শেখার জন্য কনফিগার করা হয়েছে। 5টি স্তর সমন্বিত একটি ফিডফরোয়ার্ড নিউরাল নেটওয়ার্ক ব্যবহার করা হয়েছিল, যে ইনপুটটি এম্বেডিং এবং একত্রিত মাত্রা, রুট এবং পরিষেবা বৈশিষ্ট্য দ্বারা তৈরি করা হয়েছিল। TabTransformer এবং FT-Transformer-এর সর্বজনীনভাবে উপলব্ধ বাস্তবায়ন [1] ব্যবহার করা হয়েছিল, এবং সমস্ত হাইপারপ্যারামিটার RCT-এর সাথে সামঞ্জস্যপূর্ণ করা হয়েছিল। যেহেতু বেসলাইনগুলি আইটেম এবং চার্জের সংগ্রহ পরিচালনা করে না, তাই আমরা শুধুমাত্র মাত্রা, রুট এবং পরিষেবা বৈশিষ্ট্যগুলি ব্যবহার করেছি।


সারণি 1: (ক) বিভিন্ন বেঞ্চমার্কের সাথে RCT-এর কর্মক্ষমতা তুলনা করে, (b) RCT এম্বেডিংয়ের সাথে প্রশিক্ষিত GBDT-এর সাথে GBDT বেসলাইনের কর্মক্ষমতা তুলনা করে। MAE% সমীকরণ 4 এ দেখানো হিসাবে গণনা করা হয়েছে।


সারণি 2: RCT এবং FT-ট্রান্সফরমারের মধ্যে MAE% তুলনা (স্ব-মনোযোগ মডেলের জন্য SOTA)

4.2। বেসলাইন তুলনা

সারণি 1a অধ্যায় 4.1.3 এ আলোচিত বেসলাইন মডেলগুলির সাথে RCT-এর তুলনা করে। টেবিলের মডেলগুলি মডেল জটিলতার ক্রমবর্ধমান ক্রম অনুসারে সংগঠিত হয়। উভয় গাছ ভিত্তিক মডেল, GBDT এবং AutoGluon, একই স্তরে পারফর্ম করছে। গভীর শিক্ষার মডেলগুলি ধারাবাহিকভাবে গাছ ভিত্তিক মডেলগুলিকে ছাড়িয়ে যায়, যা নির্দেশ করে যে প্রস্তাবিত আর্কিটেকচারটি শিপিং খরচের পূর্বাভাসের জন্য দক্ষ৷ ট্রান্সফরমার ভিত্তিক মডেলগুলির ফিডফরোয়ার্ড নিউরাল নেটওয়ার্কের তুলনায় কম MAE% স্কোর রয়েছে, যা দেখায় যে ট্রান্সফরমারগুলি কার্যকর মিথস্ক্রিয়া শিখতে পারে। RCT মডেল উভয় ট্রান্সফরমার মডেলকে ছাড়িয়ে যায় - TabTransformer এবং FT-Transformer (SOTA), প্রস্তাব করে যে একটি কাস্টম আর্কিটেকচার যা রেট কার্ডের সুপ্ত কাঠামোকে এনকোড করে উন্নত কর্মক্ষমতাতে অবদান রাখছে। সারণি 2 বিভিন্ন মডেলের আকারে FT-ট্রান্সফরমার এবং RCT মডেলের কর্মক্ষমতা তুলনা করে। ফলাফলগুলি দেখায় যে RCT সমস্ত পরীক্ষিত মডেলের আকার জুড়ে FT-ট্রান্সফরমারকে ছাড়িয়ে গেছে, এটি ইঙ্গিত করে যে এনকোডিং রেট কার্ড কাঠামো বিভিন্ন মডেলের ক্ষমতা জুড়ে কর্মক্ষমতা সুবিধা প্রদান করে।

4.3। RCT কি রেট কার্ডের কার্যকরী উপস্থাপনা শিখে?

ট্রান্সফরমারগুলিকে বিভিন্ন কাজে শক্তিশালী উপস্থাপনা শেখার ক্ষমতা দেখানো হয়েছে। এই পরীক্ষায়, আমরা RCT দ্বারা শেখা রেট কার্ড প্রতিনিধিত্বের কার্যকারিতা তদন্ত করি। এটি মূল্যায়ন করার জন্য, আমরা একটি ইনপুট বৈশিষ্ট্য হিসাবে শেখা রেট কার্ড উপস্থাপনার সাথে এবং ছাড়া আমাদের GBT মডেলের কর্মক্ষমতা তুলনা করি।


চিত্র 2: একটি প্লট পরীক্ষা MAE% বনাম মনোযোগ প্রধানের সংখ্যা চিত্রিত করুন। চিত্র b প্লট পরীক্ষা MAE% এবং ট্রেন-ভাল MAE% ব্যবধান বনাম ট্রান্সফরমার স্তরগুলির সংখ্যা। MAE% সমীকরণ 4 এ দেখানো হিসাবে গণনা করা হয়েছে।


চূড়ান্ত ট্রান্সফরমার স্তরের পুল আউটপুটকে রেট কার্ডের শেখা উপস্থাপনা হিসাবে বিবেচনা করা হয়। এই বৈশিষ্ট্যটি যোগ করার ফলে GBDT-এর কর্মক্ষমতা 9.79% উন্নত হয়েছে (সারণী 1b দেখুন)। আরও, এটি দেখা গেছে যে সমস্ত ম্যানুয়ালি ইঞ্জিনিয়ারড বৈশিষ্ট্যগুলি বাদ দেওয়া হলেও, GBDT এখনও 69.21% এর MAE শতাংশের সাথে তুলনামূলকভাবে কাজ করে। এটি ইঙ্গিত দেয় যে রেট কার্ডের শেখা উপস্থাপনাগুলি কেবলমাত্র আরও ভাল বৈশিষ্ট্যের তথ্য ক্যাপচারে কার্যকর নয়, তবে প্যাকেজ রেট কার্ডের যথেষ্ট উপস্থাপনাও। যাইহোক, এমনকি এই বৈশিষ্ট্যের সাথেও, GBDT-তে RCT-এর তুলনায় 13.5% বেশি MAE% রয়েছে। এটি সম্ভবত কারণ RCT এন্ড-টু-এন্ড প্রশিক্ষিত, যখন GBDT একটি পৃথক মডেলের অংশ হিসাবে শেখা বৈশিষ্ট্যগুলি ব্যবহার করে।

4.4। স্ব-মনোযোগ কি ফিড ফরোয়ার্ড নিউরাল নেটওয়ার্কের চেয়ে ভাল মিথস্ক্রিয়া শিখে?

অধ্যায় 4.2-এ, এটি দেখা গেছে যে ফিড ফরওয়ার্ড (এফএফ) নিউরাল নেটওয়ার্কগুলি ট্রান্সফরমারগুলির দ্বারা উন্নত ছিল, যা এই অনুমানের দিকে পরিচালিত করে যে স্ব-মনোযোগ একটি উচ্চতর ইন্টারঅ্যাকশন লার্নার। এই বিভাগটির লক্ষ্য হল স্ব-মনোযোগের পরিবর্তে এফএফ ব্যবহার করে মাত্রা, রুট এবং পরিষেবা বৈশিষ্ট্যগুলিকে এনকোড করার জন্য স্ব-মনোযোগের প্রস্থকে শুধুমাত্র আইটেম এবং চার্জ বৈশিষ্ট্যগুলিতে সীমাবদ্ধ করে এই অনুমানকে আরও অন্বেষণ করা। এফএফ এবং স্ব-মনোযোগ উভয়ের আউটপুট এনকোডিংগুলি শিপিং খরচের পূর্বাভাস দিতে একটি এফএফ স্তরে সংযুক্ত এবং খাওয়ানো হয়। স্ব-মনোযোগের প্রস্থ কমে যাওয়ায়, এটি সমস্ত রেট কার্ড বৈশিষ্ট্যের মধ্যে মিথস্ক্রিয়া ক্যাপচার করতে ব্যর্থ হয়। ফলস্বরূপ মডেল RCT এর 55.72% এর তুলনায় 64.73% এর একটি উচ্চ MAE% প্রদর্শন করে। এই ফলাফলগুলি পরামর্শ দেয় যে এফএফ মডেলগুলি ট্রান্সফরমারগুলির তুলনায় নিকৃষ্ট মিথস্ক্রিয়া শিক্ষার্থী।

4.5। স্ব-মনোযোগের বিশ্লেষণ

বিভাগ 3.2-এ, আমরা স্ব-মনোযোগের কারণে বৈশিষ্ট্য একত্রিতকরণে ট্রান্সফরমারের দক্ষতা নিয়ে আলোচনা করেছি। এই বিভাগে, মনোযোগের গভীরতা এবং মনোযোগের মাথা গণনার প্রভাব বিশ্লেষণ করার জন্য অ্যাবেশন পরীক্ষাগুলি পরিচালিত হয়। মনোযোগের মাথার সংখ্যা বৃদ্ধি মডেলটিকে আরও স্বাধীন বৈশিষ্ট্য মিথস্ক্রিয়া শিখতে দেয়। এই পরীক্ষার জন্য,



চিত্র 3: 1 থেকে উত্পন্ন হিটম্যাপ। প্রতিটি কলাম একটি হেডের প্রতিটি বৈশিষ্ট্যের আপেক্ষিক গুরুত্ব দেখায় এবং প্রতিটি কলাম একটি ভিন্ন হেডের সাথে মিলে যায়।


মডেলের ক্ষমতা 128 মাত্রায় স্থির করা হয়েছে, তাই মাথার সংখ্যা বৃদ্ধির ফলে মাথা পিছু শেখা মিথস্ক্রিয়াগুলির জটিলতাও কমে যায়। এইভাবে, সর্বোত্তম মাথা গণনা বাছাই করা হল স্বাধীন মিথস্ক্রিয়া শেখার এবং প্রতিটি শেখা ইন্টারঅ্যাকশনের জটিলতার মধ্যে একটি ট্রেড-অফ। চিত্র 2a-তে ট্রেড-অফ লক্ষ্য করা যেতে পারে, যেখানে কর্মক্ষমতা 4 হেড থেকে 16 হেডে উন্নতি করে কারণ প্রতিটি হেড দ্বারা শেখা মনোযোগ যথেষ্ট জটিল। যাইহোক, যখন মনোযোগের মাথা 16 থেকে 32 পর্যন্ত বৃদ্ধি করা হয় তখন কর্মক্ষমতা হ্রাস পায় কারণ মাথার জটিলতা উল্লেখযোগ্যভাবে হ্রাস পেয়েছে, আরও স্বাধীন মিথস্ক্রিয়া শেখার সুবিধাকে অস্বীকার করে।


এর পরে, আমরা ট্রান্সফরমার এনকোডার স্তরগুলি যুক্ত করে মনোযোগের গভীরতা বাড়ানোর প্রভাবকে চিত্রিত করি। গভীরতর ট্রান্সফরমার নেটওয়ার্কগুলি আরও জটিল উচ্চ-ক্রম মিথস্ক্রিয়া শিখে, যার ফলে মডেলের কার্যক্ষমতা বৃদ্ধি পায়, যেমনটি চিত্র 2b-এ দেখা গেছে। যাইহোক, 6 থেকে 12-এ স্তরের সংখ্যা বৃদ্ধি করা ওভারফিটিং-এর কারণে মডেলের কর্মক্ষমতা হ্রাস করে, যা শেখার যোগ্য প্যারামিটার সংখ্যা বৃদ্ধির কারণে ঘটে। ওভারফিটিং-এর প্রমাণ চিত্র 2b-তে পাওয়া যাবে, যেখানে 6 থেকে 12টি স্তরে যাওয়ার সময় ট্রেন এবং ভ্যাল MAE-এর মধ্যে ব্যবধান 30% বৃদ্ধি পায়।


চিত্র 4: ডেটা সহ RCT-এর স্কেলিং


অবশেষে, চিত্র 3-এ, আমরা অ্যালগরিদম 1 ব্যবহার করে তৈরি করা তাপ মানচিত্রগুলি প্রদর্শন করি। এই তাপ মানচিত্রগুলি শীর্ষ পাঁচটি সর্বাধিক উপস্থিত বৈশিষ্ট্যের অংশ হিসাবে প্রতিটি বৈশিষ্ট্য কতবার উপস্থিত হয়েছিল তা চিত্রিত করে। প্রতিটি কলাম একটি মাথার সাথে সম্পর্কিত, এবং প্রতিটি সারি একটি বৈশিষ্ট্যের সাথে মিলে যায়। বাম দিকের তাপ মানচিত্রটি nheads = 16 সহ RCT ব্যবহার করে তৈরি করা হয়েছে, এবং ডানদিকের একটি nheads = 4 দিয়ে তৈরি করা হয়েছে। উভয় তাপ মানচিত্র তুলনা করলে দেখা যাবে যে চিত্র 3a-তে প্রতি সক্রিয় বৈশিষ্ট্যের ইন্টারঅ্যাকশনের সংখ্যা কম কলাম, আমাদের হাইপোথিসিস নিশ্চিত করে যে বৃহত্তর সংখ্যক মনোযোগের মাথা প্রতিটি মাথা বৈশিষ্ট্যগুলির মধ্যে স্বাধীন মিথস্ক্রিয়া শেখার দিকে পরিচালিত করে।

4.6। কিভাবে ট্রান্সফরমার স্কেল আরো তথ্য দিয়ে?

পরীক্ষার খরচ কমাতে, এই কাগজের সমস্ত পরীক্ষাগুলি 10 মিলিয়ন আকারের একটি প্রশিক্ষণ ডেটাসেট ব্যবহার করে পরিচালিত হয়েছিল। যাইহোক, সেরা পারফরম্যান্স মডেল ব্যবহার করা গুরুত্বপূর্ণ, সর্বোত্তম কর্মক্ষমতা অর্জনের জন্য প্রশিক্ষণ ডেটাসেটের আকার বাড়ানো যেতে পারে।


ডেটা সহ RCT-এর মাপযোগ্যতা যাচাই করার জন্য, আমরা মডেলটিকে বিভিন্ন প্রশিক্ষণ ডেটাসেট আকারে প্রশিক্ষিত করেছি এবং চিত্র 4-এ ফলাফলগুলি প্লট করেছি৷ ফলাফলগুলি দেখায় যে RCT-এর কর্মক্ষমতা আরও বড় ডেটাসেটের সাথে উন্নত হতে চলেছে৷ অতএব, আমরা আত্মবিশ্বাসের সাথে আশা করতে পারি যে বৃহত্তর ডেটাসেটে প্রশিক্ষিত মডেলগুলি এই কাগজে অন্বেষণ করা মডেলকে ছাড়িয়ে যাবে।


এই কাগজটি CC BY-NC-ND 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[১] https://github.com/lucidrains/tab-transformer-pytorc