लेखक:
(1) पी आदित्य श्रीकर, अमेज़न और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया {[email protected]};
(2) साहिल वर्म, अमेज़न और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया {[email protected];}
(3) वरुण माधवन, भारतीय प्रौद्योगिकी संस्थान, खड़गपुर। अमेज़न में इंटर्नशिप के दौरान किया गया कार्य {[email protected]};
(4) अभिषेक प्रसाद, अमेज़न {[email protected]}.
इस खंड में, 2022 में भेजे गए पैकेजों के डेटासेट पर RCT का प्रदर्शन प्रदर्शित किया गया है। पूर्वानुमानित और वास्तविक शिपिंग लागत के बीच औसत निरपेक्ष त्रुटि (MAE) को प्रदर्शन मीट्रिक के रूप में चुना गया है, क्योंकि यह मौद्रिक शब्दों में निरपेक्ष त्रुटि का प्रतिनिधि है। इस पेपर में, MAE मानों को दिन 0 के अनुमान के MAE द्वारा सामान्यीकृत किया जाता है, जिसे MAE प्रतिशत (MAE%) के रूप में व्यक्त किया जाता है। यह मीट्रिक अनुमानी आधार रेखा के विरुद्ध प्राप्त सुधार पर जोर देता है।
4.1.1. वास्तुकला और हाइपरमीटर
एम्बेडिंग आयाम 128 पर सेट किया गया था, और 6 ट्रांसफॉर्मर एनकोडर परतों का उपयोग किया गया था, प्रत्येक में 16 सेल्फ-अटेंशन हेड थे। एडम ऑप्टिमाइज़र (किंगमा और बा, 2014) का उपयोग 0.0001 की शुरुआती सीखने की दर और 2048 के बैच आकार के साथ किया गया था। अभिसरण में सुधार करने के लिए, हर बार सत्यापन मीट्रिक के स्थिर होने पर सीखने की दर 0.7 के कारक से कम हो गई थी। मॉडल कोड को PyTorch (Prokhorenkova et al., 2018) और PyTorch Lightning (Falcon and The PyTorch Lightning team, 2019) फ़्रेमवर्क का उपयोग करके लागू किया गया था।
4.1.2. डेटा तैयार करना
2022 में 45 दिनों की अवधि के दौरान भेजे गए पैकेजों से 10 मिलियन पैकेजों का प्रशिक्षण डेटासेट सैंपल किया गया था। डेटा को श्रेणीबद्ध विशेषताओं को लेबल करके और संख्यात्मक विशेषताओं को मानकीकृत करके प्रीप्रोसेस किया गया था। परीक्षण डेटासेट में वे सभी पैकेज (सैंपलिंग के बिना) शामिल हैं जो 2022 से एक अलग, गैर-ओवरलैपिंग सप्ताह के दौरान भेजे गए थे।
4.1.3. बेंचमार्क विधियाँ
हम जटिलता के बढ़ते स्तर के साथ विभिन्न मॉडलों के खिलाफ आरसीटी के प्रदर्शन की तुलना करते हैं: जीबीडीटी, एडब्ल्यूएस ऑटोग्लूऑन (एरिकसन एट अल।, 2020), फीडफॉरवर्ड न्यूरल नेटवर्क, टैबट्रांसफॉर्मर और एफटी-ट्रांसफॉर्मर। जीबीडीटी मॉडल के लिए, संख्यात्मक विशेषताओं को मानकीकृत नहीं किया गया था, और लेबल एन्कोडिंग के बजाय श्रेणीबद्ध सुविधाओं को एन्कोड करने के लिए लक्ष्य एन्कोडिंग (मिकी-बर्रेका, 2001) का उपयोग किया गया था। एडब्ल्यूएस ऑटोग्लूऑन को लाइटजीबीएम (के एट अल।, 2017) मॉडल के एक समूह को सीखने के लिए कॉन्फ़िगर किया गया था। 5 परतों वाले एक फीडफॉरवर्ड न्यूरल नेटवर्क का उपयोग किया गया था, जिसके इनपुट को आयाम, मार्ग और सेवा सुविधाओं को एम्बेड और संयोजित करके उत्पन्न किया गया था। टैबट्रांसफॉर्मर और एफटी-ट्रांसफॉर्मर के सार्वजनिक रूप से उपलब्ध कार्यान्वयन [1] का उपयोग किया गया था
तालिका 1a, RCT की तुलना अनुभाग 4.1.3 में चर्चित बेसलाइन मॉडल से करती है। तालिका में मॉडल को मॉडल जटिलता के बढ़ते क्रम में व्यवस्थित किया गया है। दोनों ट्री आधारित मॉडल, GBDT और AutoGluon, समान स्तर पर प्रदर्शन कर रहे हैं। डीप लर्निंग मॉडल लगातार ट्री आधारित मॉडल से बेहतर प्रदर्शन करते हैं, जो दर्शाता है कि प्रस्तावित आर्किटेक्चर शिपिंग लागत भविष्यवाणी के लिए कुशल है। ट्रांसफार्मर आधारित मॉडल में फीडफॉरवर्ड न्यूरल नेटवर्क की तुलना में कम MAE% स्कोर होता है, जो दर्शाता है कि ट्रांसफार्मर प्रभावी इंटरैक्शन सीखते हैं। RCT मॉडल, दोनों ट्रांसफार्मर मॉडल - TabTransformer और FT-Transformer (SOTA) से बेहतर प्रदर्शन करता है, जो यह सुझाव देता है कि एक कस्टम आर्किटेक्चर जो रेट कार्ड की लेटेंट संरचना को एनकोड करता है, बेहतर प्रदर्शन में योगदान दे रहा है।
ट्रांसफॉर्मर में विभिन्न कार्यों में मजबूत प्रतिनिधित्व सीखने की क्षमता पाई गई है। इस प्रयोग में, हम RCT द्वारा सीखे गए रेट कार्ड प्रतिनिधित्व की प्रभावशीलता की जांच करते हैं। इसका मूल्यांकन करने के लिए, हम इनपुट फीचर के रूप में सीखे गए रेट कार्ड प्रतिनिधित्व के साथ और उसके बिना अपने GBT मॉडल के प्रदर्शन की तुलना करते हैं।
अंतिम ट्रांसफॉर्मर परत के पूल किए गए आउटपुट को रेट कार्ड के सीखे गए प्रतिनिधित्व के रूप में माना जाता है। इस सुविधा को जोड़ने से GBDT के प्रदर्शन में 9.79% सुधार हुआ (तालिका 1b देखें)। इसके अलावा, यह देखा गया कि जब सभी मैन्युअल रूप से इंजीनियर की गई सुविधाएँ हटा दी जाती हैं, तब भी GBDT 69.21% के MAE प्रतिशत के साथ तुलनात्मक रूप से प्रदर्शन करता है। यह दर्शाता है कि रेट कार्ड के सीखे गए प्रतिनिधित्व न केवल बेहतर सुविधा जानकारी को कैप्चर करने में प्रभावी हैं, बल्कि पैकेज रेट कार्ड का पर्याप्त प्रतिनिधित्व भी हैं। हालाँकि, इस सुविधा के साथ भी, GBDT में RCT की तुलना में 13.5% अधिक MAE% है। ऐसा संभवतः इसलिए है क्योंकि RCT को एंड-टू-एंड प्रशिक्षित किया जाता है, जबकि GBDT एक अलग मॉडल के हिस्से के रूप में सीखी गई सुविधाओं का उपयोग करता है।
सेक्शन 4.2 में, यह देखा गया कि फीड फॉरवर्ड (FF) न्यूरल नेटवर्क ट्रांसफॉर्मर्स द्वारा बेहतर प्रदर्शन किया गया, जिससे यह परिकल्पना सामने आई कि स्व-ध्यान एक बेहतर इंटरैक्शन लर्नर है। इस सेक्शन का उद्देश्य आयाम, मार्ग और सेवा सुविधाओं को एनकोड करने के लिए स्व-ध्यान के बजाय FF का उपयोग करके इस परिकल्पना को और आगे बढ़ाना है, जबकि स्व-ध्यान की चौड़ाई को केवल आइटम और चार्ज सुविधाओं तक सीमित करना है। FF और स्व-ध्यान दोनों के आउटपुट एनकोडिंग को संयोजित किया जाता है और शिपिंग लागत का अनुमान लगाने के लिए FF परत में फीड किया जाता है। जैसे-जैसे स्व-ध्यान की चौड़ाई कम होती जाती है, यह सभी रेट कार्ड सुविधाओं के बीच इंटरैक्शन को कैप्चर करने में विफल हो जाता है। परिणामी मॉडल RCT के 55.72% की तुलना में 64.73% का उच्च MAE% प्रदर्शित करता है। ये परिणाम बताते हैं कि FF मॉडल ट्रांसफॉर्मर्स की तुलना में अवर इंटरैक्शन लर्नर हैं।
खंड 3.2 में, हमने स्व-ध्यान के कारण फ़ीचर एकत्रीकरण में ट्रांसफ़ॉर्मर्स की दक्षता पर चर्चा की। इस खंड में, ध्यान की गहराई और ध्यान हेड काउंट के प्रभाव का विश्लेषण करने के लिए एब्लेशन प्रयोग किए जाते हैं। ध्यान हेड की संख्या बढ़ाने से मॉडल को अधिक स्वतंत्र फ़ीचर इंटरैक्शन सीखने की अनुमति मिलती है। इस प्रयोग के लिए,
मॉडल क्षमता 128 आयामों पर तय की गई है, इसलिए हेड की संख्या में वृद्धि से प्रति हेड सीखी गई अंतःक्रियाओं की जटिलता भी कम हो जाती है। इस प्रकार, इष्टतम हेड काउंट चुनना स्वतंत्र अंतःक्रियाओं को सीखने और प्रत्येक सीखी गई अंतःक्रिया की जटिलता के बीच एक समझौता है। समझौता चित्र 2a में देखा जा सकता है, जहाँ प्रदर्शन 4 हेड से 16 हेड तक सुधरता है क्योंकि प्रत्येक हेड द्वारा सीखा गया ध्यान पर्याप्त जटिल होता है। हालाँकि, जब ध्यान हेड को 16 से 32 तक बढ़ाया जाता है तो प्रदर्शन कम हो जाता है क्योंकि हेड की जटिलता काफी कम हो जाती है, जिससे अधिक स्वतंत्र अंतःक्रियाओं को सीखने का लाभ समाप्त हो जाता है।
इसके बाद, हम ट्रांसफॉर्मर एनकोडर परतों को जोड़कर ध्यान की गहराई बढ़ाने के प्रभाव को दर्शाते हैं। गहरे ट्रांसफॉर्मर नेटवर्क अधिक जटिल उच्च-क्रम इंटरैक्शन सीखते हैं, जिससे मॉडल का प्रदर्शन बेहतर होता है, जैसा कि चित्र 2बी में देखा गया है। हालाँकि, परतों की संख्या को 6 से 12 तक बढ़ाने से मॉडल का प्रदर्शन कम हो जाता है, जो सीखने योग्य पैरामीटर की संख्या में वृद्धि के कारण ओवरफिटिंग के कारण होता है। ओवरफिटिंग के सबूत चित्र 2बी में पाए जा सकते हैं, जहाँ 6 से 12 परतों पर जाने पर ट्रेन और वैल MAE के बीच का अंतर 30% बढ़ जाता है।
अंत में, चित्र 3 में, हम एल्गोरिथ्म 1 का उपयोग करके उत्पन्न हीट मैप्स प्रदर्शित करते हैं। ये हीट मैप शीर्ष पाँच सबसे अधिक ध्यान दिए जाने वाले फ़ीचर के भाग के रूप में प्रत्येक फ़ीचर पर ध्यान दिए जाने की संख्या को दर्शाते हैं। प्रत्येक कॉलम एक शीर्ष से मेल खाता है, और प्रत्येक पंक्ति एक फ़ीचर से मेल खाती है। बाईं ओर का हीट मैप nheads = 16 के साथ RCT का उपयोग करके उत्पन्न किया गया था, और दाईं ओर का nheads = 4 के साथ उत्पन्न किया गया था। दोनों हीट मैप्स की तुलना करने पर, यह देखा जा सकता है कि चित्र 3a में प्रति कॉलम सक्रिय फ़ीचर इंटरैक्शन की संख्या कम है, जो हमारी परिकल्पना की पुष्टि करता है कि अधिक संख्या में ध्यान देने वाले हेड प्रत्येक हेड को फ़ीचर के बीच स्वतंत्र इंटरैक्शन सीखने की ओर ले जाते हैं।
प्रयोग लागत को कम करने के लिए, इस पेपर में सभी प्रयोग 10 मिलियन आकार के प्रशिक्षण डेटासेट का उपयोग करके किए गए थे। हालाँकि, सबसे अच्छा प्रदर्शन करने वाले मॉडल का उपयोग करना महत्वपूर्ण है, इष्टतम प्रदर्शन प्राप्त करने के लिए प्रशिक्षण डेटासेट का आकार बढ़ाया जा सकता है।
डेटा के साथ RCT की मापनीयता को सत्यापित करने के लिए, हमने मॉडल को अलग-अलग प्रशिक्षण डेटासेट आकारों पर प्रशिक्षित किया और परिणाम चित्र 4 में दर्शाए। परिणाम दर्शाते हैं कि बड़े डेटासेट के साथ RCT का प्रदर्शन लगातार बेहतर होता जा रहा है। इसलिए, हम विश्वास के साथ उम्मीद कर सकते हैं कि बड़े डेटासेट पर प्रशिक्षित मॉडल इस पेपर में बताए गए मॉडल से बेहतर प्रदर्शन करेंगे।
[1] https://github.com/lucidrains/tab-transformer-pytorc