paint-brush
शिपिंग लागत की भविष्यवाणी के लिए आत्म-ध्यान की शक्ति का अनावरण: प्रयोगद्वारा@convolution
120 रीडिंग

शिपिंग लागत की भविष्यवाणी के लिए आत्म-ध्यान की शक्ति का अनावरण: प्रयोग

बहुत लंबा; पढ़ने के लिए

नया एआई मॉडल (रेट कार्ड ट्रांसफॉर्मर) शिपिंग लागत का अधिक सटीक अनुमान लगाने के लिए पैकेज विवरण (आकार, वाहक आदि) का विश्लेषण करता है।
featured image - शिपिंग लागत की भविष्यवाणी के लिए आत्म-ध्यान की शक्ति का अनावरण: प्रयोग
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

लेखक:

(1) पी आदित्य श्रीकर, अमेज़न और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया {[email protected]};

(2) साहिल वर्म, अमेज़न और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया {[email protected];}

(3) वरुण माधवन, भारतीय प्रौद्योगिकी संस्थान, खड़गपुर। अमेज़न में इंटर्नशिप के दौरान किया गया कार्य {[email protected]};

(4) अभिषेक प्रसाद, अमेज़न {[email protected]}.

लिंक की तालिका

4. प्रयोग

इस खंड में, 2022 में भेजे गए पैकेजों के डेटासेट पर RCT का प्रदर्शन प्रदर्शित किया गया है। पूर्वानुमानित और वास्तविक शिपिंग लागत के बीच औसत निरपेक्ष त्रुटि (MAE) को प्रदर्शन मीट्रिक के रूप में चुना गया है, क्योंकि यह मौद्रिक शब्दों में निरपेक्ष त्रुटि का प्रतिनिधि है। इस पेपर में, MAE मानों को दिन 0 के अनुमान के MAE द्वारा सामान्यीकृत किया जाता है, जिसे MAE प्रतिशत (MAE%) के रूप में व्यक्त किया जाता है। यह मीट्रिक अनुमानी आधार रेखा के विरुद्ध प्राप्त सुधार पर जोर देता है।


4.1. प्रायोगिक सेटअप

4.1.1. वास्तुकला और हाइपरमीटर


एम्बेडिंग आयाम 128 पर सेट किया गया था, और 6 ट्रांसफॉर्मर एनकोडर परतों का उपयोग किया गया था, प्रत्येक में 16 सेल्फ-अटेंशन हेड थे। एडम ऑप्टिमाइज़र (किंगमा और बा, 2014) का उपयोग 0.0001 की शुरुआती सीखने की दर और 2048 के बैच आकार के साथ किया गया था। अभिसरण में सुधार करने के लिए, हर बार सत्यापन मीट्रिक के स्थिर होने पर सीखने की दर 0.7 के कारक से कम हो गई थी। मॉडल कोड को PyTorch (Prokhorenkova et al., 2018) और PyTorch Lightning (Falcon and The PyTorch Lightning team, 2019) फ़्रेमवर्क का उपयोग करके लागू किया गया था।


4.1.2. डेटा तैयार करना


2022 में 45 दिनों की अवधि के दौरान भेजे गए पैकेजों से 10 मिलियन पैकेजों का प्रशिक्षण डेटासेट सैंपल किया गया था। डेटा को श्रेणीबद्ध विशेषताओं को लेबल करके और संख्यात्मक विशेषताओं को मानकीकृत करके प्रीप्रोसेस किया गया था। परीक्षण डेटासेट में वे सभी पैकेज (सैंपलिंग के बिना) शामिल हैं जो 2022 से एक अलग, गैर-ओवरलैपिंग सप्ताह के दौरान भेजे गए थे।


4.1.3. बेंचमार्क विधियाँ


हम जटिलता के बढ़ते स्तर के साथ विभिन्न मॉडलों के खिलाफ आरसीटी के प्रदर्शन की तुलना करते हैं: जीबीडीटी, एडब्ल्यूएस ऑटोग्लूऑन (एरिकसन एट अल।, 2020), फीडफॉरवर्ड न्यूरल नेटवर्क, टैबट्रांसफॉर्मर और एफटी-ट्रांसफॉर्मर। जीबीडीटी मॉडल के लिए, संख्यात्मक विशेषताओं को मानकीकृत नहीं किया गया था, और लेबल एन्कोडिंग के बजाय श्रेणीबद्ध सुविधाओं को एन्कोड करने के लिए लक्ष्य एन्कोडिंग (मिकी-बर्रेका, 2001) का उपयोग किया गया था। एडब्ल्यूएस ऑटोग्लूऑन को लाइटजीबीएम (के एट अल।, 2017) मॉडल के एक समूह को सीखने के लिए कॉन्फ़िगर किया गया था। 5 परतों वाले एक फीडफॉरवर्ड न्यूरल नेटवर्क का उपयोग किया गया था, जिसके इनपुट को आयाम, मार्ग और सेवा सुविधाओं को एम्बेड और संयोजित करके उत्पन्न किया गया था। टैबट्रांसफॉर्मर और एफटी-ट्रांसफॉर्मर के सार्वजनिक रूप से उपलब्ध कार्यान्वयन [1] का उपयोग किया गया था


तालिका 1: (ए) विभिन्न बेंचमार्क के विरुद्ध आरसीटी के प्रदर्शन की तुलना करता है, (बी) आरसीटी एम्बेडिंग के साथ प्रशिक्षित जीबीडीटी के साथ जीबीडीटी बेसलाइन के प्रदर्शन की तुलना करता है। एमएई% की गणना समीकरण 4 में दिखाए अनुसार की जाती है।


तालिका 2: आरसीटी और एफटी-ट्रांसफार्मर के बीच एमएई% तुलना (स्व-ध्यान मॉडल के लिए एसओटीए)

4.2. आधारभूत तुलना

तालिका 1a, RCT की तुलना अनुभाग 4.1.3 में चर्चित बेसलाइन मॉडल से करती है। तालिका में मॉडल को मॉडल जटिलता के बढ़ते क्रम में व्यवस्थित किया गया है। दोनों ट्री आधारित मॉडल, GBDT और AutoGluon, समान स्तर पर प्रदर्शन कर रहे हैं। डीप लर्निंग मॉडल लगातार ट्री आधारित मॉडल से बेहतर प्रदर्शन करते हैं, जो दर्शाता है कि प्रस्तावित आर्किटेक्चर शिपिंग लागत भविष्यवाणी के लिए कुशल है। ट्रांसफार्मर आधारित मॉडल में फीडफॉरवर्ड न्यूरल नेटवर्क की तुलना में कम MAE% स्कोर होता है, जो दर्शाता है कि ट्रांसफार्मर प्रभावी इंटरैक्शन सीखते हैं। RCT मॉडल, दोनों ट्रांसफार्मर मॉडल - TabTransformer और FT-Transformer (SOTA) से बेहतर प्रदर्शन करता है, जो यह सुझाव देता है कि एक कस्टम आर्किटेक्चर जो रेट कार्ड की लेटेंट संरचना को एनकोड करता है, बेहतर प्रदर्शन में योगदान दे रहा है।

4.3. क्या आर.सी.टी. रेट कार्ड का प्रभावी प्रतिनिधित्व सीखता है?

ट्रांसफॉर्मर में विभिन्न कार्यों में मजबूत प्रतिनिधित्व सीखने की क्षमता पाई गई है। इस प्रयोग में, हम RCT द्वारा सीखे गए रेट कार्ड प्रतिनिधित्व की प्रभावशीलता की जांच करते हैं। इसका मूल्यांकन करने के लिए, हम इनपुट फीचर के रूप में सीखे गए रेट कार्ड प्रतिनिधित्व के साथ और उसके बिना अपने GBT मॉडल के प्रदर्शन की तुलना करते हैं।


चित्र 2: चित्र ए में टेस्ट MAE% बनाम अटेंशन हेड्स की संख्या दर्शाई गई है। चित्र बी में टेस्ट MAE% और ट्रेन-वैल MAE% गैप बनाम ट्रांसफॉर्मर लेयर्स की संख्या दर्शाई गई है। MAE% की गणना समीकरण 4 में दिखाए अनुसार की जाती है।


अंतिम ट्रांसफॉर्मर परत के पूल किए गए आउटपुट को रेट कार्ड के सीखे गए प्रतिनिधित्व के रूप में माना जाता है। इस सुविधा को जोड़ने से GBDT के प्रदर्शन में 9.79% सुधार हुआ (तालिका 1b देखें)। इसके अलावा, यह देखा गया कि जब सभी मैन्युअल रूप से इंजीनियर की गई सुविधाएँ हटा दी जाती हैं, तब भी GBDT 69.21% के MAE प्रतिशत के साथ तुलनात्मक रूप से प्रदर्शन करता है। यह दर्शाता है कि रेट कार्ड के सीखे गए प्रतिनिधित्व न केवल बेहतर सुविधा जानकारी को कैप्चर करने में प्रभावी हैं, बल्कि पैकेज रेट कार्ड का पर्याप्त प्रतिनिधित्व भी हैं। हालाँकि, इस सुविधा के साथ भी, GBDT में RCT की तुलना में 13.5% अधिक MAE% है। ऐसा संभवतः इसलिए है क्योंकि RCT को एंड-टू-एंड प्रशिक्षित किया जाता है, जबकि GBDT एक अलग मॉडल के हिस्से के रूप में सीखी गई सुविधाओं का उपयोग करता है।

4.4. क्या स्व-ध्यान फीड फॉरवर्ड न्यूरल नेटवर्क की तुलना में बेहतर अंतःक्रिया सीखता है?

सेक्शन 4.2 में, यह देखा गया कि फीड फॉरवर्ड (FF) न्यूरल नेटवर्क ट्रांसफॉर्मर्स द्वारा बेहतर प्रदर्शन किया गया, जिससे यह परिकल्पना सामने आई कि स्व-ध्यान एक बेहतर इंटरैक्शन लर्नर है। इस सेक्शन का उद्देश्य आयाम, मार्ग और सेवा सुविधाओं को एनकोड करने के लिए स्व-ध्यान के बजाय FF का उपयोग करके इस परिकल्पना को और आगे बढ़ाना है, जबकि स्व-ध्यान की चौड़ाई को केवल आइटम और चार्ज सुविधाओं तक सीमित करना है। FF और स्व-ध्यान दोनों के आउटपुट एनकोडिंग को संयोजित किया जाता है और शिपिंग लागत का अनुमान लगाने के लिए FF परत में फीड किया जाता है। जैसे-जैसे स्व-ध्यान की चौड़ाई कम होती जाती है, यह सभी रेट कार्ड सुविधाओं के बीच इंटरैक्शन को कैप्चर करने में विफल हो जाता है। परिणामी मॉडल RCT के 55.72% की तुलना में 64.73% का उच्च MAE% प्रदर्शित करता है। ये परिणाम बताते हैं कि FF मॉडल ट्रांसफॉर्मर्स की तुलना में अवर इंटरैक्शन लर्नर हैं।

4.5. आत्म-ध्यान का विश्लेषण

खंड 3.2 में, हमने स्व-ध्यान के कारण फ़ीचर एकत्रीकरण में ट्रांसफ़ॉर्मर्स की दक्षता पर चर्चा की। इस खंड में, ध्यान की गहराई और ध्यान हेड काउंट के प्रभाव का विश्लेषण करने के लिए एब्लेशन प्रयोग किए जाते हैं। ध्यान हेड की संख्या बढ़ाने से मॉडल को अधिक स्वतंत्र फ़ीचर इंटरैक्शन सीखने की अनुमति मिलती है। इस प्रयोग के लिए,



चित्र 3: 1 से उत्पन्न हीटमैप। प्रत्येक कॉलम एक हेड में प्रत्येक विशेषता के सापेक्ष महत्व को दर्शाता है, और प्रत्येक कॉलम एक अलग हेड से मेल खाता है।


मॉडल क्षमता 128 आयामों पर तय की गई है, इसलिए हेड की संख्या में वृद्धि से प्रति हेड सीखी गई अंतःक्रियाओं की जटिलता भी कम हो जाती है। इस प्रकार, इष्टतम हेड काउंट चुनना स्वतंत्र अंतःक्रियाओं को सीखने और प्रत्येक सीखी गई अंतःक्रिया की जटिलता के बीच एक समझौता है। समझौता चित्र 2a में देखा जा सकता है, जहाँ प्रदर्शन 4 हेड से 16 हेड तक सुधरता है क्योंकि प्रत्येक हेड द्वारा सीखा गया ध्यान पर्याप्त जटिल होता है। हालाँकि, जब ध्यान हेड को 16 से 32 तक बढ़ाया जाता है तो प्रदर्शन कम हो जाता है क्योंकि हेड की जटिलता काफी कम हो जाती है, जिससे अधिक स्वतंत्र अंतःक्रियाओं को सीखने का लाभ समाप्त हो जाता है।


इसके बाद, हम ट्रांसफॉर्मर एनकोडर परतों को जोड़कर ध्यान की गहराई बढ़ाने के प्रभाव को दर्शाते हैं। गहरे ट्रांसफॉर्मर नेटवर्क अधिक जटिल उच्च-क्रम इंटरैक्शन सीखते हैं, जिससे मॉडल का प्रदर्शन बेहतर होता है, जैसा कि चित्र 2बी में देखा गया है। हालाँकि, परतों की संख्या को 6 से 12 तक बढ़ाने से मॉडल का प्रदर्शन कम हो जाता है, जो सीखने योग्य पैरामीटर की संख्या में वृद्धि के कारण ओवरफिटिंग के कारण होता है। ओवरफिटिंग के सबूत चित्र 2बी में पाए जा सकते हैं, जहाँ 6 से 12 परतों पर जाने पर ट्रेन और वैल MAE के बीच का अंतर 30% बढ़ जाता है।


चित्र 4: डेटा के साथ RCT का स्केलिंग


अंत में, चित्र 3 में, हम एल्गोरिथ्म 1 का उपयोग करके उत्पन्न हीट मैप्स प्रदर्शित करते हैं। ये हीट मैप शीर्ष पाँच सबसे अधिक ध्यान दिए जाने वाले फ़ीचर के भाग के रूप में प्रत्येक फ़ीचर पर ध्यान दिए जाने की संख्या को दर्शाते हैं। प्रत्येक कॉलम एक शीर्ष से मेल खाता है, और प्रत्येक पंक्ति एक फ़ीचर से मेल खाती है। बाईं ओर का हीट मैप nheads = 16 के साथ RCT का उपयोग करके उत्पन्न किया गया था, और दाईं ओर का nheads = 4 के साथ उत्पन्न किया गया था। दोनों हीट मैप्स की तुलना करने पर, यह देखा जा सकता है कि चित्र 3a में प्रति कॉलम सक्रिय फ़ीचर इंटरैक्शन की संख्या कम है, जो हमारी परिकल्पना की पुष्टि करता है कि अधिक संख्या में ध्यान देने वाले हेड प्रत्येक हेड को फ़ीचर के बीच स्वतंत्र इंटरैक्शन सीखने की ओर ले जाते हैं।

4.6. अधिक डेटा के साथ ट्रांसफार्मर कैसे स्केल करता है?

प्रयोग लागत को कम करने के लिए, इस पेपर में सभी प्रयोग 10 मिलियन आकार के प्रशिक्षण डेटासेट का उपयोग करके किए गए थे। हालाँकि, सबसे अच्छा प्रदर्शन करने वाले मॉडल का उपयोग करना महत्वपूर्ण है, इष्टतम प्रदर्शन प्राप्त करने के लिए प्रशिक्षण डेटासेट का आकार बढ़ाया जा सकता है।


डेटा के साथ RCT की मापनीयता को सत्यापित करने के लिए, हमने मॉडल को अलग-अलग प्रशिक्षण डेटासेट आकारों पर प्रशिक्षित किया और परिणाम चित्र 4 में दर्शाए। परिणाम दर्शाते हैं कि बड़े डेटासेट के साथ RCT का प्रदर्शन लगातार बेहतर होता जा रहा है। इसलिए, हम विश्वास के साथ उम्मीद कर सकते हैं कि बड़े डेटासेट पर प्रशिक्षित मॉडल इस पेपर में बताए गए मॉडल से बेहतर प्रदर्शन करेंगे।



[1] https://github.com/lucidrains/tab-transformer-pytorc