paint-brush
शिपिंग लागत की भविष्यवाणी के लिए स्व-ध्यान की शक्ति का अनावरण: कार्यप्रणालीद्वारा@convolution
124 रीडिंग

शिपिंग लागत की भविष्यवाणी के लिए स्व-ध्यान की शक्ति का अनावरण: कार्यप्रणाली

बहुत लंबा; पढ़ने के लिए

नया एआई मॉडल (रेट कार्ड ट्रांसफॉर्मर) शिपिंग लागत का अधिक सटीक अनुमान लगाने के लिए पैकेज विवरण (आकार, वाहक आदि) का विश्लेषण करता है।
featured image - शिपिंग लागत की भविष्यवाणी के लिए स्व-ध्यान की शक्ति का अनावरण: कार्यप्रणाली
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

लेखक:

(1) पी आदित्य श्रीकर, अमेज़न और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया {[email protected]};

(2) साहिल वर्म, अमेज़न और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया {[email protected];}

(3) वरुण माधवन, भारतीय प्रौद्योगिकी संस्थान, खड़गपुर। अमेज़न में इंटर्नशिप के दौरान किया गया कार्य {[email protected]};

(4) अभिषेक प्रसाद, अमेज़न {[email protected]}.

लिंक की तालिका

3। प्रक्रिया

3.1. समस्या कथन

3.2. पृष्ठभूमि

ट्रांसफॉर्मर आर्किटेक्चर (वासवानी एट अल., 2017) का निर्माण कई एनकोडर ब्लॉकों को स्टैक करके किया जाता है, जहाँ प्रत्येक ब्लॉक इनपुट के रूप में एम्बेडिंग का एक क्रम लेता है और संदर्भ जागरूक एम्बेडिंग का एक क्रम आउटपुट करता है। एनकोडर ब्लॉक में एक मल्टी-हेड सेल्फ-अटेंशन (MHSA) लेयर होती है, जिसके बाद एक पोजिशन-वाइज फीड-फॉरवर्ड लेयर होती है, जिसमें प्रत्येक लेयर से पहले अवशिष्ट कनेक्शन और लेयर नॉर्म होता है। MHSA लेयर में कई सेल्फ-अटेंशन यूनिट शामिल होती हैं जिन्हें हेड कहा जाता है, जो इनपुट एम्बेडिंग के बीच इंटरैक्शन सीखते हैं।




आउटपुट अनुक्रम को फिर से एनकोडर परतों के माध्यम से पुनरावर्ती रूप से पारित किया जाता है, जिससे प्रत्येक क्रमिक परत उच्च क्रम की विशेषता अंतःक्रियाओं को सीख सकती है। ट्रांसफार्मर की गहराई सीखे गए प्रतिनिधित्व की जटिलता को नियंत्रित करती है, क्योंकि गहरी परतें विशेषताओं के बीच अधिक जटिल अंतःक्रियाओं को पकड़ती हैं। इसके अलावा, MHSA में कई सेल्फ-अटेंशन हेड का उपयोग किया जाता है, जिससे प्रत्येक हेड अलग-अलग फीचर सब-स्पेस पर ध्यान देने और उनके बीच अंतःक्रियाओं को सीखने में सक्षम होता है, संचयी रूप से फीचर अंतःक्रियाओं के कई स्वतंत्र सेट सीखता है।

3.3. रेट कार्ड ट्रांसफार्मर

पैकेज के रेट कार्ड में कई फीचर प्रकार होते हैं, जैसे कि आयामी, मार्ग, सेवा, आइटम और शुल्क (चित्र 1 ए), जहां प्रत्येक फीचर प्रकार में कई संख्यात्मक और श्रेणीबद्ध विशेषताएं शामिल होती हैं। आयामी, मार्ग और सेवा सुविधाओं को निश्चित लंबाई वाली सुविधा प्रकार के रूप में संदर्भित किया जाता है, क्योंकि उनमें से प्रत्येक में निश्चित संख्या में विशेषताएं होती हैं। निश्चित लंबाई वाली सुविधा प्रकारों को मिश्रित एम्बेडिंग परत (एमईएल) का उपयोग करके टोकन के अनुक्रम में एम्बेड किया जाता है। उदाहरण के लिए, आयामी विशेषताएं d ∈ S[md, nd] लंबाई md + nd के d-आयामी टोकन अनुक्रम में एम्बेड की जाती हैं। एमईएल में कई एम्बेडिंग ब्लॉक होते हैं, जो एम्बेड की जा रही सुविधा प्रकार में प्रत्येक विशेषता के लिए एक होता है। एम्बेडिंग लुकअप टेबल का उपयोग श्रेणीबद्ध सुविधाओं को एम्बेड करने के लिए किया जाता है, जबकि संख्यात्मक सुविधाओं को निरंतर एम्बेडिंग ब्लॉक का उपयोग करके एम्बेड किया जाता है, जैसा कि (गोरिश्नी एट अल., 2021) में पेश किया गया है।



फीचर टोकन के अनुक्रम को L ट्रांसफॉर्मर एनकोडर परतों के स्टैक में इनपुट के रूप में पास किया जाता है जो कि फीचर के बीच जटिल, उच्च क्रम की अंतःक्रियाओं को सीखने में सक्षम हैं। अंत में, पूल किए गए ट्रांसफॉर्मर आउटपुट को शिपिंग लागत Cˆ का अनुमान लगाने के लिए फीडफॉरवर्ड परत में फीड किया जाता है जैसा कि चित्र 1b में दिखाया गया है।


हम संपूर्ण आर्किटेक्चर को रेट कार्ड ट्रांसफॉर्मर (RCT) कहते हैं। पूर्वानुमानित और वास्तविक शिपिंग लागत (समीकरण 3) के बीच L1 हानि को कम करने के लिए प्रशिक्षित, RCT गतिशील रेट कार्ड का एक प्रभावी प्रतिनिधित्व सीखता है जो इसे शिपिंग लागत का सटीक अनुमान लगाने की अनुमति देता है।