लेखक:
(1) पी आदित्य श्रीकर, अमेज़न और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया {[email protected]};
(2) साहिल वर्म, अमेज़न और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया {[email protected];}
(3) वरुण माधवन, भारतीय प्रौद्योगिकी संस्थान, खड़गपुर। अमेज़न में इंटर्नशिप के दौरान किया गया कार्य {[email protected]};
(4) अभिषेक प्रसाद, अमेज़न {[email protected]}.
ट्रांसफॉर्मर आर्किटेक्चर (वासवानी एट अल., 2017) का निर्माण कई एनकोडर ब्लॉकों को स्टैक करके किया जाता है, जहाँ प्रत्येक ब्लॉक इनपुट के रूप में एम्बेडिंग का एक क्रम लेता है और संदर्भ जागरूक एम्बेडिंग का एक क्रम आउटपुट करता है। एनकोडर ब्लॉक में एक मल्टी-हेड सेल्फ-अटेंशन (MHSA) लेयर होती है, जिसके बाद एक पोजिशन-वाइज फीड-फॉरवर्ड लेयर होती है, जिसमें प्रत्येक लेयर से पहले अवशिष्ट कनेक्शन और लेयर नॉर्म होता है। MHSA लेयर में कई सेल्फ-अटेंशन यूनिट शामिल होती हैं जिन्हें हेड कहा जाता है, जो इनपुट एम्बेडिंग के बीच इंटरैक्शन सीखते हैं।
आउटपुट अनुक्रम को फिर से एनकोडर परतों के माध्यम से पुनरावर्ती रूप से पारित किया जाता है, जिससे प्रत्येक क्रमिक परत उच्च क्रम की विशेषता अंतःक्रियाओं को सीख सकती है। ट्रांसफार्मर की गहराई सीखे गए प्रतिनिधित्व की जटिलता को नियंत्रित करती है, क्योंकि गहरी परतें विशेषताओं के बीच अधिक जटिल अंतःक्रियाओं को पकड़ती हैं। इसके अलावा, MHSA में कई सेल्फ-अटेंशन हेड का उपयोग किया जाता है, जिससे प्रत्येक हेड अलग-अलग फीचर सब-स्पेस पर ध्यान देने और उनके बीच अंतःक्रियाओं को सीखने में सक्षम होता है, संचयी रूप से फीचर अंतःक्रियाओं के कई स्वतंत्र सेट सीखता है।
पैकेज के रेट कार्ड में कई फीचर प्रकार होते हैं, जैसे कि आयामी, मार्ग, सेवा, आइटम और शुल्क (चित्र 1 ए), जहां प्रत्येक फीचर प्रकार में कई संख्यात्मक और श्रेणीबद्ध विशेषताएं शामिल होती हैं। आयामी, मार्ग और सेवा सुविधाओं को निश्चित लंबाई वाली सुविधा प्रकार के रूप में संदर्भित किया जाता है, क्योंकि उनमें से प्रत्येक में निश्चित संख्या में विशेषताएं होती हैं। निश्चित लंबाई वाली सुविधा प्रकारों को मिश्रित एम्बेडिंग परत (एमईएल) का उपयोग करके टोकन के अनुक्रम में एम्बेड किया जाता है। उदाहरण के लिए, आयामी विशेषताएं d ∈ S[md, nd] लंबाई md + nd के d-आयामी टोकन अनुक्रम में एम्बेड की जाती हैं। एमईएल में कई एम्बेडिंग ब्लॉक होते हैं, जो एम्बेड की जा रही सुविधा प्रकार में प्रत्येक विशेषता के लिए एक होता है। एम्बेडिंग लुकअप टेबल का उपयोग श्रेणीबद्ध सुविधाओं को एम्बेड करने के लिए किया जाता है, जबकि संख्यात्मक सुविधाओं को निरंतर एम्बेडिंग ब्लॉक का उपयोग करके एम्बेड किया जाता है, जैसा कि (गोरिश्नी एट अल., 2021) में पेश किया गया है।
फीचर टोकन के अनुक्रम को L ट्रांसफॉर्मर एनकोडर परतों के स्टैक में इनपुट के रूप में पास किया जाता है जो कि फीचर के बीच जटिल, उच्च क्रम की अंतःक्रियाओं को सीखने में सक्षम हैं। अंत में, पूल किए गए ट्रांसफॉर्मर आउटपुट को शिपिंग लागत Cˆ का अनुमान लगाने के लिए फीडफॉरवर्ड परत में फीड किया जाता है जैसा कि चित्र 1b में दिखाया गया है।
हम संपूर्ण आर्किटेक्चर को रेट कार्ड ट्रांसफॉर्मर (RCT) कहते हैं। पूर्वानुमानित और वास्तविक शिपिंग लागत (समीकरण 3) के बीच L1 हानि को कम करने के लिए प्रशिक्षित, RCT गतिशील रेट कार्ड का एक प्रभावी प्रतिनिधित्व सीखता है जो इसे शिपिंग लागत का सटीक अनुमान लगाने की अनुमति देता है।