Autoren:
(1) P Aditya Sreekar, Amazon und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen {[email protected]};
(2) Sahil Verm, Amazon und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen {[email protected];}
(3) Varun Madhavan, Indian Institute of Technology, Kharagpur. Arbeit, die während des Praktikums bei Amazon erledigt wurde {[email protected]};
(4) Abhishek Persad, Amazon {[email protected]}.
Die Transformer-Architektur (Vaswani et al., 2017) wird durch das Stapeln mehrerer Encoder-Blöcke aufgebaut, wobei jeder Block eine Sequenz von Einbettungen als Eingabe verwendet und eine Sequenz kontextabhängiger Einbettungen ausgibt. Der Encoder-Block besteht aus einer Multi-Head-Self-Attention-Schicht (MHSA), gefolgt von einer positionsabhängigen Feedforward-Schicht mit Restverbindungen und Schichtnorm vor jeder Schicht. Die MHSA-Schicht besteht aus mehreren Self-Attention-Einheiten, sogenannten Heads, die Interaktionen zwischen Eingabe-Einbettungen lernen.
Die Ausgabesequenz wird dann rekursiv durch nachfolgende Encoderschichten geleitet, sodass jede nachfolgende Schicht höherstufige Merkmalsinteraktionen lernen kann. Die Tiefe des Transformators steuert die Komplexität der gelernten Darstellung, da tiefere Schichten komplexere Interaktionen zwischen Merkmalen erfassen. Darüber hinaus werden in MHSA mehrere Self-Attention-Köpfe verwendet, sodass jeder Kopf sich auf unterschiedliche Merkmalsunterräume konzentrieren und Interaktionen zwischen ihnen lernen kann, wodurch kumulativ mehrere unabhängige Sätze von Merkmalsinteraktionen gelernt werden.
Die Preisliste eines Pakets besteht aus mehreren Merkmalstypen, nämlich Dimensions-, Routen-, Service-, Artikel- und Gebührentypen (Abb. 1a), wobei jeder Merkmalstyp mehrere numerische und kategorische Merkmale umfasst. Die Dimensions-, Routen- und Servicemerkmale werden als Merkmalstypen mit fester Länge bezeichnet, da jeder von ihnen eine feste Anzahl von Merkmalen aufweist. Merkmalstypen mit fester Länge werden mithilfe einer gemischten Einbettungsschicht (MEL) in eine Token-Sequenz eingebettet. Beispielsweise werden Dimensionsmerkmale d ∈ S[md, nd] in eine d-dimensionale Token-Sequenz der Länge md + nd eingebettet. Die MEL enthält mehrere Einbettungsblöcke, einen für jedes Merkmal im einzubettenden Merkmalstyp. Einbettungs-Lookup-Tabellen werden zum Einbetten von kategorischen Merkmalen verwendet, während numerische Merkmale mithilfe von kontinuierlichen Einbettungsblöcken eingebettet werden, wie in (Gorishniy et al., 2021) eingeführt.
Die Sequenz der Feature-Token wird als Eingabe an einen Stapel von L Transformer-Encoder-Schichten übergeben, die in der Lage sind, komplexe Interaktionen höherer Ordnung zwischen den Features zu erlernen. Schließlich wird die gepoolte Transformer-Ausgabe an eine Feedforward-Schicht weitergeleitet, um die Versandkosten Cˆ vorherzusagen, wie in Abb. 1b dargestellt.
Wir nennen die gesamte Architektur den Rate Card Transformer (RCT). RCT wurde darauf trainiert, den L1-Verlust zwischen den vorhergesagten und tatsächlichen Versandkosten (Gleichung 3) zu minimieren. Dazu lernt er eine effektive Darstellung der dynamischen Rate Card, die eine genaue Vorhersage der Versandkosten ermöglicht.
Dieses Dokument ist auf arxiv unter der Lizenz CC BY-NC-ND 4.0 DEED verfügbar .