Autoren:  (1) P Aditya Sreekar, Amazon und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen {sreekarp@amazon.com};  (2) Sahil Verm, Amazon und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen {vrsahil@amazon.com;}  (3) Varun Madhavan, Indian Institute of Technology, Kharagpur. Arbeit, die während des Praktikums bei Amazon erledigt wurde {varunmadhavan@iitkgp.ac.in};  (4) Abhishek Persad, Amazon {persadap@amazon.com}.  Linktabelle   Zusammenfassung und Einleitung   Verwandte Arbeiten   Methodik   Experiment   Schlussfolgerung und zukünftige Arbeit   Verweise  3. Methodik  3.1. Problemstellung   3.2. Hintergrund  Die Transformer-Architektur (Vaswani et al., 2017) wird durch das Stapeln mehrerer Encoder-Blöcke aufgebaut, wobei jeder Block eine Sequenz von Einbettungen als Eingabe verwendet und eine Sequenz kontextabhängiger Einbettungen ausgibt. Der Encoder-Block besteht aus einer Multi-Head-Self-Attention-Schicht (MHSA), gefolgt von einer positionsabhängigen Feedforward-Schicht mit Restverbindungen und Schichtnorm vor jeder Schicht. Die MHSA-Schicht besteht aus mehreren Self-Attention-Einheiten, sogenannten Heads, die Interaktionen zwischen Eingabe-Einbettungen lernen.   Die Ausgabesequenz wird dann rekursiv durch nachfolgende Encoderschichten geleitet, sodass jede nachfolgende Schicht höherstufige Merkmalsinteraktionen lernen kann. Die Tiefe des Transformators steuert die Komplexität der gelernten Darstellung, da tiefere Schichten komplexere Interaktionen zwischen Merkmalen erfassen. Darüber hinaus werden in MHSA mehrere Self-Attention-Köpfe verwendet, sodass jeder Kopf sich auf unterschiedliche Merkmalsunterräume konzentrieren und Interaktionen zwischen ihnen lernen kann, wodurch kumulativ mehrere unabhängige Sätze von Merkmalsinteraktionen gelernt werden.  3.3. Preislisten-Transformator  Die Preisliste eines Pakets besteht aus mehreren Merkmalstypen, nämlich Dimensions-, Routen-, Service-, Artikel- und Gebührentypen (Abb. 1a), wobei jeder Merkmalstyp mehrere numerische und kategorische Merkmale umfasst. Die Dimensions-, Routen- und Servicemerkmale werden als Merkmalstypen mit fester Länge bezeichnet, da jeder von ihnen eine feste Anzahl von Merkmalen aufweist. Merkmalstypen mit fester Länge werden mithilfe einer gemischten Einbettungsschicht (MEL) in eine Token-Sequenz eingebettet. Beispielsweise werden Dimensionsmerkmale d ∈ S[md, nd] in eine d-dimensionale Token-Sequenz der Länge md + nd eingebettet. Die MEL enthält mehrere Einbettungsblöcke, einen für jedes Merkmal im einzubettenden Merkmalstyp. Einbettungs-Lookup-Tabellen werden zum Einbetten von kategorischen Merkmalen verwendet, während numerische Merkmale mithilfe von kontinuierlichen Einbettungsblöcken eingebettet werden, wie in (Gorishniy et al., 2021) eingeführt.   Die Sequenz der Feature-Token wird als Eingabe an einen Stapel von L Transformer-Encoder-Schichten übergeben, die in der Lage sind, komplexe Interaktionen höherer Ordnung zwischen den Features zu erlernen. Schließlich wird die gepoolte Transformer-Ausgabe an eine Feedforward-Schicht weitergeleitet, um die Versandkosten Cˆ vorherzusagen, wie in Abb. 1b dargestellt.  Wir nennen die gesamte Architektur den Rate Card Transformer (RCT). RCT wurde darauf trainiert, den L1-Verlust zwischen den vorhergesagten und tatsächlichen Versandkosten (Gleichung 3) zu minimieren. Dazu lernt er eine effektive Darstellung der dynamischen Rate Card, die eine genaue Vorhersage der Versandkosten ermöglicht.   Dieses Dokument ist   . auf arxiv unter der Lizenz CC BY-NC-ND 4.0 DEED verfügbar

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

Publications in convolution, driving breakthroughs in signal processing and artificial intelligence.

Convolution's blog

Dieses Audio ist in der Originalsprache der Geschichte produziert!

Die Macht der Selbstaufmerksamkeit zur Vorhersage von Versandkosten enthüllen: Methodik

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

HackerNoon Decoded 2024: Wir feiern unsere Produktmanagement-Community!

HackerNoon Decoded 2024: Celebrating Our AI Community!

HackerNoon Decoded 2024: Celebrating Our Life Hacking Community!

HackerNoon Decoded 2024: Celebrating Our Writing Community!

HackerNoon Decoded 2024: Wir feiern unsere Produktmanagement-Community!

HackerNoon Decoded 2024: Celebrating Our AI Community!

HackerNoon Decoded 2024: Celebrating Our Life Hacking Community!

HackerNoon Decoded 2024: Celebrating Our Writing Community!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps