paint-brush
Die Macht der Selbstaufmerksamkeit zur Vorhersage von Versandkosten enthüllen: Verwandte Arbeitenvon@convolution
190 Lesungen

Die Macht der Selbstaufmerksamkeit zur Vorhersage von Versandkosten enthüllen: Verwandte Arbeiten

Zu lang; Lesen

Das neue KI-Modell (Rate Card Transformer) analysiert Paketdetails (Größe, Spediteur usw.), um die Versandkosten genauer vorherzusagen.
featured image - Die Macht der Selbstaufmerksamkeit zur Vorhersage von Versandkosten enthüllen: Verwandte Arbeiten
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

Autoren:

(1) P Aditya Sreekar, Amazon und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen {[email protected]};

(2) Sahil Verm, Amazon und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen {[email protected];}

(3) Varun Madhavan, Indian Institute of Technology, Kharagpur. Arbeit, die während des Praktikums bei Amazon erledigt wurde {[email protected]};

(4) Abhishek Persad, Amazon {[email protected]}.

Linktabelle

2. Verwandte Werke

Baumbasierte Algorithmen werden im maschinellen Lernen häufig für tabellarische Daten verwendet. Entscheidungsbäume teilen die Daten rekursiv in mehrere Teile auf der Grundlage achsenausgerichteter Hyperebenen auf (Hastie et al., 2009). Random Forests (RF) (Breiman, 2001) und Gradient Boosted Decision Trees (GBDT) (Friedman, 2001) sind die am häufigsten verwendeten baumbasierten Ensembles. RF passt mehrere Entscheidungsbäume an zufällige Teilmengen der Daten an und mittelt bzw. befragt die Vorhersagen, um die Überanpassungseigenschaft von Entscheidungsbäumen zu verringern. GBDT, XGBoost (Chen und Guestrin, 2016) und CatBoost (Prokhorenkova et al., 2018) sind verstärkte Ensemblemodelle, die sequenziell Entscheidungsbäume erstellen, um Fehler vorheriger Bäume zu korrigieren, was zu einer verbesserten Leistung bei komplexen Datensätzen mit nichtlinearen Beziehungen führt.


In letzter Zeit besteht großes Interesse an Deep-Learning-Modellen für tabellarische Daten. Einige Methoden führen differenzierbare Näherungen von Entscheidungsfunktionen ein, die in Entscheidungsbäumen verwendet werden, um sie differenzierbar zu machen (Hazimeh et al., 2020; Popov et al., 2019). Diese Methoden übertreffen bei einigen Problemstellungen reine baumbasierte Probleme, sind jedoch nicht durchgängig besser (Gorishniy et al., 2021). Andere Methoden haben Aufmerksamkeitsmechanismen verwendet, um DL-Methoden an tabellarische Daten anzupassen (Arik et al., 2019; Huang et al., 2020; Gorishniy et al., 2021; Somepalli et al., 2021; Chen et al., 2022). TabNet (Arik et al., 2019) schlägt einen spärlichen Aufmerksamkeitsmechanismus vor, der in mehreren Schichten gestapelt ist, um die rekursive Aufteilung von Entscheidungsbäumen nachzuahmen. Inspiriert vom Erfolg der Self-Attention-Transformer (Vaswani et al., 2017) in vielen Bereichen (Devlin et al., 2019; Dosovitskiy et al., 2021; Gong et al., 2021) wurden Methoden wie TabTransformer (Huang et al., 2020), FT-Transformer (Gorishniy et al., 2021) und SAINT (Somepalli et al., 2021) vorgeschlagen. TabTransformer bettet alle kategorialen Variablen in einen einheitlichen Einbettungsraum ein, und ein Satz kategorialer Einbettungen wird durch die Schichten der Self-Attention-Transformer geleitet. FT-Transformer erweitert dies noch weiter, indem er durch kontinuierliche Einbettung auch numerische Merkmale berücksichtigt. SAINT baut auf FT-Transformer auf, indem es eine neue Art der Aufmerksamkeit vorschlägt, die Interaktionen zwischen Proben eines Stapels erfasst. Für unsere Problemstellung bietet SAINT jedoch keinen Vorteil gegenüber FT-Transformer, da die Intersample-Aufmerksamkeit nur dann effektiv ist, wenn die Anzahl der Dimensionen im Vergleich zur Anzahl der Samples höher ist. Daher vergleichen wir RCT nicht mit SAINT (Somepalli et al., 2021).


Abbildung 1: (a) Eingangsencoderschicht des Rate Card Transformer. (b) RCT-Architektur