paint-brush
Die Macht der Selbstaufmerksamkeit zur Vorhersage von Versandkosten enthüllen: Experimentvon@convolution

Die Macht der Selbstaufmerksamkeit zur Vorhersage von Versandkosten enthüllen: Experiment

Zu lang; Lesen

Das neue KI-Modell (Rate Card Transformer) analysiert Paketdetails (Größe, Spediteur usw.), um die Versandkosten genauer vorherzusagen.
featured image - Die Macht der Selbstaufmerksamkeit zur Vorhersage von Versandkosten enthüllen: Experiment
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

Autoren:

(1) P Aditya Sreekar, Amazon und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen {[email protected]};

(2) Sahil Verm, Amazon und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen {[email protected];}

(3) Varun Madhavan, Indian Institute of Technology, Kharagpur. Arbeit, die während des Praktikums bei Amazon erledigt wurde {[email protected]};

(4) Abhishek Persad, Amazon {[email protected]}.

Linktabelle

4. Experimente

In diesem Abschnitt wird die Leistung des RCT anhand eines Datensatzes von im Jahr 2022 versandten Paketen demonstriert. Der mittlere absolute Fehler (MAE) zwischen den vorhergesagten und tatsächlichen Versandkosten wird als Leistungsmaßstab gewählt, da er den absoluten Fehler in Geldbeträgen repräsentiert. In diesem Dokument werden die MAE-Werte durch den MAE der heuristischen Schätzung von Tag 0 normalisiert, der als MAE-Prozentsatz (MAE %) ausgedrückt wird. Dieser Maßstab betont die gegenüber der heuristischen Basislinie erzielte Verbesserung.


4.1. Versuchsaufbau

4.1.1. Architektur und Hyperameter


Die Einbettungsdimension wurde auf 128 eingestellt und es wurden 6 Transformer-Encoder-Schichten mit jeweils 16 Self-Attention-Köpfen verwendet. Es wurde der Adam Optimizer (Kingma und Ba, 2014) mit einer Startlernrate von 0,0001 und einer Batchgröße von 2048 verwendet. Um die Konvergenz zu verbessern, wurde die Lernrate jedes Mal um den Faktor 0,7 reduziert, wenn die Validierungsmetrik ein Plateau erreichte. Der Modellcode wurde mit den Frameworks PyTorch (Prokhorenkova et al., 2018) und PyTorch Lightning (Falcon und The PyTorch Lightning Team, 2019) implementiert.


4.1.2. Datenaufbereitung


Ein Trainingsdatensatz von 10 Millionen Paketen wurde aus Paketen entnommen, die während eines 45-tägigen Zeitraums im Jahr 2022 versendet wurden. Die Daten wurden vorverarbeitet, indem kategorische Merkmale beschriftet und numerische Merkmale standardisiert wurden. Der Testdatensatz enthält alle Pakete (ohne Stichproben), die während einer separaten, nicht überlappenden Woche im Jahr 2022 versendet wurden.


4.1.3. Benchmark-Methoden


Wir vergleichen die Leistung von RCT mit verschiedenen Modellen mit zunehmendem Komplexitätsgrad: GBDT, AWS AutoGluon (Erickson et al., 2020), Feedforward-Neuralnetzwerk, TabTransformer und FT-Transformer. Für das GBDT-Modell wurden die numerischen Merkmale nicht standardisiert, und zur Kodierung kategorischer Merkmale wurde die Zielkodierung (Micci-Barreca, 2001) anstelle der Labelkodierung verwendet. AWS AutoGluon wurde so konfiguriert, dass es ein Ensemble von LightGBM-Modellen (Ke et al., 2017) lernt. Es wurde ein Feedforward-Neuralnetzwerk mit 5 Schichten verwendet, dessen Input durch Einbettung und Verkettung von Dimensions-, Routen- und Servicefunktionen generiert wurde. Es wurden öffentlich verfügbare Implementierungen [1] von TabTransformer und FT-Transformer verwendet und alle Hyperparameter wurden mit RCT in Einklang gebracht. Da die Baselines keine Sammlungen von Artikeln und Gebühren verarbeiten, haben wir nur Dimensions-, Routen- und Servicefunktionen verwendet.


Tabelle 1: (a) vergleicht die Leistung des RCT mit verschiedenen Benchmarks, (b) vergleicht die Leistung der GBDT-Baseline mit GBDT, das mit RCT-Einbettungen trainiert wurde. MAE% wird wie in Gleichung 4 gezeigt berechnet.


Tabelle 2: MAE%-Vergleich zwischen RCT und FT-Transformer (SOTA für Self-Attention-Modelle)

4.2. Vergleiche der Ausgangssituation

Tabelle 1a vergleicht RCT mit den in Abschnitt 4.1.3 besprochenen Basismodellen. Die Modelle in der Tabelle sind in aufsteigender Reihenfolge der Modellkomplexität angeordnet. Beide baumbasierten Modelle, GBDT und AutoGluon, weisen eine ähnliche Leistung auf. Deep-Learning-Modelle übertreffen baumbasierte Modelle durchweg, was darauf hindeutet, dass die vorgeschlagene Architektur für die Vorhersage von Versandkosten effizient ist. Transformerbasierte Modelle haben niedrigere MAE%-Werte als Feedforward-Neuralnetze, was zeigt, dass Transformer eine effektive Interaktion lernen. Das RCT-Modell übertrifft beide Transformer-Modelle – TabTransformer und FT-Transformer (SOTA), was darauf hindeutet, dass eine benutzerdefinierte Architektur, die die latente Struktur der Preisliste kodiert, zur verbesserten Leistung beiträgt. Tabelle 2 vergleicht die Leistung von FT-Transformer- und RCT-Modellen bei verschiedenen Modellgrößen. Die Ergebnisse zeigen, dass RCT FT-Transformer bei allen getesteten Modellgrößen übertrifft, was darauf hindeutet, dass die Kodierung der Preislistenstruktur Leistungsvorteile bei unterschiedlichen Modellkapazitäten bietet.

4.3. Erlernt RCT die effektive Darstellung von Preislisten?

Transformatoren haben sich bei einer Vielzahl von Aufgaben als stark leistungsfähig erwiesen, was das Lernen von Darstellungen angeht. In diesem Experiment untersuchen wir die Wirksamkeit der durch RCT erlernten Ratecard-Darstellung. Um dies zu bewerten, vergleichen wir die Leistung unseres GBT-Modells mit und ohne die erlernte Ratecard-Darstellung als Eingabefunktion.


Abbildung 2: Abbildung a stellt den MAE%-Testwert gegenüber der Anzahl der Aufmerksamkeitsköpfe dar. Abbildung b stellt den MAE%-Testwert und die MAE%-Lücke zwischen Testwert und Train-Val gegenüber der Anzahl der Transformatorschichten dar. Der MAE%-Wert wird wie in Gleichung 4 dargestellt berechnet.


Die gepoolte Ausgabe der letzten Transformer-Schicht wird als erlernte Darstellung der Preisliste behandelt. Durch das Hinzufügen dieser Funktion wurde die Leistung des GBDT um 9,79 % verbessert (siehe Tabelle 1b). Darüber hinaus wurde beobachtet, dass der GBDT auch dann noch eine vergleichbare Leistung mit einem MAE-Prozentsatz von 69,21 % erbringt, wenn alle manuell entwickelten Funktionen gelöscht werden. Dies zeigt, dass die erlernten Darstellungen von Preislisten nicht nur effektiv sind, um bessere Funktionsinformationen zu erfassen, sondern auch eine ausreichende Darstellung der Paketpreiskarte sind. Doch selbst mit dieser Funktion hat der GBDT einen um 13,5 % höheren MAE-Prozentsatz als der RCT. Dies liegt wahrscheinlich daran, dass der RCT durchgängig trainiert wird, während der GBDT Funktionen verwendet, die als Teil eines separaten Modells erlernt wurden.

4.4. Lernt Selbstaufmerksamkeit bessere Interaktionen als Feedforward-Neuralnetze?

In Abschnitt 4.2 wurde beobachtet, dass Feedforward-(FF)-Neuralnetze von Transformatoren übertroffen wurden, was zu der Hypothese führte, dass Self-Attention ein überlegener Interaktionslerner ist. Dieser Abschnitt zielt darauf ab, diese Hypothese weiter zu untersuchen, indem FF anstelle von Self-Attention verwendet wird, um Dimensions-, Routen- und Servicefunktionen zu kodieren, während die Breite von Self-Attention auf die Artikel- und Gebührenfunktionen beschränkt wird. Die Ausgabekodierungen von FF und Self-Attention werden verknüpft und in eine FF-Schicht eingespeist, um die Versandkosten vorherzusagen. Da die Breite von Self-Attention verringert wird, können die Interaktionen zwischen allen Rate Card-Funktionen nicht erfasst werden. Das resultierende Modell weist einen höheren MAE% von 64,73 % im Vergleich zu den 55,72 % des RCT auf. Diese Ergebnisse legen nahe, dass FF-Modelle im Vergleich zu Transformatoren unterlegene Interaktionslerner sind.

4.5. Analyse der Selbstaufmerksamkeit

In Abschnitt 3.2 haben wir die Leistungsfähigkeit von Transformatoren bei der Merkmalsaggregation aufgrund der Selbstaufmerksamkeit besprochen. In diesem Abschnitt werden Ablationsexperimente durchgeführt, um die Wirkung der Aufmerksamkeitstiefe und der Anzahl der Aufmerksamkeitsköpfe zu analysieren. Durch die Erhöhung der Anzahl der Aufmerksamkeitsköpfe kann das Modell mehr unabhängige Merkmalsinteraktionen lernen. Für dieses Experiment wurde der



Abbildung 3: Aus 1 generierte Heatmaps. Jede Spalte zeigt die relative Bedeutung jedes Merkmals in einer Überschrift und jede Spalte entspricht einer anderen Überschrift.


Die Modellkapazität ist auf 128 Dimensionen festgelegt, sodass eine Erhöhung der Anzahl der Köpfe auch die Komplexität der pro Kopf erlernten Interaktionen verringert. Die Wahl der optimalen Kopfzahl ist daher ein Kompromiss zwischen dem Erlernen unabhängiger Interaktionen und der Komplexität jeder erlernten Interaktion. Der Kompromiss ist in Abb. 2a zu sehen, wo sich die Leistung von 4 auf 16 Köpfe verbessert, da die von jedem Kopf erlernte Aufmerksamkeit komplex genug ist. Die Leistung verschlechtert sich jedoch, wenn die Aufmerksamkeitsköpfe von 16 auf 32 erhöht werden, da die Komplexität der Köpfe erheblich abnimmt, wodurch der Vorteil des Erlernens von mehr unabhängigen Interaktionen zunichte gemacht wird.


Als Nächstes veranschaulichen wir die Auswirkungen einer Erhöhung der Aufmerksamkeitstiefe durch Hinzufügen von Transformer-Encoder-Schichten. Tiefere Transformer-Netzwerke lernen komplexere Interaktionen höherer Ordnung und verbessern dadurch die Leistung des Modells, wie in Abb. 2b zu sehen ist. Eine Erhöhung der Anzahl der Schichten von 6 auf 12 verringert jedoch die Leistung des Modells aufgrund von Überanpassung, die durch den Anstieg der Anzahl lernbarer Parameter verursacht wird. Der Beweis für Überanpassung findet sich in Abb. 2b, wo die Lücke zwischen Train- und Val-MAE beim Wechsel von 6 auf 12 Schichten um 30 % zunimmt.


Abbildung 4: Skalierung von RCT mit Daten


Schließlich zeigen wir in Abb. 3 die Heatmaps, die mit Algorithmus 1 erstellt wurden. Diese Heatmaps zeigen, wie oft jedes Merkmal als Teil der fünf am häufigsten beachteten Merkmale beachtet wurde. Jede Spalte entspricht einem Kopf und jede Zeile entspricht einem Merkmal. Die Heatmap auf der linken Seite wurde mit RCT mit nheads = 16 erstellt, die auf der rechten mit nheads = 4. Beim Vergleich der beiden Heatmaps ist zu erkennen, dass Abb. 3a weniger aktive Merkmalsinteraktionen pro Spalte aufweist, was unsere Hypothese bestätigt, dass eine größere Anzahl von Aufmerksamkeitsköpfen dazu führt, dass jeder Kopf unabhängige Interaktionen zwischen Merkmalen lernt.

4.6. Wie skaliert der Transformer mit mehr Daten?

Um die Experimentierkosten zu minimieren, wurden alle Experimente in diesem Dokument mit einem Trainingsdatensatz von 10 Millionen durchgeführt. Es ist jedoch wichtig, das leistungsstärkste Modell zu verwenden. Die Größe des Trainingsdatensatzes kann erhöht werden, um eine optimale Leistung zu erzielen.


Um die Skalierbarkeit von RCT mit Daten zu überprüfen, haben wir das Modell mit unterschiedlich großen Trainingsdatensätzen trainiert und die Ergebnisse in Abb. 4 dargestellt. Die Ergebnisse zeigen, dass sich die Leistung von RCT mit größeren Datensätzen weiter verbessert. Daher können wir davon ausgehen, dass Modelle, die mit größeren Datensätzen trainiert wurden, das in diesem Artikel untersuchte Modell übertreffen werden.



[1] https://github.com/lucidrains/tab-transformer-pytorc