paint-brush
Die Macht der Selbstaufmerksamkeit zur Vorhersage von Versandkosten enthüllen: Zusammenfassung und Einführungvon@convolution

Die Macht der Selbstaufmerksamkeit zur Vorhersage von Versandkosten enthüllen: Zusammenfassung und Einführung

Zu lang; Lesen

Das neue KI-Modell (Rate Card Transformer) analysiert Paketdetails (Größe, Spediteur usw.), um die Versandkosten genauer vorherzusagen.
featured image - Die Macht der Selbstaufmerksamkeit zur Vorhersage von Versandkosten enthüllen: Zusammenfassung und Einführung
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

Autoren:

(1) P Aditya Sreekar, Amazon und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen {[email protected]};

(2) Sahil Verm, Amazon und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen {[email protected];}

(3) Varun Madhavan, Indian Institute of Technology, Kharagpur. Arbeit, die während des Praktikums bei Amazon erledigt wurde {[email protected]};

(4) Abhishek Persad, Amazon {[email protected]}.

Linktabelle

Abstrakt

Amazon versendet jährlich Milliarden von Paketen an seine Kunden innerhalb der Vereinigten Staaten. Die Versandkosten dieser Pakete werden am Tag des Versands (Tag 0) verwendet, um die Rentabilität der Verkäufe zu schätzen. Downstream-Systeme verwenden diese Rentabilitätsschätzungen für Tag 0, um finanzielle Entscheidungen zu treffen, wie z. B. Preisstrategien und das Aussortieren verlustbringender Produkte. Das Erhalten genauer Versandkostenschätzungen am Tag 0 ist jedoch aufgrund von Gründen wie Verzögerungen bei der Rechnungsstellung durch den Spediteur oder der monatlichen Erfassung von Fixkostenkomponenten komplex. Ungenaue Versandkostenschätzungen können zu schlechten Entscheidungen führen, wie z. B. zu niedrigen oder hohen Preisen für Artikel oder dem Anpreisen des falschen Produkts bei den Kunden. Aktuelle Lösungen zur Schätzung der Versandkosten am Tag 0 basieren auf baumbasierten Modellen, die umfangreiche manuelle Entwicklungsarbeit erfordern. In dieser Studie schlagen wir eine neuartige Architektur namens Rate Card Transformer (RCT) vor, die Self-Attention verwendet, um alle Paketversandinformationen wie Paketattribute, Spediteurinformationen und Routenplan zu kodieren. Im Gegensatz zu anderen transformatorbasierten tabellarischen Modellen kann RCT eine variable Liste von Eins-zu-vielen-Beziehungen einer Sendung kodieren, wodurch mehr Informationen über eine Sendung erfasst werden können. Beispielsweise kann RCT die Eigenschaften aller Produkte in einem Paket kodieren. Unsere Ergebnisse zeigen, dass die von RCT getroffenen Kostenvorhersagen 28,82 % weniger Fehler aufweisen als das baumbasierte GBDT-Modell. Darüber hinaus übertrifft RCT das hochmoderne transformatorbasierte tabellarische Modell FTTransformer um 6,08 %. Wir zeigen auch, dass RCT eine verallgemeinerte Mannigfaltigkeit der Preisliste lernt, die die Leistung baumbasierter Modelle verbessern kann.

1. Einleitung

Allein in den USA versendet Amazon jährlich Pakete in Milliardenhöhe an seine Kunden. Die Routenplanung für diese Pakete erfolgt am Tag des Versands, also am Tag 0. Im Rahmen dieses Plans werden die Versandkosten für jedes Paket geschätzt, indem die Paketreise in kleinere Teilstücke aufgeteilt wird und die Kosten für jedes Teilstück anhand einer Preisliste berechnet werden. Tageskostenschätzungen werden verwendet, um anfängliche Rentabilitätsschätzungen für Buchhaltungszwecke zu berechnen, z. B. die Schätzung des Gewinns/Verlusts für jeden Artikel als Ergebnis eines bestimmten Verkaufs an einen Kunden. Diese Rentabilitätsschätzungen werden von mehreren nachgelagerten Diensten zur Entscheidungsfindung und Planung verwendet.


Die Schätzungen für Tag 0 können jedoch aufgrund von Faktoren wie einer falschen Preislistenkonfiguration, falschen Paketabmessungen, einer falschen Lieferadresse usw. von den tatsächlichen Kosten abweichen. Ungenaue Kostenschätzungen führen zu verzerrten Rentabilitätsschätzungen, was wiederum zu suboptimalen finanziellen Entscheidungen der nachgelagerten Systeme führt. Wenn beispielsweise die Versandkosten eines Artikels ständig überschätzt werden, kann der Artikel aus dem Katalog entfernt werden. Andererseits können unterschätzte Kosten dazu führen, dass Preissysteme den Preis des Artikels senken, was zu Verlusten führt. Darüber hinaus führen ungenaue Schätzungen auch dazu, dass wir dem Kunden falsche Produkte anbieten, was zu einem schlechten Kundenerlebnis führt. Um diese Versandkostenschätzungen zu verbessern, schlagen wir ein auf Transformer basierendes Deep-Learning-Modell vor, das die Versandkosten für Tag 0 genau vorhersagt.


Im Versandkontext wird ein Paket durch seine physischen Abmessungen, sein Gewicht und seinen Inhalt charakterisiert. Es enthält auch Details über den für den Transport verantwortlichen Spediteur und die geplante Route. Darüber hinaus ist ein Paket mit einer variablen Anzahl von Attributen verknüpft, die die darin enthaltenen Artikel und die verschiedenen mit dem Versand verbundenen Kosten beschreiben. Zusammenfassend bezeichnen wir diese Attribute als die mit dem Paket verknüpfte Preisliste. Für tabellarische Datensätze wie Paketpreiskarten gelten baumbasierte Modelle wie Gradient Boosted Decision Trees (GBDT), XGBoost (Chen und Guestrin, 2016) usw. als hochmoderne (SOTA) Modelle. Ihre Wirksamkeit hängt jedoch stark von hochwertigen Eingabefunktionen ab (Arik et al., 2019), die eine umfassende Merkmalsentwicklung erfordern können. Für unseren Anwendungsfall wird dieses Problem noch dadurch verschärft, dass das Zielkonzept von kombinatorischen Interaktionen höherer Ordnung zwischen den Attributen der Preisliste abhängt. Wenn beispielsweise die Tarifliste für große Container mit brennbaren Stoffen, die von Washington DC nach New York per Spediteur ABC versandt werden, falsch konfiguriert ist, muss das Modell lernen, Eigenschaftskombinationen <Größe = groß, Artikel = brennbar, Quelle = Washington, Ziel = New York, Spediteur = ABC> mit großen Abweichungen zwischen geschätzten und tatsächlichen Kosten zu verknüpfen. Bei der Verarbeitung von Merkmalskombinationen kann die Berücksichtigung aller möglichen Interaktionen höherer Ordnung zwischen Paketeigenschaften aufgrund der exponentiellen Zunahme der Anzahl der Interaktionen mit jeder Zunahme der Ordnung unpraktisch sein, was zum Fluch der Dimensionalität führt (Bishop, 2006). Ein weiterer Nachteil baumbasierter Modelle ist ihre Unfähigkeit, eine Liste mit Merkmalen variabler Länge zu verarbeiten. Ein Paket kann mehrere Artikel enthalten und seine Versandkosten können in mehrere Gebührenarten unterteilt werden. Frühere Experimente haben gezeigt, dass das Hinzufügen von Merkmalen, die aus mehreren Artikeln und Gebühren erstellt wurden, die Leistung von GBDT verbesserte. Da baumbasierte Modelle jedoch nicht in der Lage sind, mit variablen Merkmalslisten umzugehen, konnten daraus keine vollständigen Informationen gewonnen werden.


In diesem Artikel schlagen wir, inspiriert vom jüngsten Erfolg von Transformatoren im Tabellenbereich (Huang et al., 2020; Somepalli et al., 2021; Gorishniy et al., 2021), eine neuartige Architektur namens Rate Card Transformer (RCT) vor, um die Versandkosten am Tag 0 vorherzusagen. Das vorgeschlagene Modell ist speziell darauf ausgelegt, eine Einbettung einer mit einem Paket verbundenen Preisliste zu erlernen. Der RCT nutzt Selbstaufmerksamkeitsmechanismen, um die Abhängigkeiten zwischen verschiedenen Komponenten einer Preisliste effektiv zu erfassen, indem er Interaktionen zwischen Eingabefunktionen lernt. Im Einzelnen umfassen unsere Beiträge zu dieser Arbeit:


• Schlagen Sie eine neuartige Architektur vor, den Rate Card Transformer (RCT), der die Transformer-Architektur nutzt, um eine Mannigfaltigkeit der Rate Card zu erlernen und so die Versandkosten am Tag 0 vorherzusagen. Darüber hinaus wird gezeigt, dass RCT bei der Vorhersage von Versandkosten sowohl GBDTs als auch den hochmodernen tabellarischen Transformer FT-Transformer (Gorishniy et al., 2021) übertrifft.


• Es werden umfangreiche Experimente durchgeführt, um zu zeigen, dass die gelernten Einbettungen eine ausreichende Darstellung der Rate Card-Mannigfaltigkeit sind und dass Selbstaufmerksamkeitsschichten effektive Merkmalsinteraktionslerner sind. Es werden Ablationsstudien durchgeführt, um die Auswirkungen der Anzahl der Transformatorschichten und Aufmerksamkeitsköpfe auf die Modellleistung zu analysieren.