paint-brush
Dévoiler le pouvoir de l’auto-attention pour la prévision des coûts d’expédition : résumé et introductionby@convolution

Dévoiler le pouvoir de l’auto-attention pour la prévision des coûts d’expédition : résumé et introduction

Le nouveau modèle d'IA (Rate Card Transformer) analyse les détails du colis (taille, transporteur, etc.) pour prédire plus précisément les frais d'expédition.
featured image - Dévoiler le pouvoir de l’auto-attention pour la prévision des coûts d’expédition : résumé et introduction
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

Auteurs:

(1) P Aditya Sreekar, Amazon et ces auteurs ont contribué à parts égales à ce travail {[email protected]} ;

(2) Sahil Verm, Amazon et ces auteurs ont contribué à parts égales à ce travail {[email protected];}

(3) Varun Madhavan, Institut indien de technologie, Kharagpur. Travail effectué lors d'un stage chez Amazon {[email protected]} ;

(4) Abhishek Persad, Amazone {[email protected]}.

Tableau des liens

Abstrait

Amazon expédie chaque année des milliards de colis à ses clients aux États-Unis. Les frais d'expédition de ces colis sont utilisés le jour de l'expédition (jour 0) pour estimer la rentabilité des ventes. Les systèmes en aval utilisent aujourd’hui des estimations de rentabilité nulles pour prendre des décisions financières, telles que des stratégies de tarification et la radiation de produits déficitaires. Cependant, obtenir des estimations précises des frais d'expédition au jour 0 est complexe pour des raisons telles que le retard dans la facturation du transporteur ou l'enregistrement mensuel des éléments de coûts fixes. Des estimations inexactes des frais d'expédition peuvent conduire à de mauvaises décisions, telles que fixer des prix d'articles trop bas ou trop élevés, ou promouvoir le mauvais produit auprès des clients. Les solutions actuelles pour estimer les coûts d'expédition au jour 0 s'appuient sur des modèles arborescents qui nécessitent des efforts d'ingénierie manuels approfondis. Dans cette étude, nous proposons une nouvelle architecture appelée Rate Card Transformer (RCT) qui utilise l'auto-attention pour coder toutes les informations d'expédition des colis telles que les attributs du colis, les informations sur le transporteur et le plan d'itinéraire. Contrairement à d'autres modèles tabulaires basés sur des transformateurs, RCT a la capacité d'encoder une liste variable de relations un-à-plusieurs d'un envoi, ce qui lui permet de capturer plus d'informations sur un envoi. Par exemple, RCT peut coder les propriétés de tous les produits d'un package. Nos résultats démontrent que les prévisions de coûts faites par l'ECR comportent 28,82 % d'erreurs en moins par rapport au modèle GBDT basé sur les arbres. De plus, le RCT surpasse de 6,08 % le modèle tabulaire de pointe basé sur un transformateur, FTTransformer. Nous illustrons également que le RCT apprend une variété généralisée de la grille tarifaire qui peut améliorer les performances des modèles arborescents.

1. Introduction

Amazon expédie chaque année des milliards de colis à ses clients situés uniquement aux États-Unis. La planification de l'itinéraire de ces colis est effectuée le jour de l'expédition, jour 0. Dans le cadre de ce plan, le coût d'expédition de chaque colis est estimé en décomposant le trajet du colis en étapes plus petites et en calculant le coût de chaque étape à l'aide d'un carte de débit. Les estimations de coûts journaliers sont utilisées pour calculer les estimations initiales de rentabilité à des fins comptables, par exemple l'estimation du profit/de la perte pour chaque article résultant d'une vente spécifique à un client. Ces estimations de rentabilité sont utilisées par plusieurs services en aval pour la prise de décision et la planification.


Cependant, les estimations du jour 0 peuvent différer du coût réel en raison de facteurs tels qu'une configuration incorrecte de la grille tarifaire, des dimensions de colis incorrectes, une adresse de livraison erronée, etc. Des estimations de coûts inexactes entraînent des estimations de rentabilité faussées, ce qui conduit à des décisions financières sous-optimales en aval. systèmes. Par exemple, si les frais d’expédition d’un article sont systématiquement surestimés, l’article pourrait alors être supprimé du catalogue. D’un autre côté, un coût sous-estimé peut conduire les systèmes de tarification à baisser le prix de l’article, entraînant ainsi des pertes. De plus, une estimation inexacte nous amène également à promouvoir de mauvais produits auprès du client, entraînant une mauvaise expérience client. Pour améliorer ces estimations des frais d'expédition, nous proposons un modèle d'apprentissage profond basé sur Transformer qui prédit avec précision les frais d'expédition au jour 0.


Dans le cadre d'une expédition, un colis se caractérise par ses dimensions physiques, son poids et son contenu. Il comprend également des détails sur le transporteur chargé du transport et l'itinéraire prévu. De plus, un colis est associé à un nombre variable d'attributs qui décrivent le ou les articles qu'il contient et les différents frais liés à son expédition. Collectivement, nous appelons ces attributs la grille tarifaire associée au forfait. Pour les ensembles de données tabulaires tels que les cartes tarifaires des forfaits, les modèles arborescents tels que les arbres de décision à gradient boosté (GBDT), XGBoost (Chen et Guestrin, 2016), etc., sont considérés comme des modèles de pointe (SOTA). Cependant, leur efficacité repose en grande partie sur des fonctionnalités d’entrée de haute qualité (Arik et al., 2019), qui peuvent nécessiter une ingénierie approfondie des fonctionnalités. Pour notre cas d'utilisation, ce problème est encore accentué par le fait que le concept cible dépend d'interactions combinatoires d'ordre élevé entre les attributs de la grille tarifaire. Par exemple, si la grille tarifaire est mal configurée pour les grands conteneurs contenant des substances inflammables expédiés de Washington DC à New York par le transporteur ABC, le modèle doit alors apprendre à associer une combinaison de propriétés < taille = grand, article = inflammable, source = Washington , destination = New York, transporteur = ABC > avec un écart élevé entre les coûts estimés et réels. Lorsqu'il s'agit de combinaisons de fonctionnalités, considérer toutes les interactions possibles d'ordre supérieur entre les propriétés du package peut s'avérer peu pratique en raison de l'augmentation exponentielle du nombre d'interactions à chaque augmentation dans l'ordre, conduisant à la malédiction de la dimensionnalité (Bishop, 2006). Un autre inconvénient des modèles arborescents est leur incapacité à gérer une liste de fonctionnalités de longueur variable. Un colis peut contenir plusieurs articles et son coût d'expédition peut être divisé en plusieurs types de frais. Des expériences précédentes ont démontré que l'ajout de fonctionnalités conçues à partir de plusieurs éléments et charges améliorait les performances de GBDT. Cependant, en raison de l'incapacité des modèles arborescents à gérer une liste variable de fonctionnalités, des informations complètes n'ont pas pu être tirées de celles-ci.


Dans cet article, inspiré par le succès récent des transformateurs dans le domaine tabulaire (Huang et al., 2020 ; Somepalli et al., 2021 ; Gorishniy et al., 2021), nous proposons une nouvelle architecture appelée Rate Card Transformer (RCT) pour prédire le coût de l'expédition au jour 0. Le modèle proposé est spécifiquement conçu pour apprendre une intégration de la grille tarifaire associée à un colis. Le RCT exploite les mécanismes d’auto-attention pour capturer efficacement les interdépendances entre les différents composants d’une grille tarifaire en apprenant les interactions entre les fonctionnalités d’entrée. Plus précisément, nos contributions dans ce travail comprennent :


• Proposer une nouvelle architecture, Rate Card Transformer (RCT), qui exploite l'architecture du transformateur pour apprendre une variété de cartes tarifaires et prédire les frais d'expédition au jour 0. De plus, il est démontré que RCT surpasse à la fois les GBDT et l'état de l'art. transformateur tabulaire artistique, FT-Transformer, (Gorishniy et al., 2021) dans la prévision des frais d'expédition.


• Des expériences approfondies sont réalisées pour montrer que les intégrations apprises sont une représentation suffisante de la variété de la grille tarifaire et que les couches d'auto-attention sont des apprenants efficaces en matière d'interaction de fonctionnalités. Des études d'ablation sont réalisées pour analyser l'impact du nombre de couches de transformateur et de têtes d'attention sur les performances du modèle.


Cet article est disponible sur arxiv sous licence CC BY-NC-ND 4.0 DEED.