paint-brush
Dévoiler le pouvoir de l’auto-attention pour la prévision des coûts d’expédition : expériencepar@convolution

Dévoiler le pouvoir de l’auto-attention pour la prévision des coûts d’expédition : expérience

Trop long; Pour lire

Le nouveau modèle d'IA (Rate Card Transformer) analyse les détails du colis (taille, transporteur, etc.) pour prédire plus précisément les frais d'expédition.
featured image - Dévoiler le pouvoir de l’auto-attention pour la prévision des coûts d’expédition : expérience
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

Auteurs:

(1) P Aditya Sreekar, Amazon et ces auteurs ont contribué à parts égales à ce travail {[email protected]} ;

(2) Sahil Verm, Amazon et ces auteurs ont contribué à parts égales à ce travail {[email protected];}

(3) Varun Madhavan, Institut indien de technologie, Kharagpur. Travail effectué lors d'un stage chez Amazon {[email protected]} ;

(4) Abhishek Persad, Amazone {[email protected]}.

Tableau des liens

4. Expériences

Dans cette section, les performances du RCT sont démontrées sur un ensemble de données de colis expédiés en 2022. L'erreur absolue moyenne (MAE) entre les frais d'expédition prévus et réels est sélectionnée comme mesure de performance, car elle est représentative de l'erreur absolue dans termes monétaires. Dans cet article, les valeurs MAE sont normalisées par l'estimation heuristique MAE du jour 0, qui est exprimée en pourcentage MAE (MAE%). Cette métrique met l’accent sur l’amélioration obtenue par rapport à la ligne de base heuristique.


4.1. Montage expérimental

4.1.1. Architecture et hyperamètres


La dimension d'intégration a été fixée à 128 et 6 couches d'encodeurs de transformateur ont été utilisées, chacune avec 16 têtes d'auto-attention. L'optimiseur Adam (Kingma et Ba, 2014) avec un taux d'apprentissage initial de 0,0001 et une taille de lot de 2048 a été utilisé. Pour améliorer la convergence, le taux d'apprentissage a été réduit d'un facteur de 0,7 à chaque fois que la métrique de validation plafonnait. Le code du modèle a été implémenté à l'aide des frameworks PyTorch (Prokhorenkova et al., 2018) et PyTorch Lightning (Falcon et The PyTorch Lightning team, 2019).


4.1.2. Préparation des données


Un ensemble de données de formation de 10 millions de colis a été échantillonné à partir de colis expédiés sur une période de 45 jours en 2022. Les données ont été prétraitées en codant des étiquettes de caractéristiques catégorielles et en normalisant les caractéristiques numériques. L'ensemble de données de test contient tous les colis (sans échantillonnage) qui ont été expédiés au cours d'une semaine distincte et sans chevauchement à partir de 2022.


4.1.3. Méthodes de référence


Nous comparons les performances du RCT à divers modèles avec un niveau de complexité croissant : GBDT, AWS AutoGluon (Erickson et al., 2020), réseau neuronal Feedforward, TabTransformer et FT-Transformer. Pour le modèle GBDT, les caractéristiques numériques n'étaient pas standardisées et le codage cible (Micci-Barreca, 2001) a été utilisé pour coder les caractéristiques catégorielles au lieu du codage par étiquette. AWS AutoGluon a été configuré pour apprendre un ensemble de modèles LightGBM (Ke et al., 2017). Un réseau neuronal à action directe contenant 5 couches a été utilisé, dont l'entrée a été générée en intégrant et en concaténant les caractéristiques de dimension, d'itinéraire et de service. Des implémentations accessibles au public [1] de TabTransformer et FT-Transformer ont été utilisées et tous les hyperparamètres ont été rendus cohérents avec RCT. Étant donné que les lignes de base ne gèrent pas les collections d’articles et de frais, nous avons uniquement utilisé les fonctionnalités de dimension, d’itinéraire et de service.


Tableau 1 : (a) compare les performances de l'ECR par rapport à divers critères de référence, (b) compare les performances de la ligne de base du GBDT avec celles du GBDT formé avec les intégrations RCT. MAE% est calculé comme indiqué dans l’équation 4.


Tableau 2 : Comparaison MAE % entre RCT et FT-Transformer (SOTA pour les modèles d'auto-attention)

4.2. Comparaisons de base

Le tableau 1a compare les ECR aux modèles de référence discutés dans la section 4.1.3. Les modèles du tableau sont organisés par ordre croissant de complexité. Les deux modèles arborescents, GBDT et AutoGluon, fonctionnent à un niveau similaire. Les modèles d'apprentissage profond surpassent systématiquement les modèles arborescents, ce qui indique que l'architecture proposée est efficace pour la prévision des coûts d'expédition. Les modèles basés sur des transformateurs ont des scores MAE% inférieurs à ceux des réseaux neuronaux à action directe, ce qui montre que les transformateurs apprennent une interaction efficace. Le modèle RCT surpasse les deux modèles de transformateur - TabTransformer et FT-Transformer (SOTA), ce qui suggère qu'une architecture personnalisée qui code la structure latente de la grille tarifaire contribue à l'amélioration des performances. Le tableau 2 compare les performances des modèles FT-Transformer et RCT à différentes tailles de modèle. Les résultats montrent que RCT surpasse FT-Transformer dans toutes les tailles de modèles testés, ce qui indique que la structure de la carte tarifaire d'encodage offre des avantages en termes de performances pour différentes capacités de modèle.

4.3. RCT apprend-il à représenter efficacement les tableaux de tarifs ?

Il a été démontré que les transformateurs possèdent de fortes capacités d’apprentissage des représentations dans diverses tâches. Dans cette expérience, nous étudions l'efficacité de la représentation de la grille tarifaire apprise par RCT. Pour évaluer cela, nous comparons les performances de notre modèle GBT avec et sans la représentation apprise de la carte des tarifs comme fonctionnalité d'entrée.


Figure 2 : La figure A teste les graphiques MAE% par rapport au nombre de têtes d'attention. Les tracés de la figure b testent l'écart MAE% et train-val MAE% par rapport au nombre de couches de transformateur. MAE% est calculé comme indiqué dans l’équation 4.


La sortie regroupée de la couche finale du Transformer est traitée comme la représentation apprise de la grille tarifaire. L'ajout de cette fonctionnalité a amélioré les performances du GBDT de 9,79 % (voir le tableau 1b). En outre, il a été observé que même lorsque toutes les fonctionnalités conçues manuellement sont supprimées, le GBDT fonctionne toujours de manière comparable, avec un pourcentage MAE de 69,21 %. Cela indique que les représentations apprises des grilles tarifaires sont non seulement efficaces pour capturer de meilleures informations sur les fonctionnalités, mais constituent également une représentation suffisante de la grille tarifaire du forfait. Cependant, même avec cette fonctionnalité, le GBDT a un MAE% 13,5 % plus élevé que le RCT. Cela est probablement dû au fait que le RCT est formé de bout en bout, tandis que le GBDT utilise les fonctionnalités apprises dans le cadre d'un modèle distinct.

4.4. L'attention personnelle apprend-elle de meilleures interactions que les réseaux neuronaux à rétroaction ?

Dans la section 4.2, il a été observé que les réseaux neuronaux à rétroaction (FF) étaient surpassés par les transformateurs, ce qui conduit à l'hypothèse que l'attention personnelle est un apprenant interactif supérieur. Cette section vise à explorer cette hypothèse plus en profondeur en utilisant FF au lieu de l'auto-attention pour coder les caractéristiques de dimension, d'itinéraire et de service tout en limitant la largeur de l'auto-attention aux seules caractéristiques d'article et de facturation. Les codages de sortie de FF et d'auto-attention sont concaténés et introduits dans une couche FF pour prédire les frais d'expédition. À mesure que la largeur de l’auto-attention diminue, elle ne parvient pas à capturer les interactions entre toutes les fonctionnalités de la carte tarifaire. Le modèle résultant présente un MAE% plus élevé de 64,73 % par rapport aux 55,72 % du RCT. Ces résultats suggèrent que les modèles FF sont des apprenants en interaction inférieurs aux transformateurs.

4.5. Analyse de l'attention personnelle

Dans la section 3.2, nous avons discuté de la compétence des transformateurs dans l’agrégation de fonctionnalités, grâce à l’auto-attention. Dans cette section, des expériences d'ablation sont menées pour analyser l'effet de la profondeur d'attention et du nombre de personnes attentives. L'augmentation du nombre de têtes d'attention permet au modèle d'apprendre des interactions de fonctionnalités plus indépendantes. Pour cette expérience, le



Figure 3 : Cartes thermiques générées à partir de 1. Chaque colonne montre l'importance relative de chaque fonctionnalité dans un en-tête, et chaque colonne correspond à un en-tête différent.


la capacité du modèle est fixée à 128 dimensions, donc une augmentation du nombre de têtes réduit également la complexité des interactions apprises par tête. Ainsi, le choix du nombre optimal d’effectifs est un compromis entre l’apprentissage des interactions indépendantes et la complexité de chaque interaction apprise. Le compromis peut être observé sur la figure 2a, où les performances s'améliorent de 4 têtes à 16 têtes car l'attention apprise par chaque tête est suffisamment complexe. Cependant, les performances se dégradent lorsque le nombre de têtes d’attention passe de 16 à 32, car la complexité des têtes a considérablement diminué, annulant ainsi l’avantage de l’apprentissage d’interactions plus indépendantes.


Nous illustrons ensuite l’effet de l’augmentation de la profondeur d’attention en ajoutant des couches d’encodeurs de transformateur. Des réseaux de transformateurs plus profonds apprennent des interactions d'ordre supérieur plus complexes, améliorant ainsi les performances du modèle, comme observé sur la figure 2b. Cependant, l'augmentation du nombre de couches de 6 à 12 réduit les performances du modèle en raison du surajustement, provoqué par l'augmentation du nombre de paramètres apprenables. Les preuves du surajustement peuvent être trouvées sur la figure 2b, où l'écart entre le train et le val MAE augmente de 30 % lors du passage de 6 à 12 couches.


Figure 4 : Mise à l'échelle de l'ECR avec les données


Enfin, sur la figure 3, nous affichons les cartes thermiques générées à l'aide de l'algorithme 1. Ces cartes thermiques illustrent le nombre de fois où chaque fonctionnalité a été prise en compte dans le cadre des cinq fonctionnalités les plus fréquentées. Chaque colonne correspond à un en-tête et chaque ligne correspond à une fonctionnalité. La carte thermique de gauche a été générée à l'aide de RCT avec nheads = 16, et celle de droite a été générée avec nheads = 4. En comparant les deux cartes thermiques, on peut voir que la figure 3a a moins d'interactions de fonctionnalités actives par colonne, confirmant notre hypothèse selon laquelle un plus grand nombre de têtes d'attention conduit chaque tête à apprendre des interactions indépendantes entre les caractéristiques.

4.6. Comment le Transformer évolue-t-il avec plus de données ?

Pour minimiser les coûts d'expérimentation, toutes les expériences décrites dans cet article ont été menées à l'aide d'un ensemble de données de formation d'une taille de 10 millions. Cependant, il est important d'utiliser le modèle le plus performant ; la taille de l'ensemble de données d'entraînement peut être augmentée pour obtenir des performances optimales.


Pour vérifier l'évolutivité du RCT avec les données, nous avons formé le modèle sur différentes tailles d'ensembles de données de formation et avons représenté les résultats sur la figure 4. Les résultats démontrent que les performances du RCT continuent de s'améliorer avec des ensembles de données plus grands. Par conséquent, nous pouvons nous attendre avec confiance à ce que les modèles formés sur des ensembles de données plus volumineux surpasseront le modèle exploré dans cet article.


Cet article est disponible sur arxiv sous licence CC BY-NC-ND 4.0 DEED.


[1] https://github.com/lucidrains/tab-transformer-pytorc