paint-brush
Dévoiler le pouvoir de l’auto-attention pour la prévision des coûts d’expédition : méthodologiepar@convolution

Dévoiler le pouvoir de l’auto-attention pour la prévision des coûts d’expédition : méthodologie

Trop long; Pour lire

Le nouveau modèle d'IA (Rate Card Transformer) analyse les détails du colis (taille, transporteur, etc.) pour prédire plus précisément les frais d'expédition.
featured image - Dévoiler le pouvoir de l’auto-attention pour la prévision des coûts d’expédition : méthodologie
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

Auteurs:

(1) P Aditya Sreekar, Amazon et ces auteurs ont contribué à parts égales à ce travail {[email protected]} ;

(2) Sahil Verm, Amazon et ces auteurs ont contribué à parts égales à ce travail {[email protected];}

(3) Varun Madhavan, Institut indien de technologie, Kharagpur. Travail effectué lors d'un stage chez Amazon {[email protected]} ;

(4) Abhishek Persad, Amazone {[email protected]}.

Tableau des liens

3. Méthodologie

3.1. Énoncé du problème

3.2. Arrière-plan

L'architecture Transformer (Vaswani et al., 2017) est construite en empilant plusieurs blocs d'encodeur, où chaque bloc prend une séquence d'intégrations en entrée et génère une séquence d'intégrations contextuelles. Le bloc d'encodeur se compose d'une couche d'auto-attention multi-têtes (MHSA) suivie d'une couche d'anticipation par position, avec des connexions résiduelles et une norme de couche avant chaque couche. La couche MHSA comprend plusieurs unités d'auto-attention appelées têtes, qui apprennent les interactions entre les intégrations d'entrée.




La séquence de sortie est ensuite transmise de manière récursive à travers les couches d'encodeurs suivantes, permettant à chaque couche successive d'apprendre les interactions de fonctionnalités d'ordre supérieur. La profondeur du transformateur contrôle la complexité de la représentation apprise, car les couches plus profondes capturent des interactions plus complexes entre les entités. De plus, plusieurs têtes d'auto-attention sont utilisées dans MHSA, permettant à chaque tête de s'occuper de différents sous-espaces de fonctionnalités et d'apprendre les interactions entre eux, apprenant de manière cumulative plusieurs ensembles indépendants d'interactions de fonctionnalités.

3.3. Transformateur de carte tarifaire

La grille tarifaire d'un forfait comprend plusieurs types de fonctionnalités, à savoir la dimension, l'itinéraire, le service, l'article et les frais (Fig. 1a), où chaque type de fonctionnalité comprend plusieurs fonctionnalités numériques et catégorielles. Les entités dimensionnelles, d'itinéraire et de service sont appelées types d'entités de longueur fixe, car chacune d'entre elles possède un nombre fixe d'entités. Les types d'entités de longueur fixe sont intégrés à une séquence de jetons à l'aide d'une couche d'intégration mixte (MEL). Par exemple, les caractéristiques dimensionnelles d ∈ S[md, nd] sont intégrées dans une séquence de jetons d-dimensionnelle de longueur md + nd. Le MEL contient plusieurs blocs d’intégration, un pour chaque fonctionnalité du type de fonctionnalité à intégrer. Les tables de recherche d'intégration sont utilisées pour intégrer des fonctionnalités catégorielles, tandis que les fonctionnalités numériques sont intégrées à l'aide de blocs d'intégration continus, comme introduit dans (Gorishniy et al., 2021).



La séquence de jetons de fonctionnalités est transmise en entrée à une pile de couches d'encodeurs L Transformer qui sont capables d'apprendre des interactions complexes d'ordre supérieur entre les fonctionnalités. Enfin, la sortie regroupée du transformateur est transmise à une couche de rétroaction pour prédire le coût d'expédition Cˆ, comme le montre la figure 1b.


Nous appelons l’architecture complète le Rate Card Transformer (RCT). Formé pour minimiser la perte L1 entre les frais d'expédition prévus et réels (équation 3), RCT apprend une représentation efficace de la grille tarifaire dynamique qui lui permet de prédire avec précision les frais d'expédition.



Cet article est disponible sur arxiv sous licence CC BY-NC-ND 4.0 DEED.