paint-brush
Dévoiler le pouvoir de l’auto-attention pour la prévision des coûts d’expédition : travaux connexespar@convolution
190 lectures

Dévoiler le pouvoir de l’auto-attention pour la prévision des coûts d’expédition : travaux connexes

Trop long; Pour lire

Le nouveau modèle d'IA (Rate Card Transformer) analyse les détails du colis (taille, transporteur, etc.) pour prédire plus précisément les frais d'expédition.
featured image - Dévoiler le pouvoir de l’auto-attention pour la prévision des coûts d’expédition : travaux connexes
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

Auteurs:

(1) P Aditya Sreekar, Amazon et ces auteurs ont contribué à parts égales à ce travail {[email protected]} ;

(2) Sahil Verm, Amazon et ces auteurs ont contribué à parts égales à ce travail {[email protected];}

(3) Varun Madhavan, Institut indien de technologie, Kharagpur. Travail effectué lors d'un stage chez Amazon {[email protected]} ;

(4) Abhishek Persad, Amazone {[email protected]}.

Tableau des liens

2. Travaux connexes

Les algorithmes basés sur des arbres sont largement utilisés dans l'apprentissage automatique pour les données tabulaires. Les arbres de décision divisent récursivement les données en plusieurs parties basées sur des hyper-plans alignés sur des axes (Hastie et al., 2009). Les forêts aléatoires (RF) (Breiman, 2001) et les arbres de décision à gradient boosté (GBDT) (Friedman, 2001) sont les ensembles arborescents les plus couramment utilisés. RF ajuste plusieurs arbres de décision sur des sous-ensembles aléatoires de données et fait la moyenne/interroge les prédictions pour atténuer la caractéristique de surajustement des arbres de décision. GBDT, XGBoost (Chen et Guestrin, 2016) et CatBoost (Prokhorenkova et al., 2018) sont des modèles d'ensemble améliorés qui construisent séquentiellement des arbres de décision pour corriger les erreurs commises par les arbres précédents, conduisant à une amélioration des performances sur des ensembles de données complexes avec des relations non linéaires. .


Récemment, les modèles d’apprentissage profond pour les données tabulaires ont suscité beaucoup d’intérêt. Certaines méthodes introduisent des approximations différentiables des fonctions de décision utilisées dans les arbres de décision pour les rendre différentiables (Hazimeh et al., 2020 ; Popov et al., 2019). Ces méthodes surpassent les problèmes purement arborescents pour certains énoncés de problèmes, mais elles ne sont pas systématiquement meilleures (Gorishniy et al., 2021). D'autres méthodes ont utilisé des mécanismes d'attention pour adapter les méthodes DL aux données tabulaires (Arik et al., 2019 ; Huang et al., 2020 ; Gorishniy et al., 2021 ; Somepalli et al., 2021 ; Chen et al., 2022). TabNet (Arik et al., 2019) propose un mécanisme d'attention clairsemé qui est empilé en plusieurs couches pour imiter la division récursive des arbres de décision. Inspirées du succès des transformateurs d'attention personnelle (Vaswani et al., 2017) dans de nombreux domaines (Devlin et al., 2019 ; Dosovitskiy et al., 2021 ; Gong et al., 2021), des méthodes comme TabTransformer (Huang et al. , 2020), FT-Transformer (Gorishniy et al., 2021) et SAINT (Somepalli et al., 2021) ont été proposés. TabTransformer intègre toutes les variables catégorielles dans un espace d'intégration unifié, et une phrase d'intégrations catégorielles est transmise à travers les couches de transformateur d'auto-attention. FT-Transformer étend encore cela en s'occupant également des fonctionnalités numériques, en utilisant l'intégration continue. SAINT s'appuie sur FT-Transformer en proposant un nouveau type d'attention qui capture les interactions entre les échantillons d'un lot. Cependant, SAINT n'offre aucun avantage sur FT-Transformer pour notre énoncé du problème, car l'attention inter-échantillons n'est efficace que lorsque le nombre de dimensions est plus élevé par rapport au nombre d'échantillons, nous ne comparons donc pas RCT à SAINT (Somepalli et al. ., 2021).


Figure 1 : (a) Couche d'encodeur d'entrée du transformateur de carte tarifaire. (b) Architecture des ECR


Cet article est disponible sur arxiv sous licence CC BY-NC-ND 4.0 DEED.