paint-brush
Revelando el poder de la autoatención para la predicción de costos de envío: trabajos relacionadospor@convolution
190 lecturas

Revelando el poder de la autoatención para la predicción de costos de envío: trabajos relacionados

Demasiado Largo; Para Leer

El nuevo modelo de IA (Rate Card Transformer) analiza los detalles del paquete (tamaño, transportista, etc.) para predecir los costos de envío con mayor precisión.
featured image - Revelando el poder de la autoatención para la predicción de costos de envío: trabajos relacionados
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

Autores:

(1) P Aditya Sreekar, Amazon y estos autores contribuyeron igualmente a este trabajo {[email protected]};

(2) Sahil Verm, Amazon y estos autores contribuyeron igualmente a este trabajo {[email protected];}

(3) Varun Madhavan, Instituto Indio de Tecnología, Kharagpur. Trabajo realizado durante la pasantía en Amazon {[email protected]};

(4) Abhishek Persad, Amazon {[email protected]}.

Tabla de enlaces

2. Trabajos relacionados

Los algoritmos basados en árboles se utilizan ampliamente en el aprendizaje automático para datos tabulares. Los árboles de decisión dividen recursivamente los datos en múltiples partes según hiperplanos alineados con ejes (Hastie et al., 2009). Los bosques aleatorios (RF) (Breiman, 2001) y los árboles de decisión potenciados por gradiente (GBDT) (Friedman, 2001) son los conjuntos basados en árboles más utilizados. RF ajusta múltiples árboles de decisión en subconjuntos aleatorios de datos y promedia/sondea las predicciones para aliviar la característica de sobreajuste de los árboles de decisión. GBDT, XGBoost (Chen y Guestrin, 2016) y CatBoost (Prokhorenkova et al., 2018) son modelos de conjunto mejorados que construyen secuencialmente árboles de decisión para corregir errores cometidos por árboles anteriores, lo que conduce a un mejor rendimiento en conjuntos de datos complejos con relaciones no lineales. .


Recientemente, ha habido mucho interés en los modelos de aprendizaje profundo para datos tabulares. Algunos métodos introducen aproximaciones diferenciables de funciones de decisión utilizadas en árboles de decisión para hacerlos diferenciables (Hazimeh et al., 2020; Popov et al., 2019). Estos métodos superan los problemas basados en árboles puros en algunos planteamientos de problemas; sin embargo, no son consistentemente mejores (Gorishniy et al., 2021). Otros métodos han utilizado mecanismos de atención para adaptar los métodos de DL a datos tabulares (Arik et al., 2019; Huang et al., 2020; Gorishniy et al., 2021; Somepalli et al., 2021; Chen et al., 2022). TabNet (Arik et al., 2019) propone un mecanismo de atención dispersa que se apila en múltiples capas para imitar la división recursiva de árboles de decisión. Inspirándose en el éxito de los transformadores de autoatención (Vaswani et al., 2017) en muchos dominios (Devlin et al., 2019; Dosovitskiy et al., 2021; Gong et al., 2021), métodos como TabTransformer (Huang et al. , 2020), FT-Transformer (Gorishniy et al., 2021) y SAINT (Somepalli et al., 2021). TabTransformer incorpora todas las variables categóricas en un espacio de incrustación unificado, y una oración de incrustaciones categóricas pasa a través de capas transformadoras de atención propia. FT-Transformer amplía aún más esto al prestar atención también a las características numéricas mediante el uso de incrustación continua. SAINT se basa en FT-Transformer al proponer un nuevo tipo de atención que captura las interacciones entre muestras de un lote. Sin embargo, SAINT no proporciona ninguna ventaja sobre FT-Transformer para el planteamiento de nuestro problema, porque la atención entre muestras solo es efectiva cuando el número de dimensiones es mayor en comparación con el número de muestras, por lo que no comparamos RCT con SAINT (Somepalli et al. ., 2021).


Figura 1: (a) Capa de codificador de entrada de Rate Card Transformer. (b) Arquitectura RCT


Este documento está disponible en arxiv bajo licencia CC BY-NC-ND 4.0 DEED.