Autores:
(1) P Aditya Sreekar, Amazon y estos autores contribuyeron igualmente a este trabajo {[email protected]};
(2) Sahil Verm, Amazon y estos autores contribuyeron igualmente a este trabajo {[email protected];}
(3) Varun Madhavan, Instituto Indio de Tecnología, Kharagpur. Trabajo realizado durante la pasantía en Amazon {[email protected]};
(4) Abhishek Persad, Amazon {[email protected]}.
En este artículo, presentamos un marco novedoso basado en la arquitectura Transformer para predecir los costos de envío el día 0. Nuestro marco propuesto codifica los atributos de envío de un paquete, es decir, la hoja de tarifas del paquete, en un espacio de incrustación uniforme. Luego, estas incorporaciones pasan a través de una capa Transformer, que modela interacciones complejas de orden superior y aprende una representación efectiva de la hoja de tarifas del paquete para predecir los costos de envío. Nuestros resultados experimentales demuestran que el modelo propuesto, llamado RCT, supera al modelo GBDT en un 28,8%. Además, demuestre que el RCT funciona mejor que el transformador FT modelo SOTA para nuestro planteamiento del problema. También mostramos que cuando se agrega la representación de la hoja de tarifas aprendida por RCT al modelo GBDT, su rendimiento mejora en un 12,51 %. Esto subraya el hecho de que RCT es capaz de aprender representaciones suficientes de la información de la hoja de tarifas.
En este trabajo, la información de ruta utilizada se limitó únicamente a los nodos inicial y final. El trabajo futuro podría explorar el uso de Graph Neural Networks para codificar información sobre la ruta completa. Además, el rendimiento del RCT podría mejorarse explorando formas de incluir el ID del elemento como una característica, como el uso de incrustaciones de elementos que están disponibles internamente.
Además, si bien el RCT fue entrenado para predecir solo el costo del envío, se puede modificar para predecir todos los atributos de la factura agregando una capa decodificadora Transformer. Esto permitiría otras aplicaciones como la detección de anomalías en las facturas. Además, investigaciones futuras podrían investigar si las representaciones de paquetes aprendidas por el RCT pueden usarse para mejorar el desempeño de otras tareas relacionadas o para cuantificar la incertidumbre del modelo en cada predicción mediante enfoques como el propuesto en Amini et al. (2019).
Este documento está disponible en arxiv bajo licencia CC BY-NC-ND 4.0 DEED.