paint-brush
Revelando el poder de la autoatención para la predicción de costos de envío: resumen e introducciónpor@convolution

Revelando el poder de la autoatención para la predicción de costos de envío: resumen e introducción

Demasiado Largo; Para Leer

El nuevo modelo de IA (Rate Card Transformer) analiza los detalles del paquete (tamaño, transportista, etc.) para predecir los costos de envío con mayor precisión.
featured image - Revelando el poder de la autoatención para la predicción de costos de envío: resumen e introducción
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

Autores:

(1) P Aditya Sreekar, Amazon y estos autores contribuyeron igualmente a este trabajo {[email protected]};

(2) Sahil Verm, Amazon y estos autores contribuyeron igualmente a este trabajo {[email protected];}

(3) Varun Madhavan, Instituto Indio de Tecnología, Kharagpur. Trabajo realizado durante la pasantía en Amazon {[email protected]};

(4) Abhishek Persad, Amazon {[email protected]}.

Tabla de enlaces

Abstracto

Amazon envía miles de millones de paquetes a sus clientes anualmente dentro de los Estados Unidos. El costo de envío de estos paquetes se utiliza el día de envío (día 0) para estimar la rentabilidad de las ventas. Los sistemas downstream utilizan estimaciones de rentabilidad de estos días 0 para tomar decisiones financieras, como estrategias de fijación de precios y exclusión de la lista de productos que generan pérdidas. Sin embargo, obtener estimaciones precisas de los costos de envío el día 0 es complejo por razones como demoras en la facturación del transportista o componentes de costos fijos que se registran con una cadencia mensual. Las estimaciones inexactas de los costos de envío pueden llevar a malas decisiones, como poner precios a los artículos demasiado bajos o altos, o promocionar el producto incorrecto entre los clientes. Las soluciones actuales para estimar los costos de envío el día 0 se basan en modelos basados en árboles que requieren grandes esfuerzos de ingeniería manual. En este estudio, proponemos una arquitectura novedosa llamada Rate Card Transformer (RCT) que utiliza la autoatención para codificar toda la información de envío del paquete, como los atributos del paquete, la información del transportista y el plan de ruta. A diferencia de otros modelos tabulares basados en transformadores, RCT tiene la capacidad de codificar una lista variable de relaciones de uno a muchos de un envío, lo que le permite capturar más información sobre un envío. Por ejemplo, RCT puede codificar propiedades de todos los productos de un paquete. Nuestros resultados demuestran que las predicciones de costos realizadas por el RCT tienen un 28,82% menos de error en comparación con el modelo GBDT basado en árboles. Además, el RCT supera al modelo tabular basado en transformadores de última generación, FTTransformer, en un 6,08%. También ilustramos que el RCT aprende una variedad generalizada de la hoja de tarifas que puede mejorar el rendimiento de los modelos basados en árboles.

1. Introducción

Amazon envía paquetes por valor del orden de miles de millones anualmente a sus clientes sólo en Estados Unidos. La planificación de ruta para estos paquetes se realiza el día del envío, el día 0. Como parte de este plan, el costo de envío de cada paquete se estima dividiendo el viaje del paquete en tramos más pequeños y calculando el costo de cada tramo utilizando un tarjeta de tarifa. Las estimaciones de costos diarios se utilizan para calcular estimaciones iniciales de rentabilidad con fines contables, por ejemplo, la estimación de ganancias/pérdidas para cada artículo como resultado de una venta específica a un cliente. Estas estimaciones de rentabilidad son utilizadas por varios servicios posteriores para la toma de decisiones y la planificación.


Sin embargo, las estimaciones del día 0 pueden diferir del costo real debido a factores como una configuración inadecuada de la hoja de tarifas, dimensiones incorrectas del paquete, dirección de entrega incorrecta, etc. Las estimaciones de costos inexactas causan estimaciones de rentabilidad sesgadas, lo que a su vez conduce a decisiones financieras subóptimas por parte de los productores. sistemas. Por ejemplo, si el costo de envío de un artículo se sobreestima constantemente, entonces el artículo podría eliminarse del catálogo. Por otro lado, la subestimación del costo puede llevar a que los sistemas de fijación de precios bajen el precio del artículo, generando pérdidas. Además, una estimación inexacta también nos lleva a promocionar productos incorrectos al cliente, lo que provoca una mala experiencia del cliente. Para mejorar estas estimaciones de costos de envío, proponemos un modelo de aprendizaje profundo basado en Transformer que predice con precisión el costo de envío el día 0.


En el contexto del envío, un paquete se caracteriza por sus dimensiones físicas, peso y contenido. También incluye detalles sobre el transportista responsable de transportarlo y la ruta prevista. Además, un paquete está asociado con un número variable de atributos que describen los artículos que contiene y los diversos cargos relacionados con su envío. En conjunto, nos referimos a estos atributos como la hoja de tarifas asociada con el paquete. Para conjuntos de datos tabulares como hojas de tarifas de paquetes, los modelos basados en árboles como los árboles de decisión impulsados por gradiente (GBDT), XGBoost (Chen y Guestrin, 2016), etc., se consideran modelos de última generación (SOTA). Sin embargo, su eficacia depende en gran medida de funciones de entrada de alta calidad (Arik et al., 2019), que pueden requerir una ingeniería de funciones exhaustiva. Para nuestro caso de uso, este problema se acentúa aún más por el hecho de que el concepto objetivo depende de interacciones combinatorias de alto orden entre los atributos de la hoja de tarifas. Por ejemplo, si la hoja de tarifas está configurada incorrectamente para contenedores grandes con sustancias inflamables enviadas desde Washington DC a Nueva York por el transportista ABC, entonces el modelo tiene que aprender a asociar la combinación de propiedades < tamaño = grande, artículo = inflamable, fuente = W ashington , destino = Nueva York, transportista = ABC > con alta desviación entre los costos estimados y reales. Cuando se trata de combinaciones de características, considerar todas las posibles interacciones de orden superior entre las propiedades del paquete puede resultar poco práctico debido al aumento exponencial en el número de interacciones con cada aumento en el orden, lo que lleva a la maldición de la dimensionalidad (Bishop, 2006). Otra deficiencia de los modelos basados en árboles es su incapacidad para manejar una lista de características de longitud variable. Un paquete puede contener varios artículos y el costo de envío se puede dividir en varios tipos de cargos. Experimentos anteriores demostraron que agregar funciones diseñadas a partir de múltiples elementos y cargos mejoraba el rendimiento de GBDT. Sin embargo, debido a la incapacidad de los modelos basados en árboles para manejar listas variables de características, no se pudo obtener información completa de ellos.


En este artículo, inspirado en el reciente éxito de los transformadores en el dominio tabular (Huang et al., 2020; Somepalli et al., 2021; Gorishniy et al., 2021), proponemos una arquitectura novedosa llamada Rate Card Transformer (RCT). para predecir el costo del envío el día 0. El modelo propuesto está diseñado específicamente para aprender a incorporar una hoja de tarifas asociada con un paquete. El RCT aprovecha los mecanismos de autoatención para capturar de manera efectiva las interdependencias entre varios componentes en una hoja de tarifas mediante el aprendizaje de las interacciones entre las características de entrada. En concreto, nuestras aportaciones en este trabajo incluyen:


• Proponer una arquitectura novedosa, Rate Card Transformer (RCT), que aprovecha la arquitectura del transformador para aprender una variedad de la hoja de tarifas y predecir el costo de envío el día 0. Además, se demuestra que RCT supera tanto a los GBDT como a los más modernos. transformador tabular de arte, FT-Transformer, (Gorishniy et al., 2021) en la predicción de costos de envío.


• Se realizan extensos experimentos para demostrar que las incorporaciones aprendidas son una representación suficiente de la variedad de la hoja de tarifas, y que las capas de autoatención son aprendices efectivos de interacción de características. Se realizan estudios de ablación para analizar el impacto del número de capas de transformadores y cabezales de atención en el rendimiento del modelo.


Este documento está disponible en arxiv bajo licencia CC BY-NC-ND 4.0 DEED.