Autores:
(1) P Aditya Sreekar, Amazon y estos autores contribuyeron igualmente a este trabajo {[email protected]};
(2) Sahil Verm, Amazon y estos autores contribuyeron igualmente a este trabajo {[email protected];}
(3) Varun Madhavan, Instituto Indio de Tecnología, Kharagpur. Trabajo realizado durante la pasantía en Amazon {[email protected]};
(4) Abhishek Persad, Amazon {[email protected]}.
La arquitectura Transformer (Vaswani et al., 2017) se construye apilando múltiples bloques codificadores, donde cada bloque toma una secuencia de incrustaciones como entrada y genera una secuencia de incrustaciones conscientes del contexto. El bloque codificador consta de una capa de autoatención de cabezales múltiples (MHSA) seguida de una capa de avance de posición, con conexiones residuales y normas de capa antes de cada capa. La capa MHSA comprende múltiples unidades de autoatención llamadas cabezas, que aprenden las interacciones entre las incrustaciones de entrada.
Luego, la secuencia de salida pasa recursivamente a través de capas de codificador posteriores, lo que permite que cada capa sucesiva aprenda interacciones de características de orden superior. La profundidad del transformador controla la complejidad de la representación aprendida, ya que las capas más profundas capturan interacciones más complejas entre características. Además, en MHSA se utilizan múltiples cabezas de autoatención, lo que permite que cada cabeza preste atención a diferentes subespacios de características y aprenda interacciones entre ellos, aprendiendo acumulativamente múltiples conjuntos independientes de interacciones de características.
La hoja de tarifas de un paquete consta de múltiples tipos de características, a saber, dimensionales, de ruta, de servicio, de artículo y de cargo (Fig. 1a), donde cada tipo de característica comprende múltiples características numéricas y categóricas. Las características dimensionales, de ruta y de servicio se denominan tipos de características de longitud fija, porque cada una de ellas tiene un número fijo de características. Los tipos de entidades de longitud fija se incrustan en una secuencia de tokens mediante una capa de incrustación mixta (MEL). Por ejemplo, las características dimensionales d ∈ S[md, nd] están incrustadas en una secuencia de tokens d-dimensional de longitud md + nd. El MEL contiene varios bloques de incrustación, uno para cada característica del tipo de característica que se está incrustando. Las tablas de búsqueda incrustadas se utilizan para incrustar características categóricas, mientras que las características numéricas se incrustan mediante bloques de incrustación continuos, como se presenta en (Gorishniy et al., 2021).
La secuencia de tokens de características se pasa como entrada a una pila de capas de codificador L Transformer que pueden aprender interacciones complejas y de orden superior entre las características. Finalmente, la salida agrupada del transformador se envía a una capa de avance para predecir el costo de envío Cˆ como se muestra en la figura 1b.
A la arquitectura completa la llamamos Rate Card Transformer (RCT). RCT, entrenado para minimizar la pérdida L1 entre el costo de envío previsto y real (Ecuación 3), aprende una representación efectiva de la hoja de tarifas dinámica que le permite predecir con precisión el costo de envío.
Este documento está disponible en arxiv bajo licencia CC BY-NC-ND 4.0 DEED.