Autores:
(1) P Aditya Sreekar, Amazon e estes autores contribuíram igualmente para este trabalho {[email protected]};
(2) Sahil Verm, Amazon e estes autores contribuíram igualmente para este trabalho {[email protected];}
(3) Varun Madhavan, Instituto Indiano de Tecnologia, Kharagpur. Trabalho realizado durante estágio na Amazon {[email protected]};
(4) Abhishek Persad, Amazon {[email protected]}.
A arquitetura do Transformer (Vaswani et al., 2017) é construída empilhando vários blocos codificadores, onde cada bloco recebe uma sequência de embeddings como entrada e gera uma sequência de embeddings sensíveis ao contexto. O bloco codificador consiste em uma camada de autoatenção de múltiplas cabeças (MHSA) seguida por uma camada de alimentação direta posicionada, com conexões residuais e norma de camada antes de cada camada. A camada MHSA compreende múltiplas unidades de autoatenção chamadas cabeças, que aprendem as interações entre os embeddings de entrada.
A sequência de saída é então passada recursivamente pelas camadas codificadoras subsequentes, permitindo que cada camada sucessiva aprenda interações de recursos de ordem superior. A profundidade do transformador controla a complexidade da representação aprendida, à medida que camadas mais profundas capturam interações mais complexas entre recursos. Além disso, vários chefes de autoatenção são usados no MHSA, permitindo que cada chefe atenda a diferentes subespaços de recursos e aprenda interações entre eles, aprendendo cumulativamente vários conjuntos independentes de interações de recursos.
A tabela de preços de um pacote consiste em vários tipos de recursos, nomeadamente dimensional, rota, serviço, item e cobrança (Fig. 1a), onde cada tipo de recurso compreende vários recursos numéricos e categóricos. Os recursos dimensionais, de rota e de serviço são chamados de tipos de recursos de comprimento fixo, porque cada um deles possui um número fixo de recursos. Os tipos de recursos de comprimento fixo são incorporados a uma sequência de tokens usando uma camada de incorporação mista (MEL). Por exemplo, recursos dimensionais d ∈ S[md, nd] são incorporados a uma sequência de token d-dimensional de comprimento md + nd. O MEL contém vários blocos de incorporação, um para cada recurso no tipo de recurso que está sendo incorporado. Tabelas de pesquisa de incorporação são usadas para incorporar recursos categóricos, enquanto recursos numéricos são incorporados usando blocos de incorporação contínua, conforme apresentado em (Gorishniy et al., 2021).
A sequência de tokens de recursos é passada como entrada para uma pilha de camadas codificadoras do L Transformer que são capazes de aprender interações complexas e de ordem superior entre os recursos. Finalmente, a saída agrupada do Transformador é alimentada em uma camada feedforward para prever o custo de envio Cˆ, como mostrado na Fig.
Chamamos a arquitetura completa de Rate Card Transformer (RCT). Treinado para minimizar a perda L1 entre o custo de envio previsto e o real (Equação 3), o RCT aprende uma representação eficaz da tabela de preços dinâmica que lhe permite prever com precisão o custo de envio.
Este artigo está disponível no arxiv sob licença CC BY-NC-ND 4.0 DEED.