paint-brush
Revelando o poder da autoatenção para previsão de custos de envio: trabalhos relacionadospor@convolution
190 leituras

Revelando o poder da autoatenção para previsão de custos de envio: trabalhos relacionados

Muito longo; Para ler

O novo modelo de IA (Rate Card Transformer) analisa os detalhes do pacote (tamanho, transportadora, etc.) para prever os custos de envio com mais precisão.
featured image - Revelando o poder da autoatenção para previsão de custos de envio: trabalhos relacionados
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

Autores:

(1) P Aditya Sreekar, Amazon e estes autores contribuíram igualmente para este trabalho {[email protected]};

(2) Sahil Verm, Amazon e estes autores contribuíram igualmente para este trabalho {[email protected];}

(3) Varun Madhavan, Instituto Indiano de Tecnologia, Kharagpur. Trabalho realizado durante estágio na Amazon {[email protected]};

(4) Abhishek Persad, Amazon {[email protected]}.

Tabela de links

2. Trabalhos Relacionados

Algoritmos baseados em árvore são amplamente utilizados em aprendizado de máquina para dados tabulares. As árvores de decisão dividem recursivamente os dados em múltiplas partes com base em hiperplanos alinhados aos eixos (Hastie et al., 2009). Random Forests (RF) (Breiman, 2001) e Gradient Boosted Decision Trees (GBDT) (Friedman, 2001) são os conjuntos baseados em árvores mais comumente usados. RF ajusta múltiplas árvores de decisão em subconjuntos aleatórios de dados e calcula a média/pesquisa das previsões para aliviar a característica de sobreajuste das árvores de decisão. GBDT, XGBoost (Chen e Guestrin, 2016) e CatBoost (Prokhorenkova et al., 2018) são modelos de conjunto otimizado que constroem árvores de decisão sequencialmente para corrigir erros cometidos por árvores anteriores, levando a um melhor desempenho em conjuntos de dados complexos com relações não lineares .


Recentemente, tem havido muito interesse em modelos de aprendizagem profunda para dados tabulares. Alguns métodos introduzem aproximações diferenciáveis de funções de decisão usadas em árvores de decisão para torná-las diferenciáveis (Hazimeh et al., 2020; Popov et al., 2019). Esses métodos superam problemas puros baseados em árvore para algumas declarações de problemas, no entanto, eles não são consistentemente melhores (Gorishniy et al., 2021). Outros métodos usaram mecanismos de atenção para adaptar métodos DL a dados tabulares (Arik et al., 2019; Huang et al., 2020; Gorishniy et al., 2021; Somepalli et al., 2021; Chen et al., 2022). TabNet (Arik et al., 2019) propõe um mecanismo de atenção esparsa empilhado em múltiplas camadas para imitar a divisão recursiva de árvores de decisão. Inspirado no sucesso dos transformadores de autoatenção (Vaswani et al., 2017) em muitos domínios (Devlin et al., 2019; Dosovitskiy et al., 2021; Gong et al., 2021), métodos como TabTransformer (Huang et al., 2021) métodos como TabTransformer (Huang et al., 2021). , 2020), FT-Transformer (Gorishniy et al., 2021) e SAINT (Somepalli et al., 2021) foram propostos. TabTransformer incorpora todas as variáveis categóricas em um espaço de incorporação unificado, e uma frase de incorporações categóricas é passada através de camadas de transformador de autoatenção. O FT-Transformer estende isso ainda mais, atendendo também aos recursos numéricos, usando incorporação contínua. SAINT baseia-se no FT-Transformer propondo um novo tipo de atenção que captura interações entre amostras de um lote. No entanto, o SAINT não oferece nenhuma vantagem sobre o FT-Transformer para a definição do nosso problema, porque a atenção interamostra só é eficaz quando o número de dimensões é maior em comparação com o número de amostras, portanto, não comparamos o RCT com o SAINT (Somepalli et al ., 2021).


Figura 1: (a) Camada do codificador de entrada do Rate Card Transformer. (b) Arquitetura RCT


Este artigo está disponível no arxiv sob licença CC BY-NC-ND 4.0 DEED.