paint-brush
揭示自注意力机制在运输成本预测中的作用:方法论经过@convolution

揭示自注意力机制在运输成本预测中的作用:方法论

太長; 讀書

新的 AI 模型(Rate Card Transformer)分析包裹的详细信息(尺寸、承运人等),以更准确地预测运费。
featured image - 揭示自注意力机制在运输成本预测中的作用:方法论
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

作者:

(1)P Aditya Sreekar、亚马逊和这些作者对本文做出了同等贡献 {[email protected]};

(2)Sahil Verm、亚马逊和这些作者对本文做出了同等贡献 {[email protected];}

(3)Varun Madhavan,印度理工学院,Kharagpur。在亚马逊实习期间完成的工作{[email protected]};

(4)Abhishek Persad,亚马逊{[email protected]}。

链接表

3. 方法论

3.1. 问题陈述

3.2. 背景

Transformer 架构(Vaswani 等人,2017 年)由多个编码器块堆叠而成,其中每个块将一系列嵌入作为输入并输出一系列上下文感知嵌入。编码器块由一个多头自注意力 (MHSA) 层和随后的位置前馈层组成,每层之前都有残差连接和层范数。MHSA 层由多个称为头部的自注意力单元组成,它们学习输入嵌入之间的交互。




然后,输出序列以递归方式通过后续编码器层,使每个连续层都能学习更高阶的特征交互。Transformer 的深度控制着所学习表示的复杂性,因为更深的层可以捕获特征之间更复杂的交互。此外,MHSA 中使用了多个自注意力头,使每个头能够关注不同的特征子空间并学习它们之间的交互,从而累积学习多个独立的特征交互集。

3.3. 费率卡转换器

包裹的价目表由多种特征类型组成,即尺寸、路线、服务、物品和费用(图 1a),其中每种特征类型包含多个数值和分类特征。尺寸、路线和服务特征被称为固定长度特征类型,因为它们每个都有固定数量的特征。使用混合嵌入层 (MEL) 将固定长度特征类型嵌入到标记序列中。例如,尺寸特征 d ∈ S[md, nd] 嵌入到长度为 md + nd 的 d 维标记序列中。MEL 包含多个嵌入块,每个嵌入的特征类型特征都有一个嵌入块。嵌入查找表用于嵌入分类特征,而数值特征则使用连续嵌入块嵌入,如 (Gorishniy et al., 2021) 中所述。



特征标记序列作为输入传递到 L Transformer 编码器层堆栈,这些编码器层能够学习特征之间复杂的高阶交互。最后,池化 Transformer 输出被馈送到前馈层以预测运费 Cˆ,如图 1b 所示。


我们将整个架构称为费率卡转换器 (RCT)。RCT 经过训练,可以最小化预测运费和实际运费之间的 L1 损失(公式 3),从而学习动态费率卡的有效表示,使其能够准确预测运费。