124 讀數

揭示自注意力机制在运输成本预测中的作用：方法论

经过 Convolution: Leading Authority on Signal Processing2m2024/06/14

太長; 讀書

新的 AI 模型（Rate Card Transformer）分析包裹的详细信息（尺寸、承运人等），以更准确地预测运费。

featured image - 揭示自注意力机制在运输成本预测中的作用：方法论

作者：

（1）P Aditya Sreekar、亚马逊和这些作者对本文做出了同等贡献 {[email protected]}；

（2）Sahil Verm、亚马逊和这些作者对本文做出了同等贡献 {[email protected];}

（3）Varun Madhavan，印度理工学院，Kharagpur。在亚马逊实习期间完成的工作{[email protected]}；

（4）Abhishek Persad，亚马逊{[email protected]}。

链接表

3. 方法论

3.1. 问题陈述

3.2. 背景

Transformer 架构（Vaswani 等人，2017 年）由多个编码器块堆叠而成，其中每个块将一系列嵌入作为输入并输出一系列上下文感知嵌入。编码器块由一个多头自注意力 (MHSA) 层和随后的位置前馈层组成，每层之前都有残差连接和层范数。MHSA 层由多个称为头部的自注意力单元组成，它们学习输入嵌入之间的交互。

然后，输出序列以递归方式通过后续编码器层，使每个连续层都能学习更高阶的特征交互。Transformer 的深度控制着所学习表示的复杂性，因为更深的层可以捕获特征之间更复杂的交互。此外，MHSA 中使用了多个自注意力头，使每个头能够关注不同的特征子空间并学习它们之间的交互，从而累积学习多个独立的特征交互集。

3.3. 费率卡转换器

包裹的价目表由多种特征类型组成，即尺寸、路线、服务、物品和费用（图 1a），其中每种特征类型包含多个数值和分类特征。尺寸、路线和服务特征被称为固定长度特征类型，因为它们每个都有固定数量的特征。使用混合嵌入层 (MEL) 将固定长度特征类型嵌入到标记序列中。例如，尺寸特征 d ∈ S[md, nd] 嵌入到长度为 md + nd 的 d 维标记序列中。MEL 包含多个嵌入块，每个嵌入的特征类型特征都有一个嵌入块。嵌入查找表用于嵌入分类特征，而数值特征则使用连续嵌入块嵌入，如 (Gorishniy et al., 2021) 中所述。

特征标记序列作为输入传递到 L Transformer 编码器层堆栈，这些编码器层能够学习特征之间复杂的高阶交互。最后，池化 Transformer 输出被馈送到前馈层以预测运费 Cˆ，如图 1b 所示。

我们将整个架构称为费率卡转换器 (RCT)。RCT 经过训练，可以最小化预测运费和实际运费之间的 L1 损失（公式 3），从而学习动态费率卡的有效表示，使其能够准确预测运费。

该论文可在 arxiv 上根据 CC BY-NC-ND 4.0 DEED 许可获取。

L O A D I N G
. . . comments & more!

About Author

Convolution: Leading Authority on Signal Processing@convolution

Publications in convolution, driving breakthroughs in signal processing and artificial intelligence.

Read my stories

这篇文章刊登在...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

揭示自注意力机制在运输成本预测中的作用：方法论

太長; 讀書

链接表

3. 方法论

3.1. 问题陈述

3.2. 背景

3.3. 费率卡转换器

About Author

標籤

这篇文章刊登在...

相關故事