paint-brush
揭示自注意力机制在运输成本预测中的作用:摘要和简介by@convolution

揭示自注意力机制在运输成本预测中的作用:摘要和简介

新的 AI 模型(Rate Card Transformer)分析包裹的详细信息(尺寸、承运人等),以更准确地预测运费。
featured image - 揭示自注意力机制在运输成本预测中的作用:摘要和简介
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

作者:

(1)P Aditya Sreekar、亚马逊和这些作者对本文做出了同等贡献 {[email protected]};

(2)Sahil Verm、亚马逊和这些作者对本文做出了同等贡献 {[email protected];}

(3)Varun Madhavan,印度理工学院,Kharagpur。在亚马逊实习期间完成的工作{[email protected]};

(4)Abhishek Persad,亚马逊{[email protected]}。

链接表

抽象的

亚马逊每年在美国境内向其客户运送数十亿个包裹。这些包裹的运输成本在运输当天(第 0 天)用于估算销售盈利能力。下游系统利用这些第 0 天的盈利能力估算来制定财务决策,例如定价策略和下架亏损产品。然而,由于承运人发票延迟或固定成本组件按月记录等原因,在第 0 天获得准确的运输成本估算很复杂。不准确的运输成本估算可能导致错误的决策,例如商品定价过低或过高,或向客户推销错误的产品。目前用于估算第 0 天运输成本的解决方案依赖于需要大量手动工程工作的基于树的模型。在这项研究中,我们提出了一种称为 Rate Card Transformer (RCT) 的新型架构,它使用自注意力来编码所有包裹运输信息,例如包裹属性、承运人信息和路线计划。与其他基于转换器的表格模型不同,RCT 能够对货件的一对多关系的变量列表进行编码,从而使其能够捕获有关货件的更多信息。例如,RCT 可以对包裹中所有产品的属性进行编码。我们的结果表明,与基于树的 GBDT 模型相比,RCT 进行的成本预测误差减少了 28.82%。此外,RCT 的表现比最先进的基于 Transformer 的表格模型 FTTransformer 好 6.08%。我们还说明,RCT 学习了价目表的广义流形,这可以提高基于树的模型的性能。

1. 简介

仅在美国,亚马逊每年就向其客户运送数十亿个包裹。这些包裹的路线规划是在发货当天(即第 0 天)完成的。作为该计划的一部分,每个包裹的运输成本是通过将包裹旅程细分为几个较小的航段并使用费率表计算每段航段的成本来估算的。每日成本估算用于计算会计目的的初始盈利能力估算,例如,由于向客户销售特定商品而产生的每件商品的利润/亏损估算。这些盈利能力估算被多个下游服务用于决策和规划。


然而,由于费率卡配置不当、包裹尺寸不正确、送货地址错误等因素,第 0 天的估算成本可能与实际成本不同。不准确的成本估算会导致盈利能力估算出现偏差,进而导致下游系统做出不理想的财务决策。例如,如果某件商品的运费一直被高估,那么该商品可能会从目录中删除。另一方面,低估成本可能导致定价系统降低商品价格,从而造成损失。此外,不准确的估算还会导致我们向客户推销错误的产品,从而导致糟糕的客户体验。为了改进这些运费估算,我们提出了一种基于 Transformer 的深度学习模型,可以准确预测第 0 天的运费。


在运输方面,包裹的特征在于其物理尺寸、重量和内容。它还包括有关负责运输包裹的承运人和预定路线的详细信息。此外,包裹还与数量不定的属性相关联,这些属性描述包裹内的物品以及与其运输相关的各种费用。总的来说,我们将这些属性称为与包裹相关的费率卡。对于包裹费率卡等表格数据集,基于树的模型(如梯度提升决策树 (GBDT)、XGBoost(Chen 和 Guestrin,2016)等)被视为最先进的 (SOTA) 模型。然而,它们的有效性在很大程度上依赖于高质量的输入特征(Arik 等人,2019),这可能需要大量的特征工程。对于我们的用例,由于目标概念依赖于费率卡属性之间的高阶组合交互,这个问题进一步凸显。例如,如果 ABC 承运商从华盛顿特区向纽约运送装有易燃物质的大型集装箱的费率卡配置不当,那么模型必须学习将属性组合 < 尺寸 = 大、物品 = 易燃、来源 = 华盛顿、目的地 = 纽约、承运商 = ABC > 与估计成本和实际成本之间的较大偏差联系起来。在处理特征组合时,考虑包裹属性之间所有可能的高阶交互可能不切实际,因为随着阶数的增加,交互数量呈指数增加,导致维数灾难(Bishop,2006)。基于树的模型的另一个缺点是它们无法处理长度可变的特征列表。一个包裹可能包含多个物品,其运输成本可以分解为多种费用类型。先前的实验表明,添加从多个物品和费用中设计的特征可以提高 GBDT 的性能。但是,由于基于树的模型无法处理可变的特征列表,因此无法从中学习完整的信息。


在本文中,受表格领域 Transformer 近期成功的启发(Huang 等人,2020 年;Somepalli 等人,2021 年;Gorishniy 等人,2021 年),我们提出了一种称为 Rate Card Transformer (RCT) 的新架构来预测第 0 天的运费。所提出的模型专门用于学习与包裹相关的费率卡的嵌入。RCT 利用自注意力机制,通过学习输入特征之间的交互来有效捕捉费率卡中各个组件之间的相互依赖关系。具体来说,我们在这项工作中的贡献包括:


• 提出一种新颖的架构,费率卡变压器 (RCT),它利用变压器架构来学习费率卡的流形,以预测第 0 天的运费。此外,事实证明,RCT 在运费预测方面优于 GBDT 和最先进的表格变压器 FT-Transformer(Gorishniy 等人,2021 年)。


• 进行了大量的实验,以表明学习到的嵌入是费率卡流形的充分表示,而自注意力层是有效的特征交互学习器。进行了消融研究,以分析 Transformer 层和注意力头的数量对模型性能的影响。