作者:
(1)P Aditya Sreekar、亚马逊和这些作者对本文做出了同等贡献 {[email protected]};
(2)Sahil Verm、亚马逊和这些作者对本文做出了同等贡献 {[email protected];}
(3)Varun Madhavan,印度理工学院,Kharagpur。在亚马逊实习期间完成的工作{[email protected]};
(4)Abhishek Persad,亚马逊{[email protected]}。
基于树的算法在表格数据的机器学习中被广泛使用。决策树基于轴对齐的超平面将数据递归地分成多个部分(Hastie 等人,2009 年)。随机森林 (RF)(Breiman,2001 年)和梯度提升决策树 (GBDT)(Friedman,2001 年)是最常用的基于树的集成。RF 在数据的随机子集上拟合多个决策树,并对预测进行平均/轮询,以缓解决策树的过度拟合特性。GBDT、XGBoost(Chen 和 Guestrin,2016 年)和 CatBoost(Prokhorenkova 等人,2018 年)是增强集成模型,它们按顺序构建决策树以纠正先前树的错误,从而提高具有非线性关系的复杂数据集的性能。
最近,人们对表格数据的深度学习模型产生了浓厚的兴趣。一些方法引入了决策树中使用的决策函数的可微分近似值,使其可微分(Hazimeh 等人,2020 年;Popov 等人,2019 年)。对于某些问题陈述,这些方法的表现优于纯基于树的问题,但它们并不总是更好(Gorishniy 等人,2021 年)。其他方法使用注意力机制将 DL 方法适应表格数据(Arik 等人,2019 年;Huang 等人,2020 年;Gorishniy 等人,2021 年;Somepalli 等人,2021 年;Chen 等人,2022 年)。TabNet(Arik 等人,2019 年)提出了一种稀疏注意力机制,该机制堆叠在多层中以模拟决策树的递归分裂。受自注意力转换器 (Vaswani 等人,2017) 在许多领域 (Devlin 等人,2019;Dosovitskiy 等人,2021;Gong 等人,2021) 的成功启发,提出了 TabTransformer (Huang 等人,2020)、FT-Transformer (Gorishniy 等人,2021) 和 SAINT (Somepalli 等人,2021) 等方法。TabTransformer 将所有分类变量嵌入到统一的嵌入空间中,并将分类嵌入的句子传递到自注意力转换器层。FT-Transformer 通过使用连续嵌入进一步扩展了这一点,同时关注数值特征。SAINT 在 FT-Transformer 的基础上提出了一种新的注意力机制,可以捕捉一批样本之间的相互作用。但是,对于我们的问题陈述而言,SAINT 并没有比 FT-Transformer 提供任何优势,因为样本间注意力仅在维数高于样本数时才有效,因此我们不将 RCT 与 SAINT 进行比较(Somepalli 等人,2021 年)。