tác giả:
(1) P Aditya Sreekar, Amazon và các tác giả này đã đóng góp như nhau cho tác phẩm này {[email protected]};
(2) Sahil Verm, Amazon và các tác giả này đã đóng góp như nhau cho tác phẩm này {[email protected];}
(3) Varun Madhavan, Viện Công nghệ Ấn Độ, Kharagpur. Công việc được thực hiện trong thời gian thực tập tại Amazon {[email protected]};
(4) Abhishek Persad, Amazon {[email protected]}.
Các thuật toán dựa trên cây được sử dụng rộng rãi trong học máy cho dữ liệu dạng bảng. Cây quyết định phân chia dữ liệu một cách đệ quy thành nhiều phần dựa trên các siêu mặt phẳng được căn chỉnh theo trục (Hastie et al., 2009). Rừng ngẫu nhiên (RF) (Breiman, 2001) và Cây quyết định tăng cường độ dốc (GBDT) (Friedman, 2001) là những quần thể dựa trên cây được sử dụng phổ biến nhất. RF phù hợp với nhiều cây quyết định trên các tập hợp con ngẫu nhiên của dữ liệu và tính trung bình/thăm dò các dự đoán để giảm bớt đặc tính quá khớp của cây quyết định. GBDT, XGBoost (Chen và Guestrin, 2016) và CatBoost (Prokhorenkova và cộng sự, 2018) là các mô hình tập hợp được tăng cường nhằm xây dựng cây quyết định một cách tuần tự để sửa lỗi do cây trước đó gây ra, dẫn đến cải thiện hiệu suất trên các tập dữ liệu phức tạp có quan hệ phi tuyến tính .
Gần đây, có rất nhiều sự quan tâm đến các mô hình deep learning cho dữ liệu dạng bảng. Một số phương pháp đưa ra các phép tính gần đúng khả vi của các hàm quyết định được sử dụng trong cây quyết định để làm cho chúng có khả vi (Hazimeh và cộng sự, 2020; Popov và cộng sự, 2019). Những phương pháp này hoạt động tốt hơn bài toán dựa trên cây thuần túy đối với một số báo cáo bài toán, tuy nhiên, chúng không nhất quán tốt hơn (Gorishniy và cộng sự, 2021). Các phương pháp khác đã sử dụng cơ chế chú ý để điều chỉnh phương pháp DL với dữ liệu dạng bảng (Arik và cộng sự, 2019; Huang và cộng sự, 2020; Gorishniy và cộng sự, 2021; Somepalli và cộng sự, 2021; Chen và cộng sự, 2022). TabNet (Arik và cộng sự, 2019) đề xuất một cơ chế chú ý thưa thớt được xếp chồng lên nhau thành nhiều lớp để mô phỏng quá trình phân chia đệ quy của cây quyết định. Lấy cảm hứng từ sự thành công của phương pháp biến đổi sự chú ý (Vaswani và cộng sự, 2017) trong nhiều lĩnh vực (Devlin và cộng sự, 2019; Dosovitskiy và cộng sự, 2021; Gong và cộng sự, 2021) như các phương pháp TabTransformer (Huang et al. , 2020), FT-Transformer (Gorishniy và cộng sự, 2021) và SAINT (Somepalli và cộng sự, 2021) đã được đề xuất. TabTransformer nhúng tất cả các biến phân loại vào một không gian nhúng thống nhất và một câu nhúng phân loại được truyền qua các lớp biến áp tự chú ý. FT-Transformer tiếp tục mở rộng điều này bằng cách chú ý đến các tính năng số bằng cách sử dụng tính năng nhúng liên tục. SAINT xây dựng trên FT-Transformer bằng cách đề xuất một loại sự chú ý mới giúp thu hút sự tương tác giữa các mẫu trong một lô. Tuy nhiên, SAINT không mang lại bất kỳ lợi thế nào so với FT-Transformer trong báo cáo vấn đề của chúng tôi, bởi vì sự chú ý giữa các mẫu chỉ có hiệu quả khi số lượng thứ nguyên cao hơn so với số lượng mẫu, do đó chúng tôi không so sánh RCT với SAINT (Somepalli et al ., 2021).
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-ND 4.0 DEED.