tác giả:
(1) P Aditya Sreekar, Amazon và các tác giả này đã đóng góp như nhau cho tác phẩm này {[email protected]};
(2) Sahil Verm, Amazon và các tác giả này đã đóng góp như nhau cho tác phẩm này {[email protected];}
(3) Varun Madhavan, Viện Công nghệ Ấn Độ, Kharagpur. Công việc được thực hiện trong thời gian thực tập tại Amazon {[email protected]};
(4) Abhishek Persad, Amazon {[email protected]}.
Trong phần này, hiệu suất của RCT được thể hiện trên tập dữ liệu về các gói hàng được vận chuyển vào năm 2022. Sai số tuyệt đối trung bình (MAE) giữa chi phí vận chuyển dự đoán và chi phí vận chuyển thực tế được chọn làm chỉ số hiệu suất vì nó đại diện cho sai số tuyệt đối trong điều kiện tiền tệ. Trong bài báo này, các giá trị MAE được chuẩn hóa bằng MAE của ước tính heuristic ngày 0, được biểu thị bằng phần trăm MAE (MAE%). Số liệu này nhấn mạnh sự cải thiện đạt được so với đường cơ sở heuristic.
4.1.1. Kiến trúc và siêu âm
Kích thước nhúng được đặt thành 128 và 6 lớp bộ mã hóa máy biến áp đã được sử dụng, mỗi lớp có 16 đầu tự chú ý. Trình tối ưu hóa Adam (Kingma và Ba, 2014) với tốc độ học bắt đầu là 0,0001 và kích thước lô 2048 đã được sử dụng. Để cải thiện khả năng hội tụ, tốc độ học đã giảm đi hệ số 0,7 mỗi khi số liệu xác thực ổn định. Mã mô hình được triển khai bằng cách sử dụng khung PyTorch (Prokhorenkova và cộng sự, 2018) và PyTorch Lightning (Falcon và The PyTorch Lightning team, 2019).
4.1.2. Chuẩn bị dữ liệu
Một tập dữ liệu đào tạo gồm 10 triệu gói hàng được lấy mẫu từ các gói hàng được vận chuyển trong khoảng thời gian 45 ngày vào năm 2022. Dữ liệu được xử lý trước bằng cách mã hóa nhãn các đặc điểm phân loại và tiêu chuẩn hóa các đặc điểm số. Tập dữ liệu thử nghiệm chứa tất cả các gói hàng (không lấy mẫu) được vận chuyển trong một tuần riêng biệt, không trùng lặp từ năm 2022.
4.1.3. Phương pháp điểm chuẩn
Chúng tôi so sánh hiệu suất của RCT với các mô hình khác nhau với mức độ phức tạp ngày càng tăng: GBDT, AWS AutoGluon (Erickson và cộng sự, 2020), mạng thần kinh Feedforward, TabTransformer và FT-Transformer. Đối với mô hình GBDT, các đặc điểm số không được chuẩn hóa và mã hóa mục tiêu (Micci-Barreca, 2001) được sử dụng để mã hóa các đặc điểm phân loại thay vì mã hóa nhãn. AWS AutoGluon đã được cấu hình để tìm hiểu một tập hợp các mô hình LightGBM (Ke và cộng sự, 2017). Một mạng thần kinh chuyển tiếp chứa 5 lớp đã được sử dụng, đầu vào được tạo bằng cách nhúng và ghép nối các tính năng kích thước, tuyến đường và dịch vụ. Các triển khai có sẵn công khai [1] của TabTransformer và FT-Transformer đã được sử dụng và tất cả các siêu tham số đều được thực hiện nhất quán với RCT. Vì đường cơ sở không xử lý việc tập hợp các mặt hàng và khoản phí nên chúng tôi chỉ sử dụng các tính năng kích thước, tuyến đường và dịch vụ.
Bảng 1a so sánh RCT với các mô hình cơ sở được thảo luận trong phần 4.1.3. Các mô hình trong bảng được sắp xếp theo thứ tự tăng dần về độ phức tạp của mô hình. Cả hai mô hình dựa trên cây, GBDT và AutoGluon, đều hoạt động ở mức tương tự. Các mô hình học sâu luôn hoạt động tốt hơn các mô hình dựa trên cây, cho thấy kiến trúc được đề xuất có hiệu quả trong việc dự đoán chi phí vận chuyển. Các mô hình dựa trên máy biến áp có điểm MAE% thấp hơn so với mạng thần kinh chuyển tiếp, cho thấy máy biến áp học được sự tương tác hiệu quả. Mô hình RCT hoạt động tốt hơn cả hai mô hình máy biến áp - TabTransformer và FT-Transformer (SOTA), cho thấy rằng kiến trúc tùy chỉnh mã hóa cấu trúc tiềm ẩn của thẻ giá đang góp phần cải thiện hiệu suất. Bảng 2 so sánh hiệu suất của các mô hình FT-Transformer và RCT ở các kích cỡ mô hình khác nhau. Kết quả cho thấy RCT vượt trội hơn FT-Transformer trên tất cả các kích thước mô hình được thử nghiệm, cho thấy rằng cấu trúc thẻ tốc độ mã hóa mang lại lợi ích về hiệu suất trên các dung lượng mô hình khác nhau.
Transformers đã được chứng minh là có khả năng học biểu diễn mạnh mẽ trong nhiều nhiệm vụ khác nhau. Trong thử nghiệm này, chúng tôi điều tra tính hiệu quả của việc trình bày thẻ giá mà RCT đã học được. Để đánh giá điều này, chúng tôi so sánh hiệu suất của mô hình GBT có và không có biểu diễn thẻ giá đã học dưới dạng tính năng đầu vào.
Đầu ra gộp của lớp Transformer cuối cùng được coi là biểu diễn đã học của thẻ giá. Việc thêm tính năng này đã cải thiện hiệu suất của GBDT thêm 9,79% (tham khảo Bảng 1b). Hơn nữa, người ta quan sát thấy rằng ngay cả khi tất cả các tính năng được thiết kế thủ công bị loại bỏ, GBDT vẫn hoạt động tương đối, với tỷ lệ MAE là 69,21%. Điều này chỉ ra rằng cách biểu diễn đã học của thẻ giá không chỉ hiệu quả trong việc nắm bắt thông tin tính năng tốt hơn mà còn thể hiện đầy đủ thẻ giá gói. Tuy nhiên, ngay cả với tính năng này, GBDT vẫn có MAE% cao hơn 13,5% so với RCT. Điều này có thể là do RCT được đào tạo từ đầu đến cuối, trong khi GBDT sử dụng các tính năng đã học được như một phần của một mô hình riêng biệt.
Trong phần 4.2, người ta đã quan sát thấy rằng mạng lưới thần kinh chuyển tiếp (FF) hoạt động tốt hơn các máy biến áp, dẫn đến giả thuyết rằng khả năng tự chú ý là một phương pháp học tương tác vượt trội. Phần này nhằm mục đích khám phá giả thuyết này hơn nữa bằng cách sử dụng FF thay vì tự chú ý để mã hóa các tính năng kích thước, tuyến đường và dịch vụ đồng thời giới hạn phạm vi tự chú ý chỉ đối với các tính năng vật phẩm và tính phí. Mã hóa đầu ra của cả FF và self-attention đều được ghép nối và đưa vào lớp FF để dự đoán chi phí vận chuyển. Khi độ rộng của sự chú ý giảm xuống, nó không thể nắm bắt được sự tương tác giữa tất cả các tính năng của thẻ đánh giá. Mô hình kết quả thể hiện MAE% cao hơn là 64,73% so với 55,72% của RCT. Những kết quả này cho thấy các mô hình FF có khả năng học tương tác kém hơn so với máy biến áp.
Trong phần 3.2, chúng tôi đã thảo luận về mức độ thành thạo của máy biến áp trong việc tổng hợp các tính năng nhờ khả năng tự chú ý. Trong phần này, các thí nghiệm cắt bỏ được tiến hành để phân tích ảnh hưởng của độ sâu chú ý và số lượng đầu chú ý. Việc tăng số lượng đầu chú ý cho phép mô hình tìm hiểu các tương tác tính năng độc lập hơn. Đối với thí nghiệm này,
Dung lượng mô hình được cố định ở 128 chiều, do đó, việc tăng số lượng đầu cũng làm giảm độ phức tạp của các tương tác học được trên mỗi đầu. Do đó, việc chọn số lượng đầu tối ưu là sự đánh đổi giữa việc học các tương tác độc lập và độ phức tạp của mỗi tương tác đã học. Sự đánh đổi có thể được quan sát trong Hình 2a, trong đó hiệu suất được cải thiện từ 4 đầu lên 16 đầu vì mức độ chú ý mà mỗi đầu học được là đủ phức tạp. Tuy nhiên, hiệu suất giảm khi số đầu chú ý tăng từ 16 lên 32 do độ phức tạp của các đầu đã giảm đáng kể, làm mất đi lợi ích của việc học nhiều tương tác độc lập hơn.
Tiếp theo, chúng tôi minh họa tác động của việc tăng độ sâu chú ý bằng cách thêm các lớp bộ mã hóa máy biến áp. Mạng máy biến áp sâu hơn tìm hiểu các tương tác bậc cao phức tạp hơn, từ đó nâng cao hiệu suất của mô hình, như được quan sát trong Hình 2b. Tuy nhiên, việc tăng số lượng lớp từ 6 lên 12 sẽ làm giảm hiệu suất của mô hình do trang bị quá mức, do số lượng tham số có thể học được tăng lên. Bằng chứng về việc trang bị quá mức có thể được tìm thấy trong Hình 2b, trong đó khoảng cách giữa tàu và val MAE tăng 30% khi di chuyển từ 6 đến 12 lớp.
Cuối cùng, trong Hình 3, chúng tôi hiển thị các bản đồ nhiệt được tạo bằng Thuật toán 1. Các bản đồ nhiệt này minh họa số lần mỗi tính năng được tham gia như một phần của năm tính năng được tham dự nhiều nhất. Mỗi cột tương ứng với một phần đầu và mỗi hàng tương ứng với một tính năng. Bản đồ nhiệt bên trái được tạo bằng RCT với nheads = 16 và bản đồ bên phải được tạo với nheads = 4. So sánh cả hai bản đồ nhiệt, có thể thấy rằng Hình 3a có số lượng tương tác tính năng hoạt động ít hơn trên mỗi bản đồ nhiệt. cột, xác nhận giả thuyết của chúng tôi rằng số lượng đầu chú ý lớn hơn dẫn đến mỗi đầu học tập các tương tác độc lập giữa các tính năng.
Để giảm thiểu chi phí thử nghiệm, tất cả các thử nghiệm trong bài viết này được thực hiện bằng cách sử dụng tập dữ liệu huấn luyện có kích thước 10 triệu. Tuy nhiên, điều quan trọng là sử dụng mô hình hoạt động tốt nhất, kích thước tập dữ liệu huấn luyện có thể tăng lên để đạt được hiệu suất tối ưu.
Để xác minh khả năng mở rộng của RCT bằng dữ liệu, chúng tôi đã đào tạo mô hình trên các kích thước tập dữ liệu huấn luyện khác nhau và vẽ biểu đồ kết quả trong Hình 4. Kết quả chứng minh rằng hiệu suất của RCT tiếp tục được cải thiện với các tập dữ liệu lớn hơn. Do đó, chúng ta có thể tự tin kỳ vọng rằng các mô hình được huấn luyện trên các tập dữ liệu lớn hơn sẽ hoạt động tốt hơn mô hình được khám phá trong bài viết này.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-ND 4.0 DEED.
[1] https://github.com/lucidrains/tab-transformer-pytorc