Авторы:
(1) П. Адитья Шрикар, Amazon и эти авторы внесли равный вклад в эту работу {[email protected]};
(2) Сахил Верм, Amazon и эти авторы внесли равный вклад в эту работу {[email protected];}
(3) Варун Мадхаван, Индийский технологический институт, Харагпур. Работа, выполненная во время стажировки в Amazon {[email protected]};
(4) Абхишек Персад, Amazon {[email protected]}.
Архитектура Transformer (Васвани и др., 2017) построена путем объединения нескольких блоков кодера, где каждый блок принимает последовательность внедрений в качестве входных данных и выводит последовательность контекстно-зависимых внедрений. Блок кодера состоит из уровня многоголовочного самообслуживания (MHSA), за которым следует уровень позиционной прямой связи с остаточными соединениями и нормой уровня перед каждым слоем. Уровень MHSA состоит из нескольких блоков самообслуживания, называемых головами, которые изучают взаимодействие между входными внедрениями.
Выходная последовательность затем рекурсивно передается через последующие уровни кодера, позволяя каждому последующему уровню изучать взаимодействия функций более высокого порядка. Глубина преобразователя контролирует сложность изученного представления, поскольку более глубокие уровни фиксируют более сложные взаимодействия между функциями. Кроме того, в MHSA используются несколько головок самообслуживания, что позволяет каждой голове заниматься различными подпространствами функций и изучать взаимодействия между ними, совокупно изучая несколько независимых наборов взаимодействий функций.
Прейскурант пакета состоит из нескольких типов функций, а именно: размер, маршрут, услуга, позиция и плата (рис. 1а), где каждый тип функции включает в себя несколько числовых и категориальных функций. Объекты размеров, маршрутов и услуг называются типами объектов фиксированной длины, поскольку каждый из них имеет фиксированное количество объектов. Типы объектов фиксированной длины внедряются в последовательность токенов с использованием смешанного слоя внедрения (MEL). Например, размерные признаки d ∈ S[md, nd] встраиваются в d-мерную последовательность токенов длины md + nd. MEL содержит несколько блоков внедрения, по одному для каждого объекта встраиваемого типа объекта. Таблицы поиска встраивания используются для внедрения категориальных признаков, тогда как числовые признаки встраиваются с использованием непрерывных блоков встраивания, как описано в (Горишный и др., 2021).
Последовательность токенов объектов передается в качестве входных данных в стек слоев кодировщика L Transformer, которые способны изучать сложные взаимодействия более высокого порядка между объектами. Наконец, объединенные выходные данные трансформатора подаются на уровень прямой связи для прогнозирования стоимости доставки Cˆ, как показано на рис. 1b.
Мы называем всю архитектуру преобразователем тарифных карт (RCT). Обученный минимизировать потерю L1 между прогнозируемой и фактической стоимостью доставки (уравнение 3), RCT изучает эффективное представление динамического тарифа, что позволяет ему точно прогнозировать стоимость доставки.
Этот документ доступен на arxiv под лицензией CC BY-NC-ND 4.0 DEED.