paint-brush
Раскрытие силы самовнимания для прогнозирования стоимости доставки: выводы и будущая работак@convolution
106 чтения

Раскрытие силы самовнимания для прогнозирования стоимости доставки: выводы и будущая работа

Слишком долго; Читать

Новая модель искусственного интеллекта (преобразователь тарифных карточек) анализирует детали упаковки (размер, перевозчик и т. д.), чтобы более точно прогнозировать стоимость доставки.
featured image - Раскрытие силы самовнимания для прогнозирования стоимости доставки: выводы и будущая работа
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

Авторы:

(1) П. Адитья Шрикар, Amazon и эти авторы внесли равный вклад в эту работу {[email protected]};

(2) Сахил Верм, Amazon и эти авторы внесли равный вклад в эту работу {[email protected];}

(3) Варун Мадхаван, Индийский технологический институт, Харагпур. Работа, выполненная во время стажировки в Amazon {[email protected]};

(4) Абхишек Персад, Amazon {[email protected]}.

Таблица ссылок

5. Заключение и будущая работа

В этой статье мы представили новую структуру, основанную на архитектуре Transformer, для прогнозирования стоимости доставки в день 0. Предлагаемая нами структура кодирует атрибуты доставки посылки, то есть прейскурант посылки, в единое пространство встраивания. Эти внедрения затем передаются через уровень Transformer, который моделирует сложные взаимодействия более высокого порядка и изучает эффективное представление прейскуранта пакета для прогнозирования стоимости доставки. Наши экспериментальные результаты показывают, что предлагаемая модель, названная RCT, превосходит модель GBDT на 28,8%. Кроме того, продемонстрируйте, что RCT работает лучше, чем FT-трансформатор модели SOTA для нашей постановки задачи. Мы также показываем, что когда к модели GBDT добавляется представление прейскурантов, полученное с помощью RCT, ее производительность повышается на 12,51%. Это подчеркивает тот факт, что RCT способен изучить достаточные представления информации о прейскурантах.


В этой работе используемая информация о маршруте была ограничена только начальными и конечными узлами. Будущая работа может изучить использование нейронных сетей Graph для кодирования информации о полном маршруте. Кроме того, производительность RCT можно улучшить, изучая способы включения идентификатора элемента в качестве функции, например, используя встраивания элементов, которые доступны внутри компании.


Кроме того, хотя RCT был обучен прогнозировать только стоимость доставки, его можно модифицировать для прогнозирования всех атрибутов счета-фактуры, добавив слой декодера Transformer. Это позволит использовать другие приложения, такие как обнаружение аномалий в счетах. Кроме того, будущие исследования могут выяснить, можно ли использовать представления пакетов, полученные в результате RCT, для улучшения производительности других связанных задач или для количественной оценки неопределенности модели в каждом прогнозе с помощью подходов, подобных предложенному в Amini et al. (2019).


Этот документ доступен на arxiv под лицензией CC BY-NC-ND 4.0 DEED.