Авторы:
(1) П. Адитья Шрикар, Amazon и эти авторы внесли равный вклад в эту работу {[email protected]};
(2) Сахил Верм, Amazon и эти авторы внесли равный вклад в эту работу {[email protected];}
(3) Варун Мадхаван, Индийский технологический институт, Харагпур. Работа, выполненная во время стажировки в Amazon {[email protected]};
(4) Абхишек Персад, Amazon {[email protected]}.
В этом разделе эффективность RCT демонстрируется на наборе данных об упаковках, отправленных в 2022 году. Средняя абсолютная ошибка (MAE) между прогнозируемой и фактической стоимостью доставки выбрана в качестве показателя производительности, поскольку она отражает абсолютную ошибку в денежные условия. В этой статье значения MAE нормализованы с помощью эвристической оценки MAE дня 0, которая выражается в процентах MAE (MAE%). Этот показатель подчеркивает достигнутое улучшение по сравнению с базовым эвристическим уровнем.
4.1.1. Архитектура и гипераметры
Размер встраивания был установлен равным 128, и использовались 6 слоев преобразователя-энкодера, каждый с 16 головками самообслуживания. Использовался оптимизатор Адама (Kingma and Ba, 2014) с начальной скоростью обучения 0,0001 и размером пакета 2048. Чтобы улучшить сходимость, скорость обучения снижалась в 0,7 раза каждый раз, когда метрика проверки выходила на плато. Код модели был реализован с использованием фреймворков PyTorch (Прохоренкова и др., 2018) и PyTorch Lightning (Falcon и команда PyTorch Lightning, 2019).
4.1.2. Подготовка данных
Набор обучающих данных, состоящий из 10 миллионов упаковок, был выбран из посылок, отправленных в течение 45-дневного периода в 2022 году. Данные были предварительно обработаны путем кодирования меток категориальных признаков и стандартизации числовых признаков. Набор тестовых данных содержит все посылки (без выборки), которые были отправлены в течение отдельной, непересекающейся недели, начиная с 2022 года.
4.1.3. Методы сравнительного анализа
Мы сравниваем производительность RCT с различными моделями с возрастающим уровнем сложности: GBDT, AWS AutoGluon (Erickson et al., 2020), нейронной сетью прямого распространения, TabTransformer и FT-Transformer. В модели GBDT числовые характеристики не были стандартизированы, и для кодирования категориальных признаков вместо кодирования меток использовалось целевое кодирование (Micci-Barreca, 2001). AWS AutoGluon был настроен для изучения ансамбля моделей LightGBM (Ke et al., 2017). Была использована нейронная сеть прямого распространения, содержащая 5 слоев, входные данные для которой были сгенерированы путем внедрения и объединения функций измерений, маршрутов и услуг. Были использованы общедоступные реализации [1] TabTransformer и FT-Transformer, а все гиперпараметры были приведены в соответствие с RCT. Поскольку базовые планы не обрабатывают коллекции товаров и расходов, мы использовали только функции измерений, маршрутов и услуг.
В Таблице 1а РКИ сравнивается с базовыми моделями, обсуждаемыми в разделе 4.1.3. Модели в таблице расположены в порядке возрастания сложности модели. Обе древовидные модели, GBDT и AutoGluon, работают на одинаковом уровне. Модели глубокого обучения неизменно превосходят древовидные модели, что указывает на то, что предлагаемая архитектура эффективна для прогнозирования стоимости доставки. Модели на основе трансформаторов имеют более низкие оценки MAE%, чем нейронные сети прямого распространения, что показывает, что трансформаторы обучаются эффективному взаимодействию. Модель RCT превосходит обе модели-трансформеры — TabTransformer и FT-Transformer (SOTA), что позволяет предположить, что специальная архитектура, которая кодирует скрытую структуру прейскуранта, способствует повышению производительности. В Таблице 2 сравниваются характеристики моделей FT-трансформатора и RCT при разных размерах моделей. Результаты показывают, что RCT превосходит FT-Transformer во всех протестированных размерах моделей, что указывает на то, что структура карты скорости кодирования обеспечивает преимущества в производительности при различных возможностях модели.
Было показано, что трансформеры обладают сильными возможностями обучения представлению в различных задачах. В этом эксперименте мы исследуем эффективность представления прейскурантов, полученного с помощью RCT. Чтобы оценить это, мы сравниваем производительность нашей модели GBT с использованием и без использования изученного представления прейскуранта в качестве входной функции.
Объединенные выходные данные последнего слоя Transformer рассматриваются как изученное представление прейскуранта. Добавление этой функции улучшило производительность GBDT на 9,79% (см. Таблицу 1b). Кроме того, было замечено, что даже когда все функции, спроектированные вручную, были удалены, GBDT по-прежнему работает сопоставимо с процентом MAE 69,21%. Это указывает на то, что изученные представления прейскурантов не только эффективны для сбора более качественной информации о функциях, но также являются достаточным представлением прейскуранта пакета. Однако даже с учетом этой особенности у GBDT показатель MAE% на 13,5% выше, чем у RCT. Вероятно, это связано с тем, что RCT обучается сквозным образом, в то время как GBDT использует функции, изученные как часть отдельной модели.
В разделе 4.2 было отмечено, что нейронные сети с прямой связью (FF) уступают трансформаторам, что привело к гипотезе о том, что самовнимание является лучшим средством обучения взаимодействию. Целью этого раздела является дальнейшее изучение этой гипотезы путем использования FF вместо самовнимания для кодирования характеристик размеров, маршрутов и услуг, ограничивая при этом ширину самовнимания только функциями товара и оплаты. Выходные кодировки как FF, так и самообслуживания объединяются и передаются на уровень FF для прогнозирования стоимости доставки. Поскольку ширина самообслуживания уменьшается, она не может охватить взаимодействие между всеми функциями прейскуранта. Полученная модель демонстрирует более высокий MAE% — 64,73% по сравнению с 55,72% в РКИ. Эти результаты показывают, что модели FF хуже обучаются взаимодействию по сравнению с преобразователями.
В разделе 3.2 мы обсуждали умение преобразователей агрегировать признаки благодаря самовниманию. В этом разделе проводятся эксперименты по абляции для анализа влияния глубины внимания и количества внимания. Увеличение количества «головок внимания» позволяет модели изучить больше независимых взаимодействий функций. Для этого эксперимента
емкость модели фиксирована и составляет 128 измерений, поэтому увеличение количества голов также снижает сложность взаимодействий, изучаемых на одну голову. Таким образом, выбор оптимального количества сотрудников — это компромисс между изучением независимых взаимодействий и сложностью каждого изучаемого взаимодействия. Компромисс можно наблюдать на рис. 2а, где производительность улучшается с 4 голов до 16, поскольку внимание, усвоенное каждой головой, достаточно сложное. Однако производительность снижается, когда количество голов внимания увеличивается с 16 до 32, поскольку сложность голов существенно снижается, что сводит на нет пользу от обучения более независимым взаимодействиям.
Далее мы проиллюстрируем эффект увеличения глубины внимания за счет добавления слоев преобразователя-кодировщика. Более глубокие трансформаторные сети изучают более сложные взаимодействия высшего порядка, тем самым повышая производительность модели, как показано на рис. 2b. Однако увеличение количества слоев с 6 до 12 снижает производительность модели из-за переобучения, вызванного увеличением количества обучаемых параметров. Доказательства переобучения можно найти на рис. 2б, где разрыв между поездом и val MAE увеличивается на 30% при переходе от 6 к 12 слоям.
Наконец, на рис. 3 мы показываем тепловые карты, созданные с помощью алгоритма 1. Эти тепловые карты показывают, сколько раз каждая функция посещалась как часть пяти самых посещаемых функций. Каждый столбец соответствует заголовку, а каждая строка соответствует объекту. Тепловая карта слева была создана с использованием RCT с nheads = 16, а карта справа — с nheads = 4. Сравнивая обе тепловые карты, можно видеть, что на рис. 3a меньшее количество активных взаимодействий функций на единицу. столбец, подтверждающий нашу гипотезу о том, что большее количество голов внимания приводит к тому, что каждая голова обучается независимому взаимодействию между функциями.
Чтобы минимизировать затраты на экспериментирование, все эксперименты в этой статье проводились с использованием набора обучающих данных размером 10 миллионов. Однако важно использовать наиболее эффективную модель: размер набора обучающих данных можно увеличить для достижения оптимальной производительности.
Чтобы проверить масштабируемость RCT с данными, мы обучили модель на различных размерах наборов обучающих данных и отобразили результаты на рисунке 4. Результаты показывают, что производительность RCT продолжает улучшаться с более крупными наборами данных. Поэтому мы можем с уверенностью ожидать, что модели, обученные на больших наборах данных, превзойдут модель, исследованную в этой статье.
Этот документ доступен на arxiv под лицензией CC BY-NC-ND 4.0 DEED.
[1] https://github.com/lucidrains/tab-transformer-pytorc