paint-brush
Раскрытие силы самовнимания для прогнозирования стоимости доставки: сопутствующие работык@convolution
190 чтения

Раскрытие силы самовнимания для прогнозирования стоимости доставки: сопутствующие работы

Слишком долго; Читать

Новая модель искусственного интеллекта (преобразователь тарифных карточек) анализирует детали упаковки (размер, перевозчик и т. д.), чтобы более точно прогнозировать стоимость доставки.
featured image - Раскрытие силы самовнимания для прогнозирования стоимости доставки: сопутствующие работы
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

Авторы:

(1) П. Адитья Шрикар, Amazon и эти авторы внесли равный вклад в эту работу {[email protected]};

(2) Сахил Верм, Amazon и эти авторы внесли равный вклад в эту работу {[email protected];}

(3) Варун Мадхаван, Индийский технологический институт, Харагпур. Работа, выполненная во время стажировки в Amazon {[email protected]};

(4) Абхишек Персад, Amazon {[email protected]}.

Таблица ссылок

2. Сопутствующие работы

Древовидные алгоритмы широко используются в машинном обучении табличных данных. Деревья решений рекурсивно разбивают данные на несколько частей на основе гиперплоскостей, выровненных по осям (Hastie et al., 2009). Случайные леса (RF) (Брейман, 2001) и деревья решений с градиентным усилением (GBDT) (Фридман, 2001) являются наиболее часто используемыми ансамблями на основе деревьев. RF подбирает несколько деревьев решений на случайных подмножествах данных и усредняет/опрашивает прогнозы, чтобы уменьшить переоснащение деревьев решений. GBDT, XGBoost (Чен и Гестрин, 2016) и CatBoost (Прохоренкова и др., 2018) — это усиленные ансамблевые модели, которые последовательно строят деревья решений для исправления ошибок, допущенных предыдущими деревьями, что приводит к повышению производительности на сложных наборах данных с нелинейными связями. .


В последнее время наблюдается большой интерес к моделям глубокого обучения табличных данных. Некоторые методы вводят дифференцируемые аппроксимации функций решения, используемых в деревьях решений, чтобы сделать их дифференцируемыми (Hazimeh et al., 2020; Popov et al., 2019). Эти методы превосходят чисто древовидные задачи для некоторых постановок задач, однако они не всегда лучше (Горишный и др., 2021). Другие методы использовали механизмы внимания для адаптации методов DL к табличным данным (Arik et al., 2019; Huang et al., 2020; Gorishniy et al., 2021; Somepalli et al., 2021; Chen et al., 2022). TabNet (Arik et al., 2019) предлагает механизм разреженного внимания, который состоит из нескольких уровней и имитирует рекурсивное разделение деревьев решений. Вдохновленные успехом преобразователей самообслуживания (Васвани и др., 2017) во многих областях (Девлин и др., 2019; Досовицкий и др., 2021; Гонг и др., 2021), такие методы, как TabTransformer (Хуанг и др. были предложены FT-Transformer (Горишный и др., 2021) и SAINT (Somepalli et al., 2021). TabTransformer встраивает все категориальные переменные в единое пространство внедрения, а предложение категориальных вложений передается через слои преобразователя самообслуживания. FT-Transformer расширяет это, обращая внимание и на числовые характеристики, используя непрерывное встраивание. SAINT основывается на FT-Transformer, предлагая новый вид внимания, который фиксирует взаимодействие между образцами партии. Однако SAINT не дает никаких преимуществ перед FT-преобразованием для нашей постановки задачи, поскольку межвыборочное внимание эффективно только тогда, когда количество измерений выше по сравнению с количеством выборок, поэтому мы не сравниваем RCT с SAINT (Somepalli et al. ., 2021).


Рисунок 1: (a) Уровень входного кодера преобразователя тарифных карт. (б) Архитектура RCT


Этот документ доступен на arxiv под лицензией CC BY-NC-ND 4.0 DEED.