著者:
(1)P Aditya Sreekar、Amazonおよびこれらの著者は、この研究に等しく貢献しました{[email protected]}。
(2)Sahil Verm、Amazon、およびこれらの著者は、この研究に等しく貢献しました {[email protected];}
(3)Varun Madhavan、インド工科大学カラグプル校。アマゾンでのインターンシップ中に取り組んだ仕事 {[email protected]}
(4)アビシェーク・ペルサド、Amazon {[email protected]}。
Transformer アーキテクチャ (Vaswani 他、2017) は、複数のエンコーダー ブロックを積み重ねて構築されます。各ブロックは、一連の埋め込みを入力として受け取り、一連のコンテキスト認識埋め込みを出力します。エンコーダー ブロックは、マルチヘッド セルフ アテンション (MHSA) レイヤーと、それに続く位置ごとのフィードフォワード レイヤーで構成され、各レイヤーの前には残差接続とレイヤー ノルムがあります。MHSA レイヤーは、ヘッドと呼ばれる複数のセルフ アテンション ユニットで構成され、入力埋め込み間の相互作用を学習します。
出力シーケンスは、その後、後続のエンコーダー レイヤーに再帰的に渡され、各レイヤーが高次の特徴相互作用を学習できるようになります。トランスフォーマーの深さは、学習された表現の複雑さを制御します。より深いレイヤーでは、より複雑な特徴間の相互作用がキャプチャされます。さらに、MHSA では複数の自己注意ヘッドが使用されるため、各ヘッドが異なる特徴サブスペースに注意を払い、それらの間の相互作用を学習し、複数の独立した特徴相互作用セットを累積的に学習できます。
パッケージの料金表は、次元、ルート、サービス、アイテム、料金という複数の特徴タイプで構成されており (図 1a)、各特徴タイプは複数の数値特徴とカテゴリ特徴で構成されています。次元、ルート、およびサービス特徴は、それぞれが固定数の特徴を持つため、固定長特徴タイプと呼ばれます。固定長特徴タイプは、混合埋め込みレイヤー (MEL) を使用してトークンのシーケンスに埋め込まれます。たとえば、次元特徴 d ∈ S[md, nd] は、長さ md + nd の d 次元トークン シーケンスに埋め込まれます。MEL には、埋め込まれる特徴タイプの特徴ごとに 1 つずつ、複数の埋め込みブロックが含まれています。埋め込みルックアップ テーブルはカテゴリ特徴の埋め込みに使用され、数値特徴は (Gorishniy et al.、2021) で紹介されているように、連続埋め込みブロックを使用して埋め込まれます。
特徴トークンのシーケンスは、特徴間の複雑で高次の相互作用を学習できる L 個の Transformer エンコーダー レイヤーのスタックに入力として渡されます。最後に、プールされた Transformer 出力はフィードフォワード レイヤーに送られ、図 1b に示すように配送コスト Cˆ を予測します。
この完全なアーキテクチャを Rate Card Transformer (RCT) と呼びます。予測送料と実際の送料の間の L1 損失 (式 3) を最小限に抑えるようにトレーニングされた RCT は、送料を正確に予測できる動的料金表の効果的な表現を学習します。
この論文は、CC BY-NC-ND 4.0 DEED ライセンスの下でarxiv で公開されています。