Yazarlar:
(1) P Aditya Sreekar, Amazon ve bu yazarlar bu çalışmaya eşit katkıda bulunmuştur {[email protected]};
(2) Sahil Verm, Amazon ve bu yazarlar bu çalışmaya eşit katkıda bulunmuştur {[email protected];}
(3) Varun Madhavan, Hindistan Teknoloji Enstitüsü, Kharagpur. Amazon'da staj sırasında yapılan çalışmalar {[email protected]};
(4) Abhishek Persad, Amazon {[email protected]}.
Transformer mimarisi (Vaswani ve diğerleri, 2017), birden fazla kodlayıcı bloğunun istiflenmesiyle oluşturulur; burada her blok, girdi olarak bir dizi yerleştirme alır ve bağlama duyarlı yerleştirmelerin bir dizisini çıktı olarak verir. Kodlayıcı bloğu, çok kafalı bir öz dikkat (MHSA) katmanından ve ardından her katmandan önce artık bağlantılar ve katman normuna sahip konum bazında ileri besleme katmanından oluşur. MHSA katmanı, girdi yerleştirmeleri arasındaki etkileşimleri öğrenen, kafa adı verilen birden fazla öz-dikkat biriminden oluşur.
Çıkış dizisi daha sonra yinelemeli olarak sonraki kodlayıcı katmanlarından geçirilir ve ardışık her katmanın daha yüksek dereceli özellik etkileşimlerini öğrenmesine olanak tanır. Transformatörün derinliği öğrenilen gösterimin karmaşıklığını kontrol eder, çünkü daha derin katmanlar özellikler arasındaki daha karmaşık etkileşimleri yakalar. Ayrıca, MHSA'da birden fazla öz-dikkat kafası kullanılır; bu, her bir kafanın farklı özellik alt alanlarına katılmasını ve bunlar arasındaki etkileşimleri öğrenmesini, kümülatif olarak birden fazla bağımsız özellik etkileşimi kümesini öğrenmesini sağlar.
Bir paketin ücret listesi, boyut, rota, hizmet, öğe ve ücret (Şekil 1a) gibi birden çok özellik türünden oluşur; burada her özellik türü, birden çok sayısal ve kategorik özellik içerir. Boyut, rota ve servis özelliklerine sabit uzunluklu özellik türleri denir çünkü bunların her biri sabit sayıda özelliğe sahiptir. Sabit uzunluklu özellik türleri, karma bir yerleştirme katmanı (MEL) kullanılarak bir dizi belirteç içine gömülür. Örneğin, d ∈ S[md, nd] boyutsal özellikleri md + nd uzunluğundaki d boyutlu bir belirteç dizisine gömülür. MEL, gömülen özellik türündeki her özellik için bir tane olmak üzere birden fazla gömme bloğu içerir. Gömme arama tabloları kategorik özellikleri gömmek için kullanılırken sayısal özellikler, (Gorishniy ve diğerleri, 2021)'de tanıtıldığı gibi sürekli gömme blokları kullanılarak gömülür.
Özellik belirteçlerinin dizisi, özellikler arasındaki karmaşık, daha yüksek dereceli etkileşimleri öğrenebilen L Transformer kodlayıcı katmanlarından oluşan bir yığına girdi olarak aktarılır. Son olarak, birleştirilmiş Transformatör çıkışı, Şekil 1b'de gösterildiği gibi nakliye maliyetini Cˆ tahmin etmek için bir ileri besleme katmanına beslenir.
Mimarinin tamamına Ücret Kartı Transformatörü (RCT) diyoruz. Tahmini ve fiili nakliye maliyeti (Denklem 3) arasındaki L1 kaybını en aza indirecek şekilde eğitilen RCT, nakliye maliyetini doğru bir şekilde tahmin etmesine olanak tanıyan dinamik ücret listesinin etkili bir temsilini öğrenir.