paint-brush
Nakliye Maliyeti Tahmininde Kişisel Dikkatin Gücünü Ortaya Çıkarma: Deneyile@convolution

Nakliye Maliyeti Tahmininde Kişisel Dikkatin Gücünü Ortaya Çıkarma: Deney

Çok uzun; Okumak

Yeni AI modeli (Ücret Listesi Transformatörü), nakliye maliyetlerini daha doğru tahmin etmek için paket ayrıntılarını (boyut, taşıyıcı vb.) analiz eder.
featured image - Nakliye Maliyeti Tahmininde Kişisel Dikkatin Gücünü Ortaya Çıkarma: Deney
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

Yazarlar:

(1) P Aditya Sreekar, Amazon ve bu yazarlar bu çalışmaya eşit katkıda bulunmuştur {[email protected]};

(2) Sahil Verm, Amazon ve bu yazarlar bu çalışmaya eşit katkıda bulunmuştur {[email protected];}

(3) Varun Madhavan, Hindistan Teknoloji Enstitüsü, Kharagpur. Amazon'da staj sırasında yapılan çalışmalar {[email protected]};

(4) Abhishek Persad, Amazon {[email protected]}.

Bağlantı Tablosu

4. Deneyler

Bu bölümde RCT'nin performansı, 2022'de sevk edilen paketlerden oluşan bir veri kümesi üzerinde gösterilmektedir. Tahmin edilen ve fiili nakliye maliyeti arasındaki ortalama mutlak hata (MAE), parasal şartlar. Bu yazıda, MAE değerleri, MAE yüzdesi (%MAE) olarak ifade edilen, 0. günün buluşsal tahmininin MAE'si ile normalleştirilir. Bu ölçüm, buluşsal temele göre elde edilen iyileştirmeyi vurgular.


4.1. Deneysel kurulum

4.1.1. Mimari ve Hiperametreler


Gömme boyutu 128 olarak ayarlandı ve her biri 16 kişisel dikkat başlığına sahip 6 transformatör kodlayıcı katmanı kullanıldı. Başlangıç öğrenme oranı 0,0001 ve parti büyüklüğü 2048 olan Adam optimizer (Kingma ve Ba, 2014) kullanıldı. Yakınsamayı iyileştirmek için, doğrulama metriği her sabitlendiğinde öğrenme oranı 0,7 kat azaltıldı. Model kodu, PyTorch (Prokhorenkova ve diğerleri, 2018) ve PyTorch Lightning (Falcon ve The PyTorch Lightning ekibi, 2019) çerçeveleri kullanılarak uygulandı.


4.1.2. Veri Hazırlama


2022'de 45 günlük bir süre boyunca gönderilen paketlerden 10 milyon paketten oluşan bir eğitim veri seti örneklendi. Veriler, kategorik özellikleri kodlayan etiket ve sayısal özellikleri standartlaştırarak önceden işlendi. Test veri kümesi, 2022'den itibaren ayrı, çakışmayan bir haftada gönderilen tüm paketleri (numuneleme olmadan) içerir.


4.1.3. Karşılaştırma Yöntemleri


RCT'nin performansını artan karmaşıklık düzeyine sahip çeşitli modellerle karşılaştırıyoruz: GBDT, AWS AutoGluon (Erickson ve diğerleri, 2020), Feedforward sinir ağı, TabTransformer ve FT-Transformer. GBDT modeli için sayısal özellikler standartlaştırılmamış ve kategorik özellikleri kodlamak için etiket kodlaması yerine hedef kodlama (Micci-Barreca, 2001) kullanılmıştır. AWS AutoGluon, LightGBM (Ke ve diğerleri, 2017) modellerinden oluşan bir topluluğu öğrenecek şekilde yapılandırıldı. Girdisi boyut, rota ve hizmet özelliklerinin gömülmesi ve birleştirilmesiyle oluşturulan 5 katmandan oluşan ileri beslemeli bir sinir ağı kullanıldı. TabTransformer ve FT-Transformer'ın halka açık uygulamaları [1] kullanıldı ve tüm hiperparametreler RCT ile tutarlı hale getirildi. Temel çizgiler öğe ve masraf tahsilatlarını ele almadığından yalnızca boyut, rota ve hizmet özelliklerini kullandık.


Tablo 1: (a) RCT'nin performansını çeşitli kıyaslamalarla karşılaştırır, (b) GBDT temelinin performansını RCT yerleştirmeleriyle eğitilmiş GBDT ile karşılaştırır. MAE% Denklem 4'te gösterildiği gibi hesaplanır.


Tablo 2: RCT ve FT-Transformer arasındaki %MAE karşılaştırması (kendi kendine dikkat modelleri için SOTA)

4.2. Temel Karşılaştırmalar

Tablo 1a, RCT'yi bölüm 4.1.3'te tartışılan temel modellerle karşılaştırmaktadır. Tablodaki modeller, model karmaşıklığının artan sırasına göre düzenlenmiştir. Her iki ağaç tabanlı model (GBDT ve AutoGluon) da benzer düzeyde performans gösteriyor. Derin öğrenme modelleri sürekli olarak ağaç tabanlı modellerden daha iyi performans gösteriyor; bu da önerilen mimarinin nakliye maliyeti tahmini için etkili olduğunu gösteriyor. Transformatör tabanlı modeller, ileri beslemeli sinir ağından daha düşük MAE% puanlarına sahiptir ve bu da transformatörlerin etkili etkileşimi öğrendiğini gösterir. RCT modeli, TabTransformer ve FT-Transformer (SOTA) olmak üzere her iki transformatör modelinden daha iyi performans gösteriyor; bu da ücret listesinin gizli yapısını kodlayan özel bir mimarinin iyileştirilmiş performansa katkıda bulunduğunu gösteriyor. Tablo 2, FT-Transformer ve RCT modellerinin farklı model boyutlarındaki performansını karşılaştırmaktadır. Sonuçlar, RCT'nin test edilen tüm model boyutlarında FT-Transformer'dan daha iyi performans gösterdiğini gösteriyor; bu da kodlama ücret listesi yapısının değişen model kapasitelerinde performans avantajları sağladığını gösteriyor.

4.3. RCT ücret listelerinin etkin temsilini öğreniyor mu?

Transformatörlerin çeşitli görevlerde güçlü temsil öğrenme yeteneklerine sahip olduğu gösterilmiştir. Bu deneyde, RCT tarafından öğrenilen ücret listesi gösteriminin etkinliğini araştırıyoruz. Bunu değerlendirmek için, GBT modelimizin performansını, bir giriş özelliği olarak öğrenilmiş ücret listesi gösterimiyle ve bunlar olmadan karşılaştırıyoruz.


Şekil 2: Şekilde MAE yüzdesi ve dikkat kafalarının sayısı test ediliyor. Şekil b, transformatör katmanlarının sayısı ile test MAE%'sini ve tren-val MAE% boşluğunu gösterir. MAE% Denklem 4'te gösterildiği gibi hesaplanır.


Son Transformer katmanının havuzlanmış çıktısı, ücret listesinin öğrenilmiş temsili olarak değerlendirilir. Bu özelliğin eklenmesi GBDT'nin performansını %9,79 oranında artırdı (bkz. Tablo 1b). Ayrıca, manuel olarak tasarlanmış tüm özellikler kaldırılsa bile GBDT'nin %69,21'lik MAE yüzdesiyle hala karşılaştırılabilir bir performans sergilediği gözlemlendi. Bu, ücret listelerinin öğrenilen temsillerinin yalnızca daha iyi özellik bilgilerinin yakalanmasında etkili olmakla kalmayıp aynı zamanda paket ücret listesinin yeterli temsili olduğunu da gösterir. Ancak bu özelliğe rağmen GBDT, RCT'den %13,5 daha yüksek MAE yüzdesine sahiptir. Bunun nedeni büyük olasılıkla RCT'nin uçtan uca eğitilmiş olması, GBDT'nin ise ayrı bir modelin parçası olarak öğrenilen özellikleri kullanmasıdır.

4.4. Öz-dikkat, ileri beslemeli sinir ağlarından daha iyi etkileşimleri mi öğrenir?

Bölüm 4.2'de, ileri beslemeli (FF) sinir ağlarının transformatörler tarafından daha iyi performans gösterdiği gözlemlendi ve bu da öz dikkatin üstün bir etkileşimli öğrenici olduğu hipotezine yol açtı. Bu bölüm, öz dikkatin genişliğini yalnızca öğe ve yük özellikleriyle sınırlandırırken, boyut, rota ve hizmet özelliklerini kodlamak için öz dikkat yerine FF'yi kullanarak bu hipotezi daha fazla araştırmayı amaçlamaktadır. Hem FF'nin hem de kişisel dikkatin çıktı kodlamaları birleştirilir ve nakliye maliyetini tahmin etmek için bir FF katmanına beslenir. Öz dikkat genişliği azaldıkça tüm ücret listesi özellikleri arasındaki etkileşimler yakalanamaz. Ortaya çıkan model, RCT'nin %55,72'sine kıyasla %64,73'lük daha yüksek bir MAE yüzdesi sergiliyor. Bu sonuçlar, FF modellerinin transformatörlere kıyasla daha düşük etkileşim öğrenicileri olduğunu göstermektedir.

4.5. Kişisel Dikkatin Analizi

Bölüm 3.2'de, öz-dikkat sayesinde transformatörlerin özellik toplamadaki yeterliliğini tartıştık. Bu bölümde dikkat derinliği ve dikkat başı sayısının etkisini analiz etmek için ablasyon deneyleri yapılmaktadır. Dikkat kafalarının sayısının arttırılması, modelin daha bağımsız özellik etkileşimlerini öğrenmesini sağlar. Bu deney için,



Şekil 3: 1'den oluşturulan ısı haritaları. Her sütun, bir başlıktaki her özelliğin göreceli önemini gösterir ve her sütun, farklı bir başlığa karşılık gelir.


model kapasitesi 128 boyutta sabitlenmiştir, dolayısıyla kafa sayısındaki artış aynı zamanda kafa başına öğrenilen etkileşimlerin karmaşıklığını da azaltır. Bu nedenle, optimal kişi sayısının seçilmesi, bağımsız etkileşimlerin öğrenilmesi ile öğrenilen her etkileşimin karmaşıklığı arasındaki bir dengedir. Her bir kafanın öğrendiği dikkatin yeterince karmaşık olması nedeniyle performansın 4 baştan 16 başa çıktığı Şekil 2a'da bu değiş tokuş görülebilir. Ancak dikkat kafalarının sayısı 16'dan 32'ye çıkarıldığında performans düşer çünkü kafaların karmaşıklığı önemli ölçüde azalır ve daha bağımsız etkileşimleri öğrenmenin faydası ortadan kalkar.


Daha sonra, transformatör kodlayıcı katmanları ekleyerek dikkat derinliğini artırmanın etkisini gösteriyoruz. Daha derin transformatör ağları, daha karmaşık üst düzey etkileşimleri öğrenir, böylece Şekil 2b'de gözlemlendiği gibi modelin performansını artırır. Ancak katman sayısının 6'dan 12'ye çıkarılması, öğrenilebilir parametre sayısının artmasından kaynaklanan aşırı uyum nedeniyle modelin performansını düşürmektedir. Aşırı uyumun kanıtı, tren ve val MAE arasındaki boşluğun 6 katmandan 12 katmana geçerken %30 arttığı Şekil 2b'de bulunabilir.


Şekil 4: RCT'nin verilerle ölçeklendirilmesi


Son olarak, Şekil 3'te, Algoritma 1 kullanılarak oluşturulan ısı haritalarını gösteriyoruz. Bu ısı haritaları, en çok katılım sağlanan ilk beş özelliğin bir parçası olarak her bir özelliğin kaç kez ilgilenildiğini göstermektedir. Her sütun bir başlığa, her satır ise bir özelliğe karşılık gelir. Soldaki ısı haritası RCT kullanılarak nheads = 16 ile, sağdaki ise nheads = 4 ile oluşturulmuştur. Her iki ısı haritası karşılaştırıldığında, Şekil 3a'nın başına daha az sayıda aktif özellik etkileşimine sahip olduğu görülebilir. sütunu, daha fazla sayıda dikkat kafasının, her bir kafanın özellikler arasındaki bağımsız etkileşimleri öğrenmesine yol açtığı yönündeki hipotezimizi doğruluyor.

4.6. Transformer daha fazla veriyle nasıl ölçeklenir?

Deney maliyetlerini en aza indirmek için bu makaledeki tüm deneyler 10 milyon boyutunda bir eğitim veri seti kullanılarak gerçekleştirildi. Ancak en iyi performansı gösteren modeli kullanmak önemlidir; optimum performansı elde etmek için eğitim veri kümesi boyutu artırılabilir.


RCT'nin verilerle ölçeklenebilirliğini doğrulamak için modeli farklı eğitim veri seti boyutları üzerinde eğittik ve sonuçları Şekil 4'te çizdik. Sonuçlar, RCT'nin performansının daha büyük veri setleriyle gelişmeye devam ettiğini gösteriyor. Bu nedenle, daha büyük veri kümeleri üzerinde eğitilen modellerin bu yazıda incelenen modelden daha iyi performans göstereceğini güvenle bekleyebiliriz.



[1] https://github.com/lucidrains/tab-transformer-pytorc