Yazarlar:
(1) Bobby He, Bilgisayar Bilimleri Bölümü, ETH Zürih (Yazışma adresi: [email protected].);
(2) Thomas Hofmann, Bilgisayar Bilimleri Bölümü, ETH Zürih.
Transformatör Bloklarının Basitleştirilmesi
Tartışma, Tekrarlanabilirlik Beyanı, Teşekkür ve Referanslar
Doğrusal Katmanlarda Azaltılmış Artık ve Kısıtlayıcı Güncellemeler Arasındaki İkilik
Derin Transformatörler için basit bir tasarım tarifi, aynı yapı taşlarını oluşturmaktır. Ancak standart transformatör blokları, basit, iç içe geçmiş dikkat ve hassas düzenlemelerde atlama bağlantıları ve normalizasyon katmanlarına sahip MLP alt bloklarından uzaktır. Bu karmaşıklık, görünüşte küçük değişikliklerin eğitim hızını önemli ölçüde azaltabileceği veya modelleri eğitilemez hale getirebileceği kırılgan mimarilere yol açar. Bu çalışmada standart trafo bloğunun ne kadar basitleştirilebileceğini soruyoruz. Sinyal yayılma teorisini ve ampirik gözlemleri birleştirerek, atlama bağlantıları, projeksiyon veya değer parametreleri, sıralı alt bloklar ve normalizasyon katmanları dahil olmak üzere birçok blok bileşeninin eğitim hızında herhangi bir kayıp olmaksızın kaldırılmasına olanak tanıyan modifikasyonları motive ediyoruz. Hem yalnızca otoregresif kod çözücü hem de yalnızca BERT kodlayıcı modelleri üzerinde yapılan deneylerde, basitleştirilmiş transformatörlerimiz standart transformatörlerin güncelleme başına eğitim hızını ve performansını taklit ederken %15 daha hızlı eğitim veriminin keyfini çıkarır ve %15 daha az parametre kullanır
Transformatör mimarisi (Vaswani ve diğerleri, 2017), derin öğrenmede yakın zamanda elde edilen birçok başarının ardındaki en güçlü güçtür. Derin bir transformatör mimarisi oluşturmanın basit bir yolu, birden fazla özdeş transformatör “bloğunu” birbiri ardına sırayla istiflemektir. Ancak her blok daha karmaşıktır ve iyi bir performans elde etmek için belirli düzenlemelerle birleştirilmesi gereken birçok farklı bileşenden oluşur. Şaşırtıcı bir şekilde, birçok araştırmacının ilgisini çekmesine rağmen, taban trafo bloğu başlangıcından bu yana çok az değişti.
Bu çalışmada standart trafo bloğunun basitleştirilip sadeleştirilemeyeceğini araştırıyoruz. Daha spesifik olarak, atlama bağlantıları, projeksiyon/değer matrisleri, sıralı alt bloklar ve normalizasyon katmanları dahil olmak üzere çeşitli blok bileşenlerinin gerekliliğini araştırıyoruz. Dikkate alınan her bileşen için, eğitim hızında kayıp olmadan (hem güncelleme adımı hem de çalışma süresi açısından) kaldırılıp kaldırılamayacağını ve bunu yapmak için transformatör bloğunda hangi mimari değişikliklerin yapılması gerektiğini soruyoruz.
Eğitim hızından ödün vermeden transformatör bloklarını basitleştirme sorununun çeşitli nedenlerden dolayı ilginç bir araştırma sorusu olduğuna inanıyoruz. Birincisi, modern sinir ağı (NN) mimarileri birçok bileşenden oluşan karmaşık tasarımlara sahiptir ve bu farklı bileşenlerin NN eğitim dinamiklerinde oynadıkları roller veya birbirleriyle nasıl etkileşime girdikleri açık değildir. Bu, derin öğrenmede teori ve pratik arasındaki mevcut boşluk göz önüne alındığında özellikle geçerlidir; burada derin öğrenmenin mekanizmalarını anlamaya çalışan teorisyenler, pratikte kullanılan modern mimarileri yansıtmak zorunda değil, kolaylık nedeniyle genellikle yalnızca basitleştirilmiş mimarileri dikkate alırlar. Uygulamada kullanılan YSA mimarilerinin basitleştirilmesi bu uçurumun kapatılmasına yardımcı olabilir
İlgili bir teorik notta, çalışmamız sinyal yayılımının hem güçlü yönlerini hem de mevcut sınırlamalarını vurgulamaktadır: derin YSA mimarilerinde pratik tasarım seçimlerini motive etme yeteneği nedeniyle etkili olduğu kanıtlanmış bir teori. Sinyal yayılımı (Poole ve diğerleri, 2016; Schoenholz ve diğerleri, 2017; Hayou ve diğerleri, 2019), girişler arasındaki katman tabanlı temsillerin iç çarpımları yoluyla yakalanan, bir NN'deki başlatma sırasındaki geometrik bilginin evrimini inceler ve birçok kişiye ilham kaynağı olmuştur. derin sinir ağlarının eğitiminde etkileyici sonuçlar (Xiao ve diğerleri, 2018; Brock ve diğerleri, 2021; Martens ve diğerleri, 2021; Zaidi ve diğerleri, 2023). Bununla birlikte, mevcut teori yalnızca başlatma sırasındaki bir modeli dikkate alır ve sıklıkla yalnızca ilk ileri geçişi dikkate alır. Bu nedenle, şu anda sinyal yayılımı, derin NN eğitim dinamiğinin birçok karmaşıklığına, örneğin eğitim hızı için bağlantıların atlanmasının faydalarına ışık tutamamaktadır. Her ne kadar sinyal yayılımı, modifikasyonlarımızı motive etmede çok önemli olsa da, basitleştirilmiş transformatör bloklarımıza yalnızca teoriden ulaşamazdık ve ampirik içgörülere de güvenemezdik.
Son olarak, pratik tarafta, günümüzde büyük transformatör modellerinin eğitiminin ve konuşlandırılmasının fahiş maliyeti göz önüne alındığında, transformatör mimarisi için eğitim ve çıkarım boru hatlarındaki herhangi bir verimlilik kazanımı, önemli potansiyel tasarrufları temsil etmektedir. Gerekli olmayan bileşenleri çıkararak transformatör bloğunu basitleştirmek, hem parametre sayısını azaltır hem de modellerimizde verimi artırır. Özellikle, atlama bağlantılarını, değer parametrelerini, projeksiyon parametrelerini ve sıralı alt blokları kaldırmanın mümkün olduğunu ve bunların tamamının eğitim hızı ve aşağı yöndeki görev performansı açısından standart transformatörle eşleştiğini gösteriyoruz. Sonuç olarak parametre sayısını %16'ya kadar azaltıyoruz ve hem eğitim hem de çıkarım zamanında %16'lık verim artışı gözlemliyoruz.
Transformer bloklarını basitleştirmek için başlangıç noktamız He ve ark. (2023), sinyal yayılım ilkelerine saygı duymanın, bağlantıları atlama veya normalleştirme katmanları olmadan derin Transformatörleri eğitmeye izin verdiğini, ancak parametre güncellemesi başına önemli ölçüde azaltılmış yakınsama hızlarında olduğunu göstermektedir. Öncelikle değerlere ve projeksiyon parametrelerine yönelik güncellemeleri düzenlemenin (Bölüm 4.1) veya aslında bunları tamamen kaldırmanın (Bölüm 4.2), atlanamayan dikkat alt bloklarının performansını iyileştirdiğini ve rapor edilen güncelleme başına kaybedilen eğitim hızını geri kazandığını gösterdik. He ve diğerleri tarafından. (2023). Bu, dikkat alt bloğundaki parametrelerin ve matris çarpımlarının yarısını ortadan kaldırır. Sek. 4.3'te, basitleştirmelerimizin paralel alt bloklarla karlı bir şekilde birleştirildiğini gösteriyoruz (Wang & Komatsuzaki, 2021), bu da kalan tüm atlama bağlantılarını ve sıralı alt blokları güncelleme başına eğitim hızından ödün vermeden kaldırmamıza olanak tanırken, aynı zamanda verimlilik artışını daha da artırıyor. Bizim uygulamamızda bu oran %16'dır. Son olarak, Sek. Şekil 5'te, basitleştirilmiş bloklarımızın daha büyük derinliklere ölçeklendiğinde geliştiğini, hem yalnızca kodlayıcı hem de yalnızca kod çözücü mimarilerinde iyi çalıştığını ve bulgularımızın eğitim uzunluğunu ölçeklendirirken de geçerli olduğunu gösteriyoruz. Bölüm'de sınırlamalar ve gelecekteki çalışmalarla ilgili bir tartışmayla bitiriyoruz. 6.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .