paint-brush
Mümkün Olan En Düşük Optimal Zaman Karmaşıklığına Sahip Transformatör Algoritmasıile@thomascherickal
1,102 okumalar
1,102 okumalar

Mümkün Olan En Düşük Optimal Zaman Karmaşıklığına Sahip Transformatör Algoritması

ile Thomas Cherickal17m2024/05/26
Read on Terminal Reader

Çok uzun; Okumak

DPO, LoRa vb. gibi transformatörlerde bazı inanılmaz ilerlemeler kaydedildi. Ancak temel transformatör algoritması da geliştirildi! Transformatörlerin tamamen yeni bir seviyede performans gösterdiğini göreceğiz. Bu keşiflerin büyüklüğü abartılamaz! Bu devrim niteliğinde.
featured image - Mümkün Olan En Düşük Optimal Zaman Karmaşıklığına Sahip Transformatör Algoritması
Thomas Cherickal HackerNoon profile picture
0-item
1-item


Attention, Mamba, Jamba ve xLSTM'nin karşılaştırılması

Giriş

Bu makalede yalnızca zaman karmaşıklığından kasten bahsediyoruz.


Alan karmaşıklığı için, burada bulunan 1 bitlik transformatörler hakkındaki makaleme bakın:

giriiş

Üretken Yapay Zeka teknolojisi söz konusu olduğunda geleceğe doğru hızla ilerliyoruz ve Büyük Dil Modellerinin arkasındaki algoritmalar da bir istisna değil. Bu yazımızda, üretken yapay zeka alanında son dönemde yaşanan en heyecan verici üç gelişmeyi ele alacağız ve onlardan detaylı olarak bahsedeceğiz. Bunlardan biri ayrıca büyük bir dil modeli algoritmasını çalıştırmak için en uygun zaman karmaşıklığına da ulaştı. Başka bir deyişle, yeni bir gelişme, mümkün olan en uygun en hızlı LLM transformatör algoritması haline geldi - mevcut modellerimize göre, asimptotik zaman karmaşıklığı söz konusu olduğunda, sabit zaman optimizasyonları dışında bundan daha hızlı gitmek mümkün değildir. Yüz milyarlarca parametreyle uğraştığımız için sabitlerin hızlanması oldukça büyük olabilir! Umarım siz de benim kadar heyecanlısınızdır çünkü bu heyecan verici bir yolculuk olacak!


Görevli Algoritma – Dikkate Dayalı Transformatör

Herkes 2017'nin ufuk açıcı makalesine aşinadır, ihtiyacınız olan tek şey dikkattir, ancak yine de özetleyeceğim ki yeni gelenler neden bahsettiğimizi daha net anlasın.


Bu araştırma makalesinin bağlantısı:

İhtiyacınız Olan Tek Şey Dikkat

Makalenin giriş kısmından:

Tekrarlayan sinir ağları, özellikle uzun kısa süreli bellek ve kapılı tekrarlayan sinir ağları, dil modelleme ve makine çevirisi gibi dizi modelleme ve transdüksiyon problemlerinde en gelişmiş yaklaşımlar olarak sağlam bir şekilde oluşturulmuştur.


O zamandan bu yana, yinelenen dil modellerinin ve kodlayıcı-kod çözücü mimarilerinin sınırlarını zorlamaya yönelik çok sayıda çaba devam etti.


Tekrarlayan modeller tipik olarak hesaplamayı giriş ve çıkış dizilerinin sembol konumlarına göre etkiler.


Konumları hesaplama süresindeki adımlara göre hizalayarak, önceki gizli durum ℎ𝑡−1'in ve konum 𝑡 girişinin bir fonksiyonu olarak bir dizi gizli durum ℎ𝑡 üretirler.


Bu doğası gereği sıralı yapı, bellek kısıtlamaları örnekler arasında gruplamayı sınırladığından, daha uzun dizi uzunluklarında kritik hale gelen eğitim örnekleri içindeki paralelleştirmeyi engeller.


Son çalışmalar, çarpanlara ayırma hileleri ve koşullu hesaplama yoluyla hesaplama verimliliğinde önemli gelişmeler elde ederken, aynı zamanda ikincisi durumunda model performansını da artırdı.


Ancak sıralı hesaplamanın temel kısıtlaması devam etmektedir.


Dikkat mekanizmaları, çeşitli görevlerde zorlayıcı dizi modelleme ve iletim modellerinin ayrılmaz bir parçası haline gelmiş ve bağımlılıkların girdi veya çıktı dizilerindeki mesafelerine bakılmaksızın modellenmesine olanak sağlamıştır.


Ancak birkaçı dışında tüm durumlarda bu tür dikkat mekanizmaları tekrarlayan bir ağla birlikte kullanılır.


Bu çalışmada, yinelemeden kaçınan ve bunun yerine girdi ve çıktı arasındaki küresel bağımlılıkları çizmek için tamamen bir dikkat mekanizmasına dayanan bir model mimarisi olan Transformer'ı öneriyoruz.


Transformer, önemli ölçüde daha fazla paralelleştirmeye izin veriyor ve sekiz P100 GPU'da on iki saat kadar kısa bir eğitimden sonra çeviri kalitesinde yeni bir teknolojiye ulaşabiliyor.


Ve bildiğimiz gibi GPT-1, GPT-2, GPT-3 ve GPT 3.5 transformatörleri çok geçmeden üretken yapay zekada sonsuza kadar devrim yarattı.


Aniden makineler insan gibi görünen İngilizce konuşabiliyordu.


Sonraki iki yıl boyunca makalelere ve araştırma haber bültenlerine hakim olan klasik diyagram şuydu:

Yeni ufuklar açan transformatör mimarisi.


Sonra GPT-4 çıktı ve hayat bir daha asla eskisi gibi olmayacaktı.


Bir dönüm noktasını geçmiştik.


Ancak bu transformatörler pahalıydı, eğitimi yavaştı ve son derece yüksek işletme maliyetleri nedeniyle konuşlandırılmaları zordu.


Transformer algoritmasının zaman karmaşıklığı ikinci derecedendi veya O(n*n) idi; burada n, giriş parametrelerinin sayısıydı .


𝐿 katmanlarına sahip standart bir transformatör modeli için, çıkarım algoritmasının zaman karmaşıklığı 𝑂( L*n*n*d )'dir ; burada L katman sayısı, n giriş jetonlarının sayısı ve d transformatörün derinliğidir .


Bir süreliğine bu son teknoloji gibi görünüyordu.


Niceleme, 2021 gibi erken bir tarihte başka bir makalede tanıtıldı ve bu, bir sonraki en gelişmiş mekanizma gibi görünüyordu ( Başlangıç bölümüne bakın).


Ama çok geçmeden başka bir rakibimiz olacaktı.


Mamba Algoritmasına Hoş Geldiniz

Bu ilgili araştırma makalesiydi:



Mamba: Seçici Durum Uzaylarıyla Doğrusal Zaman Dizisi Modellemesi


Araştırma makalesinin özetinden:


Artık derin öğrenmedeki heyecan verici uygulamaların çoğuna güç veren temel modeller, neredeyse evrensel olarak Transformer mimarisine ve onun temel dikkat modülüne dayanmaktadır.


Doğrusal dikkat, geçitli evrişim ve yinelenen modeller ve yapılandırılmış durum uzay modelleri (SSM'ler) gibi birçok ikinci dereceden zaman mimarisi, Transformers'ın uzun dizilerdeki hesaplama verimsizliğini gidermek için geliştirilmiştir, ancak bunlar gibi önemli yöntemler üzerinde dikkat kadar iyi performans göstermemişlerdir. dil olarak.


Bu tür modellerin en önemli zayıflığının içerik temelli muhakeme yapma ve çeşitli iyileştirmeler yapma konusundaki yetersizlikleri olduğunu tespit ediyoruz.


İlk olarak, SSM parametrelerinin basitçe girdinin işlevleri olmasına izin vermek, bunların zayıflıklarını ayrı yöntemlerle giderir ve modelin, mevcut belirtece bağlı olarak dizi uzunluğu boyutu boyunca bilgiyi seçici olarak yaymasına veya unutmasına olanak tanır.


İkincisi, bu değişiklik verimli evrişimlerin kullanımını engellese de, yinelemeli modda donanıma duyarlı bir paralel algoritma tasarlıyoruz.


Bu seçici SSM'leri, dikkat gerektirmeden ve hatta MLP bloklarını (Mamba) gerektirmeden basitleştirilmiş bir uçtan uca sinir ağı mimarisine entegre ediyoruz.


Mamba, hızlı çıkarımdan (Transformers'tan 5 kat daha yüksek verim) ve dizi uzunluğunda doğrusal ölçeklendirmeden yararlanır ve performansı, gerçek veriler üzerinde milyon uzunluktaki dizilere kadar gelişir.


Genel bir dizi modeli omurgası olan Mamba, dil, ses ve genomik gibi çeşitli yöntemlerde en son teknolojiye sahip performansa ulaşır.


Dil modellemede, Mamba-3B modelimiz aynı boyuttaki Transformer'lardan daha iyi performans gösteriyor ve hem ön eğitim hem de sonraki değerlendirmede iki katı büyüklüğündeki Transformers'larla eşleşiyor.

Aniden



Aniden şehirde yeni bir rakibimiz vardı!


Mamba-transformatör algoritmasının ana avantajları şunlardı:



  1. Hibrit Mimari :

    Mamba, Transformer ve Mamba katmanlarını birleştirerek, yönetilebilir bellek alanını korurken gelişmiş performans ve daha yüksek verim sağladı.


  2. Ele Alınan Zorluklar :

    • Bellek ve Bilgi İşlem Verimliliği : Mamba, Transformers'ın özellikle uzun bağlamlarda yüksek bellek ve bilgi işlem gereksinimlerini ele aldı.

    • Özet Durumu : Transformers'ın aksine Mamba, daha hızlı çıkarım yapılmasına olanak tanıyan tek bir özet durumu sağladı.


  3. Mimari Detaylar :

    • Transformatör Katmanları : Mamba, Transformer katmanlarını birleştirdi.
    • Mamba Katmanları : Mamba, uzun bağlamları verimli bir şekilde ele alan durum uzayı modelleme (SSM) katmanlarını sunar.
    • Uzman Karması (MoE) : Mamba, bilgi işlem gereksinimlerini önemli ölçüde artırmadan model kapasitesini artırmak için MoE katmanlarını kullanır.


  4. Verim :

    Mamba, Mixtral-8x7B ve Llama-2 70B gibi mevcut modellerle karşılaştırılabilir bir performans sergilerken 256K tokena kadar bağlam uzunluklarını da destekledi.


  5. Verimlilik : Mamba'nın verimi, uzun bağlamlarda Mixtral-8x7B'nin 3 katıydı ve büyük bağlamlarda bile tek bir GPU'ya sığıyordu.


Mamba mimarisi, Transformer ve SSM yaklaşımlarının güçlü yönlerini birleştirerek büyük dil modellerinde önemli bir ilerlemeyi temsil ediyor.


Ancak testler devam ettikçe Mamba algoritmasının tüm kullanım durumları için uygun bir rakip olmadığı görüldü.


Özellikle Mamba algoritması IMDB veri seti ile sunulduğunda fena halde başarısız oldu.


Ancak mimari hâlâ en son teknolojiye sahipti ve görüntü kullanım senaryolarında oldukça faydalı olduğu görüldü.


Python'da bir uygulamayı burada görebilirsiniz:


Ve bu, Mamba algoritmasının, teoriyle birlikte sunulan mükemmel bir açıklamasıdır.

Ve işte PyPI'deki standart Mamba uygulaması:


Mamba algoritması gününü doldurdu ve halen oldukça aktif bir araştırma alanıdır. Yakında bir halefi çıktı, ama en iyisini sona saklayacağız.


Bir sonraki yarışmacıya geçeceğiz: xLSTM algoritması


xLSTM Algoritması

Araştırma makalesine buradan ulaşabilirsiniz:

xLSTM: Genişletilmiş Uzun Kısa Süreli Bellek - arXiv .


Araştırma makalesinin özetinden:

1990'larda, Uzun Kısa Süreli Belleğin (LSTM) ana fikirleri olarak sabit hata atlıkarıncası ve geçitleme tanıtıldı.


O zamandan bu yana, LSTM'ler zamana direndi ve çok sayıda derin öğrenme başarı öyküsüne katkıda bulundu; özellikle ilk Büyük Dil Modellerini (LLM'ler) oluşturdular.


Bununla birlikte, özünde paralelleştirilebilir öz-dikkati barındıran Transformer teknolojisinin ortaya çıkışı, LSTM'leri ölçek olarak geride bırakarak yeni bir çağın başlangıcına işaret ediyordu.


Şimdi basit bir soruyu gündeme getiriyoruz: LSTM'leri milyarlarca parametreye ölçeklendirerek, modern LLM'lerin en son tekniklerinden yararlanarak, ancak LSTM'lerin bilinen sınırlamalarını hafifleterek dil modellemede ne kadar ileri gidebiliriz?


İlk olarak, uygun normalizasyon ve stabilizasyon teknikleriyle üstel geçitlemeyi tanıtıyoruz.


İkinci olarak, LSTM bellek yapısını değiştirerek şunları elde ederiz:


(i) skaler hafızalı, skaler güncellemeli ve yeni hafıza karıştırmalı sLSTM,


(ii) Bir matris belleği ve bir kovaryans güncelleme kuralı ile tamamen paralelleştirilebilen mLSTM.


Bu LSTM uzantılarının artık blok omurgalarına entegre edilmesi, daha sonra artık xLSTM mimarilerine istiflenen xLSTM blokları sağlar.


Üstel geçitleme ve değiştirilmiş bellek yapıları, hem performans hem de ölçeklendirme açısından son teknoloji ürünü Transformatörler ve Durum Uzayı Modelleriyle karşılaştırıldığında daha iyi performans gösterecek şekilde xLSTM yeteneklerini artırır.


xLSTM, LSTM modeli için yeni bir gün doğumuydu


Uzun Kısa Süreli Bellek (LSTM) Algoritması, zamanında oldukça faydalıydı ve başarılardan payına düşeni almıştı.


xLSTM aynı modeli kullandı ancak tamamen farklı bir mimaride.


Bu, araştırma makalesindeki bu şemada özetlenen ana yenilikti:


xLSTM'nin ana avantajları şunlardı:


Transformer algoritmasıyla karşılaştırıldığında xLSTM'nin avantajları:

  1. Uzun Dizileri İşleme :

    • xLSTM, bilgi akışını kontrol eden geçit mekanizmalarıyla uzun dizileri işlemek için özel olarak tasarlanmıştır. Bu, geleneksel LSTM ile karşılaştırıldığında sıralı verilerdeki uzun vadeli bağımlılıkların yakalanmasında daha etkili olmasını sağladı.




  2. Hesaplama Verimliliği :

    • xLSTM, özellikle daha küçük veri kümeleriyle uğraşırken veya dizi uzunluğunun aşırı büyük olmadığı durumlarda, belirli görevler için hesaplama açısından daha verimli olabilir.

    • Öte yandan transformatörler, dizi uzunluğuyla ikinci dereceden ölçeklenen öz-dikkat mekanizmaları nedeniyle önemli hesaplama kaynakları gerektiriyordu.




  3. Hafıza kullanımı :

    • xLSTM genellikle Transformers'tan daha az belleğe ihtiyaç duyuyordu.

    • Transformers'taki kişisel dikkat mekanizması, özellikle uzun sekanslar için hafıza açısından yoğun olabilecek büyük dikkat matrislerinin depolanmasını gerektiriyordu.


  4. Eğitim Kararlılığı :

    • xLSTM, yinelenen yapısı ve yok olan gradyan sorununun azaltılmasına yardımcı olan geçit mekanizmaları nedeniyle eğitim sırasında daha kararlı olabilir.

    • Transformatörlerin güçlü olmasına rağmen eğitilmesi bazen daha zor olabilir ve hiperparametrelerin ve düzenleme tekniklerinin dikkatli bir şekilde ayarlanmasını gerektirebilir.


  5. Basitlik ve Yorumlanabilirlik :

    • xLSTM modellerinin anlaşılması ve yorumlanması Transformers'a kıyasla daha kolay olabilir.

    • LSTM'lerin yinelenen doğası, ağ üzerinden bilgi akışının izlenmesini kolaylaştırırken, Transformers'taki dikkat mekanizmaları daha soyut ve yorumlanması daha zor olabilir.


  6. Küçük Veri Kümelerinde Performans :

    • xLSTM, küçük veri kümelerinde veya etiketli verilerin sınırlı olduğu durumlarda daha iyi performans gösterebilir.

    • Transformatörler tam potansiyellerine ulaşmak için genellikle büyük miktarda veriye ihtiyaç duyuyordu; bu da xLSTM'yi sınırlı veri kullanılabilirliği olan senaryolarda daha iyi bir seçim haline getiriyor

      .

  7. Sıralı Veriler :

    • Zaman serileri veya belirli doğal dil işleme görevleri türleri gibi belirli sıralı veri türleri için xLSTM, dizileri işlemeye yönelik doğal tasarımı nedeniyle daha iyi performans sağlayabilirdi.


Ancak Transformers'ın daha iyi paralelleştirme yetenekleri, büyük veri kümelerinde üstün performans ve birçok NLP görevinde son teknoloji sonuçlar gibi kendi avantajlarına sahip olduğunu belirtmek önemliydi.


xLSTM ve Transformer arasındaki seçim, eldeki görevin özel gereksinimlerine ve kısıtlamalarına dayanmalıdır.


PyTorch'ta xLSTM'nin bir uygulamasını burada görebilirsiniz:


xLSTM'nin ayrıntılı açıklamasını burada görebilirsiniz:

Bu, mevcut durumunun iyi bir özetidir:





Ancak Mamba'nın Kutsal Kase'yi vuran bir halefi vardı: Yüksek Lisans algoritması için Optimal Zaman Karmaşıklığı


Jamba - Mamba'nın halefi, kesinlikle onu yendi!


Araştırma makalesine buradan ulaşabilirsiniz:

Jamba: Hibrit Bir Transformatör-Mamba Dil Modeli


Araştırma Makalesinin özetinden:


Yeni bir hibrit Transformer-Mamba uzmanlar karışımı (MoE) mimarisine dayanan yeni bir temel büyük dil modeli olan Jamba'yı sunuyoruz.


Özellikle Jamba, Transformer ve Mamba katmanlarının bloklarını birleştirerek her iki model ailesinin avantajlarından yararlanır.


Aktif parametre kullanımını yönetilebilir tutarken model kapasitesini artırmak için bu katmanların bazılarına MoE eklenir.


Bu esnek mimari, kaynağa ve hedefe özgü yapılandırmalara olanak tanır.


Uyguladığımız özel konfigürasyonda, tek bir 80 GB GPU'ya sığan güçlü bir model elde ediyoruz.


Büyük ölçekte oluşturulan Jamba, vanilya Transformers'a kıyasla yüksek verim ve küçük bellek alanı sağlar ve aynı zamanda standart dil modeli kıyaslamalarında ve uzun bağlam değerlendirmelerinde son teknoloji ürünü performans sağlar.


Dikkat çekici bir şekilde model, 256 bin token bağlam uzunluğuna kadar güçlü sonuçlar sunuyor.


Transformer ve Mamba katmanlarının nasıl birleştirileceği ve uzmanların nasıl karıştırılacağı gibi çeşitli mimari kararları inceliyoruz ve bunlardan bazılarının büyük ölçekli modellemede çok önemli olduğunu gösteriyoruz.


Ayrıca, Jamba'nın eğitimi ve değerlendirmesinin ortaya çıkardığı bu mimarilerin çeşitli ilginç özelliklerini de tanımlıyoruz ve bu yeni mimarinin daha fazla araştırılmasını teşvik etmek için çeşitli ablasyon işlemlerinden kontrol noktalarını serbest bırakmayı planlıyoruz.


Jamba uygulamamızın ağırlıklarını izin verilen bir lisans kapsamında kamuya açık hale getiriyoruz.



Uygulama burada HuggingFace deposunda mevcuttur:


Modeli: https://huggingface.co/ai21labs/Jamba-v0.1



  1. Diğer Modellerle Karşılaştırma :


Özetle Jamba'nın hibrit mimarisi, Transformers ve Mamba katmanlarının güçlü yönlerini birleştirerek etkileyici performans ve ölçeklenebilirlik sağlar.


Hatırlanması gereken anahtar şema, yukarıdaki araştırma makalesinde sunulan şemadır:



Mamba ve Transformer modellerinin serpiştirilmesi, Zaman Karmaşıklığında inanılmaz bir artışa yol açar ve bu, aşağıdaki makalede güzel bir şekilde özetlenmiştir:


Mamba ve Jamba — Basitçe Açıklama

  • Yazarı : Nimrita Koul

  • Tarih : 1 Nisan 2024


  • Özet :

    • Jamba, AI21 tarafından tanıtılan ilk üretim sınıfı Mamba tabanlı Büyük Dil Modelidir.


    • Transformer ve Mamba mimarilerinin güçlü yönlerini birleştirir.


      • Transformatör tabanlı modeller , O(n²) eğitim süresi karmaşıklığı nedeniyle uzun dizilerle zorlanır.


      • Mamba mimarisi doğrusal eğitim süresi karmaşıklığı ( O(n) ) ve sabit çıkarım süresi ( O(1) ) sunar.


      • Mamba, Durum Uzay Modeli (SSM) mimarisini temel alır.


      • SSM'ler, diferansiyel veya fark denklemlerini kullanarak bir sistemi tanımlamak için durum değişkenlerini kullanır.


      • Mamba'nın hibrit yaklaşımı mevcut modellerin sınırlamalarını gidermeyi amaçlıyor.



Makalenin tamamını buradan okuyabilirsiniz:

Mamba ve Jamba - Basitçe Açıklandı , Nimrita Koul tarafından Medium.com'da.


Optimal Sınıra Ulaşıldı!

Burada dikkat edilmesi gereken önemli nokta, eğitim için algoritmanın her giriş jetonuna en az bir kez bakması gerektiğidir, bu da O(n) zaman karmaşıklığını verir.


Ayrıca, herhangi bir LLM modeli için çıkarımın alabileceği mümkün olan en hızlı hız O(1)'dir - sabit zaman, jetonların uzunluğundan bağımsız (inanılmaz bir başarı)!


Jamba algoritması durumunda bu sınırların her ikisine de ulaşıldı!


Bu nedenle, hala çok yüksek olabilecek sabit zamanlı iyileştirmeler kapsamında (bu sayılar yüz milyarlarcadır):


Jamba, Transformatör Algoritması için optimal Sınırlı Zaman Karmaşıklığına ulaştı!


Verilen sistem koşulları altında, yeni teknoloji uygulanmadığı sürece (kuantum hesaplama, herhangi biri) daha hızlı bir asimptotik zaman karmaşıklığına sahip olamayız!


Bu çok önemli bir sonuç!


Jamba bugüne kadarki en umut verici transformatör algoritmasıdır!


A121 laboratuvarlarının resmi duyurusu:

Jamba'da Medium hakkında bir başka güzel makale:

Şu anda mevcut olan en iyi Jamba uygulamalarından biri:


Bir kez daha HuggingFace Hub'ın Jamba modeli:

Çözüm

Böylece Jamba, mevcut sistem altında bir akım trafosu algoritmasının elde edebileceği nihai zaman karmaşıklığına sabit bir seviye değişimine ulaşır. Tekrarlamak; sabitler çok büyük olabilir çünkü bunlar yüz milyarlarca terim düzeyindedir! Ancak bu yine de önemli bir başarıdır. Ve özellikle DPO (Doğrudan Tercih optimizasyonu) ve Niceleme ile birleştirildiğinde bu konudaki araştırmanın nereye gidebileceği konusunda hiçbir sınır yoktur; daha fazla bilgi için Sonsöz'e bakın.

Şu an itibariyle kelimenin tam anlamıyla hiçbir sınır yok!


Sonsöz:


Bu işin kimsenin açıkça üzerinde çalışmadığı bir tarafı var.


Mamba, xLSTM ve Jamba modelleri 1 bitlik hassasiyetle kuantize edilebilir mi?


Elbette!


Mamba ve Jamba'nın performans iyileştirmelerinin bir bit olarak nicelleştirildiğinde görmek için sabırsızlanıyorum! Veya 1,58 bit {-1, 0, 1 }.


Daha fazla ayrıntı için bir kez daha bu makaleye bakın:


https://hackernoon.com/why-1-bit-transformers-will-change-the-world


Bu teknolojinin geleceği inanılmaz derecede heyecan verici olacak!


Bu alanda çalışmanın neşesi ve heyecanı hep yanınızda olsun!


Şerefe!


Heyecan verici zamanlar önümüzde!


Referanslar:

Yukarıdaki yazıda açıkça belirtilenlerin dışında:

  1. Transformer-XL: Sabit Uzunluk Bağlamının Ötesinde Özenli Dil Modelleri
  2. Longformer: Uzun Belge Transformatörü
  3. Reformer: Verimli Transformatör
  4. Linformer: Doğrusal Karmaşıklıkla Kişisel Dikkat
  5. Durum Uzayı Modelleri: Zaman Serisi Verilerini Modellemek İçin Genel Bir Çerçeve
  6. S4: Yapılandırılmış Durum Uzayları ile Dizi Modelleme
  7. Büyük Dil Modellerinin Hesaplamalı Verimliliği Üzerine
    • Anonim yazarlar. (Yıl belirtilmemiş). [Büyük Dil Modellerinin Hesaplamalı Verimliliği Hakkında](URL sağlanmamıştır).
  8. Verimli Transformatörler: Bir Araştırma
  9. Verimli Tamsayı-Yalnızca Aritmetik Çıkarımı için Sinir Ağlarının Nicelenmesi ve Eğitimi
  10. Q-BERT: BERT'in Hessian Tabanlı Ultra Düşük Hassasiyetli Nicelemesi
  11. BERT: Dil Anlamak için Derin Çift Yönlü Transformatörlerin Ön Eğitimi
  12. GPT-3: Dil Modelleri Az Sayıda Öğrenir
  13. RoBERTa: Sağlam Şekilde Optimize Edilmiş BERT Eğitim Öncesi Yaklaşımı
  14. ALBERT: Dil Temsillerinin Kendi Kendine Denetimli Öğrenimi için Lite BERT
  15. T5: Birleşik Metinden Metne Dönüştürücüyle Transfer Öğrenmenin Sınırlarını Keşfetmek
  16. BERT'in damıtılmış versiyonu olan DistilBERT: daha küçük, daha hızlı, daha ucuz ve daha hafif




Uzay Karmaşıklığını da unutmayın! Neredeyse eşit derecede önemli!


Prolog ve Sonsöz için

Kuantizasyon için bu makale kesinlikle okunmaya değer:

  1. Araştırma Makalesi - BitNet: Büyük Dil Modelleri için 1-bit Transformatörleri Ölçeklendirme :

    • Özet : Büyük dil modellerinin boyutlarının artması, dağıtım konusunda zorluklara neden olmuş ve yüksek enerji tüketimi nedeniyle çevresel etkilerle ilgili endişeleri artırmıştır. Bu çalışmada, büyük dil modelleri için tasarlanmış, ölçeklenebilir ve kararlı bir 1-bit Transformer mimarisi olan BitNet'i tanıtıyoruz. Özellikle BitLinear'ı , 1 bitlik ağırlıkları sıfırdan eğitmek için nn.Linear katmanının yerine geçecek bir alternatif olarak sunuyoruz. Dil modellemeye ilişkin deneysel sonuçlar , BitNet'in, en son teknolojiye sahip 8 bit niceleme yöntemleri ve FP16 Transformer taban çizgileri ile karşılaştırıldığında bellek alanını ve enerji tüketimini önemli ölçüde azaltırken rekabetçi bir performans elde ettiğini göstermektedir. Ayrıca BitNet, tam hassasiyetli Transformers'a benzer bir ölçeklendirme yasası sergiliyor ve bu, verimlilik ve performans avantajlarını korurken daha da büyük dil modellerine etkili ölçeklendirme potansiyelini ortaya koyuyor.

      Araştırma makalesinin tamamını okuyun


      https://arxiv.org/abs/2310.11453



Ve HuggingFace'teki model:

  1. Sarılma Yüz Deposu - BitNet b1.58-3B Quantized :


Gelecekle ilgili bir şey: heyecan verici olacak!