paint-brush
1-Bit Dil Modellerinin (LLM) Devrim Yaratan Potansiyeliile@thebojda
6,780 okumalar
6,780 okumalar

1-Bit Dil Modellerinin (LLM) Devrim Yaratan Potansiyeli

ile Laszlo Fazekas4m2024/03/03
Read on Terminal Reader

Çok uzun; Okumak

1 bitlik LLM'ler, biyolojik olarak daha makul olan ve özel donanım üzerinde daha verimli çalışan, çok daha verimli sinir ağları oluşturmanın potansiyel bir yoludur. 1 bitlik ağların gradyan içermeyen yöntemlerle ne kadar etkili bir şekilde eğitilebileceğinin araştırılması çok ilginç bir araştırma konusu olabilir.
featured image - 1-Bit Dil Modellerinin (LLM) Devrim Yaratan Potansiyeli
Laszlo Fazekas HackerNoon profile picture
0-item
1-item

Yapay Zeka teknolojisinin gelişimiyle ilgilenen herkes, günümüzün çözümlerinin tamamen Büyük Dil Modelleri (LLM) ve transformatörlerle ilgili olduğunu bilir. Özetle LLM'ler, giriş jetonlarına dayanarak bir sonraki jetonu tahmin edebilen sinir ağlarıdır. Tipik olarak bu jetonlar kelimelerdir (bu tamamen doğru değildir ancak bu şekilde kavramsallaştırmak daha kolaydır) ve ağın çıktısı da bir kelimedir. ChatGPT bu şekilde çalışır. Bir soru giriyorsunuz ve ağ bir kelime üretiyor. Daha sonra soru ve kelime birlikte ağ girdisi haline gelir, başka bir kelime üretilir ve tam bir cevap oluşana kadar bu şekilde devam eder.


Ancak jetonlar kelimelerden daha fazlası olabilir. GPT-4 veya Gemini gibi gelişmiş dil modelleri artık çok modludur, yani girdileri resim ve sözcükleri içerebilir. Tıpkı bir cümlenin kelimelere bölünebilmesi gibi, bir görüntü de küçük parçalara bölünebilir ve oradan aynı transformatör mimarisi bunları işleyebilir. Örneğin, çok modlu bir ağdan bir görüntüde ne olduğunu tanımlaması veya resimde görülen kullanıcı arayüzünü kodlaması istenebilir.

kaynak: https://prodüksiyon-media.paperswithcode.com/methods/Screen_Shot_2021-01-26_at_9.43.31_PM_uI4jjMq.png



Bu mimari daha da geneldir. DeepMind'ın Gato sistemi, tek bir transformatör ağının aynı anda soruları yanıtlayabildiği, video oyunları oynayabildiği veya bir robotu kontrol edebildiği ve hatta robotların ChatGPT kullanılarak kontrol edilebildiği en iyi örnektir. Yüksek Lisans, tokenlarla çalıştığından ve her görev tokenleştirilebildiğinden, LLM her görev için evrensel bir çözüm sunar.


kaynak: https://deepmind.google/discover/blog/a-generalist-agent/



Son zamanların en abartılı teknoloji haberlerinden biri, Groq şirketinin, LLM'leri geleneksel GPU'lardan çok daha verimli ve daha az enerjiyle çalıştırabilen bir ASIC (Uygulamaya Özel Entegre Devre) geliştirmesiyle ilgiliydi. Bu, Yüksek Lisans mimarisinin o kadar temel hale geldiğini ve artık bunun için özel donanım oluşturmanın değerli olduğunu açıkça gösteriyor.


Ayrıca yakın zamanda " 1-bit Yüksek Lisans Dönemi: Tüm Büyük Dil Modelleri 1.58 Bit'tedir " başlıklı bir yayın ortaya çıktı. Sinir ağlarının kuantizasyonu, boyutu ve hesaplama talebini azaltmak için yaygın bir yöntemdir. Çözümün özü, eğitimi kayan nokta sayıları kullanarak büyük GPU kümeleri üzerinde gerçekleştirmek ve ardından bitmiş ağın ağırlıklarını, kullanıcı cihazlarının işlemcilerinin daha verimli çalışmasına olanak tanıyan daha az hassas bir formata dönüştürmektir. Örneğin, eğitim 16 veya 32 bitlik kayan noktalı sayılarla gerçekleştirilir ve bunlar daha sonra hızlı istemci tarafı işlemleri için 8 veya 4 bitlik sabit noktalı sayılara dönüştürülür. Bu şekilde model, mobil veya IoT cihazlarda bile iyi çalışabilir. Bu nicelemenin aşırı bir biçimi, ağırlıkların 1 bitlik sayılara dönüştürülmesidir. Bu, tam bir ikili dönüşüm olabilir veya yayının önerdiği gibi, {-1,0,1} değerleri (dolayısıyla 1,58 bit) kullanılarak yapılabilir. Böylesine aşırı bir nicelemenin ağı tamamen kullanılamaz hale getireceği düşünülebilir, ancak gerçekte bunun tersi doğrudur; bu 1 bitlik ağlar son derece iyi performans gösterir.


Bu niye bu kadar büyük bir mesele?

Eğer bu üç değer ağırlıkları temsil etmek için yeterli ise, sinir ağlarında günümüzde en sık kullanılan işlem olan çarpma işlemine artık gerek kalmamaktadır. GPU'lar çarpma işlemlerini çok verimli bir şekilde gerçekleştirebildiğinden, sinir ağları için GPU kümelerinin kullanılmasının nedeni budur. Çoğaltmalara gerek kalmadan, GPU'lara ihtiyaç yoktur ve modeller CPU'larda bile verimli bir şekilde çalıştırılabilir veya bu 1 bitlik ağları (analog bir şekilde bile) çalıştırabilen özel donanım (ASIC) oluşturmak mümkündür.


Şu anda kuantizasyon eğitim sonrası bir işlemdir. Dolayısıyla 1 bitlik ağların kullanılması eğitim sürecini hızlandırmaz. Bununla birlikte, eğitim tek seferlik bir işlem olduğu için hala faydalıdırlar, ancak sinir ağı daha sonra sayısız kez çalıştırılır. Sonuç olarak, ağların çalıştırılması eğitimden önemli ölçüde daha fazla enerji tüketimini temsil eder. Dolayısıyla eğitim bağlamında da bu teknolojiden faydalanabiliriz.


Gradyan tabanlı eğitim 1 bitlik veya ikili ağlarla çalışmadığından, genetik algoritmalar veya diğer gradyan içermeyen teknolojiler gibi gradyan tabanlı olmayan teknolojiler ( nevergrad ve PyGAD'i kontrol edin) uygun hale gelir. Çoğu durumda geri yayılım, gradyan içermeyen çözümlerden çok daha verimli olmasına rağmen, 1 bitlik ağlar, kayan noktalı ağlara göre çok daha verimli bir şekilde çalıştırılabilir. Yani, geri yayılımla, kayan noktalı sayıları kullanarak, örneğin genetik algoritmalara göre en uygun ağı 10 kat daha hızlı buluyor olabiliriz. Ancak 1 bitlik ağ 20 kat daha hızlı çalışırsa, genetik algoritmalar kullanılarak eğitim yine iki kat daha hızlı olacaktır. 1 bitlik ağların gradyan içermeyen yöntemlerle ne kadar etkili bir şekilde eğitilebileceğinin araştırılması çok ilginç bir araştırma konusu olabilir.


Bu konunun bu kadar etkileyici olmasının bir başka nedeni de, bu ağların doğal beyinde bulunan (biyolojik olarak makul) sinir ağlarına daha çok benzemesidir. Dolayısıyla iyi bir gradyan içermeyen eğitim algoritması seçip bu 1 bitlik ağları uygulayarak insan beynine çok daha benzer sistemler kurabileceğimize inanıyorum. Üstelik bu, analog, ışık tabanlı ve hatta biyolojik tabanlı işlemciler gibi daha önce mümkün olmayan ASIC'lerin ötesinde teknolojik çözümlerin olasılığını da açıyor.


Bu yönün uzun vadede bir çıkmaza dönüşmesi mümkündür, ancak şimdilik devrim niteliğindeki potansiyeli ortadadır ve bu da onu yapay zeka alanına dahil olan herkes için çok umut verici bir araştırma yolu haline getirmektedir.