Yapay Zeka teknolojisinin gelişimiyle ilgilenen herkes, günümüzün çözümlerinin tamamen   ve   ilgili olduğunu bilir. Özetle LLM'ler, giriş jetonlarına dayanarak bir sonraki jetonu tahmin edebilen sinir ağlarıdır. Tipik olarak bu jetonlar kelimelerdir (bu tamamen doğru değildir ancak bu şekilde kavramsallaştırmak daha kolaydır) ve ağın çıktısı da bir kelimedir. ChatGPT bu şekilde çalışır. Bir soru giriyorsunuz ve ağ bir kelime üretiyor. Daha sonra soru ve kelime birlikte ağ girdisi haline gelir, başka bir kelime üretilir ve tam bir cevap oluşana kadar bu şekilde devam eder. Büyük Dil Modelleri (LLM) transformatörlerle  Ancak jetonlar kelimelerden daha fazlası olabilir. GPT-4 veya Gemini gibi gelişmiş dil modelleri artık çok modludur, yani girdileri resim ve sözcükleri içerebilir. Tıpkı bir cümlenin kelimelere bölünebilmesi gibi, bir görüntü de küçük parçalara bölünebilir ve oradan aynı transformatör mimarisi bunları işleyebilir. Örneğin, çok modlu bir ağdan bir görüntüde ne olduğunu tanımlaması veya resimde görülen kullanıcı arayüzünü kodlaması istenebilir.   Bu mimari daha da geneldir.   sistemi, tek bir transformatör ağının aynı anda soruları yanıtlayabildiği, video oyunları oynayabildiği veya bir robotu kontrol edebildiği ve hatta robotların   edilebildiği en iyi örnektir. Yüksek Lisans, tokenlarla çalıştığından ve her görev tokenleştirilebildiğinden, LLM her görev için evrensel bir çözüm sunar.  DeepMind'ın Gato ChatGPT kullanılarak kontrol  Son zamanların en abartılı teknoloji haberlerinden biri,   şirketinin, LLM'leri geleneksel GPU'lardan çok daha verimli ve daha az enerjiyle çalıştırabilen bir   geliştirmesiyle ilgiliydi. Bu, Yüksek Lisans mimarisinin o kadar temel hale geldiğini ve artık bunun için özel donanım oluşturmanın değerli olduğunu açıkça gösteriyor. Groq ASIC (Uygulamaya Özel Entegre Devre)  Ayrıca yakın zamanda "   " başlıklı bir yayın ortaya çıktı. Sinir ağlarının kuantizasyonu, boyutu ve hesaplama talebini azaltmak için yaygın bir yöntemdir. Çözümün özü, eğitimi kayan nokta sayıları kullanarak büyük GPU kümeleri üzerinde gerçekleştirmek ve ardından bitmiş ağın ağırlıklarını, kullanıcı cihazlarının işlemcilerinin daha verimli çalışmasına olanak tanıyan daha az hassas bir formata dönüştürmektir. Örneğin, eğitim 16 veya 32 bitlik kayan noktalı sayılarla gerçekleştirilir ve bunlar daha sonra hızlı istemci tarafı işlemleri için 8 veya 4 bitlik sabit noktalı sayılara dönüştürülür. Bu şekilde model, mobil veya IoT cihazlarda bile iyi çalışabilir. Bu nicelemenin aşırı bir biçimi, ağırlıkların 1 bitlik sayılara dönüştürülmesidir. Bu,   olabilir veya yayının önerdiği gibi, {-1,0,1} değerleri (dolayısıyla 1,58 bit) kullanılarak yapılabilir. Böylesine aşırı bir nicelemenin ağı tamamen kullanılamaz hale getireceği düşünülebilir, ancak gerçekte bunun tersi doğrudur; bu 1 bitlik ağlar son derece iyi performans gösterir. 1-bit Yüksek Lisans Dönemi: Tüm Büyük Dil Modelleri 1.58 Bit'tedir tam bir ikili dönüşüm   Bu niye bu kadar büyük bir mesele?  Eğer bu üç değer ağırlıkları temsil etmek için yeterli ise, sinir ağlarında günümüzde en sık kullanılan işlem olan çarpma işlemine artık gerek kalmamaktadır. GPU'lar çarpma işlemlerini çok verimli bir şekilde gerçekleştirebildiğinden, sinir ağları için GPU kümelerinin kullanılmasının nedeni budur. Çoğaltmalara gerek kalmadan, GPU'lara ihtiyaç yoktur ve modeller CPU'larda bile verimli bir şekilde çalıştırılabilir veya bu 1 bitlik ağları (analog bir şekilde bile) çalıştırabilen özel donanım (ASIC) oluşturmak mümkündür.  Şu anda kuantizasyon eğitim sonrası bir işlemdir. Dolayısıyla 1 bitlik ağların kullanılması eğitim sürecini hızlandırmaz. Bununla birlikte, eğitim tek seferlik bir işlem olduğu için hala faydalıdırlar, ancak sinir ağı daha sonra sayısız kez çalıştırılır. Sonuç olarak, ağların çalıştırılması eğitimden önemli ölçüde daha fazla enerji tüketimini temsil eder. Dolayısıyla eğitim bağlamında da bu teknolojiden faydalanabiliriz.  Gradyan tabanlı eğitim 1 bitlik veya ikili ağlarla çalışmadığından, genetik algoritmalar veya diğer gradyan içermeyen teknolojiler gibi gradyan tabanlı olmayan teknolojiler (   ve   kontrol edin) uygun hale gelir. Çoğu durumda geri yayılım, gradyan içermeyen çözümlerden çok daha verimli olmasına rağmen, 1 bitlik ağlar, kayan noktalı ağlara göre çok daha verimli bir şekilde çalıştırılabilir. Yani, geri yayılımla, kayan noktalı sayıları kullanarak, örneğin genetik algoritmalara göre en uygun ağı 10 kat daha hızlı buluyor olabiliriz. Ancak 1 bitlik ağ 20 kat daha hızlı çalışırsa, genetik algoritmalar kullanılarak eğitim yine iki kat daha hızlı olacaktır. 1 bitlik ağların gradyan içermeyen yöntemlerle ne kadar etkili bir şekilde eğitilebileceğinin araştırılması çok ilginç bir araştırma konusu olabilir. nevergrad PyGAD'i  Bu konunun bu kadar etkileyici olmasının bir başka nedeni de, bu ağların doğal beyinde bulunan (biyolojik olarak makul) sinir ağlarına daha çok benzemesidir. Dolayısıyla iyi bir gradyan içermeyen eğitim algoritması seçip bu 1 bitlik ağları uygulayarak insan beynine çok daha benzer sistemler kurabileceğimize inanıyorum. Üstelik bu, analog, ışık tabanlı ve hatta biyolojik tabanlı işlemciler gibi daha önce mümkün olmayan ASIC'lerin ötesinde teknolojik çözümlerin olasılığını da açıyor.  Bu yönün uzun vadede bir çıkmaza dönüşmesi mümkündür, ancak şimdilik devrim niteliğindeki potansiyeli ortadadır ve bu da onu yapay zeka alanına dahil olan herkes için çok umut verici bir araştırma yolu haline getirmektedir.

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

This story contains AI-generated text. The author has used AI either for research, to generate outlines, or write the text itself. 

1-Bit Dil Modellerinin (LLM) Devrim Yaratan Potansiyeli

About Author

YORUMLAR

ETİKETLERİ ASIN

BU YAZI

Related Stories

Benzersiz Bir Ekosistemi Güçlendiren Bitcoin UTXO Modeli

Görünmeyen Katmanlar: Kullanıcı Görüşmeleri Neden Yeri doldurulamaz bir Varlıktır?

HackerNoon Kendi Ana Dilinizde 🆕 ‼️ Teknoloji Blog Yazıları için 77 Dil Ana Sayfası

Yapay Zekanın Gücünü Ortaya Çıkarıyoruz. En Son Tekniklerin Sistematik Bir İncelemesi: Özet ve Giriş

Benzersiz Bir Ekosistemi Güçlendiren Bitcoin UTXO Modeli

Görünmeyen Katmanlar: Kullanıcı Görüşmeleri Neden Yeri doldurulamaz bir Varlıktır?

HackerNoon Kendi Ana Dilinizde 🆕 ‼️ Teknoloji Blog Yazıları için 77 Dil Ana Sayfası

Yapay Zekanın Gücünü Ortaya Çıkarıyoruz. En Son Tekniklerin Sistematik Bir İncelemesi: Özet ve Giriş

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps