paint-brush
2023 Yılında LLM'nin Durumu: En Son Gelişmelerin Kısa Bir Özetiby@vndee
611
611

2023 Yılında LLM'nin Durumu: En Son Gelişmelerin Kısa Bir Özeti

Duy Huynh8m2024/01/26
Read on Terminal Reader

2023 yılı, büyük dil modelleri (LLM'ler) alanında önemli bir büyüme ve yenilik dönemi oldu.
featured image - 2023 Yılında LLM'nin Durumu: En Son Gelişmelerin Kısa Bir Özeti
Duy Huynh HackerNoon profile picture
0-item

Tamam, ChatGPT'nin yayınlanmasının üzerinden bir yıldan fazla zaman geçti. Bu dönüm noktasından önce, araştırma topluluğu ve endüstri liderleri, bir dizi istikrarlı yayılma bulgusu ve uygulamasıyla, özellikle bilgisayarlı görme alanında üretken yapay zeka üzerinde zaten aktif olarak çalışıyorlardı. Kısaca özetlemek gerekirse, 2022 yılı istikrarlı yayılma yılı, 2023 yılı ise büyük dil modellerinin (LLM) yılı olarak değerlendirilebilir.


Lama çetesi şehre geldi - Resim: DALL-E 3.


2023'ün başlangıcı, ChatGPT'nin yaygın benimsenme ve inovasyon konusunda lider olduğu LLM'lerin hakimiyetine işaret ediyordu. Bu yıl Yüksek Lisans'ın çeşitli sektörlerde yaygınlaştığını ve teorik araştırma ile pratik endüstri uygulamaları arasındaki boşluğu etkili bir şekilde kapattığını gördük. 2023'te Yüksek Lisans ortamını şekillendiren önemli kilometre taşlarını ve trendleri inceleyelim, aynı zamanda bunların teknolojiyle etkileşimimizde nasıl devrim yarattığına dair fikir sahibi olalım.

Açık Kaynak LLM Yılı

2023 yılında açık kaynaklı büyük dil modelleri (LLM) açısından dikkate değer bir yıla tanık olduk. En önemli sürüm, Meta'nın LLaMa serisiydi ve her ay, her hafta ve bazen her gün yeni modellerin ortaya çıkmasıyla daha sonra sık sık yayınlanacak olanlara bir örnek oluşturdu. Meta, EleutherAI, MosaicML, TIIUAE ve StabilityAI gibi önemli oyuncular, yapay zeka topluluğunun farklı ihtiyaçlarını karşılayan, halka açık veri kümeleri üzerinde eğitilmiş çeşitli modelleri tanıttı. Bu modellerin çoğunluğu, ChatGPT tarafından oluşturulan trendi sürdüren yalnızca kod çözücü Transformatörleriydi. İşte bu yıl piyasaya sürülen en dikkat çekici modellerden bazıları:

  • Meta'dan LLaMa: LLaMa ailesinde çeşitli boyutlarda modeller bulunur; en büyük model 65 milyar parametreye sahiptir ve 1,4 trilyon token ile eğitilmiştir. Özellikle daha küçük modeller, özellikle de 1 trilyon token üzerinde eğitilen 13 milyar parametreli model, daha fazla veri üzerinde uzun eğitim sürelerinden yararlanarak üstün performans gösterdi, hatta bazı kıyaslamalarda daha büyük modelleri geride bıraktı. 13B LLaMa modeli, çoğu kıyaslamada GPT-3'ü geride bıraktı ve en büyük model, piyasaya sürülmesiyle birlikte yeni, son teknoloji performans ölçütleri belirledi.

  • Eleuther AI'dan Pythia: Pythia, açık olarak erişilebilen ve şeffaf bir şekilde eğitilen LLM'ler üzerinde kontrollü bilimsel araştırmaları kolaylaştırmak için tasarlanmış, 154 kısmen eğitilmiş kontrol noktasına sahip 16 modelden oluşan bir paketten oluşur. Bu seri, yüksek lisans eğitimine yönelik ayrıntılı makaleler ve kapsamlı bir kod tabanı sağlayarak araştırmacılara büyük ölçüde yardımcı olmaktadır.

  • MosaicML'den MPT Ve TIIUAE'nin Falcon serisi: Her ikisi de 1T'den 1,5T'ye kadar çeşitli veri kaynakları üzerinde eğitildi ve 7B ve 30B parametrelerine sahip versiyonlar üretti. Özellikle yılın ilerleyen aylarında TIIUAE, bugüne kadarki en büyük açık kaynaklı model olan 180B modelini piyasaya sürdü.

  • Mistral , Phi Ve Orka : Bu modeller, sınırlı donanım ve bütçe kısıtlamalarına uygun daha küçük ve daha verimli modellerin eğitilmesine odaklanarak 2023'teki başka bir trendi vurguluyor ve yapay zeka modeli geliştirmede erişilebilirlik ve pratikliğe yönelik önemli bir değişime işaret ediyor.


Llama 2, halka açık çevrimiçi veriler kullanılarak önceden eğitilmiştir. Daha sonra denetimli ince ayar kullanılarak Llama Chat'in ilk sürümü oluşturulur. Daha sonra, Lama Sohbeti, ret örneklemesi ve yakın politika optimizasyonunu (PPO) içeren İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF) kullanılarak yinelemeli olarak iyileştirilir. - Lama 2: açık kaynak, araştırma ve ticari kullanım için ücretsiz

Küçük ve Verimli Model

2023 yılında çok sayıda küçük ve verimli modelin de piyasaya çıktığına tanık olduk. Bu eğilimin temel nedeni, çoğu araştırma grubu için büyük modellerin eğitiminin fahiş derecede yüksek maliyetidir. Ek olarak, büyük modeller, pahalı eğitim ve dağıtım maliyetlerinin yanı sıra önemli bellek ve hesaplama gücü gereksinimleri nedeniyle çoğu zaman gerçek dünya uygulamaları için uygun değildir. Bu nedenle küçük ve verimli modeller yılın ana trendlerinden biri olarak ortaya çıktı. Daha önce de belirtildiği gibi Mistral ve Orca serileri bu trendin kilit oyuncuları oldu. Mistral, çoğu kıyaslamada daha büyük benzerlerinden daha iyi performans gösteren bir 7B modeliyle topluluğu şaşırttı; Phi serisi ise yalnızca 1,3B ila 2,7B parametreleriyle daha da küçük olmasına rağmen etkileyici bir performans sunuyor.

LLaMA serisine göre Mistral-7b performansı - https://mistral.ai/news/announcing-mistral-7b/


Bir diğer yenilikçi yaklaşım ise Orca 2: Küçük Dil Modellerinin Nasıl Akıl Yürütüleceğini Öğretme GPT-4 gibi daha büyük bir modelden bilginin daha küçük bir modele ayrıştırılmasını içerir. Daha büyük modellerin çıktılarını kopyalamak için öncelikle taklit öğrenmeye dayanan önceki çalışmalardan farklı olarak Orca 2, "daha küçük" LLM'leri, özellikle 7B ve 13B parametrelerine sahip olanları, adım adım analiz ve geri çağırma gibi çeşitli akıl yürütme yöntemleriyle donatmayı amaçlamaktadır. -sonra-oluşturma teknikleri. Bu yaklaşım, bu modellerin her görev için en uygun yöntemi belirlemesine ve uygulamasına olanak tanıyarak Orca 2'nin benzer boyuttaki modellerden önemli ölçüde daha iyi performans göstermesine ve hatta 5 ila 10 kat daha büyük modellerle rekabet etmesine olanak tanır.

Orca 2'yi (7B ve 13B), LLaMA-2-Chat (13B ve 70B) ve WizardLM (13B ve 70B) ile dil anlayışı, sağduyulu muhakeme, çok adımlı değerlendirmeleri kapsayan çeşitli kıyaslamalarda (sıfır atış ayarında) karşılaştıran sonuçlar muhakeme, matematik problemi çözme, vb. - Orca 2: Küçük Dil Modellerini Öğretme Nasıl Muhakeme Yapılır


Küçük ve verimli modellerin başarısı büyük ölçüde veri kalitesine ve hızlı dikkat hilelerine bağlıdır. Mistral, eğitim verilerinin ayrıntılarını açıklamamış olsa da, çeşitli araştırmalar ve modeller, etkili modellerin eğitimi için veri kalitesinin çok önemli olduğunu göstermiştir. Bu yılın en dikkat çekici bulgularından biri LIMA: "Uyum İçin Daha Az Daha Fazladır" Bu, yalnızca 1.000 eğitim örneğinden oluşan, insan tarafından oluşturulan, yüksek kaliteli bir veri kümesinin, 50.000 ChatGPT tarafından oluşturulan yanıtta ince ayar yapılan aynı modelden daha iyi performans gösterecek şekilde ince ayar için kullanılabileceğini gösterdi.

Düşük Dereceli Uyarlama Ayarı

Tamam, konuşalım LoRA Geçen yıl tanıtılan Parametre Verimli İnce Ayar yöntemleri arasında en parlak yıldız olarak parladı. Düşük Sıralı Uyarlama (LoRA), LLM'lerde verimli bir şekilde ince ayar yapmak için oyunun kurallarını değiştiren bir şey olarak ortaya çıktı. LoRA, önceden eğitilmiş modellere düşük dereceli matris yaklaşımını ekleyerek parametre açısından verimli ince ayar yapılmasına olanak tanır ve hesaplama yükünü ve depolama gereksinimlerini önemli ölçüde azaltır. Bu yaklaşım yalnızca kaynakları korumakla kalmaz, aynı zamanda temel modelin temel özelliklerinden ödün vermeden farklı uygulamalar için özelleştirmeye de olanak tanır.


LoRA ile normal ince ayar arasındaki fark - LoRA (Düşük Sıralı Uyarlama) Kullanarak LLM'lerde İnce Ayar Yapmak için Pratik İpuçları


LoRA temel olarak önceden eğitilmiş model ağırlıklarının dondurulması ve eğitilebilir katmanların ( sıralama ayrıştırma matrisleri ) enjekte edilmesidir. Bu matrisler kompakttır ancak modelin davranışına gerekli uyarlamaları yaklaşık olarak tahmin etme yeteneğine sahiptir ve orijinal modelin bilgisinin bütünlüğünü korurken verimli ince ayar yapılmasına olanak tanır. LoRA'nın en sık kullanılan varyantlarından biri QLoRA (Kuantize Edilmiş Düşük Sıralı Uyarlama) . Düşük dereceli matrisleri nicemleyen vanilya LoRA'nın hafıza açısından verimli versiyonudur. Bu yaklaşım, bellek ayak izini artırmadan ve daha az hesaplama yoğunluğu olmadan, ince ayar sürecinde düşük dereceli matrislerin kullanılmasına olanak tanır.


QLORA, transformatör modelini 4 bit hassasiyete nicelendirerek ve bellek artışlarını işlemek için sayfalanmış optimize ediciler kullanarak LoRA'ya göre iyileştirme yapar. - Kağıttan resim: QLoRA (Kuantize Düşük Sıralı Uyarlama)

Uzmanların Karışımı

Uzmanlar Karması (MEB) yaklaşımı geçen yıl LLM mimarisinde önemli bir sıçramayı temsil ediyor. MoE, karmaşık sorunları, her biri özel bir alt model veya "uzman" tarafından ele alınan daha küçük, daha yönetilebilir alt sorunlara bölerek basitleştiren, uzun geçmişi olan bir makine öğrenimi paradigmasıdır. Bu, her üyenin belirli bir alanda üstün olduğu uzmanlardan oluşan bir ekibe sahip olmaya benzer. MoE modelinde her uzman, verinin veya görevin belirli bir alt kümesine odaklanır. Belirli bir girdi için hangi uzmanın kullanılacağına ilişkin karar, trafik yöneticisi görevi gören ve görevleri en uygun uzmana yönlendiren bir "geçit mekanizması" tarafından yapılır. Bu yöntem, MoE modellerinin geniş bir görev yelpazesini verimli ve doğru bir şekilde yerine getirmesine olanak tanır. MoE özellikle faydalıdır çünkü farklı modellerin güçlü yönlerini birleştirir ve tek, tek tip bir modelin ele alması zor olabilecek karmaşık görevlerde performansın artmasına yol açar. Bu, bir sorunun her yönünün gerekli uzmanlığa sahip biri tarafından yönetilmesini ve daha rafine ve etkili çözümler üretilmesini sağlayan uzmanlardan oluşan bir ekibin hizmetinizde olmasıyla karşılaştırılabilir.

Kağıttan MoE katmanı Aşırı Büyük Sinir Ağları: Seyrek Kapılı Uzmanlar Karması Katmanı, 2017.


Geçen yıl piyasaya sürülen en dikkat çekici MEB modellerinden biri Mixtral-8x-7B MoE yaklaşımını kullanarak her biri 7B parametreli sekiz küçük modeli birleştirerek etkileyici bir performans elde eden . GPT-4'ün her biri 220 milyar parametreden oluşan sekiz uzman modelden oluşan bir MEB modeli olabileceğine dair söylentiler de var.

Mixtral-8x-7b performansı - Mixtral-8x-7B

Dilden Genel Temel Modellerine

LLM'ler genel temel modellere dönüşüyor ve yeteneklerini dil işlemenin ötesine taşıyor. Bu geçiş, yalnızca metni değil aynı zamanda kodu, görsel içeriği, sesi ve daha fazlasını anlayıp üretebilen modellere doğru bir geçişi ifade ediyor. Geçtiğimiz yıl şu modellerin tanıtımını görmüştük: LLaVA ve görsel içeriğin anlaşılmasında etkileyici yetenekler sağlayan görme için GPT-4. Bu, genel temel modelleri alanında umut verici araştırmalara yol açtı. Yakın gelecekte genel temel modeller çevrelerindeki dünyayı görebilecek, duyabilecek ve anlayabilecek, böylece insanlarla daha doğal ve sezgisel etkileşimler sağlanabilecek.


LLaVA projesinden bir örnek.

Araçla Donatılmış Aracılar

Yüksek Lisans'ın çeşitli araç ve platformlarla entegrasyonu, yapay zekayı günlük kullanım için daha erişilebilir ve pratik hale getiriyor. Bu araçlarla donatılmış temsilciler, kodlama yardımından yaratıcı yazarlığa kadar belirli görevler için özel olarak tasarlanıyor ve bu da yapay zekayı birçok profesyonel iş akışının vazgeçilmez bir parçası haline getiriyor. Bu gelişme, Yüksek Lisans'ın muhakeme ve eylem yetenekleri sayesinde mümkün olmuştur. Bu tür özelliklere genellikle işlev çağrısı adı verilir. Tepki çerçeve. Bu özelliği etkinleştirmek için işlev çağrısını içeren veri kümeleri üzerinde eğitilmiş birçok model de vardır. Bu işlevsellik, geliştiricilerin çok çeşitli basit görevleri ve iş akışlarını otomatikleştirebilen LLM aracıları oluşturmasına olanak tanır.


ReAct yönteminin diğer ipucu teknikleriyle karşılaştırılması - ReAct: Dil Modellerinde Muhakeme ve Oyunculukların Sinerjileştirilmesi

OpenAI Hala Endüstri Ortamına Hakim Oluyor

OpenAI, araştırma ve uygulama açısından liderliğini koruyarak endüstri ortamına hakim olmaya devam ediyor. GPT-4 ve yeni GPT mağazası ChatGPT'deki özellik, şu anda hiçbir rakibin yaklaşamayacağı, benzersiz ve benzersiz, yüksek kaliteli üretken yapay zeka uygulamaları sunan endüstri standartları olmaya devam ediyor. OpenAI ayrıca ilk etkinliği düzenleyerek kullanıcı topluluğuna önemli bir destek gösterdi. OpenAI Geliştirici Günü ve 2023'te çeşitli geliştirici dostu özellikler sunacak. Anthropic, amiral gemisi LLM olmasına rağmen en umut verici rakiplerden biri olarak ortaya çıkıyor. Claude henüz yaygın olarak mevcut değildir. Bir teknoloji devi daha Google'ı piyasaya sürdü İkizler burcu Raporlara göre geçen yıl OpenAI'nin GPT serisiyle karşılaştırıldığında oldukça etkileyiciydi. Ancak henüz toplumda yeterli ilgiyi göremedi. 2024 yılında Gemini'nin en büyük versiyonunu çıkarmayı planladıklarında neler olacağını göreceğiz.


OpenAI Geliştirici Günü - https://www.youtube.com/watch?v=U9mJuUkhUzk

Çözüm

2023 yılı, büyük dil modelleri (LLM'ler) alanında önemli bir büyüme ve yenilik dönemi oldu. Yapay zekanın açık kaynaklı modeller aracılığıyla demokratikleştirilmesinden, daha verimli ve uzmanlaşmış sistemlerin geliştirilmesine kadar, bu ilerlemeler yalnızca teknik başarılar değil, aynı zamanda yapay zekayı çeşitli alanlarda daha erişilebilir ve uygulanabilir hale getirmeye yönelik adımlardır. İleriye baktığımızda, bu teknolojilerin endüstrileri dönüştürme ve insan yeteneklerini geliştirme potansiyeli heyecan verici bir olasılık olmaya devam ediyor. 2024'te, Meta'nın LLaMA-3'ü eğitme planlarını duyurması ve açık kaynak sağlama planıyla birlikte daha da dikkate değer kilometre taşları bekliyoruz. Sektörde, Google gibi devlerin veya Anthropic gibi yeni kurulan şirketlerin OpenAI'yi geçip geçemeyeceğini görmeye de büyük ilgi var.


Daha fazla makale için kişisel blogumu ziyaret edin ve abone olun.