6,079 okumalar

Açık Kaynak Dil Modelleri Neden Doğrudur?

ile Frederik Bussler4 dk. read2024/02/05

Çok uzun; Okumak

Yapay zekanın uzun vadeli geleceği, yalnızca API'ler aracılığıyla sunulan daha özel ve daha büyük modellerde değil, topluluklarla birlikte açıkta oluşturulan açık kaynaklı dil modellerinde yatmaktadır.

featured image - Açık Kaynak Dil Modelleri Neden Doğrudur?

2015 yılında bir kar amacı gütmeyen OpenAI adlı şirket, "geniş ve eşit dağıtılmış" yapay zeka oluşturmak için oluşturuldu. Hızla 2024'e gelindiğinde OpenAI tam kâr amacı güden moda geçerek LLM'lere erişimi işlemsel bir API hizmetinin arkasında biriktiriyor. Son zamanlarda bir şey arıyorlar 100 milyar dolarlık değerleme .

Geçtiğimiz on yıldaki yapay zeka ilerlemesi Google, Meta ve OpenAI gibi giderek daha büyük özel dil modelleri yayınlayan büyük teknoloji şirketlerinin hakimiyetindeydi. Bard ve Claude'dan GPT-4'e kadar, doğal dil işlemedeki (NLP) en son teknolojinin çoğu, birkaç araştırma laboratuvarının elinde yoğunlaşmış durumda.

Ancak yapay zekanın uzun vadeli geleceği, yalnızca API'ler aracılığıyla sunulan daha özel ve daha büyük modellerde değil, topluluklarla birlikte açıkta oluşturulan açık kaynaklı dil modellerinde yatıyor.

Açık Kaynak Dil Modelleri

Son yıllarda bir avuç startup, üniversite ve kendini adamış kişi bu açık dil modeli geliştirme modeline öncülük etmeye yardımcı oldu.

Bu açık kaynak soyunu sürdüren en son model H2O-Danube-1.8B'dir . 1,8 milyar parametre ağırlığına sahip olan Tuna, kendisinden kat kat daha büyük olan halka açık diğer modellerle karşılaştırıldığında bile şaşırtıcı bir yetenek sergiliyor. H2O.ai ekibi Tuna Nehri'ni titizlikle tasarladı, eğitti ve doğruladı; raporun tamamı arXiv'de mevcut olacak şekilde tamamen şeffaf bir şekilde.

H2O.ai , erişimi istiflemek yerine Tuna'nın tüm parametrelerini ve eğitim kodunu HuggingFace'te açıkça yayınladı. İlk duyurudan birkaç gün sonra meraklı geliştiriciler modeli özgürce denemeye başladı ve hızlı yenilik üretiminin özel modellerle mümkün olmadığını gösterdi. Bu yazının yazıldığı an itibarıyla h2o-danube-1.8b-sohbet modelinin tamamı HuggingFace'te 500'den fazla kez indirildi.

h2o'nun HuggingFace deposunun izniyle, aşağıdaki kodu takip ederek herkes modeli transformers kütüphanesiyle kullanabilir:

 import torch from transformers import pipeline pipe = pipeline( "text-generation", model="h2oai/h2o-danube-1.8b-chat", torch_dtype=torch.bfloat16, device_map="auto", ) # We use the HF Tokenizer chat template to format each message # https://huggingface.co/docs/transformers/main/en/chat_templating messages = [ {"role": "user", "content": "Why is drinking water so healthy?"}, ] prompt = pipe.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) res = pipe( prompt, max_new_tokens=256, ) print(res[0]["generated_text"]) # <|prompt|>Why is drinking water so healthy?</s><|answer|> Drinking water is healthy for several reasons: [...]

H2O, açık işbirliğinin, yapay zekaya erişimi demokratikleştirmenin ve azınlığın zenginliği yerine çoğunluğun faydalarını ortaya çıkarmanın nihai anahtarı olduğuna inanıyor.

Diğer Açık Kaynak Dil Modelleri

Açık kaynaklı yapay zeka ekosistemi, geliştiricilerin paylaşılan modeller üzerinde küresel çapta iş birliği yapmasıyla genişlemeye devam ediyor. H2O-Danube-1.8B'nin ötesinde çok sayıda dikkate değer girişim, bilginin duvarlarla çevrili bahçeler içinde yoğunlaşmasını önlemeyi amaçlıyor.

MPT

Yeni kurulan MosaicML tarafından geliştirilen Makine Programlama Transformatörü (MPT) , verimliliği artırmak için uzmanların karışımı paralelleştirme ve bağlam uzunluğu ekstrapolasyonu gibi teknikleri içerir.

Şahin

Falcon'un en büyük açık kaynaklı LLM'si , 180 milyar parametrelik muazzam bir canavardır ve benzerlerinden daha iyi performans gösterir. LLaMA-2 , KararlıLM , KırmızıPijama , Ve MPT .

Bu boyutta, modeli çalıştırmak için 400 gigabayt kullanılabilir belleğe sahip olmanız önerilir.

Mistral

Eski Google çalışanları ve Meta araştırmacıları tarafından kurulan Mistral, Eylül 2022'de 7 milyar parametreli Mistral 7B modelini piyasaya sürdü. Mistral 7B, örnek kalitesi açısından neredeyse kapalı GPT-3 ile eşleşen açık modeller arasında rekabetçi bir performans elde ediyor.

Eski Modeller

Yeni başlatılan modellerin ötesinde, daha önceki açık kaynaklı modeller geliştiricilere güç vermeye devam ediyor. OpenAI'den GPT2 ve EleutherAI'den GPT-J, modern mimarilerin gerisinde kalmasına rağmen tarihi öneme sahiptir. Ve BERT gibi Transformers, küresel çapta ürünlere güç veren NLP atılımlarının tüm bir alt sınıfının ortaya çıkmasına neden oldu.

Demokratikleşme anlatısı, tutkulu toplulukların yaratımlarını ortak bilgi havuzlarına cömertçe geri göndermeleri sayesinde güçleniyor.

Daha Adil Bir Gelecek

Tescilli dil modelleri birçok yönden teknoloji endüstrisinin boğuşmaya devam ettiği birçok eşitsizliği yeniden yaratma riski taşıyor. Bilginin zengin kuruluşlarda yoğunlaştırılması, küçük ekiplerin ilerlemeyi erkenden şekillendirmesini engeller. Ve daha sonra, yalnızca işlemsel API'ler aracılığıyla kullanıma sunulduğunda entegrasyon çok pahalı hale gelir.

Açık kaynak modelleri, daha adil bir ilerlemenin tohumlarını ekmek için hayati öneme sahiptir. Ajansın farklı topluluklara daha yakın olduğu ve somut yapay zeka uygulamaları geliştirdiği bir yer. Uzun ilerleme eğrisi, herhangi bir kuruluşun onu kontrol etmeye çalışması yerine, teknolojinin arkasında bir araya gelen insanlar bir araya geldiğinde adalete doğru yönelir.

Tuna ve onun temsil ettiği açık paradigma, alternatif bir vizyona yalnızca bir bakış sunuyor. Kısa vadeli kârlar veya prestijle değil, dünyanın her yerindeki geliştiricilere özgürce birbirlerinin omuzlarına destek vererek hareket eden bir yaklaşım. Tescilli işler için her zaman yer kalacak, ancak yapay zekanın gerçek geleceği açık.

Topluluk Odaklı İnovasyon

Açık kaynaklı modellerin piyasaya sürülmesi, geliştiricilerden ve araştırmacılardan oluşan motivasyonlu bir topluluğun katkılarından yararlanmaktadır. Açık alanda bu işbirliğine dayalı çalışma tarzı, benzersiz fırsatların kilidini açar. Kuruluşlardaki uzmanlar, teknikleri doğrulamak için birbirlerinin çalışmalarını akran değerlendirmesi yapabilir.

Araştırmacılar tekerleği yeniden icat etmek yerine yeni fikirleri kolayca kopyalayabilir ve genişletebilirler. Ve yazılım mühendisleri yenilikleri hızlı bir şekilde müşteri tekliflerine entegre edip uygulayabilirler.

Belki de en umut verici olanı, açık paradigmanın niş toplulukların belirli kullanım durumları için modelleri özelleştirme etrafında toplanmasına olanak sağlamasıdır. Ekipler, genel modellerden daha iyi performans gösteren tıp, hukuk veya finans gibi belirli konulara göre uyarlanmış versiyonlar oluşturabilir. Bu özel modeller daha sonra topluluğun geri kalanına fayda sağlamak üzere paylaşılır. Gruplar birlikte, tek bir kapalı laboratuvarda kolektif ilerlemeyi mümkün kılmaz.