Yüksek Lisans (LLM) Oluşturmanın veya İnce Ayar Yapmanın Zorlukları, Maliyetleri ve Dikkat Edilmesi Gereken Hususlar

Yüksek Lisans'ların değiştiği ve yapay zeka ve farklı sektörlerdeki işletmeler için oyunu değiştirmeye devam edeceği artık yeni bir haber değil. IBM tarafından yapılan bir araştırma ortaya çıkardı. Dünyanın dört bir yanından 3.000 CEO ile anket yapılan çalışma, CEO'ların %75'inin en gelişmiş üretken yapay zekaya sahip organizasyonun rekabet avantajına sahip olacağına inandığını ortaya çıkardı. , CEO'ların üretkenliği artırmak ve rekabet avantajı kazanmak için üretken yapay zekayı giderek daha fazla benimsediğini Yüksek Lisans eğitimlerini kullanmanın en iyi yolunu ve bunları oluşturmanız mı yoksa ince ayar yapmanız mı gerektiğini merak ediyorsanız, bunu etkili ve verimli bir şekilde yapmak için bilmeniz gerekenleri anlatan bu kılavuzu paylaşmak istiyoruz. Öncelikle Yüksek Lisans'ın nasıl uygulandığına ve hangi endüstriler üzerinde en fazla etkiye sahip olabileceğine bakacağız, böylece Yüksek Lisans ile neler başarabileceğiniz konusunda daha iyi bir fikre sahip olursunuz. Daha sonra neden bir LLM oluşturduğumuz veya ince ayar yaptığımız hakkında konuşacağız. Son olarak, siz karar verdikten sonra ekibinizin daha net bir bakış açısına sahip olabilmesi için kritik hususları, stratejileri ve en iyi uygulamaları paylaşacağız. Şimdi, Yüksek Lisans'ın sektörleri ve işletmeleri nasıl değiştireceğinin öngörüldüğüne daha derinlemesine bakalım: Yüksek Lisans'lar endüstrileri nasıl değiştiriyor? Bilgi Endüstrisi OpenAI, Açık Araştırma ve Pensilvanya Üniversitesi araştırmacıları tarafından yakın zamanda hazırlanan bir , Yüksek Lisans'ların genellikle birden fazla ABD pazarını etkileyebileceğini ve aşağıdakilerden dolayı en çok etkilenecek sektörün bilgi endüstrisi olacağını ortaya çıkardı: çalışma makalesi Bilgi endüstrisi büyük ölçüde LLM'lerin yazma, veri analizi, bilgi alma ve içerik oluşturma gibi temel yeteneklerine dayanmaktadır. Bunlar, üretken yapay zeka modellerinin güçlü yönleriyle yakından uyumludur. Makalelerin, raporların ve diğer içeriklerin taslağını hazırlamak gibi görevler, otonom olarak taslaklar ve revizyonlar oluşturan LLM'lerden potansiyel olarak önemli verimlilik kazanımları görebilir. Arama, veri işleme, içerik etiketleme/meta veri oluşturma ve müşteri desteği gibi diğer günlük bilgi endüstrisi görevleri de LLM'ler tarafından önemli ölçüde desteklenebilir. Bilgi işletmeleri genellikle, LLM'leri kendi özel kullanım durumları için son derece etkili olacak şekilde eğitmek ve ince ayar yapmak için kullanılabilecek büyük miktarda metin verisine sahiptir. Bu sektördeki işin fizikselliğinin düşük olması, onu yazılım yoluyla otomasyona çok uygun hale getiriyor. Bankacılık Sektörü Bu arada , bankacılığın yüksek lisans (LLM) sayesinde en önemli etkiyi görebilecek sektörlerden biri olduğunu belirtiyor. Kullanım senaryoları tam olarak uygulanırsa, teknolojinin yıllık 200 milyar ila 340 milyar dolar arasında ek değer sağlamasını bekliyorlar. McKinsey tarafından yapılan bir araştırma Yüksek Lisans'lar, müşteri sorularına yanıtları otomatikleştirerek, insan hizmetli iletişimlerin hacmini azaltarak müşteri hizmetlerini iyileştirebilir. Ayrıca potansiyel riskleri gösterebilecek kalıpları ve eğilimleri belirlemek için büyük miktarda veriyi analiz ederek risk değerlendirmesine yardımcı olabilirler. Ayrıca LLM'ler, düzenleme değişikliklerini takip ederek ve uyumluluk prosedürlerini buna göre otomatik olarak güncelleyerek bankaların düzenleyici gereksinimlere uymasına yardımcı olabilir. İlaç ve Tıbbi Ürünler Sanayi İlginç bir şekilde, McKinsey'in aynı çalışması, temel modeller ve üretken yapay zeka sayesinde farmasötik ürünlerin ve tıbbi ürünlerin artırılabileceğini de iddia ediyor. Çalışma, etkinin arasında olabileceğini belirtiyor. Özellikle ilaç keşfinde potansiyel görüyorlar. İşte nasıl: yıllık 60 ila 110 milyar dolar Ön ilaç geliştirmede temel modeller, hücre kültürlerinin manuel incelemesinin yerini alarak potansiyel kimyasalların seçimini otomatik hale getirir. Temel modeller benzer deneysel görüntüleri doğru bir şekilde kümeleyerek ileri analiz için gelecek vaat eden kimyasalların seçilmesine yardımcı olur. Endikasyon bulmada hasta gruplarının klinik geçmişleri ve tıbbi kayıtlarına dayanarak potansiyel ilaç endikasyonları belirlenir. Bu modeller klinik olayların ölçülmesine, ilişkilerin kurulmasına ve hasta grupları ile kanıta dayalı endikasyonlar arasındaki benzerliğin ölçülmesine yardımcı olur. Sonuç, hassas hasta grubu eşleşmesi nedeniyle klinik çalışmalarda daha yüksek başarı olasılığına sahip endikasyonların bir listesidir. Bu yaklaşımı kullanan şirketler, 3. Aşama denemelerine ilerlemeyi hızlandıran yüksek deneme başarı oranları gördü. Yüksek Lisansın Zorlukları ve Sınırlamaları Ancak temel modeller ve Yüksek Lisans'larla ilgili heyecan, sihirli çözümlere dair fikirleri canlandırabilirken, gerçek şu ki Yüksek Lisans'lar ve temel modeller mükemmel değil. ChatGPT'yi veya piyasadaki diğer Yüksek Lisans'ları kapsamlı bir şekilde kullanan herkes, özellikle alana özgü görevler için, Yüksek Lisans'ları kutudan çıktığı gibi kullanmanın başarısızlıkla sonuçlanabileceğini görmüştür. Yüksek Lisans'ın bazı zorlukları ve sınırlamaları şunlardır: Halüsinasyonlar Belki de en sık karşılaştığımız sorun halüsinasyonlardır. Halüsinasyonlar, Yüksek Lisans'ın makul görünen yanlış ifadeler verebileceği bir olgudur. İki tür halüsinasyon vardır: içsel ve dışsal. İçsel halüsinasyonlar, model kullanıcının girdisine aykırı olan hatalı bir mantık kullandığında meydana gelirken, dışsal halüsinasyonlar, model kullanıcının sorusunun içeriğini yanlış anladığında meydana gelir. Bellek Sınırlamaları GPT gibi temel modellerin bağlam penceresi küçüktür ve girdi olarak yalnızca sınırlı sayıda karakter alabilir; bu, belirli uygulamalar için ideal olmayabilir. İnsanlara benzer şekilde, girdi uzunluğu arttıkça modelin onu doğru şekilde işlemesi de zorlaşır. Felaket Unutuş Yıkıcı unutma, bir yapay sinir ağının sırayla birden fazla görev üzerinde eğitilmesi ve Görev A için ağdaki önemli ağırlıkların, Görev B'nin hedefleriyle uyumlu olacak şekilde değiştirilmesiyle ortaya çıkan bir olgudur. Bu, ağın A görevini unutmasına neden olabilir, daha önce bunu iyi bir şekilde yerine getirmiş olmasına rağmen. Veri Kalitesi Sorunları Öncelikle etiketlenmemiş veriler üzerinde eğitilen Yüksek Lisans'lar önyargıya yatkın olabilir çünkü eğitim süreçlerinde kullanılan veriler gerçek dünyadaki veri dağılımının doğru bir temsili olmayabilir. Bunun nedeni, eğitim için kullanılan önyargılı verilerin modelin çıktısına yansıtılabilmesidir. Bu sınırlamalar şirketleri ve işletmeleri LLM'lerle nasıl çalışmak istedikleri konusunda stratejik düşünmeye yönlendiriyor. Aslında Yüksek Lisans'ların şirketlerin çalışma şeklini değiştirme konusunda büyük bir potansiyeli var ve bu da onlara daha fazla değer sağlayabilir, ancak bu zorlukların ele alınması gerekiyor. Mevcut bir LLM'nin oluşturulması veya ince ayar yapılması sorununun ortaya çıkabileceği yer burasıdır. Mevcut bir LLM'yi ne zaman oluşturmalı veya ince ayar yapmalısınız? Büyük Dil Modelinizi (LLM) sıfırdan oluşturma Sıfırdan bir LLM oluşturmak ne zaman mantıklıdır? Mevcut genel LLM'lerin hizmet veremeyeceği çok benzersiz bir kullanım durumunuz varsa veya LLM şirketiniz için temel bir ürün veya birincil iş sürücüsü haline gelirse, kendi LLM'nizi oluşturmak en mantıklı olacaktır. Ek olarak, büyük miktarda değerli özel verilere erişiminiz varsa, veri gizliliğini ve güvenliğini korurken bunu kendi avantajınıza kullanmak için bir Yüksek Lisans (LLM) oluşturmak da mantıklı olacaktır. Yüksek Lisans'ta ince ayar yapma Bir Yüksek Lisans'a ince ayar yaparken iki seçeneğiniz vardır: mevcut açık kaynaklı Yüksek Lisans'lara gitmek veya ticari Yüksek Lisans'ların API'sini kullanmak. Ekibinizin daha az teknik uzmanlığa sahip olması durumunda ticari bir Yüksek Lisans daha anlamlı olabilir; açık kaynaklı bir model ise size daha fazla kontrol sağlayacaktır. Bununla birlikte, bir Yüksek Lisans'ta ince ayar yapmanın riskleri vardır. Potansiyel önyargılara, toksisiteye ve veri güvenliği risklerine karşı dikkatli olmalısınız. Ek olarak, ticari API'ler modelin ve eğitim verilerinin özelleştirilebilirliğini ve ürünün kontrolünü sınırlayabilir. Mevcut bir LLM'nin oluşturulmasında veya ince ayarının yapılmasında önemli hususlar Kaynak Tahsisi İnce ayar yapıyor olsanız da olmasanız da, bir LLM'yi sıfırdan kurmayı seçseniz de, hedefinize ulaşmak için önemli miktarda kaynak ayırmaya istekli olmanız gerektiğini bilin. Sıfırdan bir Yüksek Lisans eğitimi oluşturmak, zaman ve finansman ayırmanın yanı sıra doğru uzmanlığı bulmanın yanı sıra muazzam bir bilgi işlem gücü gerektirir. Örneğin, yaklaşık 175 milyar parametreye sahip büyük bir dil modeli olan OpenAI'nin GPT-3'üne ilişkin tahminlerin . OpenAI ayrıca da yatırım yaptı. Bloomberg'in 50 milyar parametreli daha küçük BloombergGPT modelinin inşasının olacağı tahmin ediliyor. Bu tahminler, bu LLM'lerin etkili olmasını sağlamak ve oluşturmak için gereken model yinelemesini kapsamamaktadır. maliyeti 4,6 milyon doların üzerindedir Microsoft'un 285.000'den fazla CPU çekirdeği ve 10.000 GPU'ya sahip bir süper bilgisayarına yaklaşık 2,7 milyon dolara mal Devasa büyüklükteki LLM'leri etkili bir şekilde yönetmek için verilerin yeterince temizlendiğinden, etiketlendiğinden, organize edildiğinden ve verimli bir şekilde saklandığından emin olmak gerekir. Özellikle gerekli altyapı, araçlar ve veri mühendisleri göz önüne alındığında, verileri yönetme ve işlemenin maliyetli olabileceğini unutmayın. Yüksek Lisans'a ince ayar yapmak elbette daha pratik olabilir çünkü kendi kuruluşunuzu oluşturmaktan daha az maliyetlidir. Bir LLM'ye ince ayar yapmanın maliyeti, modelin boyutu, ince ayar yapmak için kullanılan veri miktarı ve kullanılan bilgi işlem kaynakları dahil olmak üzere çeşitli faktörlere bağlıdır. Bir Yüksek Lisans'a ince ayar yapmanın maliyeti, kullanılan spesifik ince ayar algoritmasından da etkilenebilir ve bazı algoritmalar, diğerlerinden hesaplama açısından daha pahalıdır. 1.000 token başına 0,0004 ila 0,0300 ABD Doları arasında bir maliyete sahip olabilir ve eğitmek için kullanacağınız modelin türüne bağlı olacaktır. Bundan sonra 1.000 token başına yaklaşık 0,0016 ila 0,1200 ABD Doları tutarında ek bir kullanım maliyeti ortaya çıkar. OpenAI'nin ince ayar modelleri, Bununla birlikte, farklı ince ayar tekniklerindeki ilerlemeler, finansal ve hesaplama maliyetlerinin azaltılabilmesini sağlamıştır. Bunun bir örneği, Hugging Face'in . Hugging Face, bu yöntemden ve bitsandbytes kitaplığından yararlanarak, mevcut GPU belleğinden çok daha büyük bir LLM'ye ince ayar yapmanın mümkün olduğunu gösterdi. Bu makalede birkaç yöntemden daha bahsedeceğiz. GPT-3'te ince ayar yapmak için Adil ve Şeffaflık ile Politika Değerlendirme yaklaşımını kullanmasıdır Teknik uzmanlık Bir Yüksek Lisans eğitimi oluşturmak ve ince ayar yapmak için ileri düzeyde teknik uzmanlığa ihtiyaç duyulması sürpriz olmamalıdır. Kıdemli bir makine öğrenimi mühendisi, bir Yüksek Lisans programında ince ayar yapmak için gereken bilgilerle donatılmış olarak gelecektir. Ancak, kendi LLM'nizi sıfırdan düzgün bir şekilde yönetmek ve oluşturmak için gerçekten olağanüstü makine öğrenimi mühendislerinden oluşan bir ekibe ihtiyacınız olacak. Kuruluşunuzun kendi LLM'sini oluşturmak için ekibinizde bulunması gereken mühendis türleri hakkında daha iyi bir fikir edinmek için OpenAI, Meta ve Google AI gibi AI şirketlerinin önde gelen bilim adamlarının, araştırmacılarının ve mimarlarının profillerine göz atın. çizik. Ayrıca bu araştırmacıların sektörünüz ve işletmeniz hakkında güçlü alan bilgisine sahip olduğundan da emin olmanız gerekir. Veri Boyutu, Kalitesi ve Etik Hususlar Kendi LLM'lerinizi sıfırdan oluşturmanın büyük miktarda veri gerektireceği iyi bilinmektedir. Örneğin LLaMA, 4,6 terabayta ulaşan 1,4 trilyon token içeren bir eğitim veri seti kullandı. LLaMA'nın daha küçük versiyonları 1 trilyon token üzerinde eğitildi. GPT durumunda 1,5 trilyon token kullanıldı. Yüksek Lisans'lara ince ayar yapmak için, yönteminize ve kaynaklarınıza bağlı olarak daha azına ihtiyacınız olacaktır. Bunun bir örneği Google'ın PaLM LLM'den ince ayar yapılan Med-PaLM 2'sidir. göre, yapay zeka ekibi talimat ince ayarını kullandı ve yaklaşık 19 ila 39 milyon token arasında değişen 193.000 örneğe ihtiyaç duydu. Med-PaLM 2, Med-PaLM ve PaLM'nin performansını ölçmek için kullanılan MedQA veri setinde %86,5 puan alarak önceki modele kıyasla yeni bir teknoloji harikası oluşturdu. Makaleye Ancak şirketlerin, veri boyutunun ötesinde, uygun veri kalitesi önlemlerini aldıklarından da emin olmaları gerekir; çünkü "çöp girişi, çöp çıkışı", büyük miktarda eğitim verisi kullanan büyük dil modelleri için bile hala geçerlidir. Tescilli verileri kullanırken kuruluşların, daha etkili modeller için kalite ve etiğin yüksek standartta tutulmasını sağlamak amacıyla aşağıdaki görevleri çözmesi gerekecektir: Bu süreç, verilerin doğru ve güvenilir olmasını sağlamak için veri kümesindeki mükerrer girişlerin tanımlanmasını ve kaldırılmasını içerir. Ayrıca verilerdeki eksik değerler veya yanlış biçimlendirme gibi hataların, tutarsızlıkların ve yanlışlıkların düzeltilmesini de içerir. Bu adım, modelin hatalı veya gereksiz verilerle eğitilmesini önlemek için çok önemlidir; bu durum, zayıf model performansına yol açabilir. Veri Tekilleştirme ve Temizleme: Kuruluşların, modellerini eğitmek için kullanılan verileri denetlemek için bir süreç oluşturması gerekir. Bu, uygunsuz veya zararlı içeriği filtrelemek için verilerin manuel olarak incelenmesini, otomatik araçların kullanılmasını veya ideal olarak her ikisinin bir kombinasyonunu içerebilir. Etkili veri denetimi, modelin bu tür içeriği kendisi oluşturmayı öğrenmemesini sağlamaya yardımcı olur. Veri Moderasyonu: Kuruluşlar, verilerinin gizlilik standartlarına uygun olduğundan ve GDPR veya CCPA gibi ilgili düzenlemelere uygun olduğundan emin olmalıdır. Bu, kişisel verilerin anonimleştirilmesini, veri kullanımı için gerekli izinlerin alınmasını ve güvenli veri depolama ve işleme uygulamalarının uygulanmasını içerebilir. Bu sadece etik nedenlerden dolayı değil, aynı zamanda yasal sorunlardan kaçınmak için de çok önemlidir. Veri Gizliliği: Modelleri eğitmek için kullanılan veriler genellikle önyargılar içerebilir ve model daha sonra bunları öğrenip sürdürebilir. Kuruluşların verilerdeki bu önyargıları belirlemek ve azaltmak için süreçler uygulaması gerekir. Bu, çeşitli veri toplama stratejilerini, önyargı denetim araçlarını ve verilerdeki önyargıyı ortadan kaldırmaya yönelik yaklaşımları içerebilir. Veri yanlılığının ele alınması, adil bina modelleri için çok önemlidir ve bu, farklı popülasyonlarda güvenilir sonuçlar üretir. Veri Önyargıları: Model Performansı Kuruluşun hedeflerine bağlı olarak, Yüksek Lisans'ta ince ayar yapmak aslında yeterli olabilir. Bir LLM'yi kuruluşunuzun ihtiyaçlarına uyacak şekilde uyarlamanın ve performansını artırmanın farklı yolları vardır. Ancak en uygun yaklaşımı belirlemek için geriye doğru bir yöntem izlemenizi öneririz. Bu yöntem aynı zamanda bir LLM'ye ince ayar yapma maliyetlerinin azaltılmasına da yardımcı olur, çünkü bu adımlarda ne kadar "geri" giderseniz, teknikler o kadar maliyetli olabilir. Bunu en basit şekilde açıklayalım. Genellikle, bir temel modelin veya Yüksek Lisans eğitiminin eğitimi, makine öğrenimi mühendislerinin denetimsiz eğitimden geçmesiyle başlar, ardından Yüksek Lisans'ta ince ayar yapmak için denetimli eğitimden geçer ve son olarak gerekli çıktıyı elde etmek için yönlendirme ve hızlı ayarlama yapılır. Elbette arada farklı adımlar var ama biz bu üç adıma sadık kalacağız. Yüksek Lisansta ince ayar yapmak için önerdiğimiz yol geriye doğru gitmek olacaktır. Burada ilk olarak hızlı mühendislik ve hızlı hata ayıklamayı içeren hızlı ayarlamaya başlarsınız. Bu, en az kaynağı kullanır. Ancak, Yüksek Lisans'ın durgunlaştığını veya istediğiniz gibi performans göstermediğini varsayalım. Bu durumda, RLHF, erişimle artırılmış üretim veya transfer öğrenimi gibi yöntemleri içerebilecek denetimli/talimatlı ince ayara geçersiniz. Örneğin, yalnızca 200 etiketli örnek kullanarak transfer öğrenimi yoluyla belirli bir kusur tespit sınıflandırması kullanım senaryosunda . DinoV2'nin doğruluğunu %83'ten %95'e çıkardık Son olarak, eğer her şey başarısız olursa, bir sonraki adım denetimsiz yöntemlere gitmek ve modelin ön eğitimi için uygun bir veri setine sahip olduğumuzdan emin olmak olacaktır. Bakım ve Güncellemeler İster yerleşik ister ince ayarlı olsun, dinamik ortamlarda konuşlandırılan çoğu model gibi, LLM'ler de yeni verilerle etkili kalabilmek için yineleme gerektirir. Yineleme, bir modeli yeni verilere veya yenilenen hedeflere yeniden uyarlamaktır. Şirketler, yeni veri kümeleri kullanarak modelleri rutin olarak yinelemek için, genellikle yinelemeli, bunları oluşturma/ince ayar yapma, test etme ve üretime dağıtma dahil olmak üzere sağlam süreçler oluşturmalıdır. OpenAI gibi başarılı LLM'ler geliştiren şirketler sürekli olarak GPT-3'ün yeni sürümlerini piyasaya sürüyor. ChatGPT'nin eğitim verilerinin son tarihi Eylül 2021 olsa da OpenAI , önyargıyı azaltmak ve daha az zarara neden olmak için kullanıcı davranışlarından elde edilen yeni verileri kullanır. , modelin tahmin yeteneklerini geliştirmek İş Stratejisi Uyumlaması İş hedefiniz aynı zamanda bir LLM oluşturmanın veya ince ayar yapmanın mantıklı olup olmayacağı konusunda da kritik bir faktördür. Yüksek Lisans'ların yeteneklerinin şirketin daha geniş stratejik vizyonuyla nasıl örtüştüğünü düşünün. Bu şekilde, temel iş hedeflerine odaklanmayı sürdürürken bu güçlü araçlardan tam potansiyellerinden yararlanırsınız. Bu makalenin başında bahsedilen sektörlerden bazı örnekler verilmiştir, ancak şimdi LLM'lerin üstün olduğu bazı görevleri ve bunların farklı endüstriler için stratejik sonuçlarını tartışalım: LLM'ler uzun belge veya raporlardan önemli noktaları ve özetleri çıkarabilir. Bu, büyük hacimli metinsel verileri işleyen endüstrilerde çok büyük bir değere sahip olabilir. Örneğin, kapsamlı raporlar üreten ve analiz eden pazar araştırma şirketleri, kısa özetler oluşturmak için LLM'leri kullanabilir, bu da içgörü elde etmeyi ve bulguları müşterilerle paylaşmayı kolaylaştırır. Özetleme: LLM'ler, içerik oluşturmaya yardımcı olmak için kullanılabilen, verilen istemlere göre metni tahmin edebilir ve oluşturabilir. İçerik oluşturma veya iletişim hizmetleriyle uğraşan endüstriler, üretkenliği ve yaratıcılığı artırmak için bundan yararlanabilir. Metin Tamamlama: Yüksek Lisans'lar, belirli bir bağlama dayalı olarak sorguları yanıtlayabilir ve bu da onları çeşitli sektörlerdeki müşteri hizmetlerinde faydalı hale getirir. Örneğin bankalar, müşteri sorgularını günün her saatinde yanıtlamak, müşterilerine hızlı, doğru bilgiler sağlamak ve müşteri hizmetleri personelinin iş yükünü azaltmak için LLM destekli sohbet robotları kullanabilir. Soru ve Cevaplama (Soru-Cevap): Soru-Cevap'ın ötesinde, Yüksek Lisans'lar daha etkileşimli ve konuşmaya dayalı sohbet robotlarını güçlendirebilir, bağlamı anlayabilir ve bir sohbeti birden fazla aşamada sürdürebilir. Bu, tüketici etkileşiminin hayati önem taşıdığı perakende, telekomünikasyon ve konaklama gibi sektörlerde müşteri deneyimini geliştirebilir. Chatbot'lar: Yüksek Lisans'lar aynı zamanda farklı diller arasında metin çevirisi de yapabilir ve bu da potansiyel olarak küresel işletmelerdeki iletişim engellerini ortadan kaldırabilir. Bu yetenek, turizm, uluslararası ticaret ve farklı dil bölgelerinde faaliyet gösteren küresel teknoloji firmaları gibi endüstrilere fayda sağlayabilir. Çeviri: Büyük Dil Modellerini Değerlendirme İster bir LLM oluşturuyor olun ister ince ayar yapıyor olun, doğru LLM'yi seçmek genellikle ilk adımdır. Evet, yüksek lisans yapmak için bile önceden var olan bir modelin mimarisine bakıp oradan başlamak yaygındır. Seçiminiz ne olursa olsun, takımların en iyi başlangıç noktalarını bulmak için çeşitli modelleri denemeleri ve değerlendirmeleri gerekir. Yüksek Lisans'ın değerlendirilmesi aynı zamanda kendi zorluklarını da beraberinde getirir. Sonuçta bu hala devam eden bir araştırma alanıdır, dolayısıyla bu modellerin değerlendirilmesinde katı bir standardizasyon veya sistematizasyon yoktur. Elbette, HuggingFace gibi topluluklar tarafından belirlenen ve size bir modelin ne kadar iyi performans göstereceğine dair genel bir fikir verebilecek lider tabloları var. Ancak skor tablolarında iyi performans gösterebilecek şeyler, sizin özel kullanım durumunuza o kadar kolay yansımayabilir. LLM'ler genellikle kıyaslama veri kümeleri üzerinde değerlendirilir, ancak performansları, çok daha çeşitli ve öngörülemez olabilen gerçek dünya senaryolarında nasıl performans göstereceklerini doğru bir şekilde yansıtmayabilir. Büyük dil modellerini değerlendirmeye yönelik iki yaklaşım vardır: niceliksel ve niteliksel bir yaklaşım. Her ikisi de uyarılarıyla birlikte gelir. Nicel değerlendirme Niceliksel değerlendirme genellikle şaşkınlık, BLEU, çapraz entropi kaybı vb. gibi makine öğrenimi ölçümlerini içerir. OpenAI değerlendirme kitaplığı, EleutherAI'nin lm-eval python paketi ve Dil Modellerinin Bütünsel Değerlendirmesi (HELM) gibi araçlar, kullanıcıların kendi değerlendirmelerini değerlendirmesine olanak tanır. niceliksel olarak çok sayıda karşılaştırmalı model üzerinde. Niceliksel değerlendirme basit olsa da, bu ölçümler kullanıcılara kendi özel görevleri için uygun bir model seçme konusunda mutlaka yardımcı olmayabilir. Kullanıcılar genellikle bir sonraki tokenı en yüksek doğrulukla tahmin edebilen bir model yerine, yasal bir belge taslağı hazırlamak veya bir şirketin mali raporunu analiz etmek gibi belirli görevlerinde üstün performans gösteren bir modele ihtiyaç duyarlar. Niteliksel değerlendirme Niteliksel değerlendirme, tutarlılık, önyargı, yaratıcılık ve güvenilirlik gibi kriterleri kullanarak belirli görevlere dayalı olarak LLM'lerin değerlendirilmesini içerir. Bu manuel değerlendirme, insan değerlendiricilerin hızı ve kullanılabilirliği nedeniyle darboğaz oluşturabileceğinden nispeten yavaştır. Ancak veri etiketlemede aynı otomasyon tekniklerini uygulayarak süreci optimize etmek mümkündür: aktif öğrenme, programatik QA, otomatik QA, vb. İnce ayar yapmak veya temel almak için en iyi LLM'yi bulmak için şirketinize özel veri kümesini kullanan hem niceliksel hem de niteliksel değerlendirmenin bir kombinasyonu tavsiye edilir. En iyi uygulamalar Ölçeklendirme yasalarını anlama Makine öğrenimindeki ölçeklendirme yasaları, işlem bütçeleri genişledikçe modellerin boyutunun veri kümesi boyutunun üzerine çıkarılmasına odaklanıyordu. Bu, daha büyük modellerin daha fazla bilgi elde edebileceği ve veri miktarı sabit kalsa bile daha iyi performans gösterebileceği varsayımı altındaydı. Ancak 2022'de . DeepMind'ın bulgularına göre, hesaplama gücündeki her on kat artış için model ve veri kümesi boyutlarının yaklaşık üç kat artması gerekiyor. Bu, mevcut modellerin optimal veri/hesaplama eğrisinin altında olduğu ve bunları basitçe büyütmenin, verilerde bir artış olmadan daha iyi sonuçlar vermeyeceği anlamına gelir. DeepMind, modellerin genel olarak yetersiz eğitildiğini ve bu nedenle veri kümelerinin boyutunun model boyutuyla birlikte büyümesi gerektiğini öne sürerek bu yaklaşıma karşı çıktı Bu yeni ölçeklendirme yasaları, mevcut bilgilere dayanarak öncelikle maksimum yüksek kaliteli veri kümesi boyutunun belirlenmesini önerir. Daha sonra, bu veri kümesi için en uygun model boyutu, DeepMind'in veri açısından en uygun ölçeklendirme yasaları kullanılarak mevcut hesaplamaya göre seçilebilir. Modelleri keyfi olarak büyütmek değil, verilere dayalı doğru dengeyi bulmak önemlidir. Dahası, daha büyük veri kümelerinin toplanması uzmanlık ve genellemeyi geliştirmek için çeşitlilik gerektirir; bu da sürece başka bir karmaşıklık katmanı ekler. Veri kalitesi İster ince ayar yapıyor olun, ister bir LLM oluşturuyor olun, modeller yalnızca kendilerine sağlanan veriler kadar iyi olacaktır. Bu nedenle verileriniz temsili olmalı ve kapsamlı bir şekilde önceden işlenmiş olmalıdır. Veri kaynaklarının çeşitliliği, alana özgü LLM'ler için bile faydalıdır. Örneğin, Google'ın Med-PaLM 2'si, modelin düzgün bir şekilde ince ayarlanabilmesi için çeşitli sağlık ve tıbbi QA veri kümelerinden yüzlerce ila binlerce örneğe ihtiyaç duyuyordu. BloombergGPT'yi oluşturmak için . Her iki durumda da araştırmacılar, etkili modeller oluşturmak için yüksek kaliteli ve ilgili verilerin kullanılmasını sağlamak amacıyla kapsamlı veri iyileştirme çalışmaları yaptı. kullanılan veri kümesi karışımı, konu çeşitliliğine yönelik olarak %51 finansal veri ve %49 genel alan verisinden oluştu Artan adımlarla ön eğitim ve denemeler Bir Yüksek Lisans eğitimi oluşturmak veya ince ayar yapmak söz konusu olduğunda doğrudan bir yol yoktur. Çoğu makine öğrenimi veya yapay zeka çabası gibi, . Daha küçük bir veri kümesinde daha küçük bir modelle başlamak denemeleri kolaylaştıracaktır. Model mimarisinde genişlik, derinlik, seyreklik vb. gibi artımlı değişiklikleri yinelemek ve uygulamaya koymak, ekibinizin etkilerini değerlendirmesini kolaylaştıracaktır. Mevcut eski modellerle başlayabilir, bunları ihtiyaçlarınıza göre ayarlayabilir ve oradan başlayabilirsiniz. Küçük modeliniz iyi çalıştığında model ve veri kümesi boyutunu kademeli olarak artırabilirsiniz. küçükten başlamak her zaman iyi bir önlemdir Geri dönüş gerekmesi durumunda modelinizin anlık görüntülerini yedek olarak kaydetmeyi unutmayın. İster inşaat yapıyor olun ister ince ayar yapıyor olun, aksilikler kaçınılmaz olacaktır, bu nedenle sorunları önceden tahmin etmek kritik öneme sahiptir. İstikrarsızlığın azaltılması Bu bizi istikrarsızlığın azaltılmasına yönelik kritik zaman tasarrufu sağlayan uygulamaya götürür. Model ne kadar büyük olursa bakımı da o kadar zor olur. Aşırı uyum ve yetersiz uyumun ötesinde, modeliniz yok olan veya patlayan eğimler, modun çökmesi, ani kayıplar, yıkıcı unutma ve donanım kısıtlamaları gibi sorunlara maruz kalabilir. Bir modelin yeni bir görev türünü başlattıktan sonra önceki bir görevde kötü performans göstermesi durumunda ortaya çıkan yıkıcı unutmayı daha önce tartışmıştık. Kaybolan veya patlayan degradeler, derin sinir ağlarının eğitiminde yaygın sorunlardır; degradelerin çok küçük veya çok büyük hale gelmesi, öğrenme sürecinin yavaşlamasına veya kararsızlığına neden olur. Mod çökmesi, üretken modellerde meydana gelir ve model, farklı girdilere sahip olmasına rağmen aynı çıktıları ürettiğinde meydana gelir. Kayıp ani artışları, modelin giderek daha zayıf tahminlerine işaret ediyor. Ve son olarak, Yüksek Lisans'larla çalışmak donanım açısından zorlayıcı olabilir ve arızalarla sonuçlanabilir. Kararsızlıkları hazırlamanın veya en azından azaltmanın birkaç yolu vardır. Bunlar çığır açıcı olmasa da farklı derin öğrenme uygulamalarında da görebileceğiniz standart uygulamalardır: — Genellikle GPU belleğinize sığabilecek kullanılması önerilir. Daha büyük parti boyutları, hesaplama verimliliği, bellek kullanımı ve potansiyel olarak daha doğru gradyan tahmini açısından avantajlar sunar. GPU'ların paralel işleme yeteneklerini daha iyi kullanabilirler, bu da eğitim sürelerinin daha hızlı olmasını sağlar. Toplu iş boyutu en büyük toplu iş boyutunun - Bırakma ve ağırlık azalması gibi düzenlileştirme teknikleri, aşırı uyumun veya model kararsızlığının önlenmesine yardımcı olabilir. Düzenlileştirme tekniklerini kullanın - Toplu normalleştirme, dahili ortak değişken kaymasını azaltmaya yardımcı olabilir ve eğitim sırasında daha hızlı ve daha istikrarlı yakınsamaya olanak tanır. Ayrıca degradelerin ağ boyunca daha düzgün akmasını sağlayarak yok olan degrade sorununun hafifletilmesine de yardımcı olur. Toplu normalleştirme — Ağırlık başlatma, eğitim istikrarsızlığını azaltmada ve etkili öğrenmeyi sağlamada kritik bir rol oynar. Ağırlık başlatmaya yönelik yaygın bir yaklaşım, küçük Gauss gürültüsünü kullanmaktır. Bu, ağırlıkların sıfır ortalamalı ve küçük standart sapmalı bir Gauss dağılımından rastgele başlatılmasını içerir. Rastgele gürültü eklenerek ağırlıklara başlangıç çeşitliliği verilir ve bu da modelin eğitim sırasında farklı çözümleri keşfetmesine olanak tanır. Doğru ağırlık başlatmayı seçme — Modeliniz genelleştirme konusunda zorlanıyorsa ve aşırı uyum eğilimi gösteriyorsa, eğitim verilerinde farklılıklar oluşturarak ve modelin sağlamlığını artırarak bu durumu hafifletmeye yardımcı olabilir. Veri Arttırma veri büyütme, - Kayıplarınızı azaltmak ve model kararlılığını mümkün olduğunca korumak için öğrenme oranınızı zaman içinde kademeli olarak azaltın. Adım çürümesini veya üstel çürümeyi kullanabilirsiniz. Adım azalması, öğrenme oranını düzenli aralıklarla bir faktör kadar azaltmanızdır; üstel azalma ise öğrenme oranını katlanarak azaltır. Öğrenme Hızı Planlama Çözüm İşletmeler Yüksek Lisans'ın etkisinin farkına varmaya devam ettikçe, şirketlerin bu değerli aracı kullanmanın en iyi yolunun ne olduğunu sormaya başlaması mantıklı geliyor. Doğru LLM'yi seçmek ve şirketinizin ihtiyaçlarına uyacak şekilde ince ayar yapmak daha basit bir seçenek olabilir. Bununla birlikte, modelin etkin ve mümkün olan en verimli şekilde ince ayarını yapmak yine de çeşitli hususları içerecektir. Öncelikle ekibinizin en iyi başlangıç noktasını seçebilmesi için çeşitli Yüksek Lisans derecelerini doğru şekilde değerlendirebilmesi gerekir. Modeli deneme konusunda rahat olmalılar. Verimli olabilmek için, bir Yüksek Lisans eğitimi oluşturma veya ince ayar yapma konusunda bir strateji oluştururken yüksek kaliteli verilere ve en iyi uygulamaları akılda tutmaları gerekir. Her iki şekilde de karmaşık ve iddialı bir proje, ancak daha önce de gördüğümüz gibi Yüksek Lisans'ların değer katma konusunda etkileyici bir potansiyeli var. Referanslar: [1] IBM ve CEO'lar, Verimlilik Gündemlerinin En Başına Taşırken Üretken Yapay Zekayı Benimsiyor (2023), IBM Haber Odası [2] T. Eloundou, S. Manning, P. Mishkin, D. Rock, GPT'ler GPT'lerdir: Büyük Dil Modellerinin İşgücü Piyasası Etki Potansiyeline Erken Bir Bakış (2023), arXiv:2303.10130v4 [econ.GN] [3] McKinsey & Company, Üretken yapay zekanın ekonomik potansiyeli: Bir sonraki üretkenlik sınırı (2023), McKinsey Digital Insights [4] C. Li, GPT-3'ün Gizemini Çözmek (2023), Lambda Labs Blogu [5] J. Langston, Microsoft yeni süper bilgisayarını duyurdu, gelecekteki yapay zeka çalışmalarına yönelik vizyonu ortaya koyuyor (2020), Microsoft Haber Kaynağı Özellikleri Yenilik [6] J. Sheikh, Finansın ChatGPT'si Burada: Bloomberg Yapay Zeka ve Fintech'i Birleştiriyor (2023), Forbes.com [7] E. d'Archimbaud, Bir Temel Modelini Özel İhtiyaçlarınıza Uyarlamanın 3 Yolu (2023), Kili Technology. [8] M. Heikkilä, How OpenAI, ChatGPT'yi daha güvenli ve daha az önyargılı hale getirmeye çalışıyor (2023), MIT Technology Review. [9] K. Singhal, T. Tu, J. Gottweis, R. Sayres, E. Wulczyn, L. Hou, K. Clark, S. Pfohl, H. Cole-Lewis, D. Neal, M. Schaekermann, A Wang, M. Amin, S. Lachgar, P. Mansfield, S. Prakash, B. Green, E. Dominowska, B. Aguera y Arcas, N. Tomasev, Y. Liu, R. Wong, C. Semturs, S. . Sara Mahdavi, J. Barral, D. Webster, GS Corrado, Y. Matias, S. Aziziy, A. Karthikesalingamy ve V. Natarajany, Towards Expert-Level Medical Question Answering with Large Language Models (2023), arXiv:2305.09617 v1 [cs.CL] 16 Mayıs 2023. [10] S. Wu, O. Irsoy, S. Lu, V. Dabravolski, M. Dredze, S. Gehrmann, P. Kambadur, D. Rosenberg, G. Mann, BloombergGPT: Finans için Büyük Bir Dil Modeli (2023) , arXiv:2303.17564v2 [cs.LG] [11] J. Hoffmann, S. Borgeaud, A. Mensch, E. Buchatskaya, T. Cai, E. Rutherford, D. de Las Casas, LA Hendricks, J. Welbl, A. Clark, T. Hennigan, E. Noland, K. Millican, G. van den Driessche, B. Damoc, A. Guy, S. Osindero, K. Simonyan, E. Elsen, JW Rae, O. Vinyals, L. Sifre, Training Compute-Optimal Large Language Models (2023), arXiv:2203.15556v1 [cs.CL] [12] A. Pai, Sıfırdan Kendi Büyük Dil Modellerinizi Oluşturma Başlangıç Kılavuzu (2023), Analytics Vidhya. [13] Ağırlıklar ve Önyargılar, Yüksek Lisans'lar Sıfırdan Nasıl Eğitilir (2023), Ağırlıklar ve Önyargılar Teknik Raporu.