Yapay zeka depremine hazır olun! UCLA araştırmacılarından oluşan bir ekip ( @zxche n, @Yihe__Deng , @HuizhuoY , @Kaixuan_Ji_19, @QuanquanGu ) YGZ'ye bazı önemli anahtarlar bıraktı. Bu sadece insana benzeyen yapay zekanın kodu değil, aynı zamanda gittiler ve her şeyi açık kaynak haline getirdiler.
Artık tonlarca yeni, insan açıklamalı veri beslemenize gerek kalmadan daha iyi LLM'ler geliştirebilirsiniz.
Öncelikle buradaki oyunun kurallarını değiştiren şeye odaklanalım: kendi kendine öğreten bir dil modeli.
Bu yöntem, bir dil modelinin , büyük miktarlarda yeni, harici olarak seçilmiş veriler olmadan kendi kendine öğrenmesini, giderek daha iyi hale gelmesini sağlar.
Tamamen derinlemesine inceleme moduna geçtim - makalelerini okudum (" Kendi Kendine Oynayan İnce Ayar, Zayıf Dil Modellerini Güçlü Dil Modellerine Dönüştürür "), Google Gemini Ultra ve GPT-4 ile HackerNews , X ve Reddit gibi forumlardaki bilgileri inceledim. Turbo – ve SPIN'in temel konsepti, teknoloji aşığı metaforik çoraplarımı yere serdi:
Temel becerilerde (konuşma görgü kuralları diyelim) uzmanlaşan bir dil modeliyle başladığınızı hayal edin. SPIN ile model, halihazırda bildiklerinden bir veri kümesi oluşturarak dahili 'konuşmalar' oluşturur .
Anında bilgi genişlemesi!
İkinci adım, yeni bir modeli ortaya çıkarmayı ve ona tek bir görev vermeyi içerir: makine tarafından oluşturulan sohbetler ile gerçek insan iletişimi arasındaki farkı tespit etmek. Bu, orijinal modeli, tespit edilmekten kaçınmak için her yanıtta giderek daha fazla insana benzemeye zorlayarak oyununu geliştirmeye zorluyor.
İşte işler burada ilginçleşiyor. Zephyr-7b-sft-full ile başladılar (zaten UltraChat corpus ile ince ayar yapılmıştır). SPIN, bu temel modelle yinelemeli bir eğitim sistemini ortaya çıkardı ve harici olarak oluşturulan tonlarca yeni veriye dayanmadan onu katlanarak geliştirdi.
Genellikle makine öğreniminin, özellikle de bu devasa dil modelleri için, dikkatle seçilmiş ve etiketlenmiş bir sürü veri gerektirdiğini düşünüyoruz. Doğrudan Tercih Optimizasyonu (DPO) yöntemleri, insanların eğitim için AI yanıtlarını titizlikle derecelendirmesini içerir. Bu yalnızca emek yoğun olmakla kalmıyor, aynı zamanda veri kümesi büyüdükçe maliyetleri de artırıyor.
Doğrudan Tercih Optimizasyonu (DTO), bir modelin, bir tercih veri kümesi kullanılarak ince ayarlandığı ve genellikle model tarafından oluşturulan yanıtlardan hangisinin tercih edileceğine karar veren insan yargılarını içeren bir eğitim yöntemidir. Bu yöntem, her parçanın bu tercihlere göre etiketlendiği ve kaynak yoğun olabilen yeni verilerin toplanmasını gerektirir.
Buna karşılık, SPIN yinelemeli kendi kendine oynatmayı kullanarak yeni verilere olan ihtiyacı önemli ölçüde azaltır.
İlk yinelemede, SPIN'in performansı çoğu durumda DPO'nun performansını zaten aşıyor ve model performansını artırmak için mevcut verilerden yararlanmadaki verimliliğini ve etkinliğini vurguluyor.
SPIN , daha kapsamlı veri kümeleri üzerinde eğitilmiş modellerle eşit performans elde ederek gücünü sergiliyor. Yinelemeli eğitim süreci, modelin performansını çoklu yinelemelerde metodik olarak geliştirir ve özellikle TruthfulQA ve GSM8k gibi zorlu kıyaslamalarda önemli iyileştirmeler sergiler .
Dolayısıyla SPIN, ek insan açıklamalı verilere ihtiyaç duymadan, kendi kendine oynama yoluyla oluşturulan sentetik veri kümelerinden verimli bir şekilde yararlanarak, DPO dahil olmak üzere geleneksel eğitim yöntemlerinden daha iyi performans gösterir.
SPIN, kendi kendine oynama dinamiği ile bir eğri topu fırlatıyor.
Bunu, her turda yeni numaralar öğreten, dilsel bir boks ringinde kendisiyle tartışan bir dil modeli gibi düşünün.
SPIN'in veri verimliliği, insan açıklamalı yeni veri kümelerine olan ihtiyacı ortadan kaldırır.
Ancak daha da önemlisi, iyileştirme döngüsünü hızlandırarak modelin insan benzeri metinler oluşturma konusunda giderek daha becerikli olmasını sağlar .
SPIN yalnızca daha büyük harici veri kümeleri üzerinde eğitilmiş modellerle eşleşmekle kalmıyor, aynı zamanda yinelemeli gücü, esasen kendi çıktısını incelediği için tutarlı kazançlar anlamına geliyor.
Akıllara durgunluk veren, değil mi?
Nous Research kurucu ortağı @Teknium1'in haklı olduğu bir nokta var. Bu büyük dil modelleri bedavaya daha akıllı hale gelmiyor. SPIN ile yinelemeli olarak yeniden eğitim, her seferinde pahalı Denetimli İnce Ayar (SFT) sürecini içerir.
Ancak "Bence buna değer!" diyor. Ayrıca, daha hızlı evrimin ve potansiyel olarak insan açıklamalı verilere daha az bağımlılığın uzun vadeli faydaları, ilk yatırımdan daha mı ağır basıyor? İşte heyecan verici soru!
Daha dün, UCLA'da bilgisayar bilimi doçenti ve ByteDance'de yapay zeka araştırması direktörü Quanquan Gu , artık herkesin SPIN modelini ve veri kümesini kullanabileceğini duyurdu. Bu yalnızca kod ve veri kümeleri anlamına gelmez, aynı zamanda kendi yapay zeka yolculuklarınızı başlatmak için önceden eğitilmiş modeller anlamına da gelir.
SPIN insanın düşünce süreçlerini yansıtır.
SPIN, insani hissettiren metinler üreterek, gelecekteki yapay zekanın yapabileceği akıl yürütmenin temel unsurlarına işaret ediyor. Bazı LLM çıktılarının nasıl robotik hissettirdiğini biliyorsunuz değil mi? SPIN farklıdır. Aslında insanların düşünme şeklini yansıtıyor. Yazma şekli o kadar doğal ki, gelecekteki yapay zekanın kendi başlarına nasıl akıl yürütebileceğine bir göz atmak gibi.
Bu sadece sohbet robotlarının daha hoş görünmesini sağlamakla ilgili değil.
Bizimki gibi çalışan bir tür dijital düşünce yaratmakla ilgili. Bu tür bir yapay zeka çok daha esnek ve gerçek anlamda anlama yeteneğine sahip olacaktır.
SPIN, dil modellerinin daha doğal görünmesini sağlamada ileriye doğru büyük bir adım olsa da, heyecanlanmak ve ne anlama geldiğini abartmak kolaydır .
Ürettiği metin etkileyicidir (veritabanına göz atabilirsiniz), ancak yapay zekanın henüz gerçek bağımsız muhakeme kapasitesine sahip olmadığını hatırlamak önemlidir.
SPIN gerçek AGI olmasa da, insan benzeri yazıyı taklit etme şekli, yapay zekanın gelecekte dili nasıl işleyebileceği ve kullanabileceği konusunda etkileyici ilerlemeler olduğunu gösteriyor.
Öyle olsa bile, gelecekte yapay zeka ve dilin nasıl gelişebileceğine dair inanılmaz olasılıklar öneriyor (hokey sopasının başlangıcında olduğumuzu hatırlarsanız, gelecek bugünden çok uzak değil...)
Dalgalanma etkileri çok büyük olacak ve işte erişim kartınız:
Özetlemek gerekirse, yinelenen, kendini geliştiren metodolojisi, gerçekten insan benzeri iletişim kurabilen LLM yaratma yolunda önemli bir ilerlemedir.
Orijinal olarak X hesabımda paylaşıldı.