Yapay zeka depremine hazır olun! UCLA araştırmacılarından oluşan bir ekip ( n, , , ) YGZ'ye bazı önemli anahtarlar bıraktı. Bu sadece insana benzeyen yapay zekanın kodu değil, aynı zamanda gittiler ve her şeyi açık kaynak haline getirdiler. @zxche @Yihe__Deng @HuizhuoY @Kaixuan_Ji_19, @QuanquanGu Artık tonlarca yeni, insan açıklamalı veri beslemenize gerek kalmadan daha iyi LLM'ler geliştirebilirsiniz. Öncelikle buradaki oyunun kurallarını değiştiren şeye odaklanalım: kendi kendine öğreten bir dil modeli. Bu yöntem, bir dil modelinin giderek daha iyi hale gelmesini sağlar. , büyük miktarlarda yeni, harici olarak seçilmiş veriler olmadan kendi kendine öğrenmesini, SPIN ile Tanışın: Kendi Kendine Oynama İnce Ayarı, Zayıf Dil Modellerini Güçlü Dil Modellerine Dönüştürür Tamamen derinlemesine inceleme moduna geçtim - makalelerini okudum (" "), Google Gemini Ultra ve GPT-4 ile , ve gibi forumlardaki bilgileri inceledim. Turbo – ve SPIN'in temel konsepti, teknoloji aşığı metaforik çoraplarımı yere serdi: Kendi Kendine Oynayan İnce Ayar, Zayıf Dil Modellerini Güçlü Dil Modellerine Dönüştürür HackerNews X Reddit 'Konuşma Arkadaşı' Hilesi Temel becerilerde (konuşma görgü kuralları diyelim) uzmanlaşan bir dil modeliyle başladığınızı hayal edin. SPIN ile model, halihazırda bildiklerinden bir veri kümesi oluşturarak . dahili 'konuşmalar' oluşturur Anında bilgi genişlemesi! İkinci adım, yeni bir modeli ortaya çıkarmayı ve ona tek bir görev vermeyi içerir: ile gerçek insan iletişimi arasındaki farkı tespit etmek. Bu, orijinal modeli, tespit edilmekten kaçınmak için her yanıtta giderek daha fazla zorlayarak oyununu geliştirmeye zorluyor. makine tarafından oluşturulan sohbetler insana benzemeye İşte işler burada ilginçleşiyor. ile başladılar (zaten ile ince ayar yapılmıştır). SPIN, bu temel modelle yinelemeli bir eğitim sistemini ortaya çıkardı ve harici olarak oluşturulan tonlarca yeni veriye dayanmadan onu katlanarak geliştirdi. Zephyr-7b-sft-full UltraChat corpus SPIN ve Geleneksel Yapay Zeka Eğitimi (DPO): Yeni Bir Şampiyon mu? Genellikle makine öğreniminin, özellikle de bu devasa dil modelleri için, dikkatle seçilmiş ve etiketlenmiş bir sürü veri gerektirdiğini düşünüyoruz. yöntemleri, insanların eğitim için AI yanıtlarını titizlikle derecelendirmesini içerir. Bu yalnızca emek yoğun olmakla kalmıyor, aynı zamanda veri kümesi büyüdükçe maliyetleri de artırıyor. Doğrudan Tercih Optimizasyonu (DPO) Doğrudan Tercih Optimizasyonu (DTO), bir modelin, bir tercih veri kümesi kullanılarak ince ayarlandığı ve genellikle model tarafından oluşturulan yanıtlardan hangisinin tercih edileceğine karar veren insan yargılarını içeren bir eğitim yöntemidir. Bu yöntem, her parçanın bu tercihlere göre etiketlendiği ve kaynak yoğun olabilen yeni verilerin toplanmasını gerektirir. Buna karşılık, SPIN kullanarak yeni verilere olan ihtiyacı önemli ölçüde azaltır. yinelemeli kendi kendine oynatmayı İlk yinelemede, ve model performansını artırmak için mevcut verilerden yararlanmadaki verimliliğini ve etkinliğini vurguluyor. SPIN'in performansı çoğu durumda DPO'nun performansını zaten aşıyor SPIN elde ederek gücünü sergiliyor. süreci, modelin performansını çoklu yinelemelerde metodik olarak geliştirir ve özellikle TruthfulQA ve GSM8k gibi zorlu kıyaslamalarda . , daha kapsamlı veri kümeleri üzerinde eğitilmiş modellerle eşit performans Yinelemeli eğitim önemli iyileştirmeler sergiler Dolayısıyla SPIN, ek insan açıklamalı verilere ihtiyaç duymadan, kendi kendine oynama yoluyla oluşturulan sentetik veri kümelerinden verimli bir şekilde yararlanarak, DPO dahil olmak üzere geleneksel eğitim yöntemlerinden daha iyi performans gösterir. SPIN'in Güçlü Yönleri ve Maliyetleri Nelerdir? SPIN, kendi kendine oynama dinamiği ile bir eğri topu fırlatıyor. Bunu, her turda yeni numaralar öğreten, dilsel bir boks ringinde kendisiyle tartışan bir dil modeli gibi düşünün. SPIN'in veri verimliliği, insan açıklamalı yeni veri kümelerine olan ihtiyacı ortadan kaldırır. Ancak daha da önemlisi, . iyileştirme döngüsünü hızlandırarak modelin insan benzeri metinler oluşturma konusunda giderek daha becerikli olmasını sağlar SPIN yalnızca daha büyük harici veri kümeleri üzerinde eğitilmiş modellerle eşleşmekle kalmıyor, aynı zamanda yinelemeli gücü, esasen kendi çıktısını incelediği için tutarlı kazançlar anlamına geliyor. Akıllara durgunluk veren, değil mi? Tamam, Odadaki Fil'i Konuşalım – COST Nous Research kurucu ortağı haklı olduğu bir nokta var. Bu büyük dil modelleri bedavaya daha akıllı hale gelmiyor. SPIN ile yinelemeli olarak yeniden eğitim, her seferinde pahalı Denetimli İnce Ayar (SFT) sürecini içerir. @Teknium1'in Ancak "Bence buna değer!" diyor. Ayrıca, daha hızlı evrimin ve potansiyel olarak insan açıklamalı verilere daha az bağımlılığın uzun vadeli faydaları, ilk yatırımdan daha mı ağır basıyor? İşte heyecan verici soru! BOOM! Şimdi Açık Kaynak Yapay Zeka Zamanı Daha dün, UCLA'da bilgisayar bilimi doçenti ve ByteDance'de yapay zeka araştırması direktörü , duyurdu. Bu yalnızca kod ve veri kümeleri anlamına gelmez, aynı zamanda kendi yapay zeka yolculuklarınızı başlatmak için önceden eğitilmiş modeller anlamına da gelir. Quanquan Gu artık herkesin SPIN modelini ve veri kümesini kullanabileceğini SPIN insanın düşünce süreçlerini yansıtır. SPIN, insani hissettiren metinler üreterek, gelecekteki yapay zekanın yapabileceği akıl yürütmenin temel unsurlarına işaret ediyor. Bazı LLM çıktılarının nasıl robotik hissettirdiğini biliyorsunuz değil mi? SPIN farklıdır. Aslında insanların düşünme şeklini yansıtıyor. Yazma şekli o kadar doğal ki, gelecekteki yapay zekanın kendi başlarına nasıl akıl yürütebileceğine bir göz atmak gibi. Bu sadece sohbet robotlarının daha hoş görünmesini sağlamakla ilgili değil. Bizimki gibi çalışan bir tür dijital düşünce yaratmakla ilgili. Bu tür bir yapay zeka çok daha esnek ve gerçek anlamda anlama yeteneğine sahip olacaktır. SPIN, dil modellerinin daha doğal görünmesini sağlamada ileriye doğru büyük bir adım olsa da, . heyecanlanmak ve ne anlama geldiğini abartmak kolaydır Ürettiği metin etkileyicidir (veritabanına göz atabilirsiniz), ancak yapay zekanın henüz gerçek bağımsız muhakeme kapasitesine sahip olmadığını hatırlamak önemlidir. SPIN gerçek olmasa da, insan benzeri yazıyı taklit etme şekli, yapay zekanın gelecekte dili nasıl işleyebileceği ve kullanabileceği konusunda etkileyici ilerlemeler olduğunu gösteriyor. AGI Öyle olsa bile, gelecekte yapay zeka ve dilin nasıl gelişebileceğine dair inanılmaz olasılıklar öneriyor (hokey sopasının başlangıcında olduğumuzu hatırlarsanız, gelecek bugünden çok uzak değil...) Dalgalanma etkileri çok büyük olacak ve işte erişim kartınız: Kod: mevcuttur: GitHub'da https://github.com/uclaml/SPIN Veriler: barındırılan veri kümesine, SPIN metodolojilerini uygulamaya istekli olanlar için kolayca erişilebilir: Hugging Face'te https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a… Modeller: SPIN ile geliştirilmiş dil modellerini denemek için bir avantaj sağlayan önceden eğitilmiş modeller de mevcuttur: https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40… Proje Sayfası: Kapsamlı bilgiler ve daha fazla bilgi için proje sayfası paha biçilmez bir kaynaktır: https://uclaml.github.io/SPIN/ Özetlemek gerekirse, yinelenen, kendini geliştiren metodolojisi, gerçekten insan benzeri iletişim kurabilen LLM yaratma yolunda önemli bir ilerlemedir. Orijinal olarak paylaşıldı. X hesabımda