Doğrudan Tercih Optimizasyonu (DPO), basitliği ve uygulama kolaylığı nedeniyle popüler hale gelen yeni bir ince ayar tekniğidir. Kararlılığı, performansı ve hesaplamalı hafif doğası nedeniyle insan tercihleriyle uyum sağlamak amacıyla büyük dil modelinin (LLM) ince ayarı için (RLHF) doğrudan bir alternatif olarak ortaya çıkmıştır ve örnek alma ihtiyacını ortadan kaldırır. İnce ayar sırasında LM. DPO, mevcut yöntemler kadar veya onlardan daha iyi performans seviyelerine ulaşabilir. insan geri bildiriminden (RLHF) takviyeli öğrenmeye RLHF'den yararlanmayı içeren mevcut yöntemlerin aksine DPO, dil hizalama sürecini, bir tercihler veri kümesi {(x,yw,yl)} kullanılarak doğrudan optimize edilebilen basit bir kayıp işlevi olarak yeniden çerçevelendirir; burada: • x bir bilgi istemidir • yw tercih edilen bir yöntemdir • yl reddedilen bir yöntemdir Optimizasyon işlemi sırasında yanıtların bir dil modelinden örneklenmesini gerektiren RLHF'den farklı olarak DPO'da yanıtların optimize edilen LM'den örneklenmesine gerek yoktur. DPO Nasıl Çalışır? DPO'nun çalışma süreci iki adıma ayrılabilir. Bu adımda modele ilgili verilere göre ince ayar yapılır. Denetimli İnce Ayar (SFT): Model, ideal olarak SFT örnekleriyle aynı dağıtımdan elde edilen tercih verilerine göre ince ayarlanmıştır. Tercih öğrenimi: Politika optimizasyonu için ilk önce bir ödül modelinin eğitildiği RLHF'den farklı olarak DPO, bir ödül modelinin eğitimi gibi bir ara adım olmaksızın tercih bilgilerini doğrudan optimizasyon sürecine ekler. DPO, LLM'yi bir ödül modeli olarak kullanır ve politikayı optimize etmek için ikili bir çapraz entropi hedefi kullanır ve hangi yanıtların tercih edildiğini ve hangilerinin tercih edilmediğini belirlemek için insan tercihi verilerinden yararlanır. Politika, performansını artırmak için tercih edilen yanıtlara göre ayarlanır. Denetimli İnce Ayar Yüksek Lisans'lar için Üretken Yapay Zeka uygulamaları geliştirmenize yardımcı oluyoruz, böylece bu uygulamaların çok yönlü olması ve belirli kullanım senaryolarına uyarlanması sağlanır. Bu, öğrenilmesi ve uyarlanması için modele veri veya örnekler sağlamayı içerir; dolayısıyla istemlerin tasarımı, test edilmesi, devreye alınması ve teslimi için hızlı mühendislik çözümleri sunuyoruz. Cogito. Denetimli ince ayarda (SFT), . Özellikle tercih öğrenmeyle birlikte Denetimli İnce Ayar, modelin çıktılarını insanlar tarafından tanımlanan kriterlere uyacak şekilde şekillendirmek veya ayarlamak için kullanılır ve bunların belirli gereksinimlerle yakından uyumlu olmasını sağlar. LLM, belirli girdiler ve istenen çıktılar arasında net bir eşleme sağlayan etiketli veri kümeleri üzerinde eğitilir NLP'de Tercih Verileri Tercih verileri, belirli bir istemle ilgili dikkatle seçilmiş bir dizi seçenek veya alternatifi ifade eder. Yorumcular bu seçenekleri belirli yönergelere uygun olarak değerlendirir. Genel süreç, bu seçenekleri insan tercihlerine göre en çok tercih edilenden en az tercih edilene doğru sıralamayı amaçlamaktadır. Sıralama daha sonra insan beklentileri doğrultusunda çıktılar üretmek amacıyla modellere ince ayar yapmak için kullanılır. Tercih Verileri Nasıl Oluşturulur Bilgi İstemi Seçimi Bilgi istemi, tercih verilerinin temel taşıdır. Bilgi istemlerini seçmenin birkaç yolu vardır; bazıları önceden tanımlanmış bir kümeyi seçer, bazıları ise istemleri dinamik olarak oluşturmak için şablonları kullanır veya veritabanından alınan rastgele istemlerle önceden tanımlanmış istemlerin bir kombinasyonunu tercih eder. Yanıt Seçimi Bir sonraki adım, istemlere yanıt olarak çıktıyı belirlemektir. Bu yanıtlar, bir modelin iyi eğitilmiş bir versiyonundan veya modelin geliştirilmesindeki çeşitli kontrol noktalarından oluşturulabilir. Oluşturulan yanıtların tümü aynı değildir; yanıtların sıralaması farklılık gösterebilir. İkili sıralama sisteminde, her yanıt basitçe "en iyi" veya "en kötü" olarak kategorize edilirken ayrıntılı sıralama sistemi her yanıta bir puan (örneğin 1-5) atar ve daha ayrıntılı ve incelikli bir değerlendirmeye olanak tanır. Ek Açıklama Yönergeleri Ek açıklama yönergeleri, sıralama sistemlerinin bireysel önyargıları ve yorumları en aza indirecek şekilde standartlaştırılmasını sağlamak için gereklidir. DPO'nun Faydaları DPO'nun RLHF'ye göre aşağıdaki gibi birçok avantajı vardır: Basitlik ve Uygulama Kolaylığı Ayrıntılı geri bildirim toplamayı, karmaşık politikayı optimize etmeyi ve ödül modeli eğitimini sürecinden farklı olarak DPO, insan tercihini doğrudan eğitim döngüsüne entegre eder. Bu yaklaşım yalnızca süreçle ilgili karmaşıklığı ortadan kaldırmakla kalmaz, aynı zamanda standart ön eğitim ve ince ayar sistemleriyle daha iyi uyum sağlar. Üstelik DPO, ödül işlevlerinin oluşturulması ve ayarlanmasının karmaşıklıklarında gezinmeyi içermez. içeren çok katmanlı RLHF Ödül Modeli Eğitimine Gerek Yok DPO, ek bir ödül modeli eğitme ihtiyacını ortadan kaldırır, hesaplama kaynaklarından tasarruf sağlar ve ödül modelinin doğruluğu ve bakımıyla ilgili zorlukları ortadan kaldırır. İnsan geri bildirimlerini yapay zeka için eyleme dönüştürülebilir sinyallere dönüştüren etkili bir ödül modeli geliştirmek karmaşık bir iştir. Gelişen insan tercihlerini doğru bir şekilde yansıtmak için önemli bir çaba gerektirir ve düzenli güncellemeler gerektirir. DPO, modelin iyileştirilmesi için doğrudan tercih verilerinden yararlanarak bu adımı tamamen atlar. Üstün performans Doğrudan . Tercih Optimizasyonu: Dil Modeli Gizlice Bir Ödül Modeli Çözüm Doğrudan performans optimizasyonu, aşırı hesaplama kaynağı gerektirmeyen, istikrarlı ve etkili bir ince ayar tekniğidir. RLHF'den farklı olarak DPO, karmaşık bir ödül modeline ve ince ayar sırasında dil modelinden örneklemeye ihtiyaç duymaz. Bu sadece yeni bir algoritma değil, aynı zamanda insan ihtiyaçlarını daha iyi anlayan ve karşılayan dil modelleri oluşturma sürecinin ince ayarını yapan, basitleştiren ve geliştiren yapay zeka modelinde ezber bozan bir gelişmedir.