Yazarlar:
(1) Rafael Rafailo, Stanford Üniversitesi ve Eşit katkı; daha önce listelenen daha genç yazarlar;
(2) Archit Sharma, Stanford Üniversitesi ve Eşit katkı; daha önce listelenen daha genç yazarlar;
(3) Eric Mitchel, Stanford Üniversitesi ve Eşit katkı; daha önce listelenen daha genç yazarlar;
(4) Stefano Ermon, CZ Biohub;
(5) Christopher D. Manning, Stanford Üniversitesi;
(6) Chelsea Finn, Stanford Üniversitesi.
4 Doğrudan Tercih Optimizasyonu
7 Tartışma, Teşekkürler ve Referanslar
A Matematiksel Türevler
A.1 KL-Kısıtlı Ödül Maksimizasyonu Hedefinin Optimumunu Türetme
A.2 Bradley-Terry Modeli Altında DPO Hedefinin Türetilmesi
A.3 Plackett-Luce Modeli Altında DPO Hedefinin Türetilmesi
A.4 DPO Hedefinin Gradyanının Türetilmesi ve A.5 Lemma 1 ve 2'nin Kanıtı
B DPO Uygulama Ayrıntıları ve Hiperparametreler
C Deneysel Kurulum ve C.1 IMDb Duygu Deneyi ve Temel Ayrıntılar Hakkında Daha Fazla Bilgi
C.2 GPT-4 özetleme ve diyalog kazanma oranlarını hesaplama istemleri
C.3 Olasılıksızlık temel çizgisi
D Ek Ampirik Sonuçlar
D.1 Çeşitli N ve D.2 Örnek Yanıtlar ve GPT-4 Yargıları için En İyi N temel çizgisinin performansı
Artan ölçekte kendi kendini denetleyen dil modelleri, bazı görevleri sıfır atışla [31] veya birkaç atışlı istemlerle [6, 25, 11] tamamlamayı öğrenir. Ancak, alt akış görevlerindeki performansları ve kullanıcı amacıyla uyumu, talimat veri kümeleri ve insan tarafından yazılmış tamamlamalar üzerinde ince ayar yapılarak önemli ölçüde iyileştirilebilir [23, 36, 13, 39]. Bu 'talimat ayarlama' prosedürü, LLM'lerin talimat ayarlama kümesinin dışındaki talimatlara genelleme yapmalarını ve genel olarak kullanılabilirliklerini artırmalarını sağlar [13]. Talimat ayarlamanın başarısına rağmen, yanıt kalitesine ilişkin göreceli insan yargılarını toplamak genellikle uzman gösterilerinden daha kolaydır ve bu nedenle sonraki çalışmalar LLM'leri insan tercihleri veri kümeleriyle ince ayarlayarak çeviri [18], özetleme [38, 49], hikaye anlatma [49] ve talimat izleme [26, 32] konusundaki yeterliliği artırmıştır. Bu yöntemler öncelikle Bradley-Terry modeli [5] gibi bir tercih modeli altında tercihlerin veri kümesiyle uyumluluk için bir sinir ağı ödül fonksiyonunu optimize eder, ardından takviyeli öğrenme algoritmalarını, genellikle REINFORCE [45], yakınsal politika optimizasyonunu (PPO; [37]) veya varyantlarını [32] kullanarak verilen ödülü en üst düzeye çıkarmak için bir dil modelini ince ayarlar. Yakından ilişkili bir çalışma kolu, güvenlik veya zararsızlık gibi hedeflenen nitelikler için ek sentetik tercih verileri üretmek üzere insan geri bildirimiyle takip edilen talimat için ince ayarlanmış LLM'lerden yararlanır [2], yalnızca LLM'nin açıklamaları için bir metin ölçütü biçiminde insanlardan zayıf denetim kullanır. Bu yöntemler iki çalışma grubunun birleşmesini temsil eder: çeşitli hedefler için takviyeli öğrenme ile dil modellerini eğitme üzerine bir çalışma grubu [33, 27, 46] ve insan tercihlerinden öğrenmek için genel yöntemler üzerine başka bir çalışma grubu [12, 19]. Göreceli insan tercihlerini kullanmanın çekiciliğine rağmen, takviyeli öğrenme ile büyük dil modellerini ince ayarlamak önemli bir pratik zorluk olmaya devam etmektedir; Bu çalışma, RL olmaksızın göreli tercihleri optimize etmek için teorik olarak haklı bir yaklaşım sunmaktadır.
Dil bağlamının dışında, tercihlerden öğrenme politikaları hem haydut hem de takviyeli öğrenme ortamlarında incelendi ve birkaç yaklaşım önerildi. Ödüller yerine tercihleri veya eylem sıralamalarını kullanan bağlamsal haydut öğrenmesi, bağlamsal düello haydutu (CDB; [48, 14]) olarak bilinir. Mutlak ödüllerin yokluğunda, CDB'lerin teorik analizi, beklenen kazanma oranı diğer herhangi bir politikaya göre en az %50 olan bir von Neumann kazananı ile optimal politika kavramını değiştirir [14]. Ancak, CDB ortamında, tercih etiketleri çevrimiçi olarak verilirken, insan tercihlerinden öğrenmede, genellikle sabit bir çevrimdışı tercihle açıklanmış eylem çiftleri grubundan öğreniriz [47]. Benzer şekilde, tercihe dayalı RL (PbRL), ödüller yerine bilinmeyen bir 'puanlama' işlevi tarafından üretilen ikili tercihlerden öğrenir [9, 35]. PbRL için çeşitli algoritmalar mevcuttur, bunlar arasında politika dışı tercih verilerini yeniden kullanabilen yöntemler de vardır, ancak genel olarak öncelikle gizli puanlama işlevini (yani ödül modelini) açıkça tahmin etmeyi ve ardından onu optimize etmeyi içerir [16, 9, 12, 34, 19]. Bunun yerine, tercihleri karşılamak için bir politikayı doğrudan optimize eden tek aşamalı bir politika öğrenme yaklaşımı sunuyoruz.