Yazarlar:
(1) Nathan Lambert, Allen Yapay Zeka Enstitüsü;
(2) Roberto Calandra, TU Dresden.
İnsan geri bildiriminden (RLHF) pekiştirmeli öğrenme, büyük dil modellerinin (LLM'ler) daha kolay yönlendirilmesini ve karmaşık ortamlarda daha yetenekli olmasını sağlayan güçlü bir teknik olarak ortaya çıkmıştır. RLHF özünde, sonraki jeton tahmini dışında LLM'leri optimize etmek için yeni bir araç seti sağlayarak niteliksel eğitim hedeflerinin entegrasyonunu sağlar. Öğrenilmiş bir ödül modelinde gerçekleşen, kullanıcı tercihleri ile alt performans arasındaki eşleşme girişimi, eğitim ve değerlendirme ölçümlerinin ilişkili görünebileceği bir optimizasyon ortamıyla sonuçlanır. Görünen korelasyon beklenmedik davranışlara ve "çok fazla RLHF" hikayelerine yol açabilir. RLHF'de aşağıdaki alt modüllerin birbiriyle tutarlı olmaması nedeniyle zorluklar ortaya çıkar: ödül modeli eğitimi, politika modeli eğitimi ve politika modeli değerlendirmesi. Bu uyumsuzluk, bazen yanlış güvenlik işaretleri yoluyla kullanıcı isteklerinden kaçınan, amaçlanan bir özelliğe yönlendirmenin zor olduğu veya her zaman belirli bir tarzda yanıt veren modellere neden olur. Sohbet modeli değerlendirmesi giderek daha incelikli hale geldikçe, ödül modeli puanı ile alt performans arasında algılanan bağlantıya duyulan güven, hedef uyumsuzluğu sorununu tetikliyor. Bu yazıda, model tabanlı takviyeli öğrenimle ilgili literatürü gözden geçirerek bu sorunun nedenini açıklayacağız ve daha fazla araştırmayı teşvik etmek için ilgili çözümleri tartışacağız. RLHF'deki hedef uyumsuzluğunu çözerek, geleceğin Yüksek Lisans'ları hem güvenlik hem de yararlılık açısından kullanıcı talimatlarına daha hassas bir şekilde hizalanacak
İnsan geri bildiriminden pekiştirmeli öğrenme (RLHF), niteliksel stilleri ve değerleri büyük makine öğrenimi modellerine entegre etmek için güçlü bir araçtır (Bai ve diğerleri, 2022; Christiano ve diğerleri, 2017; Ouyang ve diğerleri, 2022). RLHF, sohbet araçlarını uyumlu hale getirmek için insani değerleri büyük dil modellerine (LLM'ler) entegre etme kullanımıyla popüler hale geldi (Schulman, Zoph, Kim ve diğerleri, 2022). Bunu yaparken, RLHF, modelleri kullanıcı isteklerine daha iyi yanıt verme konusunda önemli bir teknik haline geldi; genellikle talimat ayarlı, yönlendirilebilirlik, sohbet modelleri vb. olarak anılır. RLHF yöntemleri genellikle aşağıdaki iki adımlı bir süreçte çalışır: Bir temel dil modelinin eğitiminde, önce ödül işlevi gören bir insan tercihleri modeli öğrenirler ve ikinci olarak bu modeli bir takviyeli öğrenme (RL) optimizasyon döngüsü içinde kullanırlar. RLHF sürecinde, bu iki adım genellikle bağımsız olarak yürütülür; doğru bir ödül modeli insan tercihi verileri üzerinde eğitilir ve ardından sohbet modeline maksimum bilgiyi çıkarmak için RL optimizer kullanılır. RLHF ile eğitilmiş modern LLM'lerin ortak sorunu, modelden amaçlanan davranışların çıkarılmasındaki zorluklardır. Bazen modeller güvenlik nedenleriyle iyi huylu talepleri reddeder ve bazen de tam performans elde etmek için akıllı hızlı ayarlara ihtiyaç duyarlar.
Bu yazıda, modern RLHF öğrenme planlarındaki temel bir sorunu ayrıntılarıyla anlatıyoruz: nesnel uyumsuzluk sorunu. RLHF'de eğitimin üç önemli kısmı sayısal olarak birbirinden ayrılmıştır: değerlendirme metriklerinin tasarımı, ödül modelinin eğitimi ve üreten modelin eğitimi. Ödül modeli ile RL eğitimi arasındaki bu uyumsuzluk Şekil 1'de görselleştirilmiştir, ancak değerlendirme hedefleri ile insani değerleri simüle etme arasında başka bağlantılar da mevcuttur. Spesifik olarak, tercih ölçümünde ödül modeli eğitimini literatüre daha iyi hizalamak için birçok yol vardır (Lambert, Gilbert ve Zick, 2023) ve temel optimizasyon zorluklarının RLHF uygulamalarında çözülmesi gerekir (Casper ve diğerleri, 2023). RLHF ile eğitilen en popüler model olan ChatGPT, ayrıntı, kendinden şüphe duyma ve soruyu reddetme, tekrarlanan ifadeler, riskten korunma ve daha fazlası gibi sorunlar aracılığıyla bu sınırlamanın işaretlerini göstermektedir (Schulman, 2023). Bu aşırı optimizasyon özellikleri, hedef uyumsuzluğunun çalışmak ve çözmek için bir çerçeve sağladığı ince vekil hedef sorununun sonuçlarıdır - ödül modeli, güvenlik bayrakları gibi RL optimize edicinin istismar ettiği, kullanıcı yararına katkıda bulunmayan ifadelere aşırı değer atfeder. Öte yandan, RLHF'li modeller hala "adım adım düşünmek" (J. Wei ve diğerleri, 2022) veya "derin bir nefes almak" gibi karmaşık yönlendirme tekniklerine ihtiyaç duyduğundan, mevcut eğitim düzenleri değerlendirme araçlarıyla tam olarak uyumlu değildir. ” (Yang vd., 2023) maksimum performansa ulaşmak için. Hedef uyumsuzluğunu çözmek, bu ileri tekniklere olan ihtiyacı ortadan kaldıracak ve bir Yüksek Lisans'ın kapsam dışı ret olasılığını azaltacaktır.
Hedef uyumsuzluğu ifadesi, bir aracının daha sonra bir kontrol görevini çözmek için kullandığı bir dinamik modeli yinelemeli olarak öğrendiği model tabanlı pekiştirmeli öğrenmeden (MBRL) kaynaklanır (Lambert, Amos, Yadan ve Calandra, 2020; R. Wei, Lambert, McDonald, Garcia ve Calandra, 2023). Bu bağlamda uyumsuzluk, yüksek görev ödülü için optimize edilmiş bir model yerine doğru bir dinamik modeli öğrenmek arasındadır. RLHF'de sorun birbiriyle ilişkilidir, ancak ödül modeli, son kullanıcılarla eşleşmeyen kapalı bir dağıtım yerine tercih verileri için optimize edildiğinden, ek karmaşıklığa sahiptir. İkincisi, açık uçlu dil üretme görevi, RL kontrol politikalarına göre ödül kavramına daha az özgüdür. Bu nedenlerden dolayı, bu yazıda incelediğimiz gibi, nesnel uyumsuzluk sorunu RLHF için daha incelikli ve kritiktir.
Bu pozisyon belgesinde üç katkıda bulunuyoruz:
• Sohbet ayarlı LLM'lerdeki nesnel uyumsuzluğun kökenlerini ve potansiyel belirtilerini açık bir şekilde açıklayın,
• NLP ve RL literatüründen ilgili çalışmaları nesnel uyumsuzluk etrafında bağlayın,
• Uyumsuzluğu çözmek ve daha iyi RLHF uygulamalarını teşvik etmek için çalışma talimatları önerin.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .