paint-brush
Büyük Dil Modelleri için Verimli Kılavuzlu Üretim: Tartışma, Referanslar ve Teşekkürile@textmodels

Büyük Dil Modelleri için Verimli Kılavuzlu Üretim: Tartışma, Referanslar ve Teşekkür

Çok uzun; Okumak

Araştırmacılar, metin üretimi için hassas kontrol ve gelişmiş performans sunan sonlu durumlu bir makine çerçevesi öneriyor.
featured image - Büyük Dil Modelleri için Verimli Kılavuzlu Üretim: Tartışma, Referanslar ve Teşekkür
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Yazar:

(1) Brandon T. Willard, Normal Hesaplama;

(2) R'emi Louf, Normal Hesaplama.

Bağlantı Tablosu

5. Tartışma

Bu yazıda tanıtılan kelime dizini indekslemesi, güdümlü nesilde engelleyici çalışma zamanı ölçeklendirme engelini ortadan kaldırır. Doğal olarak, işleme ve bellek arasında bir denge kuruyor, ancak bellek maliyetlerinin ortalamada nispeten düşük olduğuna ve bu olmadığında geleneksel yöntemlerle azaltılabileceğine inanıyoruz.


Python gramerinin biraz genişletilmiş bir versiyonunu kullanan testlerimizde, basit bir şekilde oluşturulmuş indekslerin (yani kullanılmayan ve yedek ayrıştırıcı ve FSM durum konfigürasyonlarını içeren indekslerin) bile hala yalnızca 50 MB civarında olduğunu bulduk. Ayrıca, bu endeksler azaltılmamış DFA'larla oluşturulmuştur; bu, endekslerin boyutunu gereksiz yere artıran çok sayıda gereksiz durumun olduğu anlamına gelir. Benzer şekilde, durum makinelerinin tam temsili bir sorun teşkil ederse, daha düşük bellek gereksinimlerine sahip diğer durum makinesi formülasyonlarının (örn. NFA'lar) yeterli olması mümkündür.


Bu çalışmanın sonuçları sinirsel metin üretimiyle sınırlı değildir. Örneğin, yapılandırılmış çıktılar gerektiğinde LLM'lerin eğitimine veya ince ayarına yardımcı olmak için burada açıklanan indeksleme yaklaşımı kullanılabilir. Ayrıca eğitim sırasında destekli üretimin, sözdizimsel ayrıntıları öğrenmek için bir modele olan ihtiyacı azaltabileceğini de tahmin edebiliriz.


Ayrıca bu yöntem mevcut modellerin değerlendirilmesi için alternatif bir yol sağlar. Örneğin, yöntemimiz tarafından oluşturulan maskelenmiş logitler ile model tarafından oluşturulan ham logitler arasındaki tutarsızlığın niceliği belirlenmeye çalışılabilir. Bu da bir modelin eğitim hedefini bilgilendirebilir.


Bu yaklaşımla hesaplanan maskeleri dil modellerine "kaldırmak" da mümkün olabilir. Temel olarak maskeler, hangi hesaplamaların yapılmasına gerek olmadığını dolaylı olarak belirler. Mevcut formülasyonumuz maskeleri yalnızca en düşük seviyede uygular, ancak maskeleri model mimarisinin daha yukarılarına kaldırarak, onlar üzerinde gereksiz işlemler yapmadan önce model parametrelerinin hangi dilimlerinin gerekli olduğunu modüle edebiliriz. Bu, hesaplama maliyetlerini daha da azaltma potansiyeline sahiptir.

Referanslar

Luca Beurer-Kellner, Marc Fischer ve Martin Vechev. İstemde bulunmak programlamadır: Büyük dil modelleri için bir sorgulama dili. ACM'nin Programlama Dilleri Bildirileri, 7(PLDI):1946–1969, 2023.


Yihong Dong, Ge Li ve Zhi Jin. CODEP: Genel Amaçlı Kod Üretimi için Dilbilgisel Seq2Seq Modeli. 32. ACM SIGSOFT Uluslararası Yazılım Testi ve Analizi Sempozyumu Bildirileri, ISSTA 2023, sayfalar 188–198, New York, NY, ABD, Temmuz 2023. Bilgisayar Makineleri Birliği. ISBN 9798400702211.doi: 10.1145/3597926. 3598048.


Saibo Geng, Martin Josifosky, Maxime Peyrard ve Robert West. Dil Modelleri için Esnek Dil Bilgisine Dayalı Kısıtlı Kod Çözme, Mayıs 2023.


Michael Kuchnik, Virginia Smith ve George Amvrosiadis. Büyük dil modellerinin relm ile doğrulanması. Makine Öğrenimi ve Sistemleri Bildirileri, 5, 2023.


Alexander K. Lew, Tan Zhi-Xuan, Gabriel Grand ve Vikash K. Mansinghka. Olasılık Programlarını Kullanarak Büyük Dil Modellerinin Sıralı Monte Carlo Yönlendirilmesi. arXiv ön baskı arXiv:2306.03081, 2023.


R'emi Louf ve Brandon T. Willard. Ana Hatlar: Üretken Model Programlama. URL https://github.com/normal-computing/outlines.


Microsoft. Rehberlik. Microsoft, Temmuz 2023. URL https://github.com/ microsoft/guidance.


Gabriel Poesia, Oleksandr Polozov, Vu Le, Ashish Tiwari, Gustavo Soares, Christopher Meek ve Sumit Gulwani. Senkromeç: Önceden eğitilmiş dil modellerinden güvenilir kod üretimi. arXiv ön baskı arXiv:2201.11227, 2022a.


Gabriel Poesia, Oleksandr Polozov, Vu Le, Ashish Tiwari, Gustavo Soares, Christopher Meek ve Sumit Gulwani. Synchromesh: Önceden eğitilmiş dil modellerinden güvenilir kod oluşturma, Ocak 2022b.


Maxim Rabinovich, Mitchell Stern ve Dan Klein. Kod oluşturma ve anlamsal ayrıştırma için soyut sözdizimi ağları. arXiv ön baskısı arXiv:1704.07535, 2017.


Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei ve Ilya Sutskever. Dil modelleri denetimsiz çoklu görev öğrenicileridir. OpenAI blogu, 1(8):9, 2019.


Matt Rickard. ayrıştırıcıLLM, Temmuz 2023a. URL https://github.com/r2d4/parserllm.


Matt Rickard. R2d4/rellm: Herhangi bir dil modelinin tamamlanmasından kesin yapı., 2023b. URL https://github.com/r2d4/rellm.


Torsten Scholak, Nathan Schucher ve Dzmitry Bahdanau. PICARD: Dil modellerinden kısıtlı otomatik gerilemeli kod çözme için artımlı ayrıştırma. arXiv ön baskısı arXiv:2109.05093, 2021.


Rico Sennrich, Barry Haddow ve Alexandra Birch. Nadir kelimelerin alt kelime birimleriyle sinirsel makine çevirisi. arXiv ön baskısı arXiv:1508.07909, 2015.


Michael Sipser. Hesaplama Teorisine Giriş. Uluslararası Thomson Yayıncılık, 1996.


Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser ve Illia Polosukhin. İhtiyacınız olan tek şey dikkat. Sinirsel bilgi işleme sistemlerindeki gelişmeler, 30, 2017.


Bailin Wang, Zi Wang, Xuezhi Wang, Yuan Cao, Rif A. Saurous ve Yoon Kim. Büyük Dil Modelleriyle Etki Alanına Özel Dil Üretimi için Dilbilgisi İstemi, Mayıs 2023.


Lilian Weng. Kontrol Edilebilir Nöral Metin Oluşturma, Ocak 2021. URL https://lilianweng.github.io/posts/ 2021-01-02-controllable-text-jenerasyon/.

Teşekkür

Destekleri ve yapıcı geri bildirimleri için Dan Gerlanc ve Dan Simpson'a teşekkür ederiz.