Yazarlar:
(1) Kexun Zhang, UC Santa Barbara ve Eşit katkı;
(2) Hongqiao Chen, Northwood Lisesi ve Eşit katkı;
(3) Lei Li, Carnegie Mellon Üniversitesi;
(4) William Yang Wang, UC Santa Barbara.
Bu makale, harici araçları entegre ederek ve bunların çağrılmasının sözdizimi hatasız olmasını sağlayarak Büyük Dil Modellerini (LLM'ler) geliştirmek için tasarlanmış yeni bir kod çözme algoritması olan TOOLDEC'i sunmaktadır. Araç dokümantasyonundan ve API imzalarından oluşturulan sonlu durumlu bir makine tarafından yönlendirilen TOOLDEC, araç çağrılarının gramerini doğru bir şekilde temsil ederek hatalı araç çağrıları ve mevcut modellerde görünmeyen araçlara yetersiz genelleme gibi yaygın sorunları ele alır.
Deneyler, TOOLDEC'in araçla ilgili sözdizimi hatalarını ortadan kaldırdığını, doğruluğu artırdığını ve çeşitli kıyaslamalarda çıkarım süresinden tasarruf sağladığını göstermektedir. Ayrıca, ek ince ayar verileri olmadan, birden fazla alandaki görünmeyen araçları genelleştirme yeteneğini de sergiler. TOOLDEC'in ilerlemeleri, ek eğitim verileri olmadan daha geniş bir araç ve uygulama yelpazesine uyarlanabilen daha karmaşık modeller geliştirme araştırmalarına yönelik yollar açarak, daha geniş bir karmaşık problem yelpazesini çözebilen daha çok yönlü ve sağlam LLM'lere yol açar.
TOOLDEC'in sözdizimi hatalarını ortadan kaldırmadaki başarısı, araç çağrılarının anlamsal doğruluğuna ve bağlamsal ilgisine odaklanan araştırmalara ilham verebilir. Bu, araçları daha etkili bir şekilde kullanan, anlayan ve kullanan modellere yol açarak Yüksek Lisans'ın genel problem çözme yeteneklerini geliştirebilir.
Peter Anderson, Basura Fernando, Mark Johnson ve Stephen Gould. Kısıtlı ışın araması ile kılavuzlu açık sözlüklü resim yazısı. Doğal Dil İşlemede Ampirik Yöntemler 2017 Konferansı Bildirileri, s. 936–945, Kopenhag, Danimarka, Eylül 2017. Hesaplamalı Dilbilim Derneği. doi: 10.18653/v1/D17-1098. URL https://aclanthology.org/D17-1098.
Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George Bm Van Den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark ve diğerleri. Trilyonlarca jetondan yararlanılarak dil modellerinin iyileştirilmesi. Uluslararası makine öğrenimi konferansında, s. 2206–2240. PMLR, 2022.
Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell ve diğerleri. Dil modelleri az sayıda öğrenendir. Sinirsel bilgi işleme sistemlerindeki ilerlemeler, 33:1877–1901, 2020.
Wenhu Chen, Xueguang Ma, Xinyi Wang ve William W Cohen. Yönlendiren düşünce programı: Sayısal akıl yürütme görevleri için hesaplamayı akıl yürütmeden ayırmak. arXiv e-baskıları, s. arXiv–2211, 2022.
Jason Eisner. Olasılıksal sonlu durum dönüştürücüleri için parametre tahmini. Hesaplamalı Dilbilim Derneği'nin 40. Yıllık Toplantısı Bildirileri, s. 1–8, 2002.
Edward Fredkin. Hafızayı deneyin. ACM Tebliği, 3(9):490–499, 1960.
Luyu Gao, Aman Madaan, Shuyan Zhou, Uri Alon, Pengfei Liu, Yiming Yang, Jamie Callan ve Graham Neubig. Pal: Program destekli dil modelleri. Uluslararası Makine Öğrenimi Konferansında, s. 10764–10799. PMLR, 2023.
Tanmay Gupta ve Aniruddha Kembhavi. Görsel programlama: Eğitim gerektirmeyen kompozisyonel görsel muhakeme. ArXiv, abs/2211.11559, 2022.
Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat ve Mingwei Chang. Artırılmış dil modeli ön eğitimini alın. Uluslararası makine öğrenimi konferansında, s. 3929–3938. PMLR, 2020.
Shibo Hao, Tianyang Liu, Zhen Wang ve Zhiting Hu. Toolkengpt: Dondurulmuş dil modellerini, araç yerleştirme yoluyla çok büyük araçlarla genişletme. arXiv ön baskı arXiv:2305.11554, 2023.
Chris Hokamp ve Qun Liu. Izgara ışın aramasını kullanarak dizi oluşturma için sözcüksel olarak kısıtlanmış kod çözme. Hesaplamalı Dilbilim Derneği'nin 55. Yıllık Toplantısı Bildirileri (Cilt 1: Uzun Makaleler), s. 1535–1546, Vancouver, Kanada, Temmuz 2017. Hesaplamalı Dilbilim Derneği. doi: 10.18653/v1/P17-1141. URL https://aclanthology.org/P17-1141.
Jan-Christoph Kalo ve Leandra Fichtel. Kamel: Dil modellerinde çok belirteçli varlıklarla bilgi analizi. Otomatik Bilgi Tabanı İnşaatı, 2022.
Li Li, Wu Chou, Wei Zhou ve Min Luo. Ağ uygulamaları için rest API'nin tasarım desenleri ve genişletilebilirliği. Ağ ve Hizmet Yönetiminde IEEE İşlemleri, 13(1):154–167, 2016.
Ximing Lu, Peter West, Rowan Zellers, Ronan Le Bras, Chandra Bhagavatula ve Yejin Choi. Nörolojik kod çözme:(un) yüklem mantığı kısıtlamaları ile denetimli sinirsel metin üretimi. Hesaplamalı Dilbilim Derneği'nin Kuzey Amerika Bölümü 2021 Konferansı Bildirileri: İnsan Dili Teknolojileri, s. 4288–4299, 2021.
Ximing Lu, Sean Welleck, Peter West, Liwei Jiang, Jungo Kasai, Daniel Khashabi, Ronan Le Bras, Lianhui Qin, Youngjae Yu, Rowan Zellers ve diğerleri. Nörolojik ve benzeri kod çözme: İleriye dönük sezgisel taramayla kısıtlı metin üretimi. Hesaplamalı Dilbilim Derneği'nin Kuzey Amerika Bölümü 2022 Konferansı Bildirileri: İnsan Dili Teknolojileri, s. 780–799, 2022.
Gregoire Mialon, Roberto Dess'`ı, Maria Lomeli, Christoforos Nalmpantis, Ram Pasunuru, Roberta Raileanu, Baptiste Roziere, Timo Schick, Jane Dwivedi-Yu, Aslı Çelikyilmaz, et al. Artırılmış dil modelleri: bir anket. arXiv ön baskı arXiv:2302.07842, 2023.
Ning Miao, Hao Zhou, Lili Mou, Rui Yan ve Lei Li. Cgmh: Metropolis-hastings örneklemesi ile kısıtlı cümle üretimi. AAAI Yapay Zeka Konferansı Bildirileri, cilt 33, s. 6834–6842, 2019.
Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders ve diğerleri. Webgpt: İnsan geri bildirimiyle tarayıcı destekli soru yanıtlama. arXiv ön baskısı arXiv:2112.09332, 2021.
Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray ve diğerleri. İnsan geri bildirimiyle talimatları takip edecek şekilde dil modellerini eğitmek. Sinir Bilgisi İşleme Sistemlerindeki Gelişmeler, 35: 27730–27744, 2022.
Aaron Parisi, Yao Zhao ve Noah Fiedel. Talm: Araçla zenginleştirilmiş dil modelleri. arXiv ön baskı arXiv:2205.12255, 2022.
Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian ve diğerleri. Toolllm: 16000'den fazla gerçek dünya API'sinde uzmanlaşmak için büyük dil modellerini kolaylaştırma. arXiv ön baskısı arXiv:2307.16789, 2023.
Pushpendre Rastogi, Ryan Cotterell ve Jason Eisner. Sonlu durum transdüksiyonlarının sinirsel bağlamla ağırlıklandırılması. Hesaplamalı Dilbilim Derneği'nin Kuzey Amerika bölümünün 2016 konferansının Bildirileri: insan dili teknolojileri, s. 623–633, 2016.
Timo Schick, Jane Dwivedi-Yu, Roberto Dess`ı, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda ve Thomas Scialom. Araç Oluşturucu: Dil modelleri, araçları kullanmayı kendilerine öğretebilir. arXiv ön baskı arXiv:2302.04761, 2023.
Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu ve Yueting Zhuang. Hugginggpt: Chatgpt ve arkadaşlarıyla AI görevlerini kucaklaşan yüzle çözme, 2023.
Yifan Song, Weimin Xiong, Dawei Zhu, Wenhao Wu, Han Qian, Mingbo Song, Hailiang Huang, Cheng Li, Ke Wang, Rong Yao, Ye Tian ve Sujian Li. Restgpt: Büyük dil modellerini gerçek dünyadaki dinlendirici API'lerle birleştirme, 2023.
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothee' Lacroix, Baptiste Roziere, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave ve Guillaume Lample. Lama: Açık ve etkili temel dil modelleri, 2023.
Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan ve Yuan Cao. React: Dil modellerinde muhakeme ve eylemin sinerjileştirilmesi, 2023.
Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric. P Xing, Hao Zhang, Joseph E. Gonzalez ve Ion Stoica. Mt-bench ve chatbot arena ile llm'yi jüri olarak değerlendirmek, 2023.
Bu makale arxiv'de CC 4.0 DEED lisansı altında mevcuttur .