Yazarlar:  (1) Kexun Zhang, UC Santa Barbara ve Eşit katkı;  (2) Hongqiao Chen, Northwood Lisesi ve Eşit katkı;  (3) Lei Li, Carnegie Mellon Üniversitesi;  (4) William Yang Wang, UC Santa Barbara.  Bağlantı Tablosu   Özet ve Giriş   Alakalı iş   ToolDec: Sonlu Durum Kod Çözme Yoluyla Yüksek Lisans Aracı Kullanımı   Deney: ToolDec Sözdizimi Hatalarını Ortadan Kaldırıyor   Deney: ToolDec Genelleştirilebilir Takım Seçimini Etkinleştiriyor   Sonuç ve Referanslar   Ek  5. DENEY II: TOOLDEC GENELLEŞTİRİLEBİLİR ARAÇ SEÇİMİNİ SAĞLAR  Deney II'de, TOOLDEC'in ek eğitim verileri ve araç belgeleri olmadan, görünmeyen araçlara nasıl genelleştirildiğini gösteriyoruz. TOOLDEC'i iki güçlü temel ile karşılaştırıyoruz: temsili bir ince ayar yaklaşımı olarak ToolkenGPT (Hao ve diğerleri, 2023) ve temsili bir bağlam içi öğrenme yaklaşımı olarak RestGPT (Song ve diğerleri, 2023). Üç kıyaslama üzerinde deneyler yaptık: FuncQA (Hao ve diğerleri, 2023) ve KAMEL (Kalo ve Fichtel, 2022) ve RestBench (Song ve diğerleri, 2023). Bu kıyaslamalar, matematik akıl yürütme, bilgi sorusu yanıtlama ve gerçek dünya web hizmetleri dahil olmak üzere çok farklı alanlardan çeşitli araç setleri gerektirir. Her üç alanda da sonuçlarımız, TOOLDEC'in ekstra veriler üzerinde ince ayar yapmadan yeni araçlara verimli bir şekilde genelleştirebildiğini gösteriyor.  5.1 İNCE AYAR TEMEL: TOOLKENGPT  ToolkenGPT, her araç için özel bir jeton öğrenen, araç kullanımına yönelik ince ayar yapan bir yaklaşımdır. Yeni araçları genelleştirmek için ToolkenGPT'nin hala ek verilere ve yeni araçların kullanımını içeren ekstra ince ayarlara ihtiyacı var. TOOLDEC'in belirli bir görülen araç seti üzerinde ince ayar yapıldıktan sonra, görünmeyen araçları benimsemek için ek verilere ve daha fazla ince ayara ihtiyaç duymadığını gösteriyoruz. TOOLDEC'i ve temel çizgileri, "görülen araçlar" olarak adlandırılan aynı araç alt kümesi üzerinde ayarlayarak karşılaştırırız ve ardından "görünmeyen araçlar" üzerindeki performanslarını değerlendiririz.  Adil bir karşılaştırmayı garanti etmek amacıyla, "araçların ne zaman kullanılacağı" sorununu çözmek için ToolkenGPT'nin planlama yöntemini taklit ediyoruz. Spesifik olarak, tüm araçları temsil etmek için tek bir özel belirtecin <T> yerleştirilmesine ince ayar yaparak ekstra kelime dağarcığının boyutunu 1'e indiriyoruz. <T> oluşturulduktan sonra bir araç çağrısı başlar.  LLM'den bir araç adı oluşturmasını istiyoruz. Bu araç adının oluşturulması, mevcut tüm araçların listesinden oluşturulan bir FSM tarafından yönlendirilir. Bu araç adı daha sonra bağımsız değişkenlerin oluşturulmasını başlatmak için bağlama tekrar eklenir. Bu sürecin bir örneğini Ek A.2'de gösteriyoruz.  Mevcut tüm araçlar arasından "görülen araçların" küçük bir alt kümesini seçtik ve yerleştirmeyi yalnızca seçilen alt kümedeki araçların gösterimleriyle ayarladık. Aynı alt kümeyi kullanarak taban çizgisine ince ayar yaptık. Daha sonra TOOLDEC'in genelleme yeteneğini göstermek için yöntemimizi ve alt kümede görünmeyen araçları içeren görevlere ilişkin temel çizgileri değerlendirdik.    Yöntemimizi değerlendirmek için FuncQA çok atlamalı soruları kullanıyoruz. FuncQA'daki permütasyon, gcd, güç gibi araçlar, argümanlarının belirli aralıklardaki sayılar olmasını kesinlikle sınırlayan matematiksel işlevlerdir. Taban çizgisini ayarlamak ve kalan 9 görünmeyen araç üzerinde farklı yaklaşımları değerlendirmek için 13 araçtan 4'ünü görülen alt küme olarak seçiyoruz. Matematik Fonksiyonlarına İlişkin Karşılaştırma.    TOOLDEC'in daha geniş bir araç seti üzerinde genelleştirilebilirliğini daha fazla araştırmak için, aynı zamanda API'lerin özelliklerine benzeyen (örneğin çocuk sayısı) toplam 234 bilgi ilişkisini içeren bir soru-cevap veri seti olan KAMEL'i (Kalo ve Fichtel, 2022) değerlendiriyoruz. Daha fazla örnek Ek A.4'te bulunabilir. KAMEL'deki araçlar FuncQA'dakilerden çok daha fazladır. Ayrıca daha karmaşık ve çeşitlidirler çünkü araçlarına yönelik argümanların sayısı 1'den 3'e kadar değişir ve türleri dizeleri, konumları, tarihleri, sayıları ve diğer geçici türleri içerir. Görülen alt küme olarak 234 araçtan 30'unu seçiyoruz ve sırasıyla 30, 60, 100 ve 234 araçtan oluşan 4 farklı değerlendirme setinde değerlendiriyoruz. Hao ve ark. (2023), ekstra temel olarak yönlendirme, birkaç atış ve sıfır atış kullanıyoruz. (1) Hiçbir araç sağlanmadığından, yönlendirme LLM'nin dahili bilgisine dayanır. (2) Az çekim, birkaç çekim örnekleri aracılığıyla alet kullanımını gösterir. (3) Sıfır atış, bağlamda mevcut tüm araçların açıklamalarını sağlar. KAMEL'in eğitim ve değerlendirme veri seti her araç için aynı soru şablonunu paylaştığından, ki bu gerçek dünya ortamlarında genellikle doğru değildir, TOOLDEC'i yalnızca orijinal çalışma tarafından önerilen sentetik veri seti üzerinde eğitilmiş ToolkenGPT ile karşılaştırıyoruz. Doğru bilgi ilişkisini başlatan yanıtların oranıyla belirlenen araç çağrılarının doğruluğunu bir ölçüm olarak kullanırız. Bilgi Grafiği İlişkileri Karşılaştırması.  5.2 BAĞLAM İÇİ ÖĞRENME TEMELİ: RESTGPT  RestGPT (Song ve diğerleri, 2023), araç kullanımını bağlam içi araç belgelendirmesinden öğrenen bir bağlam içi öğrenme yaklaşımıdır. TOOLDEC ile geliştirilmiş RestGPT'nin genelleme yeteneğini, TOOLDEC'li RestGPT'nin, bağlam içi dokümantasyon olmadan, dokümantasyonlu RestGPT temel çizgisine kıyasla daha iyi doğruluk elde edebildiğini göstererek gösteriyoruz. TOOLDEC'in bir sonraki token dağıtımına erişmesi gerektiğinden, temel olarak Vicuna tabanlı (Zheng ve diğerleri, 2023) RestGPT'yi kullanıyoruz. Yöntemimiz için, tüm araç belgelerini komut isteminden kaldırıyoruz, geriye yalnızca akıl yürütme talimatları kalıyor.    RestBench üzerinde değerlendirme yapıyoruz (Song ve diğerleri, 2023). Film bilgileri için bir web sitesi olan TMDB ve çevrimiçi bir müzik çalar olan Spotify dahil olmak üzere gerçek dünya senaryolarındaki görevlerden oluşur. Bu görevler doğrudan gerçek kullanıcı talimatlarından gelir ve çözülmesi için RESTful API'ler biçiminde birden fazla araç gerekir. RESTful API'ler, kaynakları yönetmek için HTTP yöntemlerini kullanan web hizmetleri için fiili standarttır (Li ve diğerleri, 2016). Temel gerçek çözümler, insanlar tarafından araç çağrı zincirleri biçiminde açıklanır. Yöntemimizi ve baseline'ı 55 RESTful API'den oluşan TMDB üzerinde değerlendiriyoruz. GET ve POST gibi HTTP yöntemleri araç çağrısından farklı bir formata sahip olduğundan, TOOLDEC'in araç argümanları formatı. Bu API'leri bu formatı takip edecek şekilde yeniden yazdık. Doğruluğu ölçmek için metrik olarak orijinal makalenin önerdiği doğru yol oranını (%CP) kullanıyoruz. Doğru yol oranı, insanlar tarafından açıklamalı doğru takım çağırma yolunu içeren model çıktılarının oranıdır. Gerçek Dünya Web Hizmetleri için API'lere ilişkin karşılaştırma.  5.3 DENEY SONUÇLARI    Şekil 5a'da FuncQA sonuçlarını sunuyoruz. ToolkenGPT ve TOOLDEC, yalnızca görülen araçları içeren görevlerde benzer doğruluklar elde ederken, ToolkenGPT görünmeyen araçları genelleştirmede başarısız oldu ve bu da önemli bir performans düşüşüne neden oldu. Öte yandan TOOLDEC, görünmeyen araçlarda bile karşılaştırılabilir bir doğruluğu koruyabildi ve çok atlamalı problemlerde 8 kat daha iyi doğruluk elde ederek genelleştirilebilirliğinin altını çizdi. Sonuç olarak TOOLDEC, toplam doğruluk açısından ToolkenGPT'den önemli ölçüde daha iyi performans gösterdi.  Görünmeyen Matematik Fonksiyonlarına Genelleme.    KAMEL ile ilgili sonuçlarımızı Şekil 5b'de sunuyoruz. Mevcut araçların sayısı arttıkça, iki ICL yöntemi bağlam uzunluğu sınırından muzdarip oldu (Hao ve diğerleri, 2023) ve doğrulukta önemli bir düşüş yaşadı. İlk 30 araca ince ayar yapılan ToolkenGPT, daha fazla araca genelleme yapamadı. İstemde bulunma, bağlam içi araç belgelerine dayanmadığı için tutarlı bir düşük doğruluğu korudu. Öte yandan TOOLDEC, görünmeyen takım sayısı 204’e ulaştığında bile doğruluğunu korumayı başardı. Görünmeyen Bilgi Grafiği Fonksiyonlarına Genelleme.    RestBench'teki sonuçlar Tablo 5'te rapor edilmiştir. TOOLDEC, modelin bağlam içi belgeler olmadan web hizmeti API'lerini kullanmasını sağladı ve bilgi istemi boyutunu 1974 belirteçlerden yalnızca 880 belirteçlere düşürdü. Bununla birlikte TOOLDEC, doğru yol oranı (%CP) ile gösterilen doğruluk açısından temel çizgiden önemli ölçüde daha iyi performans göstererek bunu 8 puan artırdı. Bu sonuçlar, TOOLDEC'in gerçek dünya web uygulamalarında bağlam içi öğrenme aracı kullanımının genelleştirilebilirliğini de geliştirebileceğini göstermektedir. Görünmeyen Web Hizmetlerine Genelleştirme.  Her üç ayardan elde edilen sonuçlar, TOOLDEC'in yalnızca ince ayar aracı LLM'lerin ekstra eğitim verileri olmadan genelleştirilmesine yardımcı olmakla kalmayıp, aynı zamanda bağlam içi öğrenme aracı LLM'lerin bağlam içi dokümantasyon olmadan genelleştirilmesine de yardımcı olduğunu göstermektedir. TOOLDEC'in bu yeteneği üç farklı alanda kanıtlanmıştır.  Bu makale   . arxiv'de CC 4.0 DEED lisansı altında mevcuttur

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Bu ses hikayenin orijinal dilinde üretilmiştir!

Yüksek Lisans'lar için Sözdizimi Hatasız ve Genelleştirilebilir Araç Kullanımı: ToolDec Genelleştirilebilir Araç Seçimini Etkinleştirir

About Author

YORUMLAR

ETİKETLERİ ASIN

BU YAZI

Related Stories

HackerNoon Yazma Yarışmasını mı Kazanmak İstiyorsunuz? İşte #crypto-api Yarışması Kazananlarının Önerileri

Başarılı Buluta Geçiş İçin Tam Kılavuz: Stratejiler ve En İyi Uygulamalar

Kullanıcı Odaklı Kripto Ürünleri Oluşturma: Müşteri Geri Bildiriminin Önemi

Floki'den Valhalla Hindistan'ın Sri Lanka Turuna Yardımcı Sponsor Olarak Katıldı

HackerNoon Yazma Yarışmasını mı Kazanmak İstiyorsunuz? İşte #crypto-api Yarışması Kazananlarının Önerileri

Başarılı Buluta Geçiş İçin Tam Kılavuz: Stratejiler ve En İyi Uygulamalar

Kullanıcı Odaklı Kripto Ürünleri Oluşturma: Müşteri Geri Bildiriminin Önemi

Floki'den Valhalla Hindistan'ın Sri Lanka Turuna Yardımcı Sponsor Olarak Katıldı

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps