Yazarlar:
(1) Kexun Zhang, UC Santa Barbara ve Eşit katkı;
(2) Hongqiao Chen, Northwood Lisesi ve Eşit katkı;
(3) Lei Li, Carnegie Mellon Üniversitesi;
(4) William Yang Wang, UC Santa Barbara.
Deney II'de, TOOLDEC'in ek eğitim verileri ve araç belgeleri olmadan, görünmeyen araçlara nasıl genelleştirildiğini gösteriyoruz. TOOLDEC'i iki güçlü temel ile karşılaştırıyoruz: temsili bir ince ayar yaklaşımı olarak ToolkenGPT (Hao ve diğerleri, 2023) ve temsili bir bağlam içi öğrenme yaklaşımı olarak RestGPT (Song ve diğerleri, 2023). Üç kıyaslama üzerinde deneyler yaptık: FuncQA (Hao ve diğerleri, 2023) ve KAMEL (Kalo ve Fichtel, 2022) ve RestBench (Song ve diğerleri, 2023). Bu kıyaslamalar, matematik akıl yürütme, bilgi sorusu yanıtlama ve gerçek dünya web hizmetleri dahil olmak üzere çok farklı alanlardan çeşitli araç setleri gerektirir. Her üç alanda da sonuçlarımız, TOOLDEC'in ekstra veriler üzerinde ince ayar yapmadan yeni araçlara verimli bir şekilde genelleştirebildiğini gösteriyor.
ToolkenGPT, her araç için özel bir jeton öğrenen, araç kullanımına yönelik ince ayar yapan bir yaklaşımdır. Yeni araçları genelleştirmek için ToolkenGPT'nin hala ek verilere ve yeni araçların kullanımını içeren ekstra ince ayarlara ihtiyacı var. TOOLDEC'in belirli bir görülen araç seti üzerinde ince ayar yapıldıktan sonra, görünmeyen araçları benimsemek için ek verilere ve daha fazla ince ayara ihtiyaç duymadığını gösteriyoruz. TOOLDEC'i ve temel çizgileri, "görülen araçlar" olarak adlandırılan aynı araç alt kümesi üzerinde ayarlayarak karşılaştırırız ve ardından "görünmeyen araçlar" üzerindeki performanslarını değerlendiririz.
Adil bir karşılaştırmayı garanti etmek amacıyla, "araçların ne zaman kullanılacağı" sorununu çözmek için ToolkenGPT'nin planlama yöntemini taklit ediyoruz. Spesifik olarak, tüm araçları temsil etmek için tek bir özel belirtecin <T> yerleştirilmesine ince ayar yaparak ekstra kelime dağarcığının boyutunu 1'e indiriyoruz. <T> oluşturulduktan sonra bir araç çağrısı başlar.
LLM'den bir araç adı oluşturmasını istiyoruz. Bu araç adının oluşturulması, mevcut tüm araçların listesinden oluşturulan bir FSM tarafından yönlendirilir. Bu araç adı daha sonra bağımsız değişkenlerin oluşturulmasını başlatmak için bağlama tekrar eklenir. Bu sürecin bir örneğini Ek A.2'de gösteriyoruz.
Mevcut tüm araçlar arasından "görülen araçların" küçük bir alt kümesini seçtik ve yerleştirmeyi yalnızca seçilen alt kümedeki araçların gösterimleriyle ayarladık. Aynı alt kümeyi kullanarak taban çizgisine ince ayar yaptık. Daha sonra TOOLDEC'in genelleme yeteneğini göstermek için yöntemimizi ve alt kümede görünmeyen araçları içeren görevlere ilişkin temel çizgileri değerlendirdik.
Matematik Fonksiyonlarına İlişkin Karşılaştırma. Yöntemimizi değerlendirmek için FuncQA çok atlamalı soruları kullanıyoruz. FuncQA'daki permütasyon, gcd, güç gibi araçlar, argümanlarının belirli aralıklardaki sayılar olmasını kesinlikle sınırlayan matematiksel işlevlerdir. Taban çizgisini ayarlamak ve kalan 9 görünmeyen araç üzerinde farklı yaklaşımları değerlendirmek için 13 araçtan 4'ünü görülen alt küme olarak seçiyoruz.
Bilgi Grafiği İlişkileri Karşılaştırması. TOOLDEC'in daha geniş bir araç seti üzerinde genelleştirilebilirliğini daha fazla araştırmak için, aynı zamanda API'lerin özelliklerine benzeyen (örneğin çocuk sayısı) toplam 234 bilgi ilişkisini içeren bir soru-cevap veri seti olan KAMEL'i (Kalo ve Fichtel, 2022) değerlendiriyoruz. Daha fazla örnek Ek A.4'te bulunabilir. KAMEL'deki araçlar FuncQA'dakilerden çok daha fazladır. Ayrıca daha karmaşık ve çeşitlidirler çünkü araçlarına yönelik argümanların sayısı 1'den 3'e kadar değişir ve türleri dizeleri, konumları, tarihleri, sayıları ve diğer geçici türleri içerir. Görülen alt küme olarak 234 araçtan 30'unu seçiyoruz ve sırasıyla 30, 60, 100 ve 234 araçtan oluşan 4 farklı değerlendirme setinde değerlendiriyoruz. Hao ve ark. (2023), ekstra temel olarak yönlendirme, birkaç atış ve sıfır atış kullanıyoruz. (1) Hiçbir araç sağlanmadığından, yönlendirme LLM'nin dahili bilgisine dayanır. (2) Az çekim, birkaç çekim örnekleri aracılığıyla alet kullanımını gösterir. (3) Sıfır atış, bağlamda mevcut tüm araçların açıklamalarını sağlar. KAMEL'in eğitim ve değerlendirme veri seti her araç için aynı soru şablonunu paylaştığından, ki bu gerçek dünya ortamlarında genellikle doğru değildir, TOOLDEC'i yalnızca orijinal çalışma tarafından önerilen sentetik veri seti üzerinde eğitilmiş ToolkenGPT ile karşılaştırıyoruz. Doğru bilgi ilişkisini başlatan yanıtların oranıyla belirlenen araç çağrılarının doğruluğunu bir ölçüm olarak kullanırız.
RestGPT (Song ve diğerleri, 2023), araç kullanımını bağlam içi araç belgelendirmesinden öğrenen bir bağlam içi öğrenme yaklaşımıdır. TOOLDEC ile geliştirilmiş RestGPT'nin genelleme yeteneğini, TOOLDEC'li RestGPT'nin, bağlam içi dokümantasyon olmadan, dokümantasyonlu RestGPT temel çizgisine kıyasla daha iyi doğruluk elde edebildiğini göstererek gösteriyoruz. TOOLDEC'in bir sonraki token dağıtımına erişmesi gerektiğinden, temel olarak Vicuna tabanlı (Zheng ve diğerleri, 2023) RestGPT'yi kullanıyoruz. Yöntemimiz için, tüm araç belgelerini komut isteminden kaldırıyoruz, geriye yalnızca akıl yürütme talimatları kalıyor.
Gerçek Dünya Web Hizmetleri için API'lere ilişkin karşılaştırma. RestBench üzerinde değerlendirme yapıyoruz (Song ve diğerleri, 2023). Film bilgileri için bir web sitesi olan TMDB ve çevrimiçi bir müzik çalar olan Spotify dahil olmak üzere gerçek dünya senaryolarındaki görevlerden oluşur. Bu görevler doğrudan gerçek kullanıcı talimatlarından gelir ve çözülmesi için RESTful API'ler biçiminde birden fazla araç gerekir. RESTful API'ler, kaynakları yönetmek için HTTP yöntemlerini kullanan web hizmetleri için fiili standarttır (Li ve diğerleri, 2016). Temel gerçek çözümler, insanlar tarafından araç çağrı zincirleri biçiminde açıklanır. Yöntemimizi ve baseline'ı 55 RESTful API'den oluşan TMDB üzerinde değerlendiriyoruz. GET ve POST gibi HTTP yöntemleri araç çağrısından farklı bir formata sahip olduğundan, TOOLDEC'in araç argümanları formatı. Bu API'leri bu formatı takip edecek şekilde yeniden yazdık. Doğruluğu ölçmek için metrik olarak orijinal makalenin önerdiği doğru yol oranını (%CP) kullanıyoruz. Doğru yol oranı, insanlar tarafından açıklamalı doğru takım çağırma yolunu içeren model çıktılarının oranıdır.
Görünmeyen Matematik Fonksiyonlarına Genelleme. Şekil 5a'da FuncQA sonuçlarını sunuyoruz. ToolkenGPT ve TOOLDEC, yalnızca görülen araçları içeren görevlerde benzer doğruluklar elde ederken, ToolkenGPT görünmeyen araçları genelleştirmede başarısız oldu ve bu da önemli bir performans düşüşüne neden oldu. Öte yandan TOOLDEC, görünmeyen araçlarda bile karşılaştırılabilir bir doğruluğu koruyabildi ve çok atlamalı problemlerde 8 kat daha iyi doğruluk elde ederek genelleştirilebilirliğinin altını çizdi. Sonuç olarak TOOLDEC, toplam doğruluk açısından ToolkenGPT'den önemli ölçüde daha iyi performans gösterdi.
Görünmeyen Bilgi Grafiği Fonksiyonlarına Genelleme. KAMEL ile ilgili sonuçlarımızı Şekil 5b'de sunuyoruz. Mevcut araçların sayısı arttıkça, iki ICL yöntemi bağlam uzunluğu sınırından muzdarip oldu (Hao ve diğerleri, 2023) ve doğrulukta önemli bir düşüş yaşadı. İlk 30 araca ince ayar yapılan ToolkenGPT, daha fazla araca genelleme yapamadı. İstemde bulunma, bağlam içi araç belgelerine dayanmadığı için tutarlı bir düşük doğruluğu korudu. Öte yandan TOOLDEC, görünmeyen takım sayısı 204’e ulaştığında bile doğruluğunu korumayı başardı.
Görünmeyen Web Hizmetlerine Genelleştirme. RestBench'teki sonuçlar Tablo 5'te rapor edilmiştir. TOOLDEC, modelin bağlam içi belgeler olmadan web hizmeti API'lerini kullanmasını sağladı ve bilgi istemi boyutunu 1974 belirteçlerden yalnızca 880 belirteçlere düşürdü. Bununla birlikte TOOLDEC, doğru yol oranı (%CP) ile gösterilen doğruluk açısından temel çizgiden önemli ölçüde daha iyi performans göstererek bunu 8 puan artırdı. Bu sonuçlar, TOOLDEC'in gerçek dünya web uygulamalarında bağlam içi öğrenme aracı kullanımının genelleştirilebilirliğini de geliştirebileceğini göstermektedir.
Her üç ayardan elde edilen sonuçlar, TOOLDEC'in yalnızca ince ayar aracı LLM'lerin ekstra eğitim verileri olmadan genelleştirilmesine yardımcı olmakla kalmayıp, aynı zamanda bağlam içi öğrenme aracı LLM'lerin bağlam içi dokümantasyon olmadan genelleştirilmesine de yardımcı olduğunu göstermektedir. TOOLDEC'in bu yeteneği üç farklı alanda kanıtlanmıştır.
Bu makale arxiv'de CC 4.0 DEED lisansı altında mevcuttur .