Yazarlar:
(1) Kexun Zhang, UC Santa Barbara ve Eşit katkı;
(2) Hongqiao Chen, Northwood Lisesi ve Eşit katkı;
(3) Lei Li, Carnegie Mellon Üniversitesi;
(4) William Yang Wang, UC Santa Barbara.
Bu bölümde TOOLDEC'in araç çağrıları oluştururken sözdizimi hatalarını ortadan kaldırabildiğini gösteriyoruz. TOOLDEC'in yeteneğini sergilemek için bağlam içi öğrenmeyi ve ince ayar paradigmasını temsil eden iki yeni temel çizgiyi, ToolLLM ve ToolkenGPT'yi seçiyoruz. İki temel için araç kullanım ayarları farklı olduğundan ve birbirlerine uygulanamadığından, TOOLDEC'in performansını orijinal makalelerdeki kıyaslamaları kullanarak iki temel için ayrı ayrı test ediyoruz. Kapsamlı deneylerle TOOLDEC'in sözdizimsel hataları tamamen ortadan kaldırabildiğini, bunun sonucunda daha iyi doğruluk ve daha kısa çıkarım süresi sağladığını gösterdik.
ToolLLM (Qin ve diğerleri, 2023). ToolLLM, araçla zenginleştirilmiş dil modellerine yönelik bağlam içi bir öğrenme yaklaşımıdır. Araçları kullanmak için talimat ayarlı bir LLaMA-7B modelini (Touvron ve diğerleri, 2023) kullanır. Araca bağlı bir görevin doğal dil talimatı göz önüne alındığında, bir API alıcısı öncelikle ilgili işlevlerin küçük bir alt kümesini alır. Bu ilgili işlevlerin metinsel açıklaması ve şeması bağlamda mevcuttur. Daha sonra ToolLLM, nihai bir cevap üretmek için işlevleri kullanarak çok adımlı bir akıl yürütme sürecinden geçer.
ToolLLM , aynı makalede önerilen bir veri kümesi olan ToolEval üzerinde değerlendirilir. ToolEval, çok sayıda (10.000'den fazla) halka açık REST API içeren görevleri içerir. Yöntemimizi değerlendirmek için ToolEval'in en zor alt kümelerini kullanıyoruz: I2-Kategori ve I3-Talimat. Çözülmesi için birden fazla kategoriden (coğrafi konum, tarih/saat ve diğerleri gibi) karmaşık ve görünmeyen araçlar gerektiren görevler içerirler. Ortalama olarak, I2 Kategorisindeki bir görev 6,76 araca, I3 Kategorisindeki bir görev ise 8,24 araca ihtiyaç duyar. ToolEval'in iki ana ölçümü vardır: Geçiş Oranı, modelin belirli sayıda akıl yürütme adımı içinde cevaba ulaştığı görevlerin yüzdesini ölçer. Kazanma Oranı, daha iyi bir yol için önceden tanımlanmış bir dizi kriteri takip eden LLM tarafından desteklenen otomatik bir değerlendiriciyi kullanır. Temel yanıtların kalitesini ve doğruluğunu ChatGPT tarafından oluşturulan referans yanıtla karşılaştırır. Qin ve ark. (2023), otomatik değerlendiricinin insan yorumlayıcılarla %75,8 gibi yüksek bir korelasyona sahip olduğunu bulmuştur. Bu iki ölçümün dışında, takımla ilgili en az bir hata içeren görevlerin oranı olan Takım Hata Oranını da ölçüyoruz.
ToolkenGPT (Hao ve diğerleri, 2023). ToolkenGPT, araç kullanımına ince ayar yapan bir yaklaşımdır. ToolkenGPT, her aracı özel bir simge olarak temsil eder ve yalnızca araç kullanımı için araç belirteçlerinin yerleştirilmesini optimize eder. Çıkarım sırasında ToolkenGPT, karşılık gelen özel jeton tahmin edildiğinde bir aracı çağırır. Bir araç çağrısı sırasında, bağlam içi gösterimlerden öğrenerek argümanları iletir. ToolkenGPT, temel model olarak LLaMA-33B'yi (Touvron ve diğerleri, 2023) kullanır.
AraçLLM+TOOLDEC. Qin ve ark. (2023), ToolLLM'nin araç çağrılarını planlamak için ReAct'i (Yao ve diğerleri, 2023) kullanıyoruz. Bu, Bölüm 3.2'deki mod değiştirmenin ikinci durumuna uygundur. ToolLLM için FSM'de üç bölüm vardır. Birincisi, ReAct'in "Düşünce, Eylem, Eylem Girişi" sözdizimini uygulayan bir FSM formatı. "Eylem:" kodunun çözülmesinden sonra, bu FSM, kodu çözülmüş bir işlev adının her zaman geçerli olmasını garanti eden FSM işlev adının başlangıç durumuna geçiş yapar. Ayrıca JSON tabanlı bir fonksiyon argümanı FSM oluşturduk. LLM'lerin bitiş eylemini "geçti" olarak kabul etmesi gerekmeden önce 5 adım düşünmesine izin verdik.
ToolkenGPT+TOOLDEC. ToolkenGPT, araçları çağırmak için özel belirteçler kullandığından, TOOLDEC yalnızca bağımsız değişkenlerin sözdizimini garanti etmek için uygulanır. Bu deneyde FSM'miz her argümanın geçerli bir sayı olduğunu ve argümanların virgüllerle ayrıldığını garanti eder. Ayrıca bir fonksiyona iletilen gerçek argüman sayısının tam olarak ihtiyaç duyduğu sayı olduğunu garanti eder. TOOLDEC'i Hao ve ark.'daki iki temel değişkenle karşılaştırdık. (2023), biri geri izlemeli ve diğeri yok. Backtrace, LLM'nin başarısız araç çağrısı yerine geri dönüp bir sonraki olası jetonu denemesine izin vererek başarısız araç çağrılarını önlemeye çalışır. TOOLDEC'i değerlendirmek için, doğruluğun yanı sıra sorun başına ortalama çıkarım süresini ve takım hata oranlarını da raporluyoruz.
TOOLDEC, bağlam içi öğrenme aracı Yüksek Lisans Programlarını geliştirir. Tablo 3, TOOLDEC'in ToolEval'deki performansını göstermektedir. TOOLDEC, I2-Kategorisinde %55, I3-talimatında ise %60 kazanma oranına ulaştı. Orijinal kod çözme algoritmasının anında yerine geçen TOOLDEC, araçla ilgili her üç tür hatayı da ortadan kaldırdı ve en iyi kazanma oranı ve geçiş oranına ulaştı, hatta ChatGPT'yi bile geride bıraktı.
Taban çizgilerinin yüksek takım hata oranı, talimatların ince ayarından sonra bile ToolLLM'nin, araç dokümantasyonundan harici araçları doğru bir şekilde çağırma yeteneğinden hala yoksun olduğunu göstermektedir. Bu yetersizlik, I3-Eğitimde olduğu gibi, çok çeşitli araçlar mevcut olduğunda daha da açığa çıkar. Ayrıca bu hatalar modelin görevleri tamamlama yeteneğini önemli ölçüde etkiledi.
Şekil 4'te her hata tipinin hata oranlarını iki kıyaslamada sunuyoruz. ToolLLM'ler için, isim hatası, yani var olmayan bir aracın çağrılması, bir araç çağrısında en yaygın sözdizimsel hataydı. TOOLDEC üç hatayı da tamamen ortadan kaldırdı.
İşlev adı halüsinasyonunun aletle ilgili en yaygın hata olduğu göz önüne alındığında, son eke göre bulanık eşleştirmeyle bunu hafifletmek biraz daha iyi bir temeldi. Temel sonuçları bulanık eşleştirme ile ToolLLM + Bulanık Eşleştirme olarak ve olmadan ToolLLM olarak sunuyoruz. Bu azaltma, geçiş oranını artırdı ancak Tablo 3'te görüldüğü gibi kazanma oranı üzerinde çok az etkisi oldu; çünkü bir model, istediği aracı tam olarak çağıramadığında sıklıkla yanlış API'ler seçilebiliyordu. Genel olarak, ToolLLM üzerindeki deneylerimiz TOOLDEC'in bağlam içi öğrenim Yüksek Lisansı üzerinde oldukça etkili olduğunu göstermektedir. Bir sonraki temel olan ToolkenGPT aracılığıyla, TOOLDEC'in ince ayarlı araç LLM'leri için de faydalı olduğunu gösteriyoruz.
TOOLDEC, LLM'lerin ince ayar aracını geliştirir. Tablo 4 FuncQAmulti'deki sonuçları göstermektedir. ToolkenGPT, özel bir belirteç yerleştirmede ince ayar yaparak var olmayan araç adlarını çağırma olasılığını ortadan kaldırsa da, yine de %27,9'luk araç hata oranının gösterdiği gibi diğer sözdizimsel hatalardan muzdarip olabilir. TOOLDEC, çıkarımda çok daha hızlı olurken, anında değiştirme olarak ToolkenGPT'nin doğruluğunu artırdı. ToolkenGPT + backtrace, TOOLDEC'e göre biraz daha iyi doğruluk elde etse de, farklı araçları denemek için 2 kat daha fazla zaman harcadı. TOOLDEC'in tüm araç hatalarını ortadan kaldırmasından bu yana, geri izlemenin yeniden denenmesi için başarısız araç çağrısının olmadığını unutmayın. Sonuçlar, araçla ilgili hataların alaka düzeyinin ve TOOLDEC'in hem güncel bağlam içi öğrenime hem de araçla zenginleştirilmiş LLM'lerin ince ayarına uygulanabilirliğinin altını çiziyor.
Bu makale arxiv'de CC 4.0 DEED lisansı altında mevcuttur .