paint-brush
সিনট্যাক্স ত্রুটি-মুক্ত এবং LLM-এর জন্য সাধারণীকরণযোগ্য টুল ব্যবহার: ToolDec সাধারণীকরণযোগ্য টুল নির্বাচন সক্ষম করেদ্বারা@textmodels
142 পড়া

সিনট্যাক্স ত্রুটি-মুক্ত এবং LLM-এর জন্য সাধারণীকরণযোগ্য টুল ব্যবহার: ToolDec সাধারণীকরণযোগ্য টুল নির্বাচন সক্ষম করে

দ্বারা Writings, Papers and Blogs on Text Models6m2024/06/02
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

গবেষকরা TOOLDEC প্রস্তাব করেছেন, এলএলএম-এর জন্য একটি সীমিত-রাষ্ট্রীয় মেশিন-নির্দেশিত ডিকোডিং, ত্রুটি হ্রাস করা এবং সরঞ্জামের ব্যবহার উন্নত করা।
featured image - সিনট্যাক্স ত্রুটি-মুক্ত এবং LLM-এর জন্য সাধারণীকরণযোগ্য টুল ব্যবহার: ToolDec সাধারণীকরণযোগ্য টুল নির্বাচন সক্ষম করে
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

লেখক:

(1) কেক্সুন ঝাং, ইউসি সান্তা বারবারা এবং সমান অবদান;

(2) হংকিয়াও চেন, নর্থউড হাই স্কুল এবং সমান অবদান;

(3) লেই লি, কার্নেগি মেলন বিশ্ববিদ্যালয়;

(4) উইলিয়াম ইয়াং ওয়াং, ইউসি সান্তা বারবারা।

লিঙ্কের টেবিল

5. পরীক্ষা II: TOOLDEC সাধারণীকরণযোগ্য টুল নির্বাচনকে সক্ষম করে

পরীক্ষা II-এ, আমরা দেখাই যে কিভাবে TOOLDEC অতিরিক্ত প্রশিক্ষণের ডেটা এবং টুল ডকুমেন্টেশন ছাড়াই অদেখা টুলগুলিতে সাধারণীকরণ করে। আমরা TOOLDEC-কে দুটি শক্তিশালী ভিত্তিরেখার সাথে তুলনা করি—ToolkenGPT (Hao et al., 2023) একটি প্রতিনিধি ফাইন-টিউনিং পদ্ধতি হিসাবে, এবং RestGPT (Song et al., 2023) একটি প্রতিনিধি ইন-প্রেক্ষাপট শেখার পদ্ধতি হিসাবে। আমরা তিনটি মাপকাঠিতে পরীক্ষা-নিরীক্ষা করেছি- FuncQA (Hao et al., 2023) এবং KAMEL (Kalo & Fichtel, 2022), এবং RestBench (Song et al., 2023)। এই বেঞ্চমার্কগুলির জন্য গণিতের যুক্তি, জ্ঞানের প্রশ্নের উত্তর এবং বাস্তব-বিশ্বের ওয়েব পরিষেবাগুলি সহ খুব ভিন্ন ডোমেন থেকে বিভিন্ন টুল সেট প্রয়োজন। তিনটি ডোমেনেই, আমাদের ফলাফলগুলি দেখায় যে TOOLDEC অতিরিক্ত ডেটাতে ফাইন-টিউনিং ছাড়াই নতুন টুলগুলিতে দক্ষতার সাথে সাধারণীকরণ করতে সক্ষম।

5.1 ফাইন-টিউনিং বেসলাইন: টুলকেংপিটি

ToolkenGPT টুল ব্যবহারের জন্য একটি সূক্ষ্ম-টিউনিং পদ্ধতি যা প্রতিটি টুলের জন্য একটি বিশেষ টোকেন শেখে। নতুন টুলগুলিকে সাধারণীকরণ করার জন্য, ToolkenGPT-এর এখনও অতিরিক্ত ডেটা এবং নতুন সরঞ্জামগুলির ব্যবহার জড়িত অতিরিক্ত সূক্ষ্ম-টিউনিং প্রয়োজন। আমরা দেখাই যে TOOLDEC, একবার দেখা সরঞ্জামগুলির একটি নির্দিষ্ট সেটে সূক্ষ্ম-টিউন করা হলে, অদেখা সরঞ্জামগুলি গ্রহণ করার জন্য অতিরিক্ত ডেটা এবং আরও সূক্ষ্ম-টিউনিংয়ের প্রয়োজন হয় না। আমরা TOOLDEC এবং বেসলাইনগুলিকে টুলের একই উপসেটে টিউন করে তুলনা করি, "দেখা টুলস" হিসাবে চিহ্নিত, এবং তারপর "অদেখা টুলস" এ তাদের কার্যকারিতা মূল্যায়ন করি।


একটি ন্যায্য তুলনা নিশ্চিত করার জন্য, আমরা "সরঞ্জামগুলি কখন ব্যবহার করতে হবে" সমস্যার সমাধান করার জন্য ToolkenGPT-এর পরিকল্পনা পদ্ধতির অনুকরণ করি। বিশেষভাবে, আমরা সমস্ত টুলের প্রতিনিধিত্ব করার জন্য একটি একক বিশেষ টোকেন <T> এর এমবেডিংকে সূক্ষ্ম-টিউন করি, অতিরিক্ত শব্দভান্ডারের আকার 1-এ হ্রাস করে। একবার <T> তৈরি হলে, একটি টুল কল শুরু হয়।


আমরা LLM কে একটি টুলের নাম তৈরি করতে অনুরোধ করি। এই টুল নামের জেনারেশনটি সমস্ত উপলব্ধ টুলের তালিকা থেকে তৈরি একটি FSM দ্বারা পরিচালিত হয়। আর্গুমেন্ট জেনারেশন শুরু করার জন্য এই টুলের নামটি প্রেক্ষাপটে আবার প্লাগ করা হয়। আমরা পরিশিষ্ট A.2 এ এই প্রক্রিয়াটির একটি উদাহরণ দেখাই।


আমরা সমস্ত উপলব্ধ সরঞ্জামগুলির মধ্যে "দেখা সরঞ্জামগুলির" একটি ছোট উপসেট নির্বাচন করেছি এবং নির্বাচিত উপসেটে কেবলমাত্র সরঞ্জামগুলির প্রদর্শনের সাথে এমবেডিং টিউন করেছি৷ আমরা একই উপসেট ব্যবহার করে বেসলাইনটি সূক্ষ্ম-টিউন করেছি। তারপর, আমরা TOOLDEC-এর সাধারণীকরণ ক্ষমতা প্রদর্শনের জন্য উপসেটে অদেখা সরঞ্জামগুলি জড়িত এমন কাজের উপর আমাদের পদ্ধতি এবং বেসলাইনগুলি মূল্যায়ন করেছি।


গণিত ফাংশন উপর বেঞ্চমার্ক. আমরা আমাদের পদ্ধতি মূল্যায়ন করতে FuncQA মাল্টি-হপ প্রশ্ন ব্যবহার করি। FuncQA-এর টুলস, যেমন পারমুটেট, gcd, power হল গাণিতিক ফাংশন যা তাদের আর্গুমেন্টকে নির্দিষ্ট রেঞ্জের সংখ্যা হতে কঠোরভাবে সীমাবদ্ধ করে। আমরা 13টি টুলের মধ্যে 4টি বেসলাইন টিউন করার জন্য দেখা সাবসেট হিসাবে নির্বাচন করি এবং বাকি 9টি অদেখা টুলগুলিতে বিভিন্ন পদ্ধতির মূল্যায়ন করি।


জ্ঞান গ্রাফ সম্পর্কের মানদণ্ড। টুলের একটি বৃহত্তর সেটে TOOLDEC-এর সাধারণীকরণের আরও তদন্ত করার জন্য, আমরা KAMEL (Kalo & Fichtel, 2022), একটি প্রশ্ন-উত্তরকারী ডেটাসেটকে মূল্যায়ন করি যেখানে মোট 234টি জ্ঞান সম্পর্ক রয়েছে যা API-এর বৈশিষ্ট্যের সাথে সাদৃশ্যপূর্ণ (যেমন শিশুদের সংখ্যা)। আরও উদাহরণ পরিশিষ্ট A.4 এ পাওয়া যাবে। KAMEL-এর টুলগুলি FuncQA-এর থেকে অনেক বেশি। এগুলি আরও জটিল এবং বৈচিত্র্যময় কারণ তাদের সরঞ্জামগুলির আর্গুমেন্টের সংখ্যা 1 থেকে 3 পর্যন্ত পরিবর্তিত হয় এবং তাদের প্রকারের মধ্যে স্ট্রিং, অবস্থান, তারিখ, সংখ্যা এবং অন্যান্য অ্যাড-হক প্রকারগুলি অন্তর্ভুক্ত রয়েছে৷ আমরা 234টি টুলের মধ্যে 30টি দেখা উপসেট হিসেবে নির্বাচন করি এবং 4টি ভিন্ন মূল্যায়ন সেটে যথাক্রমে 30, 60, 100 এবং 234টি টুল সহ মূল্যায়ন করি। হাও এট আলকে অনুসরণ করছে। (2023), আমরা অতিরিক্ত বেসলাইন হিসাবে প্রম্পটিং, কয়েক-শট এবং জিরো-শট ব্যবহার করি। (1) প্রম্পটিং LLM-এর অভ্যন্তরীণ জ্ঞানের উপর নির্ভর করে, যেহেতু কোনও সরঞ্জাম সরবরাহ করা হয়নি। (2) Few-shot কয়েক শট উদাহরণের মাধ্যমে টুল ব্যবহার প্রদর্শন করে। (3) জিরো-শট প্রসঙ্গে সমস্ত উপলব্ধ সরঞ্জামের বর্ণনা প্রদান করে। যেহেতু KAMEL-এর প্রশিক্ষণ এবং মূল্যায়ন ডেটাসেট প্রতিটি টুলের জন্য একই প্রশ্ন টেমপ্লেট ভাগ করে, যা প্রায়শই বাস্তব-বিশ্বের সেটিংসে সত্য নয়, তাই আমরা TOOLDEC-কে শুধুমাত্র মূল গবেষণার প্রস্তাবিত সিন্থেটিক ডেটাসেটে প্রশিক্ষণপ্রাপ্ত ToolkenGPT-এর সাথে তুলনা করি। আমরা একটি মেট্রিক হিসাবে টুল কলের নির্ভুলতা ব্যবহার করি, যা সঠিক জ্ঞানের সম্পর্ককে আহ্বানকারী প্রতিক্রিয়াগুলির অনুপাত দ্বারা নির্ধারিত হয়।

5.2 ইন-কনটেক্সট লার্নিং বেসলাইন: RESTGPT

RestGPT (Song et al., 2023) হল একটি ইন-কনটেক্সট শেখার পদ্ধতি যা ইন-কনটেক্সট টুল ডকুমেন্টেশন থেকে টুলের ব্যবহার শেখে। আমরা TOOLDEC-বর্ধিত RestGPT-এর সাধারণীকরণ ক্ষমতা প্রদর্শন করে দেখাই যে TOOLDEC-এর সাথে RestGPT ডকুমেন্টেশন সহ RestGPT বেসলাইনের তুলনায় ইন-প্রসঙ্গ ডকুমেন্টেশন ছাড়াই আরও ভাল নির্ভুলতা অর্জন করতে পারে। যেহেতু TOOLDEC-এর পরবর্তী টোকেন বিতরণে অ্যাক্সেস প্রয়োজন, তাই আমরা ভিকুনা-ভিত্তিক (Zheng et al., 2023) RestGPT কে বেসলাইন হিসাবে ব্যবহার করি। আমাদের পদ্ধতির জন্য, আমরা প্রম্পট থেকে সমস্ত টুল ডকুমেন্টেশন মুছে ফেলি, শুধুমাত্র যুক্তির জন্য নির্দেশাবলী রেখে।


রিয়েল-ওয়ার্ল্ড ওয়েব পরিষেবাগুলির জন্য এপিআইগুলির বেঞ্চমার্ক৷ আমরা RestBench (Song et al., 2023) এ মূল্যায়ন করি। এটি বাস্তব-বিশ্বের পরিস্থিতিতে কাজ করে যার মধ্যে রয়েছে TMDB, সিনেমার তথ্যের জন্য একটি ওয়েবসাইট এবং Spotify, একটি অনলাইন মিউজিক প্লেয়ার। এই কাজগুলি সরাসরি বাস্তব-ব্যবহারকারীর নির্দেশাবলী থেকে আসে এবং সমাধানের জন্য RESTful API আকারে একাধিক সরঞ্জামের প্রয়োজন হয়৷ RESTful APIগুলি হল ওয়েব পরিষেবাগুলির জন্য প্রকৃত মানদণ্ড (Li et al., 2016) যেগুলি সংস্থানগুলি পরিচালনা করতে HTTP পদ্ধতিগুলি ব্যবহার করে৷ গ্রাউন্ড ট্রুথ সমাধানগুলি টুল কল চেইন আকারে মানুষের দ্বারা টীকা করা হয়। আমরা আমাদের পদ্ধতি এবং TMDB-তে বেসলাইন মূল্যায়ন করি, যেটিতে 55টি RESTful API রয়েছে। যেহেতু HTTP পদ্ধতি যেমন GET এবং POST-এর ফর্ম্যাট টুল কল থেকে আলাদা, টুল আর্গুমেন্ট TOOLDEC-এর ফর্ম্যাট। এই বিন্যাসটি অনুসরণ করার জন্য আমরা এই APIগুলি পুনরায় লিখি। আমরা নির্ভুলতা পরিমাপ করতে মেট্রিক হিসাবে মূল কাগজ দ্বারা প্রস্তাবিত সঠিক পথ হার (CP%) ব্যবহার করি। সঠিক পথের হার হল মডেল আউটপুটগুলির অনুপাত যাতে মানুষের দ্বারা টীকাকৃত সঠিক টুল কল পাথ থাকে।

5.3 পরীক্ষার ফলাফল

অদেখা গণিত ফাংশন সাধারণীকরণ. চিত্র 5a-এ, আমরা FuncQA-তে ফলাফল উপস্থাপন করি। যখন ToolkenGPT এবং TOOLDEC শুধুমাত্র দেখা সরঞ্জামগুলি জড়িত এমন কার্যগুলিতে অনুরূপ নির্ভুলতা অর্জন করেছে, ToolkenGPT অদেখা সরঞ্জামগুলিতে সাধারণীকরণ করতে ব্যর্থ হয়েছে, যার ফলে উল্লেখযোগ্য কর্মক্ষমতা হ্রাস পেয়েছে। অন্যদিকে, TOOLDEC অদেখা সরঞ্জামগুলিতেও তুলনামূলক নির্ভুলতা বজায় রাখতে সক্ষম হয়েছিল এবং মাল্টি-হপ সমস্যাগুলিতে 8x আরও ভাল নির্ভুলতা অর্জন করতে সক্ষম হয়েছিল, এর সাধারণীকরণকে আন্ডারস্কোর করে। ফলস্বরূপ, TOOLDEC উল্লেখযোগ্যভাবে ToolkenGPT কে মোট নির্ভুলতার উপর ছাড়িয়ে গেছে।


সারণি 5: রেস্টবেঞ্চে ফলাফল। বেসলাইনে টুলের ব্যবহার শেখার জন্য ইন-কনটেক্সট টুল ডকুমেন্টেশন সহ অনেক দীর্ঘ প্রম্পটের প্রয়োজন, আমাদের পদ্ধতি তা করে না। তবুও, আমাদের পদ্ধতিতে এখনও বেসলাইনের তুলনায় অনেক বেশি সঠিক পথ অনুপাত (CP%) রয়েছে।


চিত্র 5: KAMEL এবং FuncQA এর ফলাফল। অদেখা টুলের সংখ্যা বাড়ার সাথে সাথে সমস্ত বেসলাইন উল্লেখযোগ্য কর্মক্ষমতা হ্রাস পেয়েছে। কিন্তু TOOLDEC একইরকম উচ্চ কার্যক্ষমতা বজায় রেখেছিল যদিও এটি শুধুমাত্র একটি ছোট উপসেট (KAMEL-এ 234-এর মধ্যে 30 এবং FuncQA-তে 13-এর মধ্যে 4) দেখেছিল।


অদেখা জ্ঞান গ্রাফ ফাংশন সাধারণীকরণ. আমরা চিত্র 5b-এ KAMEL-এ আমাদের ফলাফল উপস্থাপন করি। উপলব্ধ সরঞ্জামের সংখ্যা বৃদ্ধির সাথে সাথে, দুটি আইসিএল পদ্ধতি প্রসঙ্গ দৈর্ঘ্যের সীমা (হাও এট আল।, 2023) থেকে ভুগছে এবং নির্ভুলতার উল্লেখযোগ্য হ্রাস পেয়েছে। ToolkenGPT, প্রথম 30টি টুলে সূক্ষ্ম-টিউন করা হয়েছে, এছাড়াও আরও সরঞ্জামগুলিতে সাধারণীকরণ করতে অক্ষম ছিল। প্রম্পটিং একটি স্থিতিশীল কম নির্ভুলতা রাখে কারণ এটি ইন-প্রসঙ্গ টুল ডকুমেন্টেশনের উপর নির্ভর করে না। অন্যদিকে, TOOLDEC তার নির্ভুলতা বজায় রাখতে সক্ষম হয়েছিল যখন অদেখা সরঞ্জামের পরিমাণ 204 এ পৌঁছেছিল।


অদেখা ওয়েব পরিষেবাগুলিতে সাধারণীকরণ। RestBench-এর ফলাফলগুলি সারণি 5-এ রিপোর্ট করা হয়েছে। TOOLDEC মডেলটিকে ইন-প্রসঙ্গ ডকুমেন্টেশন ছাড়াই ওয়েব-সার্ভিস API ব্যবহার করতে সক্ষম করেছে, প্রম্পটের আকার 1974 টোকেন থেকে কমিয়ে শুধুমাত্র 880 টোকেনে এনেছে। তবুও, সঠিক পথ অনুপাত (CP%) দ্বারা নির্দেশিত সঠিকতার পরিপ্রেক্ষিতে TOOLDEC এখনও উল্লেখযোগ্যভাবে বেসলাইনকে ছাড়িয়ে গেছে, এটিকে 8 পয়েন্ট বাড়িয়েছে। এই ফলাফলগুলি পরামর্শ দেয় যে TOOLDEC বাস্তব-বিশ্বের ওয়েব অ্যাপ্লিকেশনগুলিতে ইন-কনটেক্সট লার্নিং টুল ব্যবহারের সাধারণীকরণের উন্নতি করতে পারে।


তিনটি সেটিংসের ফলাফলগুলি ইঙ্গিত করে যে TOOLDEC শুধুমাত্র অতিরিক্ত প্রশিক্ষণের ডেটা ছাড়াই সূক্ষ্ম-টিউনিং টুল LLM-গুলিকে সাধারণীকরণ করতে সাহায্য করে না, এটি ইন-কনটেক্সট শেখার টুল LLM-কে ইন-কনটেক্সট ডকুমেন্টেশন ছাড়াই সাধারণীকরণ করতে সহায়তা করে। TOOLDEC-এর এই ক্ষমতা তিনটি ভিন্ন ডোমেনে প্রমাণিত হয়েছে।


এই কাগজটি CC 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ