paint-brush
LLM-এর জন্য সিনট্যাক্স ত্রুটি-মুক্ত এবং সাধারণীকরণযোগ্য টুল ব্যবহার: টুলডেক সিনট্যাক্স ত্রুটি দূর করেদ্বারা@textmodels
218 পড়া

LLM-এর জন্য সিনট্যাক্স ত্রুটি-মুক্ত এবং সাধারণীকরণযোগ্য টুল ব্যবহার: টুলডেক সিনট্যাক্স ত্রুটি দূর করে

দ্বারা Writings, Papers and Blogs on Text Models5m2024/06/02
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

গবেষকরা TOOLDEC প্রস্তাব করেছেন, এলএলএম-এর জন্য একটি সীমিত-রাষ্ট্রীয় মেশিন-নির্দেশিত ডিকোডিং, ত্রুটি হ্রাস করা এবং সরঞ্জামের ব্যবহার উন্নত করা।
featured image - LLM-এর জন্য সিনট্যাক্স ত্রুটি-মুক্ত এবং সাধারণীকরণযোগ্য টুল ব্যবহার: টুলডেক সিনট্যাক্স ত্রুটি দূর করে
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

লেখক:

(1) কেক্সুন ঝাং, ইউসি সান্তা বারবারা এবং সমান অবদান;

(2) হংকিয়াও চেন, নর্থউড হাই স্কুল এবং সমান অবদান;

(3) লেই লি, কার্নেগি মেলন বিশ্ববিদ্যালয়;

(4) উইলিয়াম ইয়াং ওয়াং, ইউসি সান্তা বারবারা।

লিঙ্কের টেবিল

4. পরীক্ষা I: টুলডেক সিনট্যাক্স ত্রুটি দূর করে

এই বিভাগে, আমরা দেখাই যে টুল কল তৈরি করার সময় TOOLDEC সিনট্যাক্স ত্রুটিগুলি দূর করতে পারে। TOOLDEC-এর ক্ষমতা প্রদর্শনের জন্য আমরা দুটি সাম্প্রতিক বেসলাইন, ToolLLM এবং ToolkenGPT, ইন-কনটেক্সট লার্নিং এবং ফাইন-টিউনিং প্যারাডাইম নির্বাচন করি। যেহেতু দুটি বেসলাইনের জন্য টুল-ব্যবহারের সেটিংস আলাদা এবং একে অপরের সাথে প্রয়োগ করা যায় না, তাই আমরা মূল কাগজপত্র থেকে বেঞ্চমার্ক ব্যবহার করে দুটি বেসলাইনের জন্য আলাদাভাবে TOOLDEC-এর কার্যকারিতা পরীক্ষা করি। ব্যাপক পরীক্ষা-নিরীক্ষার মাধ্যমে, আমরা দেখাই যে TOOLDEC সম্পূর্ণরূপে সিনট্যাকটিক ত্রুটিগুলি দূর করতে পারে, যার ফলে আরও ভাল নির্ভুলতা এবং সংক্ষিপ্ত অনুমান সময়।

4.1 বেসলাইন এবং বেঞ্চমার্ক

টুলএলএলএম (কিন এট আল।, 2023)। টুলএলএলএম হল টুল-অগমেন্টেড ল্যাঙ্গুয়েজ মডেলের প্রেক্ষাপটে শেখার পদ্ধতি। এটি টুল ব্যবহার করার জন্য একটি নির্দেশ-সুরিত LLaMA-7B মডেল (Touvron et al., 2023) ব্যবহার করে। একটি টুল-নির্ভর কাজের প্রাকৃতিক ভাষা নির্দেশনা দেওয়া, একটি API পুনরুদ্ধারকারী প্রথমে প্রাসঙ্গিক ফাংশনগুলির একটি ছোট উপসেট পুনরুদ্ধার করে। এই প্রাসঙ্গিক ফাংশনগুলির পাঠ্য বিবরণ এবং স্কিমা প্রসঙ্গে উপলব্ধ করা হয়েছে। তারপর, টুলএলএলএম একটি চূড়ান্ত উত্তর তৈরি করতে ফাংশন ব্যবহার করে বহু-পদক্ষেপের যুক্তি প্রক্রিয়ার মধ্য দিয়ে যায়।


টুলএলএলএম টুলইভালে মূল্যায়ন করা হয়, একই কাগজে প্রস্তাবিত একটি ডেটাসেট। ToolEval-এ এমন কাজগুলি রয়েছে যেগুলির মধ্যে একটি বিশাল সেট (10,000+) সর্বজনীনভাবে উপলব্ধ REST API-গুলি জড়িত৷ আমরা আমাদের পদ্ধতি-I2-শ্রেণী এবং I3-নির্দেশনা মূল্যায়ন করার জন্য ToolEval-এর সবচেয়ে কঠিন উপসেটগুলি ব্যবহার করি। এগুলিতে এমন কাজ রয়েছে যেগুলি সমাধান করার জন্য একাধিক বিভাগ (যেমন ভূ-অবস্থান, তারিখ/সময় এবং অন্যান্য) থেকে জটিল এবং অদেখা সরঞ্জামগুলির প্রয়োজন। গড়ে, একটি I2-শ্রেণীর টাস্কের জন্য 6.76 টুলের প্রয়োজন এবং একটি I3-শ্রেণীর টাস্কের জন্য 8.24 টুলের প্রয়োজন। ToolEval-এর দুটি প্রধান মেট্রিক রয়েছে: পাসের হার পরিমাপ করে কার্যগুলির শতাংশ যার জন্য মডেলটি একটি নির্দিষ্ট পরিমাণ যুক্তি পদক্ষেপের মধ্যে একটি উত্তরে পৌঁছায়। উইন রেট একটি LLM দ্বারা চালিত একটি স্বয়ংক্রিয় মূল্যায়নকারীকে ব্যবহার করে যা একটি ভাল পথের জন্য পূর্ব-নির্ধারিত মানদণ্ডের সেট অনুসরণ করে৷ এটি ChatGPT দ্বারা উত্পাদিত রেফারেন্স উত্তরের সাথে বেসলাইন উত্তরের গুণমান এবং সঠিকতার তুলনা করে। কিন এট আল। (2023) দেখেছে যে স্বয়ংক্রিয় মূল্যায়নকারীর মানব টীকাকারের সাথে 75.8% এর উচ্চ সম্পর্ক রয়েছে। এই দুটি মেট্রিক্স ছাড়া, আমরা টুল ত্রুটির হারও পরিমাপ করি, অন্তত একটি টুল-সম্পর্কিত ত্রুটি আছে এমন কাজের অনুপাত।


টুলকেনজিপিটি (হাও এট আল।, 2023)। টুলকেনজিপিটি টুল ব্যবহারের জন্য একটি সূক্ষ্ম-টিউনিং পদ্ধতি। ToolkenGPT প্রতিটি টুলকে একটি বিশেষ টোকেন হিসেবে উপস্থাপন করে এবং টুল ব্যবহারের জন্য শুধুমাত্র টুল টোকেনের এমবেডিংকে অপ্টিমাইজ করে। অনুমানের সময়, সংশ্লিষ্ট বিশেষ টোকেনের পূর্বাভাস হয়ে গেলে টুলকেনজিপিটি একটি টুলকে আহ্বান করে। একটি টুল কলের সময়, এটি অন্তর্বর্তী প্রদর্শন থেকে শিখে আর্গুমেন্ট পাস করে। ToolkenGPT তার বেস মডেল হিসাবে LLaMA-33B (Touvron et al., 2023) ব্যবহার করে।


সারণি 3: টুলইভালের ফলাফল। TOOLDEC-বর্ধিত টুলএলএলএম সমস্ত মেট্রিক্সে বেসলাইন টুলএলএলএমকে ছাড়িয়ে গেছে। TOOLDEC সমস্ত টুল ত্রুটি দূর করেছে এবং এমনকি ChatGPT কে সামান্য হারাতে সক্ষম হয়েছে।


4.2 বেস মডেলের সাথে টুলডেককে একীভূত করা

ToolLLM+TOOLDEC। কিন এট আল অনুসরণ করে। (2023), ToolLLM-এর টুল কলের পরিকল্পনা করতে আমরা ReAct (Yao et al., 2023) ব্যবহার করি। এটি বিভাগ 3.2-এ মোড স্যুইচিংয়ের দ্বিতীয় ক্ষেত্রের সাথে সামঞ্জস্যপূর্ণ। ToolLLM-এর জন্য FSM-এ তিনটি অংশ রয়েছে। প্রথমত, একটি ফর্ম্যাট FSM যা ReAct-এর "থট, অ্যাকশন, অ্যাকশন ইনপুট" সিনট্যাক্স প্রয়োগ করে। "অ্যাকশন:" ডিকোড করার পরে, এই FSM ফাংশন নামের FSM-এর প্রারম্ভিক অবস্থায় রূপান্তরিত হয়, যা নিশ্চিত করে যে একটি ডিকোড করা ফাংশন নাম সর্বদা বৈধ। আমরা একটি JSON-ভিত্তিক ফাংশন আর্গুমেন্ট FSMও তৈরি করেছি। আমরা LLM-কে 5টি ধাপের জন্য কারণ করার অনুমতি দিয়েছি আগে এটিকে ফিনিশিং অ্যাকশনকে "পাস" হিসেবে বিবেচনা করতে হবে।


টুলকেনGPT+TOOLDEC। যেহেতু ToolkenGPT টুল কল করার জন্য বিশেষ টোকেন ব্যবহার করে, তাই TOOLDEC শুধুমাত্র আর্গুমেন্টের সিনট্যাক্সের গ্যারান্টি দেওয়ার জন্য প্রয়োগ করা হয়। এই পরীক্ষায়, আমাদের FSM গ্যারান্টি দেয় যে প্রতিটি যুক্তি একটি বৈধ সংখ্যা, এবং আর্গুমেন্টগুলি কমা দ্বারা পৃথক করা হয়। এটি গ্যারান্টি দেয় যে একটি ফাংশনে পাস করা আর্গুমেন্টের প্রকৃত সংখ্যাটি এটির প্রয়োজনীয় সংখ্যা। আমরা হাও এট আল-এর বেসলাইনের দুটি রূপের সাথে TOOLDEC তুলনা করেছি। (2023), একটি ব্যাকট্রেস সহ এবং একটি ছাড়া৷ ব্যাকট্রেস ব্যর্থ টুল কল এড়াতে চেষ্টা করে LLM কে ফিরে যাওয়ার অনুমতি দিয়ে এবং ব্যর্থ টুল কলের জায়গায় পরবর্তী সম্ভাব্য টোকেন চেষ্টা করে। TOOLDEC মূল্যায়ন করতে, আমরা নির্ভুলতা ছাড়াও সমস্যা প্রতি গড় অনুমান সময় এবং টুল ত্রুটির হার রিপোর্ট করি।

4.3 পরীক্ষামূলক ফলাফল

TOOLDEC ইন-কনটেক্সট লার্নিং টুল এলএলএম উন্নত করে। সারণি 3 টুলইভালে TOOLDEC-এর কর্মক্ষমতা দেখায়। TOOLDEC I2-শ্রেণীতে 55% এবং I3-নির্দেশে 60% জয়ের হার অর্জন করেছে। আসল ডিকোডিং অ্যালগরিদমের ড্রপ-ইন প্রতিস্থাপন হিসাবে, TOOLDEC টুল-সম্পর্কিত তিন ধরনের ত্রুটি দূর করেছে এবং সেরা জয়ের হার এবং পাসের হার অর্জন করেছে, এমনকি ChatGPT-কে পরাজিত করেছে।


বেসলাইনগুলির উচ্চ টুল ত্রুটির হার পরামর্শ দেয় যে নির্দেশনা ফাইনটিউনিংয়ের পরেও, টুলএলএলএম এখনও টুল ডকুমেন্টেশন থেকে বাহ্যিক সরঞ্জামগুলিকে সঠিকভাবে আহ্বান করার ক্ষমতার অভাব করে। I3-ইন্সট্রাকশনের মতো বিভিন্ন ধরনের টুল উপলব্ধ থাকলে এই অক্ষমতা আরও বেশি প্রকাশ পায়। তদ্ব্যতীত, এই ত্রুটিগুলি মডেলের কাজগুলি সম্পূর্ণ করার ক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করেছে।


চিত্র 4: টুল কলের মোট সংখ্যার সাথে সম্পর্কিত তিন ধরনের টুল সংক্রান্ত ত্রুটির ত্রুটির হার। TOOLDEC তিনটি টুল-সম্পর্কিত ত্রুটি শূন্যে কমিয়েছে।


আমরা চিত্র 4-এ দুটি বেঞ্চমার্কে প্রতিটি ত্রুটির প্রকারের ত্রুটির হার উপস্থাপন করেছি। টুলএলএলএম-এর জন্য, নামের ত্রুটি, যেমন একটি অস্তিত্বহীন টুলকে কল করা, একটি টুল কলে সবচেয়ে সাধারণ সিনট্যাকটিক ত্রুটি ছিল। TOOLDEC তিনটি ত্রুটি সম্পূর্ণভাবে মুছে দিয়েছে।



ফাংশনের নামের হ্যালুসিনেশনটি সবচেয়ে প্রচলিত টুল-সম্পর্কিত ত্রুটির কারণে, একটি সামান্য ভাল বেসলাইন ছিল প্রত্যয় দ্বারা অস্পষ্ট মিলের মাধ্যমে এটিকে প্রশমিত করা। আমরা বেসলাইনের ফলাফলগুলি অস্পষ্ট ম্যাচিং সহ ToolLLM + ফাজি ম্যাচিং হিসাবে এবং ToolLLM ছাড়াই উপস্থাপন করি। এই প্রশমন পাসের হার বাড়িয়েছে কিন্তু জয়ের হারের উপর খুব কম প্রভাব ফেলেছে, যেমনটি সারণি 3-এ স্পষ্ট, কারণ একটি মডেল তার পছন্দসই টুলটিকে সঠিকভাবে কল করতে অক্ষম হলে প্রায়ই ভুল API নির্বাচন করা যেতে পারে। সামগ্রিকভাবে, ToolLLM-এর উপর আমাদের পরীক্ষা-নিরীক্ষা প্রমাণ করে যে TOOLDEC ইন-কনটেক্সট লার্নিং এলএলএম-এ অত্যন্ত কার্যকর। পরবর্তী বেসলাইন, ToolkenGPT-এর মাধ্যমে, আমরা দেখাই যে TOOLDEC ফাইন-টিউনড টুল এলএলএম-এর জন্যও উপকারী।


TOOLDEC ফাইন-টিউনিং টুল এলএলএম উন্নত করে। সারণি 4 FuncQAmulti-এ ফলাফল দেখায়। যদিও ToolkenGPT একটি বিশেষ টোকেন এম্বেডিংকে ফাইন-টিউনিং করে অস্তিত্বহীন টুলের নাম কল করার সম্ভাবনাকে দূর করে, তবুও এটি অন্যান্য সিনট্যাকটিক ত্রুটির শিকার হতে পারে, যা 27.9% টুল ত্রুটির হার দ্বারা প্রদর্শিত হয়। ড্রপ-ইন প্রতিস্থাপন হিসাবে, TOOLDEC ToolkenGPT এর নির্ভুলতা বৃদ্ধি করেছে যখন অনুমানে অনেক দ্রুত। যদিও টুলকেনজিপিটি + ব্যাকট্রেস TOOLDEC এর তুলনায় কিছুটা ভালো নির্ভুলতা অর্জন করেছে, এটি বিভিন্ন সরঞ্জাম ব্যবহার করার জন্য 2x বেশি সময় ব্যবহার করেছে। নোট করুন যে যেহেতু TOOLDEC সমস্ত টুল ত্রুটি দূর করেছে, ব্যাকট্রেসের জন্য পুনরায় চেষ্টা করার জন্য কোনো ব্যর্থ টুল কল হয়নি। ফলাফলগুলি টুল-সম্পর্কিত ত্রুটিগুলির প্রাসঙ্গিকতা এবং সাম্প্রতিক ইন-কনটেক্সট লার্নিং এবং ফাইন-টিউনিং টুল-অগমেন্টেড এলএলএম উভয় ক্ষেত্রেই টুলডেকের প্রযোজ্যতাকে আন্ডারস্কোর করে।


এই কাগজটি CC 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ