লেখক:  (1) কেক্সুন ঝাং, ইউসি সান্তা বারবারা এবং সমান অবদান;  (2) হংকিয়াও চেন, নর্থউড হাই স্কুল এবং সমান অবদান;  (3) লেই লি, কার্নেগি মেলন বিশ্ববিদ্যালয়;  (4) উইলিয়াম ইয়াং ওয়াং, ইউসি সান্তা বারবারা।  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   সম্পর্কিত কাজ   ToolDec: Finite-State Decoding এর মাধ্যমে LLM টুল ব্যবহার   পরীক্ষা: টুলডেক সিনট্যাক্স ত্রুটি দূর করে   পরীক্ষা: টুলডেক সাধারণীকরণযোগ্য টুল নির্বাচন সক্ষম করে   উপসংহার এবং রেফারেন্স   পরিশিষ্ট  4. পরীক্ষা I: টুলডেক সিনট্যাক্স ত্রুটি দূর করে  এই বিভাগে, আমরা দেখাই যে টুল কল তৈরি করার সময় TOOLDEC সিনট্যাক্স ত্রুটিগুলি দূর করতে পারে। TOOLDEC-এর ক্ষমতা প্রদর্শনের জন্য আমরা দুটি সাম্প্রতিক বেসলাইন, ToolLLM এবং ToolkenGPT, ইন-কনটেক্সট লার্নিং এবং ফাইন-টিউনিং প্যারাডাইম নির্বাচন করি। যেহেতু দুটি বেসলাইনের জন্য টুল-ব্যবহারের সেটিংস আলাদা এবং একে অপরের সাথে প্রয়োগ করা যায় না, তাই আমরা মূল কাগজপত্র থেকে বেঞ্চমার্ক ব্যবহার করে দুটি বেসলাইনের জন্য আলাদাভাবে TOOLDEC-এর কার্যকারিতা পরীক্ষা করি। ব্যাপক পরীক্ষা-নিরীক্ষার মাধ্যমে, আমরা দেখাই যে TOOLDEC সম্পূর্ণরূপে সিনট্যাকটিক ত্রুটিগুলি দূর করতে পারে, যার ফলে আরও ভাল নির্ভুলতা এবং সংক্ষিপ্ত অনুমান সময়।  4.1 বেসলাইন এবং বেঞ্চমার্ক    টুলএলএলএম হল টুল-অগমেন্টেড ল্যাঙ্গুয়েজ মডেলের প্রেক্ষাপটে শেখার পদ্ধতি। এটি টুল ব্যবহার করার জন্য একটি নির্দেশ-সুরিত LLaMA-7B মডেল (Touvron et al., 2023) ব্যবহার করে। একটি টুল-নির্ভর কাজের প্রাকৃতিক ভাষা নির্দেশনা দেওয়া, একটি API পুনরুদ্ধারকারী প্রথমে প্রাসঙ্গিক ফাংশনগুলির একটি ছোট উপসেট পুনরুদ্ধার করে। এই প্রাসঙ্গিক ফাংশনগুলির পাঠ্য বিবরণ এবং স্কিমা প্রসঙ্গে উপলব্ধ করা হয়েছে। তারপর, টুলএলএলএম একটি চূড়ান্ত উত্তর তৈরি করতে ফাংশন ব্যবহার করে বহু-পদক্ষেপের যুক্তি প্রক্রিয়ার মধ্য দিয়ে যায়। টুলএলএলএম (কিন এট আল।, 2023)।  টুলএলএলএম   একই কাগজে প্রস্তাবিত একটি ডেটাসেট। ToolEval-এ এমন কাজগুলি রয়েছে যেগুলির মধ্যে একটি বিশাল সেট (10,000+) সর্বজনীনভাবে উপলব্ধ REST API-গুলি জড়িত৷ আমরা আমাদের পদ্ধতি-I2-শ্রেণী এবং I3-নির্দেশনা মূল্যায়ন করার জন্য ToolEval-এর সবচেয়ে কঠিন উপসেটগুলি ব্যবহার করি। এগুলিতে এমন কাজ রয়েছে যেগুলি সমাধান করার জন্য একাধিক বিভাগ (যেমন ভূ-অবস্থান, তারিখ/সময় এবং অন্যান্য) থেকে জটিল এবং অদেখা সরঞ্জামগুলির প্রয়োজন। গড়ে, একটি I2-শ্রেণীর টাস্কের জন্য 6.76 টুলের প্রয়োজন এবং একটি I3-শ্রেণীর টাস্কের জন্য 8.24 টুলের প্রয়োজন। ToolEval-এর দুটি প্রধান মেট্রিক রয়েছে:   পরিমাপ করে কার্যগুলির শতাংশ যার জন্য মডেলটি একটি নির্দিষ্ট পরিমাণ যুক্তি পদক্ষেপের মধ্যে একটি উত্তরে পৌঁছায়।   একটি LLM দ্বারা চালিত একটি স্বয়ংক্রিয় মূল্যায়নকারীকে ব্যবহার করে যা একটি ভাল পথের জন্য পূর্ব-নির্ধারিত মানদণ্ডের সেট অনুসরণ করে৷ এটি ChatGPT দ্বারা উত্পাদিত রেফারেন্স উত্তরের সাথে বেসলাইন উত্তরের গুণমান এবং সঠিকতার তুলনা করে। কিন এট আল। (2023) দেখেছে যে স্বয়ংক্রিয় মূল্যায়নকারীর মানব টীকাকারের সাথে 75.8% এর উচ্চ সম্পর্ক রয়েছে। এই দুটি মেট্রিক্স ছাড়া, আমরা   পরিমাপ করি, অন্তত একটি টুল-সম্পর্কিত ত্রুটি আছে এমন কাজের অনুপাত। টুলইভালে মূল্যায়ন করা হয়, পাসের হার উইন রেট টুল ত্রুটির হারও    টুলকেনজিপিটি টুল ব্যবহারের জন্য একটি সূক্ষ্ম-টিউনিং পদ্ধতি। ToolkenGPT প্রতিটি টুলকে একটি বিশেষ টোকেন হিসেবে উপস্থাপন করে এবং টুল ব্যবহারের জন্য শুধুমাত্র টুল টোকেনের এমবেডিংকে অপ্টিমাইজ করে। অনুমানের সময়, সংশ্লিষ্ট বিশেষ টোকেনের পূর্বাভাস হয়ে গেলে টুলকেনজিপিটি একটি টুলকে আহ্বান করে। একটি টুল কলের সময়, এটি অন্তর্বর্তী প্রদর্শন থেকে শিখে আর্গুমেন্ট পাস করে। ToolkenGPT তার বেস মডেল হিসাবে LLaMA-33B (Touvron et al., 2023) ব্যবহার করে।  টুলকেনজিপিটি (হাও এট আল।, 2023)।  4.2 বেস মডেলের সাথে টুলডেককে একীভূত করা    কিন এট আল অনুসরণ করে। (2023), ToolLLM-এর টুল কলের পরিকল্পনা করতে আমরা ReAct (Yao et al., 2023) ব্যবহার করি। এটি বিভাগ 3.2-এ মোড স্যুইচিংয়ের দ্বিতীয় ক্ষেত্রের সাথে সামঞ্জস্যপূর্ণ। ToolLLM-এর জন্য FSM-এ তিনটি অংশ রয়েছে। প্রথমত, একটি ফর্ম্যাট FSM যা ReAct-এর "থট, অ্যাকশন, অ্যাকশন ইনপুট" সিনট্যাক্স প্রয়োগ করে। "অ্যাকশন:" ডিকোড করার পরে, এই FSM ফাংশন নামের FSM-এর প্রারম্ভিক অবস্থায় রূপান্তরিত হয়, যা নিশ্চিত করে যে একটি ডিকোড করা ফাংশন নাম সর্বদা বৈধ। আমরা একটি JSON-ভিত্তিক ফাংশন আর্গুমেন্ট FSMও তৈরি করেছি। আমরা LLM-কে 5টি ধাপের জন্য কারণ করার অনুমতি দিয়েছি আগে এটিকে ফিনিশিং অ্যাকশনকে "পাস" হিসেবে বিবেচনা করতে হবে। ToolLLM+TOOLDEC।    যেহেতু ToolkenGPT টুল কল করার জন্য বিশেষ টোকেন ব্যবহার করে, তাই TOOLDEC শুধুমাত্র আর্গুমেন্টের সিনট্যাক্সের গ্যারান্টি দেওয়ার জন্য প্রয়োগ করা হয়। এই পরীক্ষায়, আমাদের FSM গ্যারান্টি দেয় যে প্রতিটি যুক্তি একটি বৈধ সংখ্যা, এবং আর্গুমেন্টগুলি কমা দ্বারা পৃথক করা হয়। এটি গ্যারান্টি দেয় যে একটি ফাংশনে পাস করা আর্গুমেন্টের প্রকৃত সংখ্যাটি এটির প্রয়োজনীয় সংখ্যা। আমরা হাও এট আল-এর বেসলাইনের দুটি রূপের সাথে TOOLDEC তুলনা করেছি। (2023), একটি ব্যাকট্রেস সহ এবং একটি ছাড়া৷ ব্যাকট্রেস ব্যর্থ টুল কল এড়াতে চেষ্টা করে LLM কে ফিরে যাওয়ার অনুমতি দিয়ে এবং ব্যর্থ টুল কলের জায়গায় পরবর্তী সম্ভাব্য টোকেন চেষ্টা করে। TOOLDEC মূল্যায়ন করতে, আমরা নির্ভুলতা ছাড়াও সমস্যা প্রতি গড় অনুমান সময় এবং টুল ত্রুটির হার রিপোর্ট করি। টুলকেনGPT+TOOLDEC।  4.3 পরীক্ষামূলক ফলাফল    সারণি 3 টুলইভালে TOOLDEC-এর কর্মক্ষমতা দেখায়। TOOLDEC I2-শ্রেণীতে 55% এবং I3-নির্দেশে 60% জয়ের হার অর্জন করেছে। আসল ডিকোডিং অ্যালগরিদমের ড্রপ-ইন প্রতিস্থাপন হিসাবে, TOOLDEC টুল-সম্পর্কিত তিন ধরনের ত্রুটি দূর করেছে এবং সেরা জয়ের হার এবং পাসের হার অর্জন করেছে, এমনকি ChatGPT-কে পরাজিত করেছে। TOOLDEC ইন-কনটেক্সট লার্নিং টুল এলএলএম উন্নত করে।  বেসলাইনগুলির উচ্চ টুল ত্রুটির হার পরামর্শ দেয় যে নির্দেশনা ফাইনটিউনিংয়ের পরেও, টুলএলএলএম এখনও টুল ডকুমেন্টেশন থেকে বাহ্যিক সরঞ্জামগুলিকে সঠিকভাবে আহ্বান করার ক্ষমতার অভাব করে। I3-ইন্সট্রাকশনের মতো বিভিন্ন ধরনের টুল উপলব্ধ থাকলে এই অক্ষমতা আরও বেশি প্রকাশ পায়। তদ্ব্যতীত, এই ত্রুটিগুলি মডেলের কাজগুলি সম্পূর্ণ করার ক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করেছে।   আমরা চিত্র 4-এ দুটি বেঞ্চমার্কে প্রতিটি ত্রুটির প্রকারের ত্রুটির হার উপস্থাপন করেছি। টুলএলএলএম-এর জন্য, নামের ত্রুটি, যেমন একটি অস্তিত্বহীন টুলকে কল করা, একটি টুল কলে সবচেয়ে সাধারণ সিনট্যাকটিক ত্রুটি ছিল। TOOLDEC তিনটি ত্রুটি সম্পূর্ণভাবে মুছে দিয়েছে।   ফাংশনের নামের হ্যালুসিনেশনটি সবচেয়ে প্রচলিত টুল-সম্পর্কিত ত্রুটির কারণে, একটি সামান্য ভাল বেসলাইন ছিল প্রত্যয় দ্বারা অস্পষ্ট মিলের মাধ্যমে এটিকে প্রশমিত করা। আমরা বেসলাইনের ফলাফলগুলি অস্পষ্ট ম্যাচিং সহ ToolLLM + ফাজি ম্যাচিং হিসাবে এবং ToolLLM ছাড়াই উপস্থাপন করি। এই প্রশমন পাসের হার বাড়িয়েছে কিন্তু জয়ের হারের উপর খুব কম প্রভাব ফেলেছে, যেমনটি সারণি 3-এ স্পষ্ট, কারণ একটি মডেল তার পছন্দসই টুলটিকে সঠিকভাবে কল করতে অক্ষম হলে প্রায়ই ভুল API নির্বাচন করা যেতে পারে। সামগ্রিকভাবে, ToolLLM-এর উপর আমাদের পরীক্ষা-নিরীক্ষা প্রমাণ করে যে TOOLDEC ইন-কনটেক্সট লার্নিং এলএলএম-এ অত্যন্ত কার্যকর। পরবর্তী বেসলাইন, ToolkenGPT-এর মাধ্যমে, আমরা দেখাই যে TOOLDEC ফাইন-টিউনড টুল এলএলএম-এর জন্যও উপকারী।    সারণি 4 FuncQAmulti-এ ফলাফল দেখায়। যদিও ToolkenGPT একটি বিশেষ টোকেন এম্বেডিংকে ফাইন-টিউনিং করে অস্তিত্বহীন টুলের নাম কল করার সম্ভাবনাকে দূর করে, তবুও এটি অন্যান্য সিনট্যাকটিক ত্রুটির শিকার হতে পারে, যা 27.9% টুল ত্রুটির হার দ্বারা প্রদর্শিত হয়। ড্রপ-ইন প্রতিস্থাপন হিসাবে, TOOLDEC ToolkenGPT এর নির্ভুলতা বৃদ্ধি করেছে যখন অনুমানে অনেক দ্রুত। যদিও টুলকেনজিপিটি + ব্যাকট্রেস TOOLDEC এর তুলনায় কিছুটা ভালো নির্ভুলতা অর্জন করেছে, এটি বিভিন্ন সরঞ্জাম ব্যবহার করার জন্য 2x বেশি সময় ব্যবহার করেছে। নোট করুন যে যেহেতু TOOLDEC সমস্ত টুল ত্রুটি দূর করেছে, ব্যাকট্রেসের জন্য পুনরায় চেষ্টা করার জন্য কোনো ব্যর্থ টুল কল হয়নি। ফলাফলগুলি টুল-সম্পর্কিত ত্রুটিগুলির প্রাসঙ্গিকতা এবং সাম্প্রতিক ইন-কনটেক্সট লার্নিং এবং ফাইন-টিউনিং টুল-অগমেন্টেড এলএলএম উভয় ক্ষেত্রেই টুলডেকের প্রযোজ্যতাকে আন্ডারস্কোর করে। TOOLDEC ফাইন-টিউনিং টুল এলএলএম উন্নত করে।  এই কাগজটি CC 4.0 DEED লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

গল্পের মূল ভাষায় এই অডিও তৈরি!

LLM-এর জন্য সিনট্যাক্স ত্রুটি-মুক্ত এবং সাধারণীকরণযোগ্য টুল ব্যবহার: টুলডেক সিনট্যাক্স ত্রুটি দূর করে

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

সফল ক্লাউড মাইগ্রেশনের সম্পূর্ণ নির্দেশিকা: কৌশল এবং সর্বোত্তম অনুশীলন

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

এই 18টি ডেভেলপার টুল 🚀🔥 দিয়ে আপনার উৎপাদনশীলতা বাড়ান

সফল ক্লাউড মাইগ্রেশনের সম্পূর্ণ নির্দেশিকা: কৌশল এবং সর্বোত্তম অনুশীলন

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

এই 18টি ডেভেলপার টুল 🚀🔥 দিয়ে আপনার উৎপাদনশীলতা বাড়ান

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps