paint-brush
টুলটক: এআই অ্যাসিস্ট্যান্টদের টুল-ব্যবহারের ভবিষ্যত বেঞ্চমার্ক করাদ্বারা@botbeat
170 পড়া

টুলটক: এআই অ্যাসিস্ট্যান্টদের টুল-ব্যবহারের ভবিষ্যত বেঞ্চমার্ক করা

অতিদীর্ঘ; পড়তে

ToolTalk হল সংলাপের মাধ্যমে জটিল টুল ব্যবহারের উপর AI সহকারীর মূল্যায়ন করার জন্য একটি মানদণ্ড, GPT-4-এর GPT-3.5-এর তুলনায় উচ্চতর কর্মক্ষমতা প্রকাশ করে, কিন্তু হ্যালুসিনেটেড আর্গুমেন্ট এবং ভুল বোঝাবুঝি ডকুমেন্টেশনের মতো চলমান চ্যালেঞ্জগুলিকে হাইলাইট করে।
featured image - টুলটক: এআই অ্যাসিস্ট্যান্টদের টুল-ব্যবহারের ভবিষ্যত বেঞ্চমার্ক করা
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

লেখক:

(1) নিকোলাস ফার্ন, মাইক্রোসফ্ট কর্পোরেশন {Microsoft Corporation {[email protected]};

(2) রিচার্ড শিন, মাইক্রোসফট কর্পোরেশন {[email protected]}।

লিঙ্কের টেবিল

বিমূর্ত এবং ভূমিকা

ডেটাসেট ডিজাইন

মূল্যায়ন পদ্ধতি

পরীক্ষা এবং বিশ্লেষণ

সম্পর্কিত কাজ

উপসংহার, পুনরুত্পাদনযোগ্যতা এবং রেফারেন্স

উ: টুলের সম্পূর্ণ তালিকা

B. দৃশ্যকল্প প্রম্পট

C. অবাস্তব প্রশ্ন

D. পূর্ববর্তী কাজের তুলনামূলক সূক্ষ্মতা

বিমূর্ত

লার্জ ল্যাঙ্গুয়েজ মডেল (LLMs) যুক্তি এবং সিদ্ধান্ত গ্রহণের দক্ষতায় ব্যাপক উন্নতি প্রদর্শন করেছে এবং ব্যবহারকারীদের সাথে স্বাভাবিক কথোপকথন করতে পারে। অনেক সাম্প্রতিক কাজ বহিরাগত সরঞ্জামগুলির সাথে এলএলএম-ভিত্তিক সহকারীকে বাড়ানোর চেষ্টা করে যাতে তারা ব্যক্তিগত বা আপ-টু-ডেট তথ্য অ্যাক্সেস করতে পারে এবং ব্যবহারকারীদের পক্ষে কাজ করতে পারে। এই সহকারীর কর্মক্ষমতা আরও ভালভাবে পরিমাপ করার জন্য, এই কাগজটি ToolTalk প্রবর্তন করে, জটিল ব্যবহারকারীর অভিপ্রায় নিয়ে গঠিত একটি বেঞ্চমার্ক যা সংলাপের মাধ্যমে নির্দিষ্ট করা বহু-পদক্ষেপ সরঞ্জাম ব্যবহার প্রয়োজন। ToolTalk-এ 7টি প্লাগইনে গোষ্ঠীভুক্ত 28টি টুল রয়েছে এবং এতে প্রতিটি টুলের সম্পূর্ণ সিমুলেটেড ইমপ্লিমেন্টেশন অন্তর্ভুক্ত রয়েছে, যা এক্সিকিউশন ফিডব্যাকের উপর নির্ভরশীল সহকারীর সম্পূর্ণ স্বয়ংক্রিয় মূল্যায়নের অনুমতি দেয়। ToolTalk এমন সরঞ্জামগুলির উপরও জোর দেয় যা শুধুমাত্র তথ্য উল্লেখ বা অনুসন্ধানের জন্য সরঞ্জামগুলির পরিবর্তে বাহ্যিকভাবে বিশ্বকে প্রভাবিত করে৷ আমরা ToolTalk-এ GPT-3.5 এবং GPT-4 মূল্যায়ন করি যার ফলে সাফল্যের হার যথাক্রমে 26% এবং 50%। আমাদের ত্রুটিগুলির বিশ্লেষণ তিনটি প্রধান বিভাগ প্রকাশ করে এবং উন্নতির জন্য কিছু ভবিষ্যত দিক নির্দেশনা দেয়৷

আমরা https://github.com/microsoft/ToolTalk-এ ToolTalk প্রকাশ করি।

1। পরিচিতি

বড় ভাষা মডেল (LLMs) প্রাকৃতিক ভাষা বোঝা, প্রজন্ম এবং পাঠ্যের হেরফের জড়িত অন্যান্য কাজগুলিতে চিত্তাকর্ষক কার্য সম্পাদন করতে পারে। প্রাক-প্রশিক্ষণের পরে উপযুক্ত সমন্বয়ের মাধ্যমে, তারা ব্যবহারকারীদের সাথে সাবলীল এবং স্বাভাবিক কথোপকথন করতে পারে। যাইহোক, এই ধরনের কথোপকথনের সুযোগ এখনও সীমিত LLM-দের তাদের প্রশিক্ষণের তথ্যের বাইরে জ্ঞানের অ্যাক্সেসের অভাব, সীমিত গাণিতিক যুক্তি এবং গণনাগত ক্ষমতা প্রদর্শন করে এবং অন্যথায় বাইরের বিশ্বের সাথে যোগাযোগ করতে অক্ষম।


এই সীমাবদ্ধতাগুলি কাটিয়ে উঠতে, বিভিন্ন পূর্ববর্তী কাজগুলি সার্চ ইঞ্জিন (নাকানো এট আল।, 2022), ক্যালকুলেটর, বা ওয়েব এপিআই (মিয়ালন এট আল।, 2023) এর মতো সরঞ্জামগুলি ব্যবহার করার ক্ষমতা সহ এলএলএম-চালিত চ্যাটবটগুলিকে একীভূত করার প্রস্তাব করেছে। টুল ব্যবহারে অর্থপূর্ণ অগ্রগতি করার জন্য প্রাসঙ্গিক বেঞ্চমার্ক এবং মূল্যায়ন ডেটাসেট প্রয়োজন যা বাস্তবসম্মত এবং চ্যালেঞ্জিং কথোপকথনের সাথে এই সিস্টেমগুলিকে সম্পূর্ণরূপে ব্যবহার করতে পারে। এই গবেষণাপত্রে, আমরা এই লক্ষ্যের দিকে একটি পদক্ষেপ হিসাবে ToolTalk চালু করি। ToolTalk-এ 78টি কথোপকথন রয়েছে যার মধ্যে 178টি মোট বাঁক রয়েছে, 28টি অনন্য টুল ব্যবহার করে 7টি বিভাগে বিভক্ত করা হয়েছে, সাথে একটি মূল্যায়ন পদ্ধতি সঠিক টুল ব্যবহার পরিমাপের জন্য তৈরি করা হয়েছে।


একটি ব্যবহারকারী LLM-ভিত্তিক সহকারীর সাথে হতে পারে এমন সাধারণ কথোপকথনগুলিকে সর্বোত্তমভাবে অনুকরণ করতে ToolTalk-এর আমাদের ডিজাইনকে বেশ কিছু বিবেচনার কথা জানানো হয়েছে। প্রথমত, আমরা নিশ্চিত করতে চেয়েছিলাম যে ToolTalk কথোপকথন, এবং একক অভিপ্রায়ের জন্য ব্যবহারকারী এবং সহকারীর মধ্যে একাধিক রাউন্ডের সংলাপের অনুমতি দেয়; প্রতিফলিত করে কিভাবে ব্যবহারকারীরা সবসময় তাদের সম্পূর্ণ অনুরোধ একটি উচ্চারণে প্রণয়ন করতে নাও পারে এবং সহকারীর কাছ থেকে কিছু প্রতিক্রিয়া পাওয়ার পরে অতিরিক্ত যোগ্যতা যোগ করতে বা সংশোধন করতে পারে। এটি আমাদের অস্বাভাবিকভাবে দীর্ঘ উচ্চারণ ছাড়াই জটিল সিরিজের টুল আহ্বানের প্রয়োজন ব্যবহারকারীর অভিপ্রায় অন্তর্ভুক্ত করতে দেয়। দ্বিতীয়ত, আমরা টুল কলগুলির একটি গ্রাউন্ড-ট্রুথ সেট অন্তর্ভুক্ত করি যা প্রতিটি ব্যবহারকারীর উচ্চারণের জন্য করা উচিত ছিল, একটি স্বয়ংক্রিয় মূল্যায়নে ব্যবহারের জন্য উপযুক্ত যা একজন সহকারীর দ্বারা পূর্বাভাসিত টুল কলগুলির সাথে তুলনা করে৷ তৃতীয়ত, ToolTalk-এ ডেটাসেটে অন্তর্ভুক্ত প্রতিটি টুলের এক্সিকিউটেবল ইমপ্লিমেন্টেশন অন্তর্ভুক্ত রয়েছে, যাতে সহায়কদের মূল্যায়ন সহজতর করা যায় যেগুলি পরবর্তী টুলের আমন্ত্রণ থেকে সিদ্ধান্ত নিতে পারে যে ফলাফলগুলি বিবেচনা করতে পারে। চতুর্থত, ToolTalk-এর মধ্যে পার্শ্বপ্রতিক্রিয়া (যেমন ইমেল পাঠানো, বা ক্যালেন্ডার ইভেন্টগুলি যোগ করা/মোছার মতো) উদ্দেশ্যে এমন সরঞ্জামগুলি অন্তর্ভুক্ত রয়েছে যাকে আমরা শুধুমাত্র ডাটাবেস কোয়েরি করার পরিবর্তে "অ্যাকশন টুলস" হিসাবে উল্লেখ করি (যেমন একটি নির্দিষ্ট কীওয়ার্ড ধারণকারী ইমেলগুলি অনুসন্ধান করা) ) সহকারী যদি ব্যবহারকারীর কাজগুলি স্বয়ংক্রিয় করতে হয় তবে এই ধরনের অ্যাকশন সরঞ্জামগুলি প্রয়োজনীয়।


আমরা আমাদের মূল্যায়ন পদ্ধতিকে আমাদের ডেটাসেট ডিজাইনের বিশদ অনুযায়ী তৈরি করি, সাধারণ মেট্রিক্স যেমন সঠিক-মিল নির্ভুলতার বাইরে গিয়ে। বিশেষ করে, আমরা আলাদাভাবে অ্যাকশন এবং নন-অ্যাকশন টুলের আহ্বান বিবেচনা করি, এই বিবেচনায় যে অ্যাকশন টুলে ভুল আহ্বান, যেমন ভুল ব্যক্তিকে বার্তা পাঠানো, ব্যবহারকারীর জন্য বিশেষভাবে নেতিবাচক প্রভাব ফেলতে পারে। অন্যদিকে, যদি সহকারী সঠিক নন-অ্যাকশন টুল আহ্বান এবং কিছু ভুল বহিরাগত উভয়ই করে, বহিরাগতগুলি এখনও ব্যবহারকারীকে দরকারী তথ্য সরবরাহ করতে পারে (এমনকি যদি ব্যবহারকারী সরাসরি অনুরোধ না করেও)। যেমন, আমরা একটি একক কথোপকথনমূলক মোড়ের মধ্যে প্রাথমিক মেট্রিক্স হিসাবে টুল আহ্বান প্রত্যাহার এবং ভুল অ্যাকশন রেট ব্যবহার করি এবং সাফল্যের একটি কথোপকথন-স্তরের ধারণা সংজ্ঞায়িত করি।


আমরা GPT-3.5 এবং GPT-4 মডেলের সাথে OpenAI-এর চ্যাট কমপ্লিশন API-এর ফাংশন কলিং সমর্থন ব্যবহার করে বাস্তবায়িত দুটি সহকারীর উপর ToolTalk প্রয়োগ করি। আমরা দেখতে পেয়েছি যে gpt-3.5-turbo-0613 এবং gpt-4-0613 যথাক্রমে 26% এবং 50% একটি কথোপকথন-স্তরের সাফল্যের হার অর্জন করে, এটি প্রদর্শন করে যে কথোপকথনমূলক সেটিংয়ে সরঞ্জামের ব্যবহার এমনকি বেশিরভাগের জন্য এখনও একটি কঠিন কাজ। অত্যাধুনিক মডেল। আমরা তারপর GPT-3.5 এবং GPT-4 কথোপকথনে ব্যর্থ হওয়ার কারণগুলি নির্ধারণ করতে আরও বিশ্লেষণ পরিচালনা করি। আমরা দেখতে পাই যে GPT-3.5 এবং GPT-4 উভয়ই আর্গুমেন্টকে হ্যালুসিনেট করতে পারে, ডকুমেন্টেশন বুঝতে ব্যর্থ হতে পারে এবং এমনকি সরাসরি দাবি করতে পারে যে তারা কোনো টুলস ছাড়াই একটি কাজ সম্পন্ন করেছে।


আমাদের কাগজ নিম্নলিখিত অবদান করে:


• আমরা LLM-চালিত সহকারীর জন্য টুল-ব্যবহারের জন্য একটি কথোপকথনমূলক ডেটাসেট প্রবর্তন করি, যাতে একটি স্বয়ংক্রিয় মূল্যায়নের অনুমতি দেয় এমন টুল আহ্বানের জন্য গ্রাউন্ড ট্রুথ অ্যানোটেশন সহ বিস্তৃত সরঞ্জাম এবং উদাহরণ কথোপকথন রয়েছে।


• আমরা নিশ্চিত করি যে ডেটাসেটে মাল্টি-টার্ন কথোপকথন রয়েছে যাতে ব্যবহারকারীরা কীভাবে একটি টুল-ব্যবহারকারী সহকারীর সাথে ইন্টারঅ্যাক্ট করতে পারে তা আরও ভালভাবে অনুকরণ করার জন্য পার্শ্ব প্রতিক্রিয়া সহ একাধিক সরঞ্জামের ব্যবহার প্রয়োজন।


• আমরা একটি মূল্যায়ন পদ্ধতি তৈরি করি যা পার্শ্বপ্রতিক্রিয়া সহ সরঞ্জাম এবং সেগুলি ছাড়া সরঞ্জামগুলির মধ্যে পার্থক্য প্রতিফলিত করে৷


• আমরা আমাদের ডেটাসেট ব্যবহার করে GPT-3.5 এবং GPT-4 ব্যবহার করে তৈরি সহকারীর মূল্যায়ন করি এবং তাদের ত্রুটিগুলি বিশ্লেষণ করি, হ্যালুসিনেটেড আর্গুমেন্ট এবং ভুল বোঝাবুঝি ডকুমেন্টেশনের মতো সমস্যাগুলি খুঁজে বের করি।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ