লেখক:  (1) নিকোলাস ফার্ন, মাইক্রোসফ্ট কর্পোরেশন {Microsoft Corporation {nifarn@microsoft.com};  (2) রিচার্ড শিন, মাইক্রোসফট কর্পোরেশন {eush@microsoft.com}।  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   ডেটাসেট ডিজাইন   মূল্যায়ন পদ্ধতি   পরীক্ষা এবং বিশ্লেষণ   সম্পর্কিত কাজ   উপসংহার, পুনরুত্পাদনযোগ্যতা এবং রেফারেন্স   উ: টুলের সম্পূর্ণ তালিকা   B. দৃশ্যকল্প প্রম্পট   C. অবাস্তব প্রশ্ন   D. পূর্ববর্তী কাজের তুলনামূলক সূক্ষ্মতা  বিমূর্ত  লার্জ ল্যাঙ্গুয়েজ মডেল (LLMs) যুক্তি এবং সিদ্ধান্ত গ্রহণের দক্ষতায় ব্যাপক উন্নতি প্রদর্শন করেছে এবং ব্যবহারকারীদের সাথে স্বাভাবিক কথোপকথন করতে পারে। অনেক সাম্প্রতিক কাজ বহিরাগত সরঞ্জামগুলির সাথে এলএলএম-ভিত্তিক সহকারীকে বাড়ানোর চেষ্টা করে যাতে তারা ব্যক্তিগত বা আপ-টু-ডেট তথ্য অ্যাক্সেস করতে পারে এবং ব্যবহারকারীদের পক্ষে কাজ করতে পারে। এই সহকারীর কর্মক্ষমতা আরও ভালভাবে পরিমাপ করার জন্য, এই কাগজটি ToolTalk প্রবর্তন করে, জটিল ব্যবহারকারীর অভিপ্রায় নিয়ে গঠিত একটি বেঞ্চমার্ক যা সংলাপের মাধ্যমে নির্দিষ্ট করা বহু-পদক্ষেপ সরঞ্জাম ব্যবহার প্রয়োজন। ToolTalk-এ 7টি প্লাগইনে গোষ্ঠীভুক্ত 28টি টুল রয়েছে এবং এতে প্রতিটি টুলের সম্পূর্ণ সিমুলেটেড ইমপ্লিমেন্টেশন অন্তর্ভুক্ত রয়েছে, যা এক্সিকিউশন ফিডব্যাকের উপর নির্ভরশীল সহকারীর সম্পূর্ণ স্বয়ংক্রিয় মূল্যায়নের অনুমতি দেয়। ToolTalk এমন সরঞ্জামগুলির উপরও জোর দেয় যা শুধুমাত্র তথ্য উল্লেখ বা অনুসন্ধানের জন্য সরঞ্জামগুলির পরিবর্তে বাহ্যিকভাবে বিশ্বকে প্রভাবিত করে৷ আমরা ToolTalk-এ GPT-3.5 এবং GPT-4 মূল্যায়ন করি যার ফলে সাফল্যের হার যথাক্রমে 26% এবং 50%। আমাদের ত্রুটিগুলির বিশ্লেষণ তিনটি প্রধান বিভাগ প্রকাশ করে এবং উন্নতির জন্য কিছু ভবিষ্যত দিক নির্দেশনা দেয়৷  আমরা https://github.com/microsoft/ToolTalk-এ ToolTalk প্রকাশ করি।  1। পরিচিতি  বড় ভাষা মডেল (LLMs) প্রাকৃতিক ভাষা বোঝা, প্রজন্ম এবং পাঠ্যের হেরফের জড়িত অন্যান্য কাজগুলিতে চিত্তাকর্ষক কার্য সম্পাদন করতে পারে। প্রাক-প্রশিক্ষণের পরে উপযুক্ত সমন্বয়ের মাধ্যমে, তারা ব্যবহারকারীদের সাথে সাবলীল এবং স্বাভাবিক কথোপকথন করতে পারে। যাইহোক, এই ধরনের কথোপকথনের সুযোগ এখনও সীমিত LLM-দের তাদের প্রশিক্ষণের তথ্যের বাইরে জ্ঞানের অ্যাক্সেসের অভাব, সীমিত গাণিতিক যুক্তি এবং গণনাগত ক্ষমতা প্রদর্শন করে এবং অন্যথায় বাইরের বিশ্বের সাথে যোগাযোগ করতে অক্ষম।  এই সীমাবদ্ধতাগুলি কাটিয়ে উঠতে, বিভিন্ন পূর্ববর্তী কাজগুলি সার্চ ইঞ্জিন (নাকানো এট আল।, 2022), ক্যালকুলেটর, বা ওয়েব এপিআই (মিয়ালন এট আল।, 2023) এর মতো সরঞ্জামগুলি ব্যবহার করার ক্ষমতা সহ এলএলএম-চালিত চ্যাটবটগুলিকে একীভূত করার প্রস্তাব করেছে। টুল ব্যবহারে অর্থপূর্ণ অগ্রগতি করার জন্য প্রাসঙ্গিক বেঞ্চমার্ক এবং মূল্যায়ন ডেটাসেট প্রয়োজন যা বাস্তবসম্মত এবং চ্যালেঞ্জিং কথোপকথনের সাথে এই সিস্টেমগুলিকে সম্পূর্ণরূপে ব্যবহার করতে পারে। এই গবেষণাপত্রে, আমরা এই লক্ষ্যের দিকে একটি পদক্ষেপ হিসাবে ToolTalk চালু করি। ToolTalk-এ 78টি কথোপকথন রয়েছে যার মধ্যে 178টি মোট বাঁক রয়েছে, 28টি অনন্য টুল ব্যবহার করে 7টি বিভাগে বিভক্ত করা হয়েছে, সাথে একটি মূল্যায়ন পদ্ধতি সঠিক টুল ব্যবহার পরিমাপের জন্য তৈরি করা হয়েছে।  একটি ব্যবহারকারী LLM-ভিত্তিক সহকারীর সাথে হতে পারে এমন সাধারণ কথোপকথনগুলিকে সর্বোত্তমভাবে অনুকরণ করতে ToolTalk-এর আমাদের ডিজাইনকে বেশ কিছু বিবেচনার কথা জানানো হয়েছে। প্রথমত, আমরা নিশ্চিত করতে চেয়েছিলাম যে ToolTalk কথোপকথন, এবং একক অভিপ্রায়ের জন্য ব্যবহারকারী এবং সহকারীর মধ্যে একাধিক রাউন্ডের সংলাপের অনুমতি দেয়; প্রতিফলিত করে কিভাবে ব্যবহারকারীরা সবসময় তাদের সম্পূর্ণ অনুরোধ একটি উচ্চারণে প্রণয়ন করতে নাও পারে এবং সহকারীর কাছ থেকে কিছু প্রতিক্রিয়া পাওয়ার পরে অতিরিক্ত যোগ্যতা যোগ করতে বা সংশোধন করতে পারে। এটি আমাদের অস্বাভাবিকভাবে দীর্ঘ উচ্চারণ ছাড়াই জটিল সিরিজের টুল আহ্বানের প্রয়োজন ব্যবহারকারীর অভিপ্রায় অন্তর্ভুক্ত করতে দেয়। দ্বিতীয়ত, আমরা টুল কলগুলির একটি গ্রাউন্ড-ট্রুথ সেট অন্তর্ভুক্ত করি যা প্রতিটি ব্যবহারকারীর উচ্চারণের জন্য করা উচিত ছিল, একটি স্বয়ংক্রিয় মূল্যায়নে ব্যবহারের জন্য উপযুক্ত যা একজন সহকারীর দ্বারা পূর্বাভাসিত টুল কলগুলির সাথে তুলনা করে৷ তৃতীয়ত, ToolTalk-এ ডেটাসেটে অন্তর্ভুক্ত প্রতিটি টুলের এক্সিকিউটেবল ইমপ্লিমেন্টেশন অন্তর্ভুক্ত রয়েছে, যাতে সহায়কদের মূল্যায়ন সহজতর করা যায় যেগুলি পরবর্তী টুলের আমন্ত্রণ থেকে সিদ্ধান্ত নিতে পারে যে ফলাফলগুলি বিবেচনা করতে পারে। চতুর্থত, ToolTalk-এর মধ্যে পার্শ্বপ্রতিক্রিয়া (যেমন ইমেল পাঠানো, বা ক্যালেন্ডার ইভেন্টগুলি যোগ করা/মোছার মতো) উদ্দেশ্যে এমন সরঞ্জামগুলি অন্তর্ভুক্ত রয়েছে যাকে আমরা শুধুমাত্র ডাটাবেস কোয়েরি করার পরিবর্তে "অ্যাকশন টুলস" হিসাবে উল্লেখ করি (যেমন একটি নির্দিষ্ট কীওয়ার্ড ধারণকারী ইমেলগুলি অনুসন্ধান করা) ) সহকারী যদি ব্যবহারকারীর কাজগুলি স্বয়ংক্রিয় করতে হয় তবে এই ধরনের অ্যাকশন সরঞ্জামগুলি প্রয়োজনীয়।  আমরা আমাদের মূল্যায়ন পদ্ধতিকে আমাদের ডেটাসেট ডিজাইনের বিশদ অনুযায়ী তৈরি করি, সাধারণ মেট্রিক্স যেমন সঠিক-মিল নির্ভুলতার বাইরে গিয়ে। বিশেষ করে, আমরা আলাদাভাবে অ্যাকশন এবং নন-অ্যাকশন টুলের আহ্বান বিবেচনা করি, এই বিবেচনায় যে অ্যাকশন টুলে ভুল আহ্বান, যেমন ভুল ব্যক্তিকে বার্তা পাঠানো, ব্যবহারকারীর জন্য বিশেষভাবে নেতিবাচক প্রভাব ফেলতে পারে। অন্যদিকে, যদি সহকারী সঠিক নন-অ্যাকশন টুল আহ্বান এবং কিছু ভুল বহিরাগত উভয়ই করে, বহিরাগতগুলি এখনও ব্যবহারকারীকে দরকারী তথ্য সরবরাহ করতে পারে (এমনকি যদি ব্যবহারকারী সরাসরি অনুরোধ না করেও)। যেমন, আমরা একটি একক কথোপকথনমূলক মোড়ের মধ্যে প্রাথমিক মেট্রিক্স হিসাবে টুল আহ্বান প্রত্যাহার এবং ভুল অ্যাকশন রেট ব্যবহার করি এবং সাফল্যের একটি কথোপকথন-স্তরের ধারণা সংজ্ঞায়িত করি।  আমরা GPT-3.5 এবং GPT-4 মডেলের সাথে OpenAI-এর চ্যাট কমপ্লিশন API-এর ফাংশন কলিং সমর্থন ব্যবহার করে বাস্তবায়িত দুটি সহকারীর উপর ToolTalk প্রয়োগ করি। আমরা দেখতে পেয়েছি যে gpt-3.5-turbo-0613 এবং gpt-4-0613 যথাক্রমে 26% এবং 50% একটি কথোপকথন-স্তরের সাফল্যের হার অর্জন করে, এটি প্রদর্শন করে যে কথোপকথনমূলক সেটিংয়ে সরঞ্জামের ব্যবহার এমনকি বেশিরভাগের জন্য এখনও একটি কঠিন কাজ। অত্যাধুনিক মডেল। আমরা তারপর GPT-3.5 এবং GPT-4 কথোপকথনে ব্যর্থ হওয়ার কারণগুলি নির্ধারণ করতে আরও বিশ্লেষণ পরিচালনা করি। আমরা দেখতে পাই যে GPT-3.5 এবং GPT-4 উভয়ই আর্গুমেন্টকে হ্যালুসিনেট করতে পারে, ডকুমেন্টেশন বুঝতে ব্যর্থ হতে পারে এবং এমনকি সরাসরি দাবি করতে পারে যে তারা কোনো টুলস ছাড়াই একটি কাজ সম্পন্ন করেছে।  আমাদের কাগজ নিম্নলিখিত অবদান করে:  • আমরা LLM-চালিত সহকারীর জন্য টুল-ব্যবহারের জন্য একটি কথোপকথনমূলক ডেটাসেট প্রবর্তন করি, যাতে একটি স্বয়ংক্রিয় মূল্যায়নের অনুমতি দেয় এমন টুল আহ্বানের জন্য গ্রাউন্ড ট্রুথ অ্যানোটেশন সহ বিস্তৃত সরঞ্জাম এবং উদাহরণ কথোপকথন রয়েছে।  • আমরা নিশ্চিত করি যে ডেটাসেটে মাল্টি-টার্ন কথোপকথন রয়েছে যাতে ব্যবহারকারীরা কীভাবে একটি টুল-ব্যবহারকারী সহকারীর সাথে ইন্টারঅ্যাক্ট করতে পারে তা আরও ভালভাবে অনুকরণ করার জন্য পার্শ্ব প্রতিক্রিয়া সহ একাধিক সরঞ্জামের ব্যবহার প্রয়োজন।  • আমরা একটি মূল্যায়ন পদ্ধতি তৈরি করি যা পার্শ্বপ্রতিক্রিয়া সহ সরঞ্জাম এবং সেগুলি ছাড়া সরঞ্জামগুলির মধ্যে পার্থক্য প্রতিফলিত করে৷  • আমরা আমাদের ডেটাসেট ব্যবহার করে GPT-3.5 এবং GPT-4 ব্যবহার করে তৈরি সহকারীর মূল্যায়ন করি এবং তাদের ত্রুটিগুলি বিশ্লেষণ করি, হ্যালুসিনেটেড আর্গুমেন্ট এবং ভুল বোঝাবুঝি ডকুমেন্টেশনের মতো সমস্যাগুলি খুঁজে বের করি।  এই কাগজটি CC 4.0 লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

গল্পের মূল ভাষায় এই অডিও তৈরি!

টুলটক: এআই অ্যাসিস্ট্যান্টদের টুল-ব্যবহারের ভবিষ্যত বেঞ্চমার্ক করা

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

হ্যাকারনুন লেখার প্রতিযোগিতা জিততে চান? #crypto-api প্রতিযোগিতার বিজয়ীরা কী সুপারিশ করেন তা এখানে

বোল্টজম্যান ব্রেন থিওরির একটি সংক্ষিপ্ত ভূমিকা

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

অদেখা স্তরগুলি: কেন ব্যবহারকারীর সাক্ষাত্কারগুলি একটি অপরিবর্তনীয় সম্পদ

হ্যাকারনুন লেখার প্রতিযোগিতা জিততে চান? #crypto-api প্রতিযোগিতার বিজয়ীরা কী সুপারিশ করেন তা এখানে

বোল্টজম্যান ব্রেন থিওরির একটি সংক্ষিপ্ত ভূমিকা

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

অদেখা স্তরগুলি: কেন ব্যবহারকারীর সাক্ষাত্কারগুলি একটি অপরিবর্তনীয় সম্পদ

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps