লেখক:  (1) আন ইয়ান, ইউসি সান দিয়েগো, ayan@ucsd.edu;  (2) Zhengyuan Yang, Microsoft Corporation, zhengyang@microsoft.com সমান অবদানের সাথে;  (3) ওয়ানরং ঝু, ইউসি সান্তা বারবারা, wanrongzhu@ucsb.edu;  (4) কেভিন লিন, মাইক্রোসফট কর্পোরেশন, keli@microsoft.com;  (5) Linjie Li, Microsoft Corporation, lindsey.li@mocrosoft.com;  (6) জিয়ানফেং ওয়াং, মাইক্রোসফ্ট কর্পোরেশন, jianfw@mocrosoft.com;  (7) জিয়ানওয়েই ইয়াং, মাইক্রোসফ্ট কর্পোরেশন, jianwei.yang@mocrosoft.com;  (8) Yiwu Zhong, Wisconsin-Madison University, yzhong52@wisc.edu;  (9) Julian McAuley, UC San Diego, jmcauley@ucsd.edu;  (10) জিয়ানফেং গাও, মাইক্রোসফ্ট কর্পোরেশন, jfgao@mocrosoft.com;  (11) জিচেং লিউ, মাইক্রোসফ্ট কর্পোরেশন, zliu@mocrosoft.com;  (12) লিজুয়ান ওয়াং, মাইক্রোসফ্ট কর্পোরেশন, lijuanw@mocrosoft.com।   সম্পাদকের দ্রষ্টব্য: এটি একটি কাগজের অংশ 1 যা স্মার্টফোনে নেভিগেট করার জন্য একটি জেনারেটিভ এআই ব্যবহার মূল্যায়ন করে। আপনি নীচের লিঙ্কের টেবিলের মাধ্যমে কাগজের বাকি অংশ পড়তে পারেন।  লিঙ্কের টেবিল   বিমূর্ত এবং 1 ভূমিকা   2 সম্পর্কিত কাজ  3 MM-নেভিগেটর   3.1 সমস্যা প্রণয়ন এবং 3.2 স্ক্রীন গ্রাউন্ডিং এবং মার্ক সেটের মাধ্যমে নেভিগেশন   3.3 মাল্টিমোডাল সেলফ সামারাইজেশনের মাধ্যমে ইতিহাস সৃষ্টি  4 iOS স্ক্রীন নেভিগেশন পরীক্ষা   4.1 পরীক্ষামূলক সেটআপ   4.2 উদ্দেশ্যমূলক কর্ম বিবরণ   4.3 লোকালাইজড অ্যাকশন এক্সিকিউশন এবং 4.4 GPT-4V সহ বর্তমান অবস্থা  5 অ্যান্ড্রয়েড স্ক্রিন নেভিগেশন পরীক্ষা   5.1 পরীক্ষামূলক সেটআপ   5.2 কর্মক্ষমতা তুলনা   5.3 অ্যাবলেশন স্টাডিজ   5.4 ত্রুটি বিশ্লেষণ   6 আলোচনা   7 উপসংহার এবং রেফারেন্স  বিমূর্ত  স্মার্টফোন গ্রাফিক্যাল ইউজার ইন্টারফেস (GUI) নেভিগেশন টাস্কের জন্য আমরা MM-Navigator, একটি GPT-4V-ভিত্তিক এজেন্ট উপস্থাপন করি। MM-Navigator একটি স্মার্টফোন স্ক্রিনের সাথে মানুষের ব্যবহারকারী হিসাবে ইন্টারঅ্যাক্ট করতে পারে এবং প্রদত্ত নির্দেশাবলী পূরণ করার জন্য পরবর্তী ক্রিয়া নির্ধারণ করতে পারে। আমাদের অনুসন্ধানগুলি দেখায় যে বড় মাল্টিমোডাল মডেলগুলি (LMMs), বিশেষত GPT-4V, শূন্য-শট GUI নেভিগেশন এর উন্নত স্ক্রীন ব্যাখ্যা, অ্যাকশন যুক্তি এবং সুনির্দিষ্ট অ্যাকশন স্থানীয়করণ ক্ষমতার মাধ্যমে এক্সেল করে। আমরা আমাদের সংগৃহীত iOS স্ক্রীন ডেটাসেটে প্রথম বেঞ্চমার্ক MM-Navigator. মানুষের মূল্যায়ন অনুসারে, সিস্টেমটি যুক্তিসঙ্গত ক্রিয়া বর্ণনা তৈরিতে 91% নির্ভুলতার হার এবং iOS-এ একক-পদক্ষেপ নির্দেশাবলীর জন্য সঠিক ক্রিয়া সম্পাদনে 75% নির্ভুলতার হার প্রদর্শন করেছে। উপরন্তু, আমরা একটি Android স্ক্রীন নেভিগেশন ডেটাসেটের একটি উপসেটে মডেলটিকে মূল্যায়ন করি, যেখানে মডেলটি একটি শূন্য-শট ফ্যাশনে পূর্ববর্তী GUI নেভিগেটরদেরকে ছাড়িয়ে যায়। আমাদের বেঞ্চমার্ক এবং বিশদ বিশ্লেষণের লক্ষ্য GUI নেভিগেশন টাস্কে ভবিষ্যতের গবেষণার জন্য একটি শক্তিশালী ভিত্তি স্থাপন করা। প্রকল্পের পৃষ্ঠাটি https://github.com/zzxslp/MM-Navigator-এ রয়েছে।  1 ভূমিকা  কম্পিউটিং ডিভাইসের সাথে মিথস্ক্রিয়া করতে এবং মানুষের আদেশ অনুসরণ করতে সক্ষম স্বায়ত্তশাসিত এজেন্ট তৈরি করা মেশিন লার্নিং সম্প্রদায়ের একটি দীর্ঘস্থায়ী বিষয় (বোল্ট, 1980; লিবারম্যান এট আল।, 1995)। স্মার্টফোনের আবির্ভাবের পর থেকে, সিরি, কর্টানা এবং গুগল অ্যাসিস্ট্যান্টের মতো ভার্চুয়াল অ্যাসিস্ট্যান্ট তৈরির জন্য একটি ব্যবহারিক চাহিদা রয়েছে, যা ব্যবহারকারীর অভিজ্ঞতাকে উল্লেখযোগ্যভাবে উন্নত করতে এবং শারীরিক বা পরিস্থিতিগতভাবে প্রতিবন্ধী ব্যক্তিদের সহায়তা করার সম্ভাবনা রাখে। আদর্শভাবে, এই সহকারীরা দক্ষতার সাথে প্রাকৃতিক ভাষার নির্দেশাবলীর উপর ভিত্তি করে দৈনন্দিন কাজগুলি সম্পাদন করবে, একটি টাইমার সেট করার মতো সাধারণ কাজ থেকে শুরু করে আরও জটিল কাজ যেমন পারিবারিক ছুটির জন্য আদর্শ হোটেলের অবস্থান।  সাম্প্রতিক গবেষণাগুলি মানুষের নির্দেশনা অনুসরণ করে মোবাইল ডিভাইস নিয়ন্ত্রণ এবং স্মার্টফোনের টাস্ক অটোমেশন অন্বেষণ করতে শুরু করেছে (Rawles et al., 2023; Wen et al., 2023; Zhan and Zhang, 2023; Wang et al., 2023)। প্রতিনিধিত্বমূলক পদ্ধতির মধ্যে টেক্সট সহ স্ক্রীন ইমেজ বর্ণনা করা এবং বৃহৎ ভাষা মডেল (LLMs) সহ রূপান্তরিত পাঠ্য প্রক্রিয়াকরণ (Rawles et al., 2023; Wen et al., 2023), অথবা একটি তত্ত্বাবধানে ক্রিয়াকলাপ তৈরি করার জন্য একটি দৃষ্টি-ভাষা মডেল প্রশিক্ষণ ( Rawles et al., 2023; Zhan and Zhang, 2023)। যাইহোক, এই তত্ত্বাবধানে থাকা মডেলগুলি, যখন নির্দিষ্ট ধরণের স্ক্রিন এবং নির্দেশাবলীর উপর প্রশিক্ষিত হয় (Rawles et al., 2023), বাস্তব জগতের পরিস্থিতির সাধারণীকরণে সীমিত কার্যকারিতা প্রদর্শন করে। অন্যদিকে, এলএলএম-ভিত্তিক পদ্ধতিগুলি আরও ভাল সাধারণীকরণ করে, তবে স্ক্রীনের চিত্রগুলিকে পাঠ্যে রূপান্তর করার মধ্যবর্তী পদক্ষেপের ফলে তথ্য নষ্ট হয় এবং ফলস্বরূপ কর্মক্ষমতা ক্ষতিগ্রস্থ হয়। সাম্প্রতিক বৃহৎ মাল্টিমোডাল মডেলের (LMMs) কার্যকারিতা এবং বিস্তৃত প্রযোজ্যতা দ্বারা অনুপ্রাণিত হয়ে, আমরা zeroshot স্মার্টফোন GUI-এর জন্য একটি LMM, GPT-4V (OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c) ব্যবহার করে অন্বেষণ করি। নেভিগেশন, এই কৌতুহলপূর্ণ কাজের জন্য একটি নতুন শক্তিশালী ভিত্তিরেখা সেট করার লক্ষ্য।  আমরা LMM এর সাথে GUI নেভিগেশনের জন্য দুটি প্রাথমিক চ্যালেঞ্জ সনাক্ত করি, যথা উদ্দেশ্যমূলক কর্ম বিবরণ এবং স্থানীয়কৃত ক্রিয়া সম্পাদন। প্রথমত, মডেলটিকে স্ক্রীন ইমেজ এবং টেক্সট নির্দেশনা ইনপুট বুঝতে হবে, এবং উপযুক্ত ব্যবস্থা নেওয়ার জন্য কোয়েরির উপর কারণ জানাতে হবে, যেমন একটি প্রাকৃতিক ভাষা বর্ণনা প্রদান করা "তৃতীয় সারি এবং চতুর্থ কলামে অ্যামাজন আইকনে ক্লিক করা।" দ্বিতীয়ত, মডেলটিকে এমন উচ্চ-স্তরের বোঝাপড়াকে একটি ফর্ম্যাট করা অ্যাকশনে রূপান্তর করা উচিত যা নিয়মের উপর ভিত্তি করে সহজে কার্যকর করা যেতে পারে, যেমন “{Action: Click, Location: (0.31, 0.57)}”। আমাদের পদ্ধতিতে, আমরা কর্ম পরিকল্পনার জন্য একটি চিত্র এবং পাঠ্য সহ GPT-4V প্রম্পট করি এবং জেনারেট আউটপুটগুলিকে অ্যাঙ্কর করার জন্য সেট-অফ-মার্ক ট্যাগগুলি (ইয়াং এট আল।, 2023b) স্থাপন করি। বিশেষত, আমরা এই চিহ্নগুলিকে বিভাজন বা ওসিআর মডেলের সাহায্যে স্থানিক অবস্থানের সাথে সংযুক্ত করি। এই লক্ষ্যে, আমাদের প্রস্তাবিত GPT-4V-ভিত্তিক সিস্টেম, যথা MM-Navigator, স্ক্রীন ইমেজ, টেক্সট নির্দেশ এবং এর ইন্টারঅ্যাকশন ইতিহাসে শর্তযুক্ত এক্সিকিউটেবল অ্যাকশন তৈরি করতে পারে।  আমরা দুটি ডেটাসেটে এমএম-নেভিগেটর বেঞ্চমার্ক করি। আমরা ম্যানুয়ালি সংগ্রহ করা স্ক্রিনশট এবং ব্যবহারকারীর নির্দেশাবলী সহ একটি iOS GUI নেভিগেশন ডেটাসেট দিয়ে শুরু করি। এই পরিষ্কার বিশ্লেষণাত্মক ডেটাসেটটি GUI নেভিগেশনের দুটি চ্যালেঞ্জের জন্য অন্তর্দৃষ্টি অনুসন্ধান করার জন্য ডিজাইন করা হয়েছে: উদ্দেশ্যমূলক কর্মের বিবরণ এবং স্থানীয়কৃত ক্রিয়া সম্পাদন। মানবিক মূল্যায়ন যথাক্রমে 91% এবং 75% এর যথার্থতার হার সহ এই দুটি কাজের GPT-4V মূল্যায়ন করতে ব্যবহৃত হয়। উপরন্তু, আমরা সম্প্রতি প্রকাশিত অ্যান্ড্রয়েড নেভিগেশন বেঞ্চমার্ক (Rawles et al., 2023) থেকে একটি র্যান্ডম সাবসেটে মডেলটিকে মূল্যায়ন করি। আমরা অতিরিক্ত মানব মূল্যায়ন সহ বেঞ্চমার্কে প্রস্তাবিত মূল্যায়ন প্রোটোকল অনুসরণ করি। শক্তিশালী পারফরম্যান্স দেখায় যে MM-Navigator হল স্মার্টফোনের জন্য একটি কার্যকর GUI নেভিগেটর, উল্লেখযোগ্যভাবে আগের LLM-ভিত্তিক পন্থাগুলিকে ছাড়িয়ে গেছে। আমরা প্রতিনিধিত্বমূলক সাফল্য এবং ব্যর্থতার ক্ষেত্রে গভীরভাবে বিশ্লেষণ প্রদান করি। আমরা দেখতে পাই যে GPT-4V-এর বর্তমান অবস্থা ইতিমধ্যেই বাস্তব-বিশ্বের বিভিন্ন GUI নেভিগেশন পরিস্থিতিতে মানুষকে সাহায্য করার জন্য কার্যকর হতে পারে, যেমন চিত্র 4-এর মাল্টি-স্ক্রিন ফলাফল দ্বারা প্রমাণিত হয়েছে। যাইহোক, সিস্টেমের আরও বাড়ানোর জন্য অব্যাহত বর্ধনগুলি এখনও অপরিহার্য। নির্ভরযোগ্যতা, যেমন আমাদের বিশ্লেষণে প্রকাশিত হয়েছে।  আমাদের অবদান নিম্নরূপ সংক্ষিপ্ত করা হয়  • আমরা MM-Navigator উপস্থাপন করি, স্মার্টফোন GUI নেভিগেশনের জন্য GPT-4V-এ নির্মিত একটি এজেন্ট সিস্টেম। এমএম-নেভিগেটর কার্যকরভাবে অ্যাকশন হিস্ট্রি এবং সেট-অফ-মার্ক ট্যাগগুলিকে সুনির্দিষ্ট এক্সিকিউটেবল অ্যাকশন তৈরি করতে অন্তর্ভুক্ত করে।  • আমরা বিভিন্ন iOS স্ক্রীন এবং ব্যবহারকারীর নির্দেশাবলী সহ একটি নতুন বিশ্লেষণাত্মক ডেটাসেট সংগ্রহ করি, যা LMM এর সাথে GUI নেভিগেশনের দুটি প্রধান চ্যালেঞ্জের মূল্যায়ন করে: উদ্দেশ্যমূলক ক্রিয়া বর্ণনা এবং স্থানীয়কৃত ক্রিয়া সম্পাদন।  • আমরা দুটি ডেটাসেটে স্বয়ংক্রিয় এবং মানবিক উভয় ধরনের বিস্তৃত মূল্যায়ন করি এবং বিস্তারিত বিশ্লেষণ প্রদান করি। চিত্তাকর্ষক ফলাফল GUI নেভিগেশনের জন্য MMNavigator এর কার্যকারিতা প্রদর্শন করে।  এই কাগজটি CC BY 4.0 DEED লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

FEW SHOT .tech

গল্পের মূল ভাষায় এই অডিও তৈরি!

মাইক্রোসফ্ট গবেষকরা বলছেন যে নতুন এআই মডেল আপনার ফোনের স্ক্রীন 'দেখতে' পারে

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

টেলিগ্রাম: ক্রিপ্টো দ্বীপের মূল ভূখণ্ডের সেতু

ডিজিটাল যাযাবর শুনুন: থাইল্যান্ডের নতুন ডিটিভি ভিসা সম্পর্কে আপনার যা জানা দরকার

হ্যাকারনুন লেখার প্রতিযোগিতা জিততে চান? #crypto-api প্রতিযোগিতার বিজয়ীরা কী সুপারিশ করেন তা এখানে

ফোরাম থেকে ফিড পর্যন্ত: কীভাবে সোশ্যাল মিডিয়া অ্যালগরিদম ডিজিটাল ইন্টারঅ্যাকশনকে আকার দেয়

টেলিগ্রাম: ক্রিপ্টো দ্বীপের মূল ভূখণ্ডের সেতু

ডিজিটাল যাযাবর শুনুন: থাইল্যান্ডের নতুন ডিটিভি ভিসা সম্পর্কে আপনার যা জানা দরকার

হ্যাকারনুন লেখার প্রতিযোগিতা জিততে চান? #crypto-api প্রতিযোগিতার বিজয়ীরা কী সুপারিশ করেন তা এখানে

ফোরাম থেকে ফিড পর্যন্ত: কীভাবে সোশ্যাল মিডিয়া অ্যালগরিদম ডিজিটাল ইন্টারঅ্যাকশনকে আকার দেয়

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps