लेखक:  (1) एन यान, यूसी सैन डिएगो, ayan@ucsd.edu;  (2) झेंगयुआन यांग, माइक्रोसॉफ्ट कॉर्पोरेशन, zhengyang@microsoft.com समान योगदान के साथ;  (3) वानरोंग झू, यूसी सांता बारबरा, wanrongzhu@ucsb.edu;  (4) केविन लिन, माइक्रोसॉफ्ट कॉर्पोरेशन, keli@microsoft.com;  (5) लिन्जी ली, माइक्रोसॉफ्ट कॉर्पोरेशन, lindsey.li@mocrosoft.com;  (6) जियानफेंग वांग, माइक्रोसॉफ्ट कॉर्पोरेशन, jianfw@mocrosoft.com;  (7) जियानवेई यांग, माइक्रोसॉफ्ट कॉर्पोरेशन, jianwei.yang@mocrosoft.com;  (8) यिवू झोंग, विस्कॉन्सिन-मैडिसन विश्वविद्यालय, yzhong52@wisc.edu;  (9) जूलियन मैकॉले, यूसी सैन डिएगो, jmcauley@ucsd.edu;  (10) जियानफेंग गाओ, माइक्रोसॉफ्ट कॉर्पोरेशन, jfgao@mocrosoft.com;  (11) ज़िचेंग लियू, माइक्रोसॉफ्ट कॉर्पोरेशन, zliu@mocrosoft.com;  (12) लिजुआन वांग, माइक्रोसॉफ्ट कॉर्पोरेशन, lijuanw@mocrosoft.com।   संपादक का नोट: यह स्मार्टफ़ोन को नेविगेट करने के लिए जनरेटिव AI के उपयोग का मूल्यांकन करने वाले पेपर का भाग 1 है। आप नीचे दिए गए लिंक की तालिका के माध्यम से पेपर का शेष भाग पढ़ सकते हैं।  लिंक की तालिका   सार और 1 परिचय   2। संबंधित कार्य  3 एमएम-नेविगेटर   3.1 समस्या निर्माण और 3.2 मार्क के सेट के माध्यम से स्क्रीन ग्राउंडिंग और नेविगेशन   3.3 मल्टीमॉडल सेल्फ समराइजेशन के माध्यम से इतिहास निर्माण  4 iOS स्क्रीन नेविगेशन प्रयोग   4.1 प्रायोगिक सेटअप   4.2 इच्छित कार्रवाई का विवरण   4.3 स्थानीयकृत क्रिया निष्पादन और 4.4 GPT-4V के साथ वर्तमान स्थिति  5 एंड्रॉयड स्क्रीन नेविगेशन प्रयोग   5.1 प्रायोगिक सेटअप   5.2 प्रदर्शन तुलना   5.3 एब्लेशन अध्ययन   5.4 त्रुटि विश्लेषण   6 चर्चा   7 निष्कर्ष और संदर्भ  अमूर्त  हम स्मार्टफ़ोन ग्राफ़िकल यूज़र इंटरफ़ेस (GUI) नेविगेशन टास्क के लिए GPT-4V-आधारित एजेंट MM-Navigator प्रस्तुत करते हैं। MM-Navigator मानव उपयोगकर्ताओं के रूप में स्मार्टफ़ोन स्क्रीन के साथ इंटरैक्ट कर सकता है, और दिए गए निर्देशों को पूरा करने के लिए बाद की क्रियाओं को निर्धारित कर सकता है। हमारे निष्कर्ष दर्शाते हैं कि बड़े मल्टीमॉडल मॉडल (LMM), विशेष रूप से GPT-4V, अपनी उन्नत स्क्रीन व्याख्या, क्रिया तर्क और सटीक क्रिया स्थानीयकरण क्षमताओं के माध्यम से शून्य-शॉट GUI नेविगेशन में उत्कृष्ट हैं। हमने सबसे पहले अपने एकत्रित iOS स्क्रीन डेटासेट पर MM-Navigator का बेंचमार्क किया। मानवीय आकलन के अनुसार, सिस्टम ने उचित क्रिया विवरण बनाने में 91% सटीकता दर और iOS पर एकल-चरण निर्देशों के लिए सही क्रियाओं को निष्पादित करने में 75% सटीकता दर प्रदर्शित की। इसके अतिरिक्त, हम मॉडल का मूल्यांकन Android स्क्रीन नेविगेशन डेटासेट के एक सबसेट पर करते हैं, जहाँ मॉडल शून्य-शॉट फैशन में पिछले GUI नेविगेटर से बेहतर प्रदर्शन करता है। हमारे बेंचमार्क और विस्तृत विश्लेषण का उद्देश्य GUI नेविगेशन टास्क में भविष्य के शोध के लिए एक मजबूत आधार तैयार करना है। परियोजना पृष्ठ https://github.com/zzxslp/MM-Navigator पर है।  1 परिचय  कंप्यूटिंग डिवाइस के साथ बातचीत करने और मानवीय आदेशों का पालन करने में सक्षम स्वायत्त एजेंटों का निर्माण मशीन लर्निंग समुदाय में लंबे समय से एक विषय रहा है (बोल्ट, 1980; लीबरमैन एट अल., 1995)। स्मार्टफोन के आगमन के बाद से, सिरी, कॉर्टाना और गूगल असिस्टेंट जैसे वर्चुअल असिस्टेंट बनाने की व्यावहारिक मांग रही है, जिनमें उपयोगकर्ता के अनुभव को महत्वपूर्ण रूप से बढ़ाने और शारीरिक या परिस्थितिजन्य रूप से अक्षम व्यक्तियों की सहायता करने की क्षमता है। आदर्श रूप से, ये सहायक प्राकृतिक भाषा निर्देशों के आधार पर रोज़मर्रा के कामों को कुशलतापूर्वक पूरा करेंगे, जिसमें टाइमर सेट करने जैसी सरल क्रियाओं से लेकर परिवार की छुट्टी के लिए आदर्श होटल का पता लगाने जैसे अधिक जटिल कार्य शामिल हैं।  हाल के अध्ययनों ने मानवीय निर्देशों के बाद मोबाइल डिवाइस नियंत्रण और स्मार्टफ़ोन कार्य स्वचालन का पता लगाना शुरू कर दिया है (रॉल्स एट अल., 2023; वेन एट अल., 2023; झान और झांग, 2023; वांग एट अल., 2023)। प्रतिनिधि दृष्टिकोणों में टेक्स्ट के साथ स्क्रीन छवियों का वर्णन करना और बड़े भाषा मॉडल (LLM) (रॉल्स एट अल., 2023; वेन एट अल., 2023) के साथ परिवर्तित टेक्स्ट को संसाधित करना, या पर्यवेक्षित तरीके से क्रियाएँ उत्पन्न करने के लिए विज़न-लैंग्वेज मॉडल को प्रशिक्षित करना शामिल है (रॉल्स एट अल., 2023; झान और झांग, 2023)। हालाँकि, जब इन पर्यवेक्षित मॉडलों को विशिष्ट प्रकार की स्क्रीन और निर्देशों (रॉल्स एट अल., 2023) पर प्रशिक्षित किया जाता है, तो वे वास्तविक दुनिया के परिदृश्यों को सामान्य बनाने में सीमित प्रभावशीलता प्रदर्शित करते हैं। दूसरी ओर, LLM-आधारित दृष्टिकोण बेहतर तरीके से सामान्यीकृत होते हैं, लेकिन स्क्रीन छवियों को टेक्स्ट में बदलने के मध्यवर्ती चरण के परिणामस्वरूप सूचना का नुकसान होता है और परिणामस्वरूप प्रदर्शन को नुकसान पहुँचता है। हाल के बड़े मल्टीमॉडल मॉडल (एलएमएम) की प्रभावकारिता और व्यापक प्रयोज्यता से प्रेरित होकर, हम जीरोशॉट स्मार्टफोन जीयूआई नेविगेशन के लिए एक एलएमएम, जीपीटी-4वी (ओपनएआई, 2023ए, बी, सी; जीपीटी, 2023; यांग एट अल., 2023सी) का उपयोग करने का पता लगाते हैं, जिसका लक्ष्य इस पेचीदा कार्य के लिए एक नई मजबूत आधार रेखा निर्धारित करना है।  हम LMM के साथ GUI नेविगेशन के लिए दो प्राथमिक चुनौतियों की पहचान करते हैं, अर्थात् इच्छित क्रिया विवरण और स्थानीयकृत क्रिया निष्पादन। सबसे पहले, मॉडल को स्क्रीन छवि और पाठ निर्देश इनपुट को समझना चाहिए, और उचित कार्रवाई निर्धारित करने के लिए क्वेरी पर तर्क करना चाहिए, जैसे कि एक प्राकृतिक भाषा विवरण प्रदान करना "तीसरी पंक्ति और चौथे कॉलम में अमेज़ॅन आइकन पर क्लिक करना।" दूसरा, मॉडल को ऐसी उच्च-स्तरीय समझ को एक स्वरूपित क्रिया में परिवर्तित करना चाहिए जिसे नियमों के आधार पर आसानी से निष्पादित किया जा सके, जैसे कि "{क्रिया: क्लिक करें, स्थान: (0.31, 0.57)}।" हमारे दृष्टिकोण में, हम GPT-4V को क्रिया नियोजन के लिए एक छवि और पाठ के साथ संकेत देते हैं, और उत्पन्न आउटपुट को लंगर डालने के लिए सेट-ऑफ-मार्क टैग (यांग एट अल।, 2023 बी) रखते हैं। विशेष रूप से, हम इन चिह्नों को विभाजन या OCR मॉडल की मदद से स्थानिक स्थानों से जोड़ते हैं। इस उद्देश्य के लिए, हमारा प्रस्तावित GPT-4V आधारित सिस्टम, अर्थात् MM-नेविगेटर, स्क्रीन छवि, पाठ निर्देश और इसके इंटरैक्शन इतिहास पर आधारित निष्पादन योग्य क्रियाएँ उत्पन्न कर सकता है।  हमने MM-Navigator को दो डेटासेट पर बेंचमार्क किया। हमने स्क्रीनशॉट और उपयोगकर्ता निर्देशों के साथ एक iOS GUI नेविगेशन डेटासेट से शुरुआत की, जिसे हमने मैन्युअल रूप से एकत्र किया था। यह साफ विश्लेषणात्मक डेटासेट GUI नेविगेशन में दो चुनौतियों के लिए अंतर्दृष्टि की जांच करने के लिए डिज़ाइन किया गया है: इच्छित क्रिया विवरण और स्थानीयकृत क्रिया निष्पादन। इन दो कार्यों पर GPT-4V का आकलन करने के लिए मानवीय मूल्यांकन का उपयोग किया जाता है, जिसमें क्रमशः 91% और 75% की सटीकता दर होती है। इसके अतिरिक्त, हम हाल ही में जारी किए गए Android नेविगेशन बेंचमार्क (Rawles et al., 2023) से एक यादृच्छिक उपसमूह पर मॉडल का आकलन करते हैं। हम बेंचमार्क में प्रस्तावित मूल्यांकन प्रोटोकॉल का पालन करते हैं, साथ ही अतिरिक्त मानवीय मूल्यांकन भी करते हैं। मजबूत प्रदर्शन दर्शाता है कि MM-Navigator स्मार्टफ़ोन के लिए एक प्रभावी GUI नेविगेटर है, जो पिछले LLM-आधारित दृष्टिकोणों से काफी बेहतर प्रदर्शन करता है। हम प्रतिनिधि सफलता और विफलता के मामलों का गहन विश्लेषण प्रदान करते हैं। हम पाते हैं कि GPT-4V की वर्तमान स्थिति विभिन्न वास्तविक-विश्व GUI नेविगेशन परिदृश्यों में मनुष्यों की सहायता करने में पहले से ही प्रभावी हो सकती है, जैसा कि चित्र 4 में मल्टी-स्क्रीन परिणामों से स्पष्ट होता है। हालांकि, सिस्टम की विश्वसनीयता को और बढ़ाने के लिए निरंतर सुधार अभी भी आवश्यक हैं, जैसा कि हमारे विश्लेषणों में पता चला है।  हमारे योगदान का सारांश इस प्रकार है  • हम MM-नेविगेटर प्रस्तुत करते हैं, जो स्मार्टफोन GUI नेविगेशन के लिए GPT-4V पर निर्मित एक एजेंट सिस्टम है। MM-नेविगेटर सटीक निष्पादन योग्य क्रियाएँ बनाने के लिए प्रभावी रूप से एक्शन हिस्ट्री और सेट-ऑफ-मार्क टैग को शामिल करता है।  • हम विविध iOS स्क्रीन और उपयोगकर्ता निर्देशों के साथ एक नया विश्लेषणात्मक डेटासेट एकत्र करते हैं, जो LMM के साथ GUI नेविगेशन में दो मुख्य चुनौतियों का मूल्यांकन करता है: इच्छित क्रिया विवरण और स्थानीयकृत क्रिया निष्पादन।  • हम दो डेटासेट पर स्वचालित और मानवीय दोनों तरह से व्यापक मूल्यांकन करते हैं और विस्तृत विश्लेषण प्रदान करते हैं। प्रभावशाली परिणाम GUI नेविगेशन के लिए MMNavigator की प्रभावशीलता को प्रदर्शित करते हैं।  यह पेपर   है। arxiv पर CC BY 4.0 DEED लाइसेंस के अंतर्गत उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

FEW SHOT .tech

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

माइक्रोसॉफ्ट के शोधकर्ताओं का कहना है कि नया AI मॉडल आपके फोन की स्क्रीन को 'देख' सकता है

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

He/Him/Master of Discovery

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

उपयोगकर्ता-केंद्रित क्रिप्टो उत्पाद बनाना: ग्राहक प्रतिक्रिया का महत्व

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

He/Him/Master of Discovery

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

उपयोगकर्ता-केंद्रित क्रिप्टो उत्पाद बनाना: ग्राहक प्रतिक्रिया का महत्व

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps