लेखक:
(1) एन यान, यूसी सैन डिएगो, [email protected];
(2) झेंगयुआन यांग, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected] समान योगदान के साथ;
(3) वानरोंग झू, यूसी सांता बारबरा, [email protected];
(4) केविन लिन, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected];
(5) लिन्जी ली, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected];
(6) जियानफेंग वांग, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected];
(7) जियानवेई यांग, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected];
(8) यिवू झोंग, विस्कॉन्सिन-मैडिसन विश्वविद्यालय, [email protected];
(9) जूलियन मैकॉले, यूसी सैन डिएगो, [email protected];
(10) जियानफेंग गाओ, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected];
(11) ज़िचेंग लियू, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected];
(12) लिजुआन वांग, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected]।
संपादक का नोट: यह स्मार्टफ़ोन को नेविगेट करने के लिए जनरेटिव AI के उपयोग का मूल्यांकन करने वाले पेपर का भाग 1 है। आप नीचे दिए गए लिंक की तालिका के माध्यम से पेपर का शेष भाग पढ़ सकते हैं।
हम स्मार्टफ़ोन ग्राफ़िकल यूज़र इंटरफ़ेस (GUI) नेविगेशन टास्क के लिए GPT-4V-आधारित एजेंट MM-Navigator प्रस्तुत करते हैं। MM-Navigator मानव उपयोगकर्ताओं के रूप में स्मार्टफ़ोन स्क्रीन के साथ इंटरैक्ट कर सकता है, और दिए गए निर्देशों को पूरा करने के लिए बाद की क्रियाओं को निर्धारित कर सकता है। हमारे निष्कर्ष दर्शाते हैं कि बड़े मल्टीमॉडल मॉडल (LMM), विशेष रूप से GPT-4V, अपनी उन्नत स्क्रीन व्याख्या, क्रिया तर्क और सटीक क्रिया स्थानीयकरण क्षमताओं के माध्यम से शून्य-शॉट GUI नेविगेशन में उत्कृष्ट हैं। हमने सबसे पहले अपने एकत्रित iOS स्क्रीन डेटासेट पर MM-Navigator का बेंचमार्क किया। मानवीय आकलन के अनुसार, सिस्टम ने उचित क्रिया विवरण बनाने में 91% सटीकता दर और iOS पर एकल-चरण निर्देशों के लिए सही क्रियाओं को निष्पादित करने में 75% सटीकता दर प्रदर्शित की। इसके अतिरिक्त, हम मॉडल का मूल्यांकन Android स्क्रीन नेविगेशन डेटासेट के एक सबसेट पर करते हैं, जहाँ मॉडल शून्य-शॉट फैशन में पिछले GUI नेविगेटर से बेहतर प्रदर्शन करता है। हमारे बेंचमार्क और विस्तृत विश्लेषण का उद्देश्य GUI नेविगेशन टास्क में भविष्य के शोध के लिए एक मजबूत आधार तैयार करना है। परियोजना पृष्ठ https://github.com/zzxslp/MM-Navigator पर है।
कंप्यूटिंग डिवाइस के साथ बातचीत करने और मानवीय आदेशों का पालन करने में सक्षम स्वायत्त एजेंटों का निर्माण मशीन लर्निंग समुदाय में लंबे समय से एक विषय रहा है (बोल्ट, 1980; लीबरमैन एट अल., 1995)। स्मार्टफोन के आगमन के बाद से, सिरी, कॉर्टाना और गूगल असिस्टेंट जैसे वर्चुअल असिस्टेंट बनाने की व्यावहारिक मांग रही है, जिनमें उपयोगकर्ता के अनुभव को महत्वपूर्ण रूप से बढ़ाने और शारीरिक या परिस्थितिजन्य रूप से अक्षम व्यक्तियों की सहायता करने की क्षमता है। आदर्श रूप से, ये सहायक प्राकृतिक भाषा निर्देशों के आधार पर रोज़मर्रा के कामों को कुशलतापूर्वक पूरा करेंगे, जिसमें टाइमर सेट करने जैसी सरल क्रियाओं से लेकर परिवार की छुट्टी के लिए आदर्श होटल का पता लगाने जैसे अधिक जटिल कार्य शामिल हैं।
हाल के अध्ययनों ने मानवीय निर्देशों के बाद मोबाइल डिवाइस नियंत्रण और स्मार्टफ़ोन कार्य स्वचालन का पता लगाना शुरू कर दिया है (रॉल्स एट अल., 2023; वेन एट अल., 2023; झान और झांग, 2023; वांग एट अल., 2023)। प्रतिनिधि दृष्टिकोणों में टेक्स्ट के साथ स्क्रीन छवियों का वर्णन करना और बड़े भाषा मॉडल (LLM) (रॉल्स एट अल., 2023; वेन एट अल., 2023) के साथ परिवर्तित टेक्स्ट को संसाधित करना, या पर्यवेक्षित तरीके से क्रियाएँ उत्पन्न करने के लिए विज़न-लैंग्वेज मॉडल को प्रशिक्षित करना शामिल है (रॉल्स एट अल., 2023; झान और झांग, 2023)। हालाँकि, जब इन पर्यवेक्षित मॉडलों को विशिष्ट प्रकार की स्क्रीन और निर्देशों (रॉल्स एट अल., 2023) पर प्रशिक्षित किया जाता है, तो वे वास्तविक दुनिया के परिदृश्यों को सामान्य बनाने में सीमित प्रभावशीलता प्रदर्शित करते हैं। दूसरी ओर, LLM-आधारित दृष्टिकोण बेहतर तरीके से सामान्यीकृत होते हैं, लेकिन स्क्रीन छवियों को टेक्स्ट में बदलने के मध्यवर्ती चरण के परिणामस्वरूप सूचना का नुकसान होता है और परिणामस्वरूप प्रदर्शन को नुकसान पहुँचता है। हाल के बड़े मल्टीमॉडल मॉडल (एलएमएम) की प्रभावकारिता और व्यापक प्रयोज्यता से प्रेरित होकर, हम जीरोशॉट स्मार्टफोन जीयूआई नेविगेशन के लिए एक एलएमएम, जीपीटी-4वी (ओपनएआई, 2023ए, बी, सी; जीपीटी, 2023; यांग एट अल., 2023सी) का उपयोग करने का पता लगाते हैं, जिसका लक्ष्य इस पेचीदा कार्य के लिए एक नई मजबूत आधार रेखा निर्धारित करना है।
हम LMM के साथ GUI नेविगेशन के लिए दो प्राथमिक चुनौतियों की पहचान करते हैं, अर्थात् इच्छित क्रिया विवरण और स्थानीयकृत क्रिया निष्पादन। सबसे पहले, मॉडल को स्क्रीन छवि और पाठ निर्देश इनपुट को समझना चाहिए, और उचित कार्रवाई निर्धारित करने के लिए क्वेरी पर तर्क करना चाहिए, जैसे कि एक प्राकृतिक भाषा विवरण प्रदान करना "तीसरी पंक्ति और चौथे कॉलम में अमेज़ॅन आइकन पर क्लिक करना।" दूसरा, मॉडल को ऐसी उच्च-स्तरीय समझ को एक स्वरूपित क्रिया में परिवर्तित करना चाहिए जिसे नियमों के आधार पर आसानी से निष्पादित किया जा सके, जैसे कि "{क्रिया: क्लिक करें, स्थान: (0.31, 0.57)}।" हमारे दृष्टिकोण में, हम GPT-4V को क्रिया नियोजन के लिए एक छवि और पाठ के साथ संकेत देते हैं, और उत्पन्न आउटपुट को लंगर डालने के लिए सेट-ऑफ-मार्क टैग (यांग एट अल।, 2023 बी) रखते हैं। विशेष रूप से, हम इन चिह्नों को विभाजन या OCR मॉडल की मदद से स्थानिक स्थानों से जोड़ते हैं। इस उद्देश्य के लिए, हमारा प्रस्तावित GPT-4V आधारित सिस्टम, अर्थात् MM-नेविगेटर, स्क्रीन छवि, पाठ निर्देश और इसके इंटरैक्शन इतिहास पर आधारित निष्पादन योग्य क्रियाएँ उत्पन्न कर सकता है।
हमने MM-Navigator को दो डेटासेट पर बेंचमार्क किया। हमने स्क्रीनशॉट और उपयोगकर्ता निर्देशों के साथ एक iOS GUI नेविगेशन डेटासेट से शुरुआत की, जिसे हमने मैन्युअल रूप से एकत्र किया था। यह साफ विश्लेषणात्मक डेटासेट GUI नेविगेशन में दो चुनौतियों के लिए अंतर्दृष्टि की जांच करने के लिए डिज़ाइन किया गया है: इच्छित क्रिया विवरण और स्थानीयकृत क्रिया निष्पादन। इन दो कार्यों पर GPT-4V का आकलन करने के लिए मानवीय मूल्यांकन का उपयोग किया जाता है, जिसमें क्रमशः 91% और 75% की सटीकता दर होती है। इसके अतिरिक्त, हम हाल ही में जारी किए गए Android नेविगेशन बेंचमार्क (Rawles et al., 2023) से एक यादृच्छिक उपसमूह पर मॉडल का आकलन करते हैं। हम बेंचमार्क में प्रस्तावित मूल्यांकन प्रोटोकॉल का पालन करते हैं, साथ ही अतिरिक्त मानवीय मूल्यांकन भी करते हैं। मजबूत प्रदर्शन दर्शाता है कि MM-Navigator स्मार्टफ़ोन के लिए एक प्रभावी GUI नेविगेटर है, जो पिछले LLM-आधारित दृष्टिकोणों से काफी बेहतर प्रदर्शन करता है। हम प्रतिनिधि सफलता और विफलता के मामलों का गहन विश्लेषण प्रदान करते हैं। हम पाते हैं कि GPT-4V की वर्तमान स्थिति विभिन्न वास्तविक-विश्व GUI नेविगेशन परिदृश्यों में मनुष्यों की सहायता करने में पहले से ही प्रभावी हो सकती है, जैसा कि चित्र 4 में मल्टी-स्क्रीन परिणामों से स्पष्ट होता है। हालांकि, सिस्टम की विश्वसनीयता को और बढ़ाने के लिए निरंतर सुधार अभी भी आवश्यक हैं, जैसा कि हमारे विश्लेषणों में पता चला है।
हमारे योगदान का सारांश इस प्रकार है
• हम MM-नेविगेटर प्रस्तुत करते हैं, जो स्मार्टफोन GUI नेविगेशन के लिए GPT-4V पर निर्मित एक एजेंट सिस्टम है। MM-नेविगेटर सटीक निष्पादन योग्य क्रियाएँ बनाने के लिए प्रभावी रूप से एक्शन हिस्ट्री और सेट-ऑफ-मार्क टैग को शामिल करता है।
• हम विविध iOS स्क्रीन और उपयोगकर्ता निर्देशों के साथ एक नया विश्लेषणात्मक डेटासेट एकत्र करते हैं, जो LMM के साथ GUI नेविगेशन में दो मुख्य चुनौतियों का मूल्यांकन करता है: इच्छित क्रिया विवरण और स्थानीयकृत क्रिया निष्पादन।
• हम दो डेटासेट पर स्वचालित और मानवीय दोनों तरह से व्यापक मूल्यांकन करते हैं और विस्तृत विश्लेषण प्रदान करते हैं। प्रभावशाली परिणाम GUI नेविगेशन के लिए MMNavigator की प्रभावशीलता को प्रदर्शित करते हैं।