مصنفین:
(1) این یان، یو سی سان ڈیاگو، [email protected]؛
(2) Zhengyuan Yang، Microsoft Corporation، [email protected] مساوی شراکت کے ساتھ؛
(3) Wanrong Zhu, UC Santa Barbara, [email protected];
(4) کیون لن، مائیکروسافٹ کارپوریشن، [email protected]؛
(5) Linjie Li, Microsoft Corporation, [email protected]؛
(6) جیانفینگ وانگ، مائیکروسافٹ کارپوریشن، [email protected]؛
(7) جیان وی یانگ، مائیکروسافٹ کارپوریشن، [email protected]؛
(8) Yiwu Zhong, University of Wisconsin-Madison, [email protected];
(9) Julian McAuley, UC San Diego, [email protected];
(10) جیانفینگ گاو، مائیکروسافٹ کارپوریشن، [email protected]؛
(11) زیچینگ لیو، مائیکروسافٹ کارپوریشن، [email protected]؛
(12) لیجوان وانگ، مائیکروسافٹ کارپوریشن، [email protected]۔
ایڈیٹر کا نوٹ: یہ ایک مقالے کے 13 کا 2 حصہ ہے جس میں اسمارٹ فونز کو نیویگیٹ کرنے کے لیے جنریٹو AI کے استعمال کا جائزہ لیا گیا ہے۔ باقی کاغذ آپ نیچے دیے گئے لنکس کے ذریعے پڑھ سکتے ہیں۔
خود مختار GUI نیویگیشن۔ خود مختار GUI نیویگیشن میں مختلف گرافیکل یوزر انٹرفیس، جیسے ویب سائٹس یا ایپلیکیشنز، کے ذریعے صارف کے پوچھے گئے کام کو انجام دینے کے لیے ہدایات کے مطابق ایک ماڈل شامل ہوتا ہے۔ موجودہ معیارات نے مخصوص UI عناصر کی شناخت کرنے میں ماڈلز کی صلاحیتوں کا جائزہ لینے کے لیے مصنوعی یا حقیقی دنیا کی صارف سے تیار کردہ ہدایات جمع کیں (Shi et al. GUI خیالات کی ایک سیریز کے ساتھ بات چیت کرنا (Li et al., 2020; برنس وغیرہ، 2021؛ ڈینگ ایٹ ال۔، 2023)۔ ان GUI خیالات سے بصری معلومات کو سمجھنے کے لیے، کام کی ایک لائن ایک ماڈل ڈھانچہ اپناتی ہے جو ملٹی موڈل ان پٹس پر کارروائی کر سکتی ہے (Sun et al., 2022; Redmon et al., 2016)۔ دوسرے طریقے UI منظر کے متن اور شبیہیں کو صرف ٹیکسٹ HTML فارمیٹ میں تبدیل کرنے پر توجہ مرکوز کرتے ہیں، جیسے کہ سنگل ماڈیول LLMs GUI نیویگیشن کے لیے ان ٹیکسٹ ان پٹس پر کارروائی کر سکتے ہیں (Zhang et al., 2021; Rawles et al., 2023; Wen et al. al.، 2023)۔
ملٹی موڈل ایجنٹس۔ LLMs میں حالیہ پیشرفت (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) نے LLM کو اتپریرک کیا ہے۔ - بیسڈ ایجنٹ سسٹم (مدان et al., 2023; 2023; al., 2023; Zhao et al. 2023؛ Yang et al. NLP ڈومین میں کامیابی سے متاثر ہو کر، ملٹی موڈل محققین ملٹی موڈل ایجنٹس کی تلاش میں ہیں۔ تحقیق کا سلسلہ LLM پر مبنی ملٹی موڈل ایجنٹس (گپتا اور کیمبھاوی، 2023؛ Surís et al.، 2023؛ Wu et al.، 2023؛ Yang* et al.، 2023؛ Shen et al.، 2023؛ Lu et al. .، 2023؛ یو ایٹ ال، 2023؛ ال۔ LMMs کی تیز رفتار پیشرفت (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023) سے چلنے والی تازہ ترین مطالعات میں ایل ایم ایم سے چلنے والے ملٹی موڈل ایجنٹس (یانگ ایٹ ال۔ 2023؛ Liu et al., 2023)، اس طرح کیپشن ماڈلز (Wang et al. ہمارا مجوزہ طریقہ کار GUI نیویگیشن کے لیے ایک خصوصی LMM پر مبنی ایجنٹ کی نمائندگی کرتا ہے۔ ہمارا مقصد اس کام کے لیے ایک جامع تجزیہ اور ایک مضبوط بنیاد فراہم کرنا ہے۔
یہ کاغذ CC BY 4.0 DEED لائسنس کے تحت arxiv پر دستیاب ہے۔