著者:
(1) アン・ヤン、カリフォルニア大学サンディエゴ校、[email protected]。
(2)Zhengyuan Yang、Microsoft Corporation、[email protected]、同額の寄付。
(3) Wanrong Zhu、UC サンタバーバラ校、[email protected]。
(4)ケビン・リン、マイクロソフトコーポレーション、[email protected]
(5) Microsoft Corporation、Linjie Li、[email protected]。
(6) Jianfeng Wang、Microsoft Corporation、[email protected]。
(7) Jianwei Yang、Microsoft Corporation、[email protected]。
(8) Yiwu Zhong、ウィスコンシン大学マディソン校、[email protected]。
(9)ジュリアン・マコーリー、カリフォルニア大学サンディエゴ校、[email protected]
(10) Jianfeng Gao、Microsoft Corporation、[email protected]。
(11) Zicheng Liu、Microsoft Corporation、[email protected]。
(12) Lijuan Wang、Microsoft Corporation、[email protected]。
編集者注: これは、スマートフォンを操作するための生成 AI の使用を評価する論文の 13 部構成のうちの 2 部目です。論文の残りの部分は、以下のリンクの表から読むことができます。
自律的な GUI ナビゲーション。自律的な GUI ナビゲーションでは、モデルが指示に従って、Web サイトやアプリケーションなどのさまざまなグラフィカル ユーザー インターフェイスを操作し、ユーザーが問い合わせたタスクを実行します。現在のベンチマークでは、合成または実際のユーザー生成の指示を収集して、特定の UI 要素を識別するモデルの能力 (Shi ら、2017 年、Li ら、2020 年、Bai ら、2021 年)、または一連の GUI ビューを操作して包括的なタスク目標を達成するモデルの能力 (Li ら、2020 年、Burns ら、2021 年、Venkatesh ら、2022 年、Deng ら、2023 年、Rawles ら、2023 年) を評価しました。これらの GUI ビューからの視覚情報を理解するために、ある研究では、マルチモーダル入力を処理できるモデル構造を採用しています (Sun et al., 2022; Redmon et al., 2016)。他の方法では、UI シーンのテキストとアイコンをテキストのみの HTML 形式に変換することに重点を置いています。たとえば、単一モジュール LLM は、GUI ナビゲーション用にこれらのテキスト入力を処理できます (Zhang et al., 2021; Rawles et al., 2023; Wen et al., 2023)。
マルチモーダルエージェント。 LLM の最近の進歩 (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) は、LLM ベースのエージェント システムの探求を促進しました (Madaan et al., 2022)。 al., 2023; Shinn et al., 2023; Pan et al., 2023; Yao et al., 2022; Schick et al., 2023; Paranjape et al., 2023; Pryzant et al., 2023; Guo et al., 2023; Zhao et al., 2023; Yang et al., 2023a)、推論を統合します。マルチモーダルは、さまざまな複雑な言語タスクに対応するロジックと外部ツールを備えています。NLP ドメインでの成功に触発され、マルチモーダル研究者はマルチモーダル エージェントの研究に取り組んでいます。この研究は、高度な視覚的推論のための MM-ReAct (Yang* et al., 2023) や反復的な視覚生成と編集のための Visual ChatGPT (Wu et al., 2023) などの LLM ベースのマルチモーダル エージェント (Gupta and Kembhavi, 2023; Surís et al., 2023; Wu et al., 2023; Yang* et al., 2023; Shen et al., 2023; Lu et al., 2023; Yu et al., 2023; Li et al., 2023) から始まります。 LMM の急速な進歩 (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023) に後押しされて、最新の研究では LMM を利用したマルチモーダル エージェント (Yang et al., 2023; Liu et al., 2023) の調査が開始され、キャプション モデル (Wang et al., 2022a; Wu et al., 2022) などの基本的な視覚的記述ツールの必要性がなくなりました。私たちが提案する方法論は、GUI ナビゲーションに特化した LMM ベースのエージェントを表しています。私たちは、このタスクのための包括的な分析と強力なベースラインを提供することを目指しています。
この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。