著者:
(1)ハヌーナ・ラシード、モハメド・ビン・ザイードAI大学および同等の貢献をした第一著者;
(2)ムハンマド・マーズ、モハメド・ビン・ザイードAI大学および同等の貢献をした第一著者;
(3) サハル・シャジ、モハメド・ビン・ザイードAI大学。
(4)アブデルラーマン・シェーカー、モハメド・ビン・ザイードAI大学
(5)サルマン・カーン、モハメド・ビン・ザイードAI大学およびオーストラリア国立大学
(6) ヒシャム・チョラッカル、モハメド・ビン・ザイードAI大学。
(7)ラオ・M・アンワー、モハメド・ビン・ザイードAI大学およびアールト大学
(8)エリック・シン、モハメド・ビン・ザイドAI大学およびカーネギーメロン大学
(9)ミンシュアン・ヤン、カリフォルニア大学マーセド校およびGoogle Research
(10) ファハド S. カーン、モハメド・ビン・ザイード AI 大学およびリンシェーピング大学。
編集者注: これは、ユーザーに画像を説明するように設計された AI モデルの開発を詳述する 10 部構成の研究の第 1 部です。続きは以下をご覧ください。
補足資料(パート1)
補足資料(パート2)
大規模マルチモーダルモデル (LMM) は、大規模言語モデルを視覚領域に拡張します。初期の LMM は、全体的画像とテキストプロンプトを使用して、グラウンディングされていないテキスト応答を生成しました。最近では、領域レベルの LMM を使用して、視覚的にグラウンディングされた応答が生成されています。ただし、一度に参照できるオブジェクトカテゴリは 1 つだけに制限されており、ユーザーが領域を指定する必要があり、ピクセル単位の高密度オブジェクトグラウンディングを提供できません。この研究では、対応するオブジェクトセグメンテーションマスクとシームレスに絡み合った自然言語応答を生成できる最初のモデルであるグラウンディング LMM (GLaMM) を紹介します。GLaMM は、会話に登場するオブジェクトをグラウンディングするだけでなく、テキストプロンプトとオプションの視覚プロンプト (関心領域) の両方を入力として受け入れるのに十分な柔軟性があります。これにより、ユーザーはテキスト領域と視覚領域の両方で、さまざまな粒度レベルでモデルと対話できます。視覚的にグラウンディングされた会話生成 (GCG) という新しい設定の標準ベンチマークがないため、キュレーションされたグラウンディングされた会話を使用して包括的な評価プロトコルを導入します。提案された GCG タスクでは、大規模な自然シーンで密にグラウンディングされた概念が必要です。この目的のために、セグメンテーション マスクで利用可能な合計 8 億 1000 万の領域にグラウンディングされた 750 万の固有の概念を含む、提案された自動注釈パイプラインを使用して、密に注釈が付けられた Grounding-anything Dataset (GranD) を提案します。GCG 以外にも、GLaMM は、参照表現のセグメンテーション、画像および領域レベルのキャプション、視覚言語の会話など、いくつかの下流タスクでも効果的に機能します。
生成AIの波に後押しされ、大規模マルチモーダルモデル(LMM)は、視覚と言語のタスクの間のギャップを埋める極めて重要な進歩として登場しました[2]。[6、8、22、29、52、61]などの初期の取り組みでは、入力画像に基づいて効果的なテキスト応答が実証されています。これらのモデルは洗練されていますが、視覚的なコンテキストで応答をグラウンディングすることはできません。このようなグラウンディングは、詳細な視覚的理解、インタラクティブな具現化エージェント、ローカライズされたコンテンツ操作などの高度なアプリケーションにとって非常に重要です。最近の取り組みでは、境界ボックスを介して指定されたユーザー定義の領域をモデルで処理できるようにすることで、この制限に対処し始めています[5、31、35、36、57]。
最近のいくつかの研究では、グラウンデッドテキスト応答生成が検討されているが [5, 21, 35, 59]、詳細なピクセルレベルのグラウンディングは提供されていない。これらと並行して、参照セグメンテーションの文献では、自然画像内のテキスト記述をグラウンディングする取り組みがなされてきた [21]。しかし、それらは単一のオブジェクトのグラウンディングに限定されており、自然で首尾一貫した会話を行うことができないため、視覚的コンテンツとテキストコンテンツの両方の深い理解を要求する対話型タスクへの実用的な適用が制限されている。既存の研究のこれらの制限に対処するために、エンドツーエンドのトレーニングアプローチを通じて、詳細な領域理解、ピクセルレベルのグラウンディング、および会話機能を同時に提供するグラウンディングLMM (GLaMM)を導入する(図1および表1を参照)。
視覚的に根拠のある会話のベンチマークの欠如に対処するために、Grounded Conversation Generation (GCG) という新しいタスクを導入します。GCG タスクは、オブジェクト セグメンテーション マスクがインターリーブされた自然言語応答を生成することを目的としています。この困難なタスクは、通常は個別に扱われるコンピューター ビジョンの既存のタスク (参照表現セグメンテーション、画像および領域レベルのキャプション、フレーズ グラウンディング、および視覚言語会話) を統合します。これにより、統合モデルと提案された事前トレーニング データセットは、いくつかの下流タスク (参照表現セグメンテーション、領域レベルのキャプション、画像キャプション、および会話型 QA) に効果的に転送できます。この困難なタスク用に特別に設計された最初のモデルとして、GLaMM を紹介します。以前の研究とは異なり、GLaMM はテキスト プロンプトと視覚プロンプトの両方で動作し、視覚的に根拠のある出力を生成できるため、多用途のユーザー エクスペリエンスを提供できます。
詳細な領域レベルの理解には、画像領域の大規模な注釈を収集するという面倒なプロセスが必要です。私たちは、大規模な Grounding-anything Dataset (GranD) に注釈を付け、手動によるラベル付けの労力を軽減するための自動パイプラインを提案します。専用の検証手順を備えた自動パイプラインを活用することで、GranD は 8 億 1,000 万の領域に固定された 750 万の固有の概念で構成され、それぞれにセグメンテーション マスクがあります。最先端の視覚モデルと言語モデルを使用して、データセットは注釈の品質を向上させるマルチレベル階層スキームを通じて SAM [18] 画像に注釈を付けます。1,100 万の画像、8,400 万の参照表現、3,300 万のグラウンデッド キャプションを備えた GranD は、包括性の新たなベンチマークを確立しました。GCG 用に自動生成されたデータセットに加えて、GPT-4 [34] コンテキスト内学習を使用して GCG 用に既存の手動注釈付きデータセット [16、37、49] を改良することで得られた、グラウンデッド会話の最初の高品質データセットを提供します。高品質のデータセットを GranDf と呼び、微調整に適していることを示します。
私たちの仕事には、主に 3 つの貢献があります。
• オブジェクトセグメンテーションマスクとシームレスに統合された自然言語応答を生成できる初のモデルである GLaMM を紹介します。既存のモデルとは異なり、GLaMM はテキストと視覚的なプロンプトに対応しており、強化されたマルチモーダルユーザーインタラクションを実現します。
• 視覚的に根拠のある会話の標準化されたベンチマークが不足していることを認識し、新しい Grounded Conversation Generation (GCG) タスクを提案します。また、複数の独立したタスクを統合する GCG モデルの有効性を測定するための包括的な評価プロトコルも紹介し、文献の大きなギャップを埋めます。
• モデルのトレーニングと評価を容易にするために、大規模で高密度に注釈が付けられたデータセットである Grounding-anything Dataset (GranD) を作成します。自動注釈パイプラインと検証基準を使用して開発されたこのデータセットは、8 億 1,000 万の領域に根ざした 750 万の固有の概念を網羅しています。さらに、既存のオープンソース データセットを再利用して、GCG タスクの微調整用に明示的に設計された高品質のデータセットである GranDf を提案します。
この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。