Auteurs:
(1) Hanoona Rasheed, Université Mohamed bin Zayed d'IA et premiers auteurs contributeurs égaux ;
(2) Muhammad Maaz, Mohamed bin Zayed University of AI et autres auteurs principaux contributeurs ;
(3) Sahal Shaji, Université d'IA Mohamed bin Zayed ;
(4) Abdelrahman Shaker, Université Mohamed bin Zayed d'IA ;
(5) Salman Khan, Université Mohamed bin Zayed d'IA et Université nationale australienne ;
(6) Hisham Cholakkal, Université Mohamed bin Zayed d'IA ;
(7) Rao M. Anwer, Université Mohamed bin Zayed d'IA et Université Aalto ;
(8) Eric Xing, Université Mohamed bin Zayed d'IA et Université Carnegie Mellon ;
(9) Ming-Hsuan Yang, Université de Californie - Merced et Google Research ;
(10) Fahad S. Khan, Université d'IA Mohamed bin Zayed et Université de Linköping.
Note de l'éditeur : il s'agit de la première partie d'une étude sur dix détaillant le développement d'un modèle d'IA conçu pour décrire des images aux utilisateurs. Lisez la suite ci-dessous.
Matériel supplémentaire (partie 1)
Matériel supplémentaire (partie 2)
Les grands modèles multimodaux (LMM) étendent les grands modèles linguistiques au domaine de la vision. Les LMM initiaux utilisaient des images holistiques et des invites textuelles pour générer des réponses textuelles non fondées. Récemment, des LMM au niveau régional ont été utilisés pour générer des réponses fondées visuellement. Cependant, ils se limitent à ne faire référence qu'à une seule catégorie d'objet à la fois, nécessitent que les utilisateurs spécifient les régions ou ne peuvent pas offrir une mise à la terre dense des objets au niveau des pixels. Dans ce travail, nous présentons Grounding LMM (GLaMM), le premier modèle capable de générer des réponses en langage naturel parfaitement entrelacées avec les masques de segmentation d'objet correspondants. GLaMM non seulement fonde les objets apparaissant dans les conversations, mais est suffisamment flexible pour accepter des invites textuelles et visuelles facultatives (région d'intérêt) en entrée. Cela permet aux utilisateurs d'interagir avec le modèle à différents niveaux de granularité, à la fois dans les domaines textuel et visuel. En raison de l'absence de repères standard pour le nouveau cadre de la génération de conversations fondées visuellement (GCG), nous introduisons un protocole d'évaluation complet avec nos conversations fondées organisées. Notre tâche GCG proposée nécessite des concepts densément ancrés dans des scènes naturelles à grande échelle. À cette fin, nous proposons un ensemble de données Grounding-anything (GranD) densément annoté à l'aide de notre pipeline d'annotation automatisé proposé qui englobe 7,5 millions de concepts uniques ancrés dans un total de 810 millions de régions disponibles avec des masques de segmentation. Outre GCG, GLaMM fonctionne également efficacement sur plusieurs tâches en aval, par exemple, la segmentation des expressions de référence, le sous-titrage au niveau des images et des régions et les conversations vision-langage.
Alimentés par la vague de l'IA générative, les grands modèles multimodaux (LMM) sont apparus comme une avancée décisive, comblant le fossé entre les tâches de vision et de langage [2]. Des efforts initiaux tels que [6, 8, 22, 29, 52, 61] démontrent des réponses textuelles efficaces basées sur des images d'entrée. Bien que ces modèles soient sophistiqués, ils ne peuvent toujours pas fonder leurs réponses sur le contexte visuel. Une telle base est cruciale pour les applications avancées telles que la compréhension visuelle détaillée, les agents incarnés interactifs et la manipulation de contenu localisé. Des efforts récents ont commencé à remédier à cette limitation en permettant aux modèles de traiter des régions définies par l'utilisateur spécifiées via des cadres de délimitation [5, 31, 35, 36, 57].
Quelques travaux récents ont exploré la génération de réponses textuelles ancrées [5, 21, 35, 59] mais ne fournissent pas de bases détaillées au niveau des pixels. Parallèlement à cela, des efforts ont été faits dans la littérature sur la segmentation de référence pour ancrer les descriptions textuelles dans des images naturelles [21]. Cependant, ils se limitent à ancrer un seul objet et ne peuvent pas engager de conversations naturelles et cohérentes, limitant ainsi leur applicabilité pratique dans les tâches interactives qui exigent une compréhension approfondie du contenu visuel et textuel. Pour remédier à ces limitations des travaux existants, nous introduisons Grounding LMM (GLaMM), qui fournit simultanément une compréhension approfondie de la région, des bases au niveau des pixels et des capacités conversationnelles grâce à une approche de formation de bout en bout (voir la figure 1 et le tableau 1).
Pour remédier au manque de repères pour les conversations visuellement fondées, nous introduisons la nouvelle tâche de génération de conversations fondées (GCG). La tâche GCG vise à produire des réponses en langage naturel entrelacées avec des masques de segmentation d'objets. Cette tâche difficile unifie plusieurs tâches existantes en vision par ordinateur qui sont généralement traitées de manière isolée, à savoir la segmentation des expressions de référence, le sous-titrage au niveau des images et des régions, la mise à la terre des phrases et les conversations vision-langage. Ainsi, notre modèle unifié et l'ensemble de données de pré-entraînement proposé peuvent être transférés efficacement à plusieurs tâches en aval (segmentation des expressions de référence, sous-titrage au niveau des régions, sous-titrage des images et assurance qualité de style conversationnel). Nous présentons GLaMM comme le premier modèle spécifiquement conçu pour cette tâche difficile. Contrairement aux travaux antérieurs, GLaMM peut fonctionner avec des invites textuelles et visuelles et peut générer des sorties visuellement fondées, offrant ainsi une expérience utilisateur polyvalente.
Une compréhension détaillée au niveau régional nécessite le processus laborieux de collecte d'annotations à grande échelle pour les régions d'image. Nous proposons un pipeline automatisé pour annoter le jeu de données Grounding-anything à grande échelle (GranD) afin d'alléger l'effort d'étiquetage manuel. En exploitant le pipeline automatisé avec des étapes de vérification dédiées, GranD comprend 7,5 millions de concepts uniques ancrés dans 810 millions de régions, chacune avec un masque de segmentation. En utilisant des modèles de vision et de langage de pointe, l'ensemble de données annote les images SAM [18] via un schéma hiérarchique à plusieurs niveaux qui améliore la qualité des annotations. Avec 11 millions d'images, 84 millions d'expressions de référence et 33 millions de légendes ancrées, GranD établit une nouvelle référence en matière d'exhaustivité. En plus de l'ensemble de données généré automatiquement pour le GCG, nous fournissons le premier ensemble de données de haute qualité pour les conversations ancrées obtenu en remaniant les ensembles de données annotés manuellement existants [16, 37, 49] pour le GCG en utilisant l'apprentissage en contexte GPT-4 [34]. Nous désignons l'ensemble de données de haute qualité par GranDf, indiquant sa capacité à être peaufiné.
Nos travaux ont trois contributions principales :
• Nous présentons GLaMM, le premier modèle capable de générer des réponses en langage naturel parfaitement intégrées aux masques de segmentation d'objets. Contrairement aux modèles existants, GLaMM prend en charge les invites textuelles et visuelles, facilitant ainsi une interaction utilisateur multimodale améliorée.
• Reconnaissant le manque de repères normalisés pour les conversations visuellement fondées, nous proposons la nouvelle tâche de génération de conversations fondées (GCG). Nous introduisons également un protocole d'évaluation complet pour mesurer l'efficacité des modèles de GCG qui unifie plusieurs tâches isolées, comblant ainsi une lacune importante dans la littérature.
• Pour faciliter la formation et l'évaluation des modèles, nous créons Grounding-anything Dataset (GranD), un ensemble de données à grande échelle et densément annoté. Développé à l'aide d'un pipeline d'annotation automatique et de critères de vérification, il englobe 7,5 millions de concepts uniques basés sur 810 millions de régions. De plus, nous proposons GranDf, un ensemble de données de haute qualité explicitement conçu pour le réglage fin de la tâche GCG, en réutilisant des ensembles de données open source existants.
Cet article est disponible sur arxiv sous licence CC BY 4.0 DEED.