Forfattere:
(1) Hanoona Rasheed, Mohamed bin Zayed University of AI og lige så bidragende førsteforfattere;
(2) Muhammad Maaz, Mohamed bin Zayed University of AI og lige så bidragende førsteforfattere;
(3) Sahal Shaji, Mohamed bin Zayed University of AI;
(4) Abdelrahman Shaker, Mohamed bin Zayed University of AI;
(5) Salman Khan, Mohamed bin Zayed University of AI og Australian National University;
(6) Hisham Cholakkal, Mohamed bin Zayed University of AI;
(7) Rao M. Anwer, Mohamed bin Zayed University of AI og Aalto University;
(8) Eric Xing, Mohamed bin Zayed University of AI og Carnegie Mellon University;
(9) Ming-Hsuan Yang, University of California - Merced og Google Research;
(10) Fahad S. Khan, Mohamed bin Zayed University of AI og Linköping University.
Redaktørens note: Dette er del 1 af 10 af en undersøgelse, der beskriver udviklingen af en AI-model, der er designet til at beskrive billeder til brugere. Læs resten nedenfor.
Supplerende materiale (del 1)
Supplerende materiale (del 2)
Large Multimodal Models (LMM'er) udvider Large Language Models til synsdomænet. Indledende LMM'er brugte holistiske billeder og tekstprompter til at generere ugrundede tekstsvar. For nylig er LMM'er på regionsniveau blevet brugt til at generere visuelt funderede svar. De er dog begrænset til kun at henvise til en enkelt objektkategori ad gangen, kræver, at brugerne angiver regionerne eller kan ikke tilbyde tæt pixelmæssig objektjording. I dette arbejde præsenterer vi Grounding LMM (GLaMM), den første model, der kan generere naturlige sprogresponser sømløst sammenflettet med tilsvarende objektsegmenteringsmasker. GLaMM begrunder ikke kun objekter, der vises i samtalerne, men er fleksibel nok til at acceptere både tekstuelle og valgfri visuelle prompter (interesseområde) som input. Dette giver brugerne mulighed for at interagere med modellen på forskellige niveauer af granularitet, både i tekstmæssige og visuelle domæner. På grund af manglen på standard benchmarks for den nye indstilling af visuelt jordet samtalegenerering (GCG), introducerer vi en omfattende evalueringsprotokol med vores kurerede, funderede samtaler. Vores foreslåede GCG-opgave kræver tæt funderede koncepter i naturlige scener i stor skala. Til dette formål foreslår vi et tæt annoteret Grounding-anything Dataset (GranD) ved hjælp af vores foreslåede automatiserede annotationspipeline, der omfatter 7,5 millioner unikke koncepter baseret på i alt 810 millioner regioner tilgængelige med segmenteringsmasker. Udover GCG, udfører GLaMM også effektivt på adskillige downstream-opgaver, f.eks. henvisning til udtrykssegmentering, billed- og regionsniveau undertekster og vision-sprogsamtaler.
Brændt af den generative AI-bølge er Large Multimodal Models (LMM'er) dukket op som et afgørende fremskridt, der bygger bro mellem vision og sprogopgaver [2]. Indledende indsatser som [6, 8, 22, 29, 52, 61] demonstrerer effektive tekstresponser baseret på inputbilleder. Selvom disse modeller er sofistikerede, kan de stadig ikke basere deres svar i den visuelle kontekst. Sådan jordforbindelse er afgørende for avancerede applikationer som detaljeret visuel forståelse, interaktive indlejrede agenter og lokaliseret indholdsmanipulation. Nylige bestræbelser er begyndt at adressere denne begrænsning ved at gøre det muligt for modeller at behandle brugerdefinerede regioner specificeret via afgrænsningsbokse [5, 31, 35, 36, 57].
Et par nyere værker har undersøgt generering af jordet tekstsvar [5, 21, 35, 59], men giver ikke detaljerede pixel-niveau jordforbindelser. Parallelt med disse er der i den henvisende segmenteringslitteratur gjort en indsats for at grundlægge tekstbeskrivelser i naturlige billeder [21]. De er dog begrænset til at jorde et enkelt objekt og kan ikke indgå i naturlige, sammenhængende samtaler, og derved begrænse deres praktiske anvendelighed i interaktive opgaver, der kræver en dyb forståelse af både visuelt og tekstligt indhold. For at imødegå disse begrænsninger af eksisterende værker introducerer vi Grounding LMM (GLaMM), som samtidig giver dybdegående regionsforståelse, pixel-niveau grounding og samtaleevner gennem en end-to-end træningstilgang (se Fig. 1 og Tab. 1).
For at imødegå manglen på benchmarks for visuelt funderede samtaler introducerer vi den nye opgave Grounded Conversation Generation (GCG). GCG-opgaven har til formål at producere naturlige sprogresponser sammenflettet med objektsegmenteringsmasker. Denne udfordrende opgave forener adskillige eksisterende opgaver inden for computersyn, som typisk behandles isoleret, dvs. refererende udtrykssegmentering, billed- og regionsniveau undertekster, sætningsjording og vision-sprogsamtaler. Derved kan vores forenede model og foreslåede fortræningsdatasæt effektivt overføres til flere downstream-opgaver (der henviser til udtrykssegmentering, regionsniveau-tekstning, billedtekstning og samtale-stil QA). Vi præsenterer GLaMM som den første model, der er specielt designet til denne udfordrende opgave. I modsætning til tidligere værker kan GLaMM arbejde med både tekstuelle og visuelle prompter og kan generere visuelt jordede output, hvilket giver en alsidig brugeroplevelse.
Detaljeret forståelse på regionsniveau kræver den besværlige proces med at indsamle annotationer i stor skala til billedområder. Vi foreslår en automatiseret pipeline til at kommentere det storstilede Grounding-anything Dataset (GranD) for at lette den manuelle mærkningsindsats. Ved at udnytte den automatiserede pipeline med dedikerede verifikationstrin omfatter GranD 7,5 millioner unikke koncepter forankret i 810 millioner regioner, hver med en segmenteringsmaske. Ved at bruge state-of-the-art vision og sprogmodeller annoterer datasættet SAM [18] billeder gennem et hierarkisk skema på flere niveauer, der forbedrer annotationskvaliteten. Med 11 millioner billeder, 84 millioner henvisningsudtryk og 33 millioner jordede billedtekster sætter GranD et nyt benchmark i omfang. Ud over det automatisk genererede datasæt til GCG leverer vi det første højkvalitetsdatasæt til jordede samtaler opnået ved at forny de eksisterende manuelt kommenterede datasæt [16, 37, 49] til GCG ved hjælp af GPT-4 [34] incontext learning. Vi omtaler datasættet af høj kvalitet som GranDf , hvilket angiver dets egnethed til finjustering.
Vores arbejde har tre hovedbidrag:
• Vi præsenterer GLaMM, den første model, der er i stand til at generere naturlige sprogsvar sømløst integreret med objektsegmenteringsmasker. I modsætning til eksisterende modeller rummer GLaMM tekstlige og visuelle prompter, hvilket letter forbedret multimodal brugerinteraktion.
• I erkendelse af manglen på standardiserede benchmarks for visuelt funderede samtaler, foreslår vi den nye Grounded Conversation Generation (GCG) opgave. Vi introducerer også en omfattende evalueringsprotokol til at måle effektiviteten af modeller for GCG, der forener flere isolerede opgaver, og udfylder et betydeligt hul i litteraturen.
• For at lette modeltræning og -evaluering opretter vi Grounding-anything Dataset (GranD), et stort, tæt annoteret datasæt. Den er udviklet ved hjælp af en automatisk annoteringspipeline og verifikationskriterier og omfatter 7,5 millioner unikke koncepter baseret på 810 millioner regioner. Derudover foreslår vi GranDf , et datasæt af høj kvalitet, der er eksplicit designet til finjustering af GCG-opgaven, ved at genbruge eksisterende open source-datasæt.
Dette papir er tilgængeligt på arxiv under CC BY 4.0 DEED-licens.