paint-brush
Chèchè nan UAE kreye AI ki ka dekri imaj an detay pafèpa@autoencoder
Nouvo istwa

Chèchè nan UAE kreye AI ki ka dekri imaj an detay pafè

Twò lontan; Pou li

Chèchè nan Inivèsite Mohamed bin Zayed devlope yon modèl AI ki ka kreye konvèsasyon tèks ki baze sou objè espesifik oswa rejyon nan yon imaj.
featured image - Chèchè nan UAE kreye AI ki ka dekri imaj an detay pafè
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
0-item

Otè:

(1) Hanoona Rasheed, Mohamed bin Zayed University of AI ak premye otè ki kontribye egalman;

(2) Muhammad Maaz, Mohamed bin Zayed University of AI ak premye otè ki kontribye egalman;

(3) Sahal Shaji, Mohamed bin Zayed University of AI;

(4) Abdelrahman Shaker, Mohamed bin Zayed University of AI;

(5) Salman Khan, Mohamed bin Zayed University of AI ak Inivèsite Nasyonal Ostralyen;

(6) Hisham Cholakkal, Mohamed bin Zayed University of AI;

(7) Rao M. Anwer, Mohamed bin Zayed University of AI ak Aalto University;

(8) Eric Xing, Mohamed bin Zayed University of AI ak Carnegie Mellon University;

(9) Ming-Hsuan Yang, University of California - Merced ak Google Research;

(10) Fahad S. Khan, Mohamed bin Zayed University of AI ak Linköping University.

Nòt Editè a: Sa a se Pati 1 nan 10 nan yon etid ki detaye devlopman nan yon modèl AI ki fèt pou dekri imaj itilizatè yo. Li rès ki anba a.

Tablo Lyen yo


Materyèl siplemantè (pati 1)


Materyèl siplemantè (Pati 2)

Résumé

Gwo Modèl Multimodal (LMM) pwolonje Gwo Modèl Lang nan domèn vizyon an. Premye LMM yo te itilize imaj holistic ak envit tèks pou jenere repons tèks ki pa gen baz. Dènyèman, yo te itilize LMM nan nivo rejyon an pou jenere repons ki baze sou vizyèlman. Sepandan, yo limite a sèlman refere li a yon sèl kategori objè alafwa, mande pou itilizatè yo presize rejyon yo, oswa yo pa ka ofri dans objè pixel-ki gen bon konprann. Nan travay sa a, nou prezante Grounding LMM (GLaMM), premye modèl ki ka jenere repons langaj natirèl san pwoblèm ki mare ak mask segmentasyon objè ki koresponn lan. GLaMM pa sèlman baz objè ki parèt nan konvèsasyon yo, men li ase fleksib pou aksepte tou de envit tèks ak opsyon vizyèl (rejyon enterè) kòm opinyon. Sa a pèmèt itilizatè yo kominike avèk modèl la nan divès nivo granularite, tou de nan domèn tèks ak vizyèl. Akòz mank de referans estanda pou anviwònman an roman nan vizyèlman Grounded Conversation Generation (GCG), nou prezante yon pwotokòl evalyasyon konplè ak konvèsasyon ki baze sou baz nou yo. Travay GCG nou pwopoze a mande konsèp ki byen chita nan sèn natirèl nan yon gwo echèl. Pou sa ka fèt, nou pwopoze yon seri done Grounding-anything (GranD) ki gen anpil anotasyon lè l sèvi avèk tiyo anons otomatik nou pwopoze a ki gen 7.5M konsèp inik ki chita sou yon total 810M rejyon ki disponib ak mask segmentasyon. Anplis GCG, GLaMM tou fè efektivman sou plizyè travay en, pa egzanp, refere segmentation ekspresyon, imaj ak sous-nivo rejyon an ak konvèsasyon vizyon-lang.

1. Entwodiksyon

Alimantè pa onn AI jeneratif, Gwo Modèl Multimodal (LMMs) te parèt kòm yon avansman esansyèl, fè pon ki genyen ant vizyon ak travay lang [2]. Efò inisyal tankou [6, 8, 22, 29, 52, 61] demontre repons tèks efikas ki baze sou imaj opinyon. Malgre ke modèl sa yo sofistike, yo pa ka toujou fonde repons yo nan kontèks vizyèl la. Baz sa yo enpòtan anpil pou aplikasyon avanse tankou konpreyansyon vizyèl detaye, ajan entèaktif incorporée, ak manipilasyon kontni lokalize. Efò resan yo te kòmanse adrese limit sa a lè yo pèmèt modèl yo trete rejyon defini itilizatè yo espesifye atravè bwat limit [5, 31, 35, 36, 57].


Figi 1. Jenerasyon Konvèsasyon Grounded ak GLaMM. Modèl konvèsasyon multimodal nou an ka bay repons nan lang natirèl ki chita nan nivo pixel nan imaj opinyon an. Diferan nivo granularite yo montre nan baz pwodiksyon yo, pa egzanp, bagay (bilding, pye bwa), bagay (zèb, syèl, pave), ak pati objè (do-kay kòm yon pati nan bilding lan) ansanm ak atribi objè yo (kay blan, wouj). do-kay, gazon byen antretni) ak relasyon objè (zèb pwolonje nan pave a, syèl la sou bilding lan). LMM ki egziste deja, sous louvri (pa egzanp, LLaVa, miniGPT4, Shikra, Kosmos-2) ak sous fèmen (egzanp, GPT4-V, Bard), pa ofri kapasite konvèsasyon ki baze sou nivo pixel.


Kèk travay resan yo te eksplore jenerasyon repons tèks ki baze sou baz [5, 21, 35, 59] men yo pa bay baz detaye nan nivo pixel. Paralèl ak sa yo, efò yo te fè nan literati a segmantasyon refere a deskripsyon tèks nan tè nan imaj natirèl [21]. Sepandan, yo limite a baz yon sèl objè epi yo pa ka angaje yo nan konvèsasyon natirèl, aderan, kidonk mete restriksyon sou aplikasyon pratik yo nan travay entèaktif ki mande yon konpreyansyon pwofon nan tou de kontni vizyèl ak tèks. Pou adrese limit sa yo nan travay ki egziste deja, nou prezante Grounding LMM (GLaMM), ki an menm tan bay konpreyansyon pwofondè rejyon an, baz nivo pixel, ak kapasite konvèsasyon atravè yon apwòch fòmasyon bout-a-fen (gade Fig. 1 ak Tab. 1).


Pou abòde mank de referans pou konvèsasyon ki baze sou vizyèlman, nou prezante nouvo travay Grounded Conversation Generation (GCG). Travay GCG la gen pou objaktif pou pwodui repons langaj natirèl ki melanje ak mask segmentasyon objè yo. Travay difisil sa a inifye plizyè travay ki egziste deja nan vizyon òdinatè ki tipikman trete an izolasyon, sa vle di, refere segmantasyon ekspresyon, imaj ak soustit nan nivo rejyon an, baz fraz, ak konvèsasyon vizyon-lang. Kidonk, modèl inifye nou an ak seri done preformasyon yo pwopoze yo ka transfere efektivman nan plizyè travay en (refere segmantasyon ekspresyon, sous-titrage nan nivo rejyon an, tit imaj, ak QA nan style konvèsasyon). Nou prezante GLaMM kòm premye modèl ki fèt espesyalman pou travay difisil sa a. Kontrèman ak travay anvan yo, GLaMM ka travay ak tou de envit tèks ak vizyèl epi li ka jenere rezilta vizyèlman baz, kidonk ofri yon eksperyans itilizatè versatile.


Konpreyansyon detaye nan nivo rejyon an mande pou pwosesis travayè pou kolekte gwo echèl anotasyon pou rejyon imaj yo. Nou pwopoze yon kanalizasyon otomatik pou anote gwo echèl Grounding-anything Dataset (GranD) pou soulaje efò manyèl etikèt la. Swiv tiyo otomatik la ak etap verifikasyon dedye, GranD gen ladan 7.5M konsèp inik ki ancrage nan 810M rejyon yo, yo chak ak yon mask segmentasyon. Sèvi ak vizyon dènye modèl ak langaj, seri done a anote imaj SAM [18] atravè yon konplo yerarchize milti-nivo ki amelyore kalite anotasyon. Avèk 11M imaj, 84M ekspresyon ki refere yo, ak 33M soustit ki baze sou baz, GranD etabli yon nouvo referans nan konplè. Anplis de seri done ki pwodui otomatikman pou GCG a, nou bay premye seri done ki gen bon jan kalite pou konvèsasyon ki baze sou baz yo jwenn lè nou chanje seri done ki deja egziste yo te fè annote manyèlman [16, 37, 49] pou GCG lè l sèvi avèk GPT-4 [34] aprantisaj incontext. Nou refere a bon jan kalite done yo kòm GranDf , ki vle di konvnab li pou ajisteman.


Travay nou an gen twa kontribisyon prensipal:


• Nou prezante GLaMM, premye modèl ki kapab jenere repons lang natirèl san pwoblèm entegre ak mask segmentasyon objè. Kontrèman ak modèl ki deja egziste, GLaMM akomode envit tèks ak vizyèl, fasilite entèraksyon itilizatè multimodal amelyore.


• Lè nou rekonèt mank de referans estanda pou konvèsasyon ki baze sou vizyèlman, nou pwopoze nouvo travay Grounded Conversation Generation (GCG). Nou tou entwodui yon pwotokòl evalyasyon konplè pou mezire efikasite nan modèl pou GCG ki inifye plizyè travay izole, ranpli yon espas enpòtan nan literati a.


• Pou fasilite fòmasyon ak evalyasyon modèl, nou kreye Grounding-anything Dataset (GranD), yon seri done gwo echèl ki gen anpil anote. Devlope lè l sèvi avèk yon tiyo anotasyon otomatik ak kritè verifikasyon, li anglobe 7.5M konsèp inik ki chita nan 810M rejyon yo. Anplis de sa, nou pwopoze GranDf , yon seri done kalite siperyè ki fèt klèman pou ajisteman travay GCG, lè nou reutilize ansanm done ki egziste deja yo.


Papye sa a disponib sou arxiv anba lisans CC BY 4.0 DEED.