Автори:
(1) Хануна Рашид, Универзитетот за вештачка интелигенција Мохамед бин Зајед и првите автори кои подеднакво придонесуваат;
(2) Мухамед Мааз, Универзитетот на вештачка интелигенција Мохамед бин Зајед и првите автори кои подеднакво придонесуваат;
(3) Сахал Шаџи, Универзитетот Мохамед бин Зајед на АИ;
(4) Абделрахман Шакер, Универзитетот Мохамед бин Зајед на АИ;
(5) Салман Кан, Универзитетот Мохамед бин Зајед на АИ и Австралискиот национален универзитет;
(6) Хишам Чолаккал, Универзитетот Мохамед бин Зајед на АИ;
(7) Рао М. Анвер, Универзитетот Мохамед бин Зајед на АИ и Универзитетот Алто;
(8) Ерик Ксинг, Универзитетот за вештачка интелигенција Мохамед бин Зајед и Универзитетот Карнеги Мелон;
(9) Минг-Хсуан Јанг, Универзитет во Калифорнија - Merced и Google Research;
(10) Фахад С. Кан, Универзитетот за вештачка интелигенција Мохамед бин Зајед и Универзитетот Линкопинг.
Забелешка на уредникот: Ова е дел 1 од 10 од студија која детално го објаснува развојот на модел на вештачка интелигенција кој е дизајниран да ги опишува сликите на корисниците. Останатото прочитајте го подолу.
Дополнителен материјал (Дел 1)
Дополнителен материјал (Дел 2)
Големите мултимодални модели (LMM) ги прошируваат големите јазични модели до доменот на видот. Почетните LMM користеа холистички слики и текстуални поттикнувања за да генерираат неосновани текстуални одговори. Неодамна, LMM на ниво на регион се користат за генерирање на визуелно втемелени одговори. Сепак, тие се ограничени само да се однесуваат на една категорија на објекти во исто време, бараат од корисниците да ги специфицираат регионите или не можат да понудат густо заземјување на објектот според пиксели. Во оваа работа, го претставуваме заземјувањето LMM (GLaMM), првиот модел кој може да генерира одговори на природен јазик беспрекорно испреплетени со соодветните маски за сегментација на објекти. GLaMM не само што ги зазема објектите што се појавуваат во разговорите, туку е доволно флексибилен за да ги прифати и текстуалните и опционалните визуелни потсетници (регион на интерес) како влез. Ова им овозможува на корисниците да комуницираат со моделот на различни нивоа на грануларност, и во текстуални и во визуелни домени. Поради недостаток на стандардни одредници за новото поставување на визуелно втемелено генерирање разговори (GCG), воведуваме сеопфатен протокол за евалуација со нашите курирани втемелени разговори. Нашата предложена задача GCG бара густо втемелени концепти во природни сцени во големи размери. За таа цел, предлагаме густо означено збир на податоци за заземјување-што било (GranD) со користење на нашиот предложен автоматизиран цевковод за прибелешки што опфаќа 7,5 милиони уникатни концепти втемелени во вкупно 810 милиони региони достапни со маски за сегментација. Покрај GCG, GLaMM, исто така, ефикасно извршува неколку задачи надолу, на пр., упатување на сегментација на изразување, титлови на ниво на слика и регион и разговори на јазик на видот.
Поттикнати од генеративниот бран на вештачка интелигенција, Големите мултимодални модели (LMM) се појавија како клучен напредок, премостувајќи го јазот помеѓу визијата и јазичните задачи [2]. Почетните напори како [6, 8, 22, 29, 52, 61] покажуваат ефективни текстуални одговори врз основа на влезните слики. Иако овие модели се софистицирани, тие сè уште не можат да ги засноваат своите одговори во визуелен контекст. Таквото заземјување е од клучно значење за напредните апликации како што се детално визуелно разбирање, интерактивни отелотворени агенти и локализирана манипулација со содржина. Неодамнешните напори започнаа да се решат ова ограничување со овозможување на моделите да обработуваат региони дефинирани од корисникот специфицирани преку кутии за ограничување [5, 31, 35, 36, 57].
Неколку неодамнешни дела го истражија генерирањето на заземјен текст [5, 21, 35, 59], но не обезбедуваат детални заземјувања на ниво на пиксели. Паралелно со нив, направени се напори во референтната литература за сегментација за да се заземат текстуалните описи во природни слики [21]. Сепак, тие се ограничени на заземјување на еден објект и не можат да се вклучат во природни, кохерентни разговори, со што се ограничува нивната практична применливост во интерактивни задачи кои бараат длабоко разбирање и на визуелната и на текстуалната содржина. За да се решат овие ограничувања на постојните дела, воведуваме заземјување LMM (GLaMM), кое истовремено обезбедува длабинско разбирање на регионот, заземјување на ниво на пиксели и способности за разговор преку пристап за обука од крај до крај (види Сл. 1 и Таб. 1).
За да го решиме недостатокот на одредници за визуелно втемелени разговори, ја воведуваме новата задача на генерирање на втемелени разговори (GCG). Задачата на GCG има за цел да произведе одговори на природен јазик, испреплетени со маски за сегментација на објекти. Оваа предизвикувачка задача обединува неколку постоечки задачи во компјутерската визија кои вообичаено се третираат изолирано, т.е. упатување на сегментација на изразот, титлови на ниво на слика и регион, заземјување фрази и разговори на јазик на видот. На тој начин, нашиот унифициран модел и предложената база на податоци за пред-тренинг може ефективно да се префрлат на неколку задачи надолу (се однесуваат на сегментација на изразување, натпис на ниво на регион, натпис на слики и QA во разговорен стил). Ви го претставуваме GLaMM како прв модел специјално дизајниран за оваа предизвикувачка задача. За разлика од претходните дела, GLaMM може да работи и со текстуални и со визуелни потсетници и може да генерира визуелно втемелени излези, нудејќи на тој начин разноврсно корисничко искуство.
Деталното разбирање на ниво на регион бара макотрпен процес на собирање прибелешки од големи размери за региони на слики. Предлагаме автоматизиран цевковод за давање прибелешки на множеството податоци за заземјување-што било (GranD) за да се олесни напорот за рачно етикетирање. Искористувајќи го автоматизираниот гасовод со посебни чекори за верификација, GranD содржи 7,5 милиони уникатни концепти закотвени во 810 милиони региони, секој со маска за сегментација. Користејќи најсовремени визии и јазични модели, базата на податоци ги забележува SAM [18] сликите преку хиерархиска шема на повеќе нивоа која го подобрува квалитетот на прибелешките. Со 11 милиони слики, 84 милиони референтни изрази и 33 милиони втемелени титлови, GranD поставува нов репер во сеопфатноста. Дополнително на автоматски генерираната база на податоци за GCG, ја обезбедуваме првата висококвалитетна база на податоци за заземјени разговори добиени со преработка на постојните рачно забележани збирки на податоци [16, 37, 49] за GCG со користење на GPT-4 [34] учење на инконтекст. Висококвалитетната база на податоци ја нарекуваме GranDf, што ја означува неговата соодветност за дотерување.
Нашата работа има три главни придонеси:
• Ви го претставуваме GLaMM, првиот модел способен да генерира одговори на природен јазик беспрекорно интегрирани со маски за сегментација на објекти. За разлика од постоечките модели, GLaMM прифаќа текстуални и визуелни инструкции, олеснувајќи ја подобрената мултимодална интеракција со корисниците.
• Препознавајќи го недостатокот на стандардизирани одредници за визуелно втемелени разговори, ја предлагаме новата задача за генерирање на втемелени разговори (GCG). Исто така, воведуваме сеопфатен протокол за евалуација за мерење на ефикасноста на моделите за GCG што обединува повеќе изолирани задачи, пополнувајќи значителна празнина во литературата.
• За да се олесни обуката и евалуацијата на моделот, ние создаваме збир на податоци за заземјување (GranD), густо означена база на податоци од големи размери. Развиен со користење на автоматска прибелешка и критериуми за верификација, тој опфаќа 7,5 милиони уникатни концепти втемелени во 810 милиони региони. Дополнително, предлагаме GranDf , висококвалитетна база на податоци експлицитно дизајнирана за дотерување на задачите на GCG, со пренаменување на постоечките збирки на податоци со отворен код.
Овој труд е достапен на arxiv под лиценца CC BY 4.0 DEED.