Зохиогчид:
(1) Хануна Рашид, Мохамед бин Заедын хиймэл оюун ухааны их сургууль, мөн адил хувь нэмэр оруулсан анхны зохиолчид;
(2) Мухаммед Мааз, Мохамед бин Зайед AI-ийн их сургууль, мөн адил хувь нэмэр оруулсан анхны зохиолчид;
(3) Сахал Шажи, Мохамед бин Заедын AI-ийн их сургууль;
(4) Абдельрахман Шакер, Мохамед бин Зайедын AI их сургууль;
(5) Салман Хан, Мохамед бин Заедын хиймэл оюун ухааны их сургууль, Австралийн үндэсний их сургууль;
(6) Хишам Чолаккал, Мохамед бин Зайедын AI их сургууль;
(7) Рао М. Анвер, Мохамед бин Зайедын AI их сургууль, Аалто их сургууль;
(8) Эрик Синг, Мохамед бин Зайедын хиймэл оюун ухааны их сургууль, Карнеги Меллоны их сургууль;
(9) Мин-Хуан Ян, Калифорнийн их сургууль - Merced болон Google Research;
(10) Фахад С.Хан, Мохамед бин Зайедын хиймэл оюун ухааны их сургууль, Линкөпингийн их сургууль.
Редакторын тэмдэглэл: Энэ бол хэрэглэгчдэд зураг дүрслэх зорилготой хиймэл оюун ухааны загварыг боловсруулах талаар дэлгэрэнгүй хийсэн судалгааны 10-ын 1-р хэсэг юм. Үлдсэнийг нь доороос уншина уу.
Нэмэлт материал (1-р хэсэг)
Нэмэлт материал (2-р хэсэг)
Том мултимодал загварууд (LMMs) нь том хэлний загваруудыг алсын харааны хүрээнд өргөжүүлдэг. Анхны LMM-ууд үндэслэлгүй текстийн хариуг үүсгэхийн тулд цогц зураг, текстийн сануулгыг ашигласан. Сүүлийн үед бүс нутгийн түвшний LMM-ийг харааны үндэслэлтэй хариултуудыг бий болгоход ашиглаж байна. Гэсэн хэдий ч тэдгээр нь нэг удаад зөвхөн нэг объектын ангилалд хамаарахаар хязгаарлагддаг, хэрэглэгчдэд бүс нутгийг зааж өгөхийг шаарддаг эсвэл нягт пикселийн хэмжээтэй объектын газардуулга санал болгож чадахгүй. Энэ ажилд бид харгалзах объектын сегментчиллийн маскуудтай уялдуулан байгалийн хэлээр хариу өгөх боломжтой анхны загвар болох Grounding LMM (GLaMM) танилцуулж байна. GLaMM нь харилцан ярианд гарч буй объектуудыг үндэслээд зогсохгүй текст болон нэмэлт визуал сануулгыг (сонирхлын бүс) оролт болгон хүлээн авахад хангалттай уян хатан байдаг. Энэ нь хэрэглэгчдэд текст болон визуал талбарт янз бүрийн түвшний нарийн түвшний загвартай харилцах боломжийг олгодог. Visually Grounded Conversation Generation (GCG)-ийн шинэ тохиргоонд стандарт жишиг шалгуур байхгүйн улмаас бид өөрсдийн бэлтгэсэн үндэслэлтэй харилцан яриануудын цогц үнэлгээний протоколыг нэвтрүүлж байна. Бидний санал болгож буй GCG даалгавар нь өргөн цар хүрээтэй байгалийн үзэгдлүүд дээр нягт үндэслэлтэй ойлголтуудыг шаарддаг. Үүний тулд бид сегментчлэлийн масктай нийт 810 сая бүсэд суурилсан 7.5 сая өвөрмөц ойлголтыг багтаасан автоматжуулсан тэмдэглэгээний шугамыг ашиглан нягт тэмдэглэгээтэй Газардуулга-ямар нэгэн мэдээллийн багцыг (GranD) санал болгож байна. GCG-ээс гадна GLaMM нь илэрхийлэлийн сегментчилэл, зураг болон бүсийн түвшний тайлбар, харааны хэлний харилцан яриа зэрэг хэд хэдэн даалгавруудыг үр дүнтэй гүйцэтгэдэг.
Хиймэл оюун ухааны долгионоор тэжээгддэг Large Multimodal Models (LMMs) нь алсын хараа болон хэлний даалгавруудын хоорондын зөрүүг арилгах гол дэвшил болж гарч ирсэн [2]. [6, 8, 22, 29, 52, 61] зэрэг эхний оролдлогууд нь оруулсан зураг дээр үндэслэн текстийн үр дүнтэй хариултуудыг харуулдаг. Эдгээр загварууд нь боловсронгуй боловч харааны контекст дээр өөрсдийн хариултыг үндэслэж чадахгүй хэвээр байна. Ийм газардуулга нь нарийвчилсан визуал ойлголт, интерактив бие даасан агентууд, нутагшуулсан контентыг удирдах зэрэг дэвшилтэт програмуудад маш чухал юм. Загваруудад хязгаарлах хайрцгаар заасан хэрэглэгчийн тодорхойлсон бүс нутгийг боловсруулах боломжийг олгох замаар энэхүү хязгаарлалтыг арилгахын тулд сүүлийн үеийн хүчин чармайлтууд эхэлсэн [5, 31, 35, 36, 57].
Сүүлийн үеийн цөөн хэдэн бүтээлүүд үндэслэлтэй текстийн хариу үүсгэхийг судалсан [5, 21, 35, 59] боловч пикселийн түвшний нарийвчилсан үндэслэлийг өгөөгүй байна. Эдгээртэй зэрэгцэн байгалийн зураг дээрх үндсэн текстийн тайлбарыг сегментчилэх ном зохиолд хүчин чармайлт гаргасан [21]. Гэсэн хэдий ч тэдгээр нь зөвхөн нэг объектыг газардуулах замаар хязгаарлагддаг бөгөөд байгалийн, уялдаатай харилцан ярианд оролцох боломжгүй тул визуал болон текстийн агуулгыг гүнзгий ойлгохыг шаарддаг интерактив ажлуудад практик ашиглах боломжийг хязгаарладаг. Одоо байгаа ажлын эдгээр хязгаарлалтыг арилгахын тулд бид Grounding LMM (GLaMM)-ийг нэвтрүүлж, төгсгөл хоорондын сургалтын арга барилаар дамжуулан бүс нутгийн гүн гүнзгий ойлголт, пикселийн түвшний үндэслэл, харилцан ярианы чадварыг нэгэн зэрэг хангадаг (Зураг 1 ба Табыг үзнэ үү. 1).
Харааны үндэслэлтэй харилцан ярианы жишиг шалгуур байхгүй байгааг арилгахын тулд бид үндэслэлтэй харилцан яриа үүсгэх (GCG) шинэ даалгаврыг танилцуулж байна. GCG даалгавар нь объектын сегментчиллийн масктай холилдсон байгалийн хэлний хариултуудыг гаргах зорилготой юм. Энэхүү хүнд хэцүү даалгавар нь компьютерийн харааны хэд хэдэн одоо байгаа ажлуудыг нэгтгэдэг бөгөөд эдгээрийг ихэвчлэн тусад нь авч үздэг, өөрөөр хэлбэл илэрхийлэлийн сегментчилэл, зураг болон бүсийн түвшний тайлбар, хэллэгийн үндэслэл, харааны хэл яриа зэрэгтэй холбоотой байдаг. Тиймээс бидний нэгдсэн загвар болон санал болгож буй бэлтгэлийн өмнөх өгөгдлийн багц нь хэд хэдэн даалгавруудыг (илэрхийлэл сегментчилэл, бүсийн түвшний тайлбар, зургийн тайлбар, харилцан ярианы хэв маягийн QA) үр дүнтэй шилжүүлэх боломжтой. Бид GLaMM-ийг энэхүү хэцүү даалгаварт тусгайлан зориулсан анхны загвар болгон танилцуулж байна. Өмнөх ажлуудаас ялгаатай нь GLaMM нь текст болон визуал дохионы аль алинтай нь ажиллах боломжтой бөгөөд визуал үндэслэлтэй гаралтыг үүсгэж, улмаар хэрэглэгчийн олон талын туршлагыг санал болгодог.
Бүс нутгийн түвшний нарийвчилсан ойлголт нь зургийн бүс нутгуудад зориулж том хэмжээний тэмдэглэгээ цуглуулах шаргуу үйл явцыг шаарддаг. Гараар шошголох ажлыг хөнгөвчлөхийн тулд бид том хэмжээний Газардуулга-ямар нэгэн мэдээллийн багцад (GranD) тайлбар хийх автомат дамжуулах хоолойг санал болгож байна. Баталгаажуулах тусгай алхмууд бүхий автоматжуулсан дамжуулах хоолойг ашиглан GrandD нь 810 сая бүс нутагт бэхлэгдсэн 7.5 сая өвөрмөц үзэл баримтлалыг бүрдүүлдэг бөгөөд тус бүр нь сегментчилсэн масктай. Хамгийн сүүлийн үеийн алсын хараа, хэлний загваруудыг ашиглан өгөгдлийн багц нь тайлбарын чанарыг сайжруулдаг олон түвшний шаталсан схемээр SAM [18] зургийг тэмдэглэдэг. 11 сая зураг, 84 сая лавлагаа илэрхийлэл, 33 сая үндэслэлтэй тайлбар бүхий GranD нь иж бүрэн байдлын шинэ жишиг тогтоодог. Бид GCG-д автоматаар үүсгэгдсэн өгөгдлийн багцаас гадна GPT-4 [34]-ийг ашиглан GCG-д зориулсан одоо байгаа гараар тэмдэглэсэн өгөгдлийн багцыг [16, 37, 49] шинэчлэн сайжруулснаар олж авсан үндэслэлтэй харилцан ярианд зориулсан өндөр чанарын анхны өгөгдлийн багцыг хангадаг. Бид өндөр чанартай өгөгдлийн багцыг GranDf гэж нэрлэдэг бөгөөд энэ нь нарийн тааруулахад тохиромжтой гэдгийг илэрхийлдэг.
Бидний ажилд гурван үндсэн хувь нэмэр оруулсан:
• Бид GLaMM-ийг танилцуулж байна, энэ нь объектын сегментчиллийн маскуудтай уялдуулан байгалийн хэлээр хариу өгөх чадвартай анхны загвар юм. Одоо байгаа загваруудаас ялгаатай нь GLaMM нь текст болон визуал сануулгыг багтааж, олон талт хэрэглэгчийн харилцан үйлчлэлийг сайжруулдаг.
• Харааны үндэслэлтэй харилцан ярианд стандартчилагдсан жишиг шалгуур байхгүй байгааг бид хүлээн зөвшөөрч, шинэ үндэслэлтэй яриа үүсгэх (GCG) ажлыг санал болгож байна. Мөн бид уран зохиолын томоохон цоорхойг нөхөж, олон тусгаарлагдсан ажлыг нэгтгэсэн GCG-ийн загваруудын үр нөлөөг хэмжих цогц үнэлгээний протоколыг нэвтрүүлж байна.
• Загварын сургалт, үнэлгээг хөнгөвчлөхийн тулд бид Grounding-anything Dataset (GranD) хэмээх том хэмжээний нягт тэмдэглэгээтэй өгөгдлийн багцыг бий болгодог. Автомат тэмдэглэгээ дамжуулах хоолой, баталгаажуулах шалгуурыг ашиглан боловсруулсан бөгөөд энэ нь 810 сая бүс нутагт суурилсан 7.5 сая өвөрмөц үзэл баримтлалыг багтаасан болно. Нэмж дурдахад, бид одоо байгаа нээлттэй эх сурвалжийн өгөгдлийн багцыг өөрчилснөөр GCG даалгаврыг нарийн тааруулахад зориулагдсан өндөр чанартай өгөгдлийн багц болох GranDf-ийг санал болгож байна.
Энэхүү баримт бичгийг CC BY 4.0 DEED лицензийн дагуу архиваас авах боломжтой .