Qillqaqkuna:  (1) Shehan Munasinghe, Mohamed bin Zayed Universidad de AI hinaspa Igual Yanapakuy;  (2) Rusiru Thushara, Mohamed bin Zayed Universidad de AI y Igual Contribución;  (3) Muhammad Maaz, Mohamed bin Zayed AI Yachay Sunturnin;  (4) Hanoona Abdul Rasheed, Mohamed bin Zayed AI hatun yachay wasimanta;  (5) Salman Khan, Mohamed bin Zayed AI Hatun Yachay Suntur, Australia Mamallaqta Hatun Yachay Suntur;  (6) Mubarak Shah, Central Florida hatun yachay wasimanta;  (7) Fahad Khan, Mohamed bin Zayed AI Hatun Yachay Suntur, Linköping Hatun Yachay Suntur.   Editorpa willakuynin: Kayqa 1 kaq rakin 10 kaqmanta huk yachaymanta, videokunapaq aswan yachaysapa AI modelo ruwaymanta sut'inchaspa. Puchuqninta uraypi ñawinchay.  Tabla de Enlaces   Resumen y 1 Riqsichikuy   2. Rimanakuq Llamkaykuna  PG-Video-LLaVA nisqa   3.1. Tukuy qhawariy   3.2. Arquitectura  Experimentokuna   4.1. Implementación nisqamanta willakuy   4.2. Aswan kallpasapa Base   4.3. Videokunapi allpaman churay espacial   4.4. Cero-Disparo Rikuna Tapuy Kutichiy   5. Tukuchiy hinaspa Rimanakuna   Material Suplementario nisqa   A. Modalidad de Audio nisqa Huñunakuy   B. Rikuna allpaman churay: Evaluación Cuantitativa   C. Resultados Cualitativos para el Tierra Visual nisqapaq   D. Videopi rimanakuypa ruwayninmanta chaninchaykuna cuantitativakuna  Mana riqsisqa   Imahinapi ruwasqa Hatun Multimodal Modelokuna (LMMs) videokunaman mastariyqa sasachakuymi video willakuypa inherente complejidadninrayku. Kay qhipa ruwaykuna siq'ipi ruwasqa LMMs videokunaman mast'ariyqa icha mana allpa ruway atiyniyuqchu (kayhina, VideoChat, Video-ChatGPT, Video-LLaMA) utaq mana uyarina-señalkunata aswan video hamut'anapaq llamk'achinkuchu (kayhina, Video-ChatGPT). Kay ch'usaq kaqkunata allichaspa, PG-Video-LLaVA kaqmanta yuyaychayku, ñawpaq LMM pixellevel allpachay atiyniyuq, uyarina señalkunata tinkispa qillqaman transcribispa video-contexto hamut'ayta qhapaqyachinapaq. Marcoyku huk qatiq mana estante kaqmanta chaymanta huk musuq allpachay módulo llamk'achin, chaymanta videokunapi objetokuna espacialmente localizayta atichin user kamachiykunata qatispa. PG-Video-LLaVA chaninchayku video-pi ruwasqa generativo chaymanta tapuy-kutichiy benchmarks kaqwan chaymanta musuq benchmarks riqsichiyku específicamente ruwasqa videokunapi prompt-based objeto allpa ruway ruwayta tupunapaq. Astawan, Vicuna llamk'achiyta GPT-3.5 kaqmanta yuyaychayku, VideoChatGPT kaqpi llamk'achisqa hina, video-nisqa rimanakuy benchmarking kaqpaq, ruwasqakuna mirachiy atiyta qhawaspa mayqinchus huk llakikuy GPT-3.5 kaqpa propiedad kaqninwan. Marcoyku SoTA siq'ipi ruwasqa LLaVA modelo kaqpi ruwan chaymanta ventajankunata video dominio kaqman mast'arikun, video kaqpi rimanakuypi chaymanta allpapi ruwanakunapi prometedor gananciakuna quypi.  1. Riqsichikuy  Kay qhipa kallpachakuykuna Hatun Modelos Multimodales (LMMs) kaqpi, GPT-4V kaqwan umallisqa [25], siq’ikunamanta sut’i rimaykunata saqin ichaqa generalmente mana allintachu videokunaman escalanku. Video datokuna hatun kayninqa huk modalidadkunamanta aswan karuman escalan hatun volúmen kaqninrayku social chaymanta internet medios kaqpi. Chaymantapas, LMMkuna videokunaman mastariyqa sasachakuymi, sasachakuyniyuq dinámica nisqa kasqanrayku, unay contexto temporal nisqawan, chaymi allinta entiendena. Chayllaraq kaptinpas   enfoques video-LMMs kaqman kayhina VideoChat [15], Video-LLaMA [45], chaymanta Video-ChatGPT [22] rikuchirqanku atiykunata video hamut’aypi chaymanta rimanakuypi, paykuna mana kankuchu chay crucial ruwayta rikuy allpaman churaymanta. Videokunapi rikuy allpachayqa LMM kutichiykunata video yaykuy ukhupi específico objetokunaman tinkiyta munan. Kay ch'usaq kaqta allichaspa, PG-Video-LLaVA riqsichiyku, ñawpaq video-LMM atiq localizacionta objetokuna rikuriq LMM kutichiykunapi. Kay ruwayqa aswan allin mana allichay atiyman pusakun chaymanta video contenidomanta ukhu hamut'ayta rikuchin.  PG-Video-LLaVA kaqpi, video willakuypa sapalla sasachakuyninkunata allichayku. Modelo ruwasqa kachkan aswan pisi video clips ukhupi imakuna qatinanpaq chaymanta sapa kuti cámara qhawaykunata waqaychan, chiqan rikuy allpaman churayta atikun escenakuna chaymanta kuyuykunapi. Kay qatipayqa segmentos espacio-temporal nisqakunatam chiqapmanta rimanapaq elementokunawan tinkuchin, chaywanmi modelopa contextual entiendeyninta kallpanchan. PG-VideoLLaVA kaqmanta huk riqsisqa ruwayqa modular ruwayninmi, kunan kaq allpachay módulos kaqwan mana sasa tinkiyta atikun chaymanta flexibilidad hamuq allinchaykunaman rikuy allpachay tecnologia kaqpi tupachiypaq. Astawan, PG-Video-LLaVA atiyninkunata qhapaqyachin uyarina contextota churaspa. Kayta aypan video audiota aprovechaspa huk formapi LLM entiendenapaq, chaymi aswan allin situacionkunapi maypichus uyariy willakuy rimanakuypaq ancha chaniyuq. Kay churayqa modelop hamut'ayninta mast'arichin, aswan versatil video contenidota t'ikraypi.  Chaymanta, kay llamk’ayqa huk allinchasqa marcota riqsichin videopi ruwasqa rimanakuy modelokuna benchmarking kaqpaq, ñawpaq enfoques kaqmanta pivotaspa [22] mayqinkunachus aswanta chaninchaypaq propiedad GPT-3.5-Turbo modelota llamk’achirqanku. GPT-3.5-Turbo nisqa mayk’aqllapas tikrakuykuna atikusqanmanta, chaymanta mana sut’i kayniyuq kasqanrayku, wisq’asqa fuente kasqanrayku, sasachakuykunata rikuchin confiabilidad nisqamanta, mirachiy atiymanta ima. Kayta allichanapaq, Vicuna llamk'achiyta yuyaychayku, huk LLM kichasqa qullqiyuq benchmarking kaqpaq. Kay tikrayqa manam mirachiy atiyllatachu kallpanchan, aswanqa chaninchay ruwaypipas chuya kaynintam allinta ruwan. Chaninchayku PG-Video-LLaVA allinchasqa benchmarksniykuwan chaymanta rikuchiyku reparaypaq allinchakuykunata kunan kaq video rimanakuy modelokunamanta VideoChatGPT [22] chaymanta Video-LLaMA [45] hina mana allpayuq rimanakuykunapi, estado-de-arte (SoTA) ruwayta aypaspa.  Kay llamkaypa hatun yanapakuyninkunaqa kaykunam:  • PG-Video-LLaVA, ñawpaq video-based LMM pixel-nivel allpaman churay atiyniyuq, huk modular diseño kaqwan aswan allin flexibilidad kaqpaq yuyaychayku.  • Audio contexto nisqa churaspa, PG-Video-LLaVA anchata kallpachan video contenidomanta hamut’ayninta, aswan tukuypaq hinallataq allinta tupan escenariokunapaq maypichus uyarinapaq señal video hamut’anapaq ancha chaniyuq (kayhina, rimanakuykuna chaymanta rimanakuykuna, willakuy videokuna, hukkunapas) .  • Videopi rimanakuy modelokunapaq allinchasqa benchmarks cuantitativos nisqakunata riqsichiyku. Benchmarksniykuqa kichasqa qullqiyuq Vicuna LLM kaqwan llamk'anku, aswan allin mirachiy atiy chaymanta sut'i kananpaq. Hinallataq, videopi ruwasqa rimanakuy modelokuna allpaman churay atiyninkunata chaninchanapaq benchmarks nisqakunata yuyaychayku.  Kay qillqasqaqa   CC BY 4.0 DEED nisqa licenciawan. arxiv nisqapim kachkan

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AutoEncoder.tech

Research & publications on Auto Encoders, revolutionizing data compression and feature learning techniques.

Auto Encoder's blog

¡Kay uyariyqa willakuypa qallariy siminpi ruwasqam kachkan!

Emiratos Árabes Unidos Yachaysapakuna ninku Musuq AI Modelo Videokunata qhawayta atin, Audiota entiendeyta atin

About Author

IMAYNA RUWAYKUNA

HANG TAGS

KAY ARTÍCULO IMAYNA RUWAYPI RIQSICHISQAN

Related Stories

The Easiest Way to Add a Digital Signature to a PDF

The Emperor Survives

Reseller Spam Beggar Exposed: QuakeServices and the Fake Newsbreak Employee

3 HackerNoon Features You Need to Take Advantage of for Your Next Article

The Easiest Way to Add a Digital Signature to a PDF

The Emperor Survives

Reseller Spam Beggar Exposed: QuakeServices and the Fake Newsbreak Employee

3 HackerNoon Features You Need to Take Advantage of for Your Next Article

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps