Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.   Yazarlar:  (1) Jiwan Chung, MIR Lab Yonsei Üniversitesi (   ); https://jiwanchung.github.io/  (2) Youngjae Yu, MIR Lab Yonsei Üniversitesi (   ). https://jiwanchung.github.io/  Bağlantı Tablosu   Özet ve Giriş   Yöntem   Deneyler   Alakalı iş   Çözüm   Sınırlamalar ve Referanslar   A. Deney Detayları   B. İstem Örnekleri  Soyut  GPT-3 gibi büyük dil modelleri, göreve özel eğitim verileri gerektirmeden yeni görevlere uyum sağlama konusunda etkileyici bir yetenek sergilemiştir. Bu yetenek, görev çeşitliliğinin çok fazla olduğu ancak mevcut denetim verilerinin küçük olduğu, anlatısal soru yanıtlama gibi ortamlarda özellikle etkili olmuştur. Bu çalışmada, bu tür dil modellerinin, sıfır atış akıl yürütme yeteneklerini, hikayenin önemli bir rol oynadığı drama, film ve animasyon gibi multimedya içeriklerindeki uzun, çok modlu anlatılara genişletip genişletemeyeceğini araştırıyoruz. Önce videonun anlatımını kısa bir olay örgüsüyle özetleyen ve ardından videonun soruyla ilgili bölümlerini araştıran, anlatımlı video QA'sı için bir çerçeve olan Uzun Hikâye Kısa'yı öneriyoruz. Ayrıca CLIPCheck ile görsel eşleşmeyi geliştirmeyi de öneriyoruz. Modelimiz, en son teknolojiye sahip denetimli modellerden büyük bir farkla daha iyi performans göstererek, uzun videolar için sıfır atışlı QA potansiyelini vurgulamaktadır.  1. Giriş  Yeni video QA modelleri, veri ve ek açıklamalardaki sınırlama nedeniyle uzun video anlatımlı QA görevlerini [2, 13, 27] (yani filmler, dramalar ve YouTube web videoları) gerçekleştirmede zorluklarla karşı karşıyadır. Bu durum kısa video klipte ağırlıklı olarak görsel soruların yanıtlanmasının ötesinde uzun video anlatımlarının anlaşılamamasına neden olmaktadır [16, 17, 30]. Bu kadar uzun video QA'larının boyutları, modelleri bir video içindeki karmaşık anlatı yapılarını tam olarak kavrayacak şekilde eğitmek için yetersizdir ve bu da optimumun altında performanslara neden olur. [10], denetlenen modellerin anlatı bağlamından çok sorudaki dil önyargılarına dayandığını göstermektedir: herhangi bir video bağlamını görmeden bile benzer performans elde edebilirler. Bu, küçük göreve özel denetimin ötesinde çok modlu muhakeme yeteneğinin gerekliliğini vurgulamaktadır.  Düşük genellemenin neden olduğu zorluğun üstesinden gelmek için, önceden eğitilmiş Büyük Dil Modellerini (LLM'ler) kullanan sıfır atış yaklaşımı, karmaşık QA görevlerini [32] ve metin bağlamı özetlemeyi [8, 37] ele almak için etkili bir alternatif olabilir. Ancak bu tür yüksek lisansların anlatı kalite güvencesi yeteneği video alanına aktarılabilir mi?   Şekil 1'de gösterilen, video klipleri Sokratik Modelden esinlenerek metin senaryo formatına çeviren Uzun Hikâye Kısa'yı (LSS) öneriyoruz [35]. GPT-3'ü [1] kullanarak, önce uzun videoyu bir grafik listesi halinde özetliyoruz ve ardından verilen soruyu çözmek için hem oluşturulan özette hem de ham video bağlamında geziniyoruz. Sıfır atış yöntemimiz, MovieQA ve DramaQA veri setinde en son teknolojiye sahip denetimli yöntemlerden daha iyi sonuçlar verir. Ayrıca, GPT-3 tarafından sağlanan akıl yürütme sonuçlarının görsel hizalamasını geliştirmek için bir görsel metin eşleştirme yöntemi olan CLIPCheck'i öneriyoruz. Özetlemek gerekirse, ana katkılarımız üç yönlüdür:  Uzun bir video anlatımını bir olay örgüsü listesiyle özetleyen ve soruyla ilgili alt konuyu getiren bir çerçeve olan LSS'yi sunuyoruz.  Görsel yönlendirmede CLIP tabanlı eşleştirme yoluyla görsel hizalama gücünü dikkate almanın önemini gösteriyoruz.  Sıfır atış yaklaşımımız, MovieQA [27] ve DramaQA [2]'de denetlenen temel çizgilerden daha iyi performans gösteren son teknoloji ürünü performansa ulaşıyor.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Bu ses hikayenin orijinal dilinde üretilmiştir!

Uzun Video Soru Cevaplama için Özetle-Sonra-Arama Yöntemi: Özet ve Giriş

About Author

YORUMLAR

ETİKETLERİ ASIN

BU YAZI

Related Stories

Dijital Göçebeler Dinleyin: Tayland'ın Yeni DTV Vizesi Hakkında Bilmeniz Gerekenler

State of the Noonion: Building, Selling and Storytelling @ HackerNoon

Görünmeyen Katmanlar: Kullanıcı Görüşmeleri Neden Yeri doldurulamaz bir Varlıktır?

Yapay Zekanın Gücünü Ortaya Çıkarıyoruz. En Son Tekniklerin Sistematik Bir İncelemesi: Özet ve Giriş

Dijital Göçebeler Dinleyin: Tayland'ın Yeni DTV Vizesi Hakkında Bilmeniz Gerekenler

State of the Noonion: Building, Selling and Storytelling @ HackerNoon

Görünmeyen Katmanlar: Kullanıcı Görüşmeleri Neden Yeri doldurulamaz bir Varlıktır?

Yapay Zekanın Gücünü Ortaya Çıkarıyoruz. En Son Tekniklerin Sistematik Bir İncelemesi: Özet ve Giriş

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps