paint-brush
Uzun Video Soru Cevaplama için Özetle-Sonra-Arama Yöntemi: Sonuçile@kinetograph
258 okumalar

Uzun Video Soru Cevaplama için Özetle-Sonra-Arama Yöntemi: Sonuç

Çok uzun; Okumak

Bu makalede araştırmacılar, GPT-3'ü kullanarak sıfır çekimli video QA'yı, denetlenen modellerden daha iyi performans göstermeyi, anlatı özetlerinden ve görsel eşleştirmeden yararlanmayı araştırıyor.
featured image - Uzun Video Soru Cevaplama için Özetle-Sonra-Arama Yöntemi: Sonuç
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.

Yazarlar:

(1) Jiwan Chung, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ ).

Bağlantı Tablosu

5. Sonuç

Hem küresel anlatıyı hem de video anlatı QA'sı için ilgili ayrıntıları anlamak için özetleme ve ardından arama yöntemini kullanan Uzun Hikâye Kısa'yı tanıttık. Yaklaşımımız, QA bağlamının geniş olduğu ve uzun video QA'larda olduğu gibi, söz konusu QA'yı çözmek için bu bağlamla üst düzey bir etkileşimin gerekli olduğu durumlarda etkilidir. Ayrıca, CLIPCheck ile görsel hizalamayı sonradan kontrol ederek model tarafından oluşturulan yanıtın görsel temelini daha da geliştirmeyi öneriyoruz. Sıfır atış yöntemimiz, MovieQA ve DramaQA kıyaslamalarında denetimli son teknoloji yaklaşımları geliştirir. Kodu ve oluşturulan grafik verilerini kamuoyuna yayınlamayı planlıyoruz.


Bu çalışmanın ötesinde iki olası araştırma yönü vardır: Birincisi, karakterin yeniden tanımlanması ve ortak referans çözünürlüğü ile hikayeyle daha uyumlu görsel açıklamalar sağlamak, GPT-3'e göre girdi kalitesini artırır. İkincisi, küresel ve yerel bilgileri hiyerarşik bir şekilde birleştiren daha dinamik, çok atlamalı bir arama tasarlanabilir.