paint-brush
Uzun Video Soru Cevaplama için Özetle-Sonra-Arama Yöntemi: Yöntemile@kinetograph
107 okumalar

Uzun Video Soru Cevaplama için Özetle-Sonra-Arama Yöntemi: Yöntem

Çok uzun; Okumak

Bu makalede araştırmacılar, GPT-3'ü kullanarak sıfır çekimli video QA'yı, denetlenen modellerden daha iyi performans göstermeyi, anlatı özetlerinden ve görsel eşleştirmeden yararlanmayı araştırıyor.
featured image - Uzun Video Soru Cevaplama için Özetle-Sonra-Arama Yöntemi: Yöntem
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.

Yazarlar:

(1) Jiwan Chung, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ ).

Bağlantı Tablosu

2. Yöntem


Şekil 2: Ham video görüntülerinin indeksini oluşturan ve geri getiren, önerdiğimiz Uzun Hikâye Kısa (LSS) modelimizi gösteren niteliksel sonuç. Model, (i) oluşturulan Özetten ve (ii) alınan metin bağlamından nihai cevabı tahmin ettiğinde, CLIPCheck, sorunun nihai cevabını revize etmek için her adayın cevaplarını doğrular.

2.1. Arsa Oluşturma

2.2. Anlatı Arama

Özet anlatım ve soru göz önüne alındığında, uzun videodan soruyla ilgili nispeten kısa klibi almak istiyoruz. Dil modelleri, düzensiz ve çoğunlukla gürültülü, açık uçlu metinler üretir. Videonun tam kısmını almak için, modeli metin formundan ziyade olay örgüsünün çıktı indekslerine yönlendiriyoruz.



Oluşturulan indeksler, dil modellerinin açık uçlu yapısından dolayı hala gürültülü olabilir. Model metin biçiminde bir yanıt verdiğinde, oluşturulan cümleyle benzerliği belirtilen eşik α ≥ 0,5'in üzerinde olan olay örgüsü parçası adaylarını bulmak için rouge-l [19] puanını kullanırız.


2.3. Görsel Kontrol