Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.
Yazarlar:
(1) Jiwan Chung, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ ).
Hem küresel anlatıyı hem de video anlatı QA'sı için ilgili ayrıntıları anlamak için özetleme ve ardından arama yöntemini kullanan Uzun Hikâye Kısa'yı tanıttık. Yaklaşımımız, QA bağlamının geniş olduğu ve uzun video QA'larda olduğu gibi, söz konusu QA'yı çözmek için bu bağlamla üst düzey bir etkileşimin gerekli olduğu durumlarda etkilidir. Ayrıca, CLIPCheck ile görsel hizalamayı sonradan kontrol ederek model tarafından oluşturulan yanıtın görsel temelini daha da geliştirmeyi öneriyoruz. Sıfır atış yöntemimiz, MovieQA ve DramaQA kıyaslamalarında denetimli son teknoloji yaklaşımları geliştirir. Kodu ve oluşturulan grafik verilerini kamuoyuna yayınlamayı planlıyoruz.
Bu çalışmanın ötesinde iki olası araştırma yönü vardır: Birincisi, karakterin yeniden tanımlanması ve ortak referans çözünürlüğü ile hikayeyle daha uyumlu görsel açıklamalar sağlamak, GPT-3'e göre girdi kalitesini artırır. İkincisi, küresel ve yerel bilgileri hiyerarşik bir şekilde birleştiren daha dinamik, çok atlamalı bir arama tasarlanabilir.