paint-brush
Deney Ayrıntılarında Uzun Video Soru Cevapları İçin Özetle-Sonra-Arama Yöntemiile@kinetograph

Deney Ayrıntılarında Uzun Video Soru Cevapları İçin Özetle-Sonra-Arama Yöntemi

Çok uzun; Okumak

Bu makalede araştırmacılar, GPT-3'ü kullanarak sıfır çekimli video QA'yı, denetlenen modellerden daha iyi performans göstermeyi, anlatı özetlerinden ve görsel eşleştirmeden yararlanmayı araştırıyor.
featured image - Deney Ayrıntılarında Uzun Video Soru Cevapları İçin Özetle-Sonra-Arama Yöntemi
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.

Yazarlar:

(1) Jiwan Chung, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ ).

Bağlantı Tablosu

A. Deney Detayları

Hesaplamalı Bütçe. Uzun Hikaye Kısa, omurga olarak OpenAI API aracılığıyla GPT-3'ü (175B parametreleri) kullanır. Bir video segmentini özetlemeye yönelik ortalama bir istem yaklaşık 3000 jeton işlerken, bir QA istemi genellikle yaklaşık 4000 jeton alır. CLIPCheck için, CLIP özelliklerini çıkarıyoruz ve tek bir NVIDIA A6000 GPU kullanarak kosinüs benzerliğini hesaplıyoruz: MovieQA doğrulama bölümü için video karelerinin işlenmesi 0,5 saat sürüyor.


Hiperparametreler . Tüm hiperparametreler, tek bir eğitim örneğinin analiz edilmesiyle önceden tanımlanır. Anlatı araması için, GPT-3 tek bir dizin çıkarmadığında olay örgüsünü bulmak için cümle benzerliği eşiği α ≥ 0,5'i kullanırız. CLIPCheck'te ikili entropi eşiği E′ ≥ 0,4'ü kullanıyoruz. Yöntemimiz deterministik olduğu ve başlatma sırasında rastgeleliğe duyarlı olmadığı için her deneyi yalnızca bir kez çalıştırıyoruz.


Video Segmentasyon Şeması. Bu yazıda kullandığımız tüm veri kümeleri için önceden tanımlanmış bölüm sınırı açıklamaları bulunmaktadır. Ayrıca, önceden tanımlanmış sınırlarla bölümlere ayrılmış her klip üzerinde özetleme yaptığımız için tüm çizim parçaları sırayla hizalanmış klip bölümlerine sahiptir. Ayrıca, LSS'yi uygulamadan önce, 1. çok kısa olan, 2. hizalanmış görüntü çerçevesi olmayan veya 3. metin bağlamı olmayan klip bölümlerini, çizim özetlerini kullanarak klip bölümlerini alabildiğimizden emin olmak için filtreliyoruz.


Dış Kütüphaneler. GPT-3 dil modeline erişmek için OpenAI API kullanıyoruz. CLIP özellikleri Huggingface uygulamalarıyla hesaplanır (https://huggingface.co/docs/transformers/main/en/model_doc/clip).