paint-brush
Phương pháp tóm tắt rồi tìm kiếm cho chi tiết thử nghiệm trả lời câu hỏi video dàitừ tác giả@kinetograph

Phương pháp tóm tắt rồi tìm kiếm cho chi tiết thử nghiệm trả lời câu hỏi video dài

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu khám phá QA video không quay bằng cách sử dụng GPT-3, vượt trội so với các mô hình được giám sát, tận dụng các bản tóm tắt tường thuật và kết hợp hình ảnh.
featured image - Phương pháp tóm tắt rồi tìm kiếm cho chi tiết thử nghiệm trả lời câu hỏi video dài
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.

tác giả:

(1) Jiwan Chung, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ ).

Bảng liên kết

A. Chi tiết thử nghiệm

Ngân sách tính toán. Long Story Short sử dụng GPT-3 (tham số 175B) thông qua API OpenAI làm xương sống. Một lời nhắc trung bình để tóm tắt một phân đoạn video xử lý ∼ 3000 mã thông báo, trong khi lời nhắc QA thường chiếm ∼ 4000 mã thông báo. Đối với CLIPCheck, chúng tôi trích xuất các tính năng CLIP và tính toán độ tương tự cosin bằng cách sử dụng một GPU NVIDIA A6000: phải mất 0,5 giờ để xử lý các khung hình video cho quá trình phân tách xác thực MovieQA.


Siêu tham số . Tất cả các siêu tham số đều được xác định trước bằng cách phân tích một mẫu huấn luyện duy nhất. Đối với tìm kiếm tường thuật, chúng tôi sử dụng ngưỡng độ tương tự của câu α ≥ 0,5 để tìm các phần cốt truyện khi GPT-3 không xuất ra một chỉ mục duy nhất. Chúng tôi sử dụng ngưỡng entropy nhị phân E ′ ≥ 0,4 trong CLIPCheck. Chúng tôi chỉ chạy mỗi thử nghiệm một lần vì phương pháp của chúng tôi mang tính quyết định và không dễ bị ảnh hưởng bởi tính ngẫu nhiên khi khởi tạo.


Sơ đồ phân đoạn video. Có các chú thích ranh giới phân đoạn được xác định trước cho tất cả các tập dữ liệu chúng tôi sử dụng trong bài viết này. Ngoài ra, tất cả các phần cốt truyện đều lần lượt căn chỉnh các đoạn clip vì chúng tôi thực hiện tóm tắt trên từng đoạn clip được phân đoạn với các ranh giới được xác định trước. Ngoài ra, trước khi áp dụng LSS, chúng tôi lọc ra các phân đoạn clip 1. quá ngắn, 2. không có khung hình phù hợp hoặc 3. không có ngữ cảnh văn bản để đảm bảo rằng chúng tôi có thể truy xuất các phân đoạn clip bằng cách sử dụng tóm tắt cốt truyện.


Thư viện bên ngoài. Chúng tôi sử dụng API OpenAI để truy cập mô hình ngôn ngữ GPT-3. Các tính năng CLIP được tính toán bằng cách triển khai Huggingface (https://huggingface.co/docs/transformers/main/en/model_doc/clip).