Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.
tác giả:
(1) Jiwan Chung, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ ).
Ngân sách tính toán. Long Story Short sử dụng GPT-3 (tham số 175B) thông qua API OpenAI làm xương sống. Một lời nhắc trung bình để tóm tắt một phân đoạn video xử lý ∼ 3000 mã thông báo, trong khi lời nhắc QA thường chiếm ∼ 4000 mã thông báo. Đối với CLIPCheck, chúng tôi trích xuất các tính năng CLIP và tính toán độ tương tự cosin bằng cách sử dụng một GPU NVIDIA A6000: phải mất 0,5 giờ để xử lý các khung hình video cho quá trình phân tách xác thực MovieQA.
Siêu tham số . Tất cả các siêu tham số đều được xác định trước bằng cách phân tích một mẫu huấn luyện duy nhất. Đối với tìm kiếm tường thuật, chúng tôi sử dụng ngưỡng độ tương tự của câu α ≥ 0,5 để tìm các phần cốt truyện khi GPT-3 không xuất ra một chỉ mục duy nhất. Chúng tôi sử dụng ngưỡng entropy nhị phân E ′ ≥ 0,4 trong CLIPCheck. Chúng tôi chỉ chạy mỗi thử nghiệm một lần vì phương pháp của chúng tôi mang tính quyết định và không dễ bị ảnh hưởng bởi tính ngẫu nhiên khi khởi tạo.
Sơ đồ phân đoạn video. Có các chú thích ranh giới phân đoạn được xác định trước cho tất cả các tập dữ liệu chúng tôi sử dụng trong bài viết này. Ngoài ra, tất cả các phần cốt truyện đều lần lượt căn chỉnh các đoạn clip vì chúng tôi thực hiện tóm tắt trên từng đoạn clip được phân đoạn với các ranh giới được xác định trước. Ngoài ra, trước khi áp dụng LSS, chúng tôi lọc ra các phân đoạn clip 1. quá ngắn, 2. không có khung hình phù hợp hoặc 3. không có ngữ cảnh văn bản để đảm bảo rằng chúng tôi có thể truy xuất các phân đoạn clip bằng cách sử dụng tóm tắt cốt truyện.
Thư viện bên ngoài. Chúng tôi sử dụng API OpenAI để truy cập mô hình ngôn ngữ GPT-3. Các tính năng CLIP được tính toán bằng cách triển khai Huggingface (https://huggingface.co/docs/transformers/main/en/model_doc/clip).