paint-brush
Phương pháp tóm tắt rồi tìm kiếm để trả lời câu hỏi bằng video dài: Tóm tắt & giới thiệutừ tác giả@kinetograph
110 lượt đọc

Phương pháp tóm tắt rồi tìm kiếm để trả lời câu hỏi bằng video dài: Tóm tắt & giới thiệu

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu khám phá QA video không quay bằng cách sử dụng GPT-3, vượt trội so với các mô hình được giám sát, tận dụng các bản tóm tắt tường thuật và kết hợp hình ảnh.
featured image - Phương pháp tóm tắt rồi tìm kiếm để trả lời câu hỏi bằng video dài: Tóm tắt & giới thiệu
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.

tác giả:

(1) Jiwan Chung, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ ).

Bảng liên kết

trừu tượng

Các mô hình ngôn ngữ lớn như GPT-3 đã chứng tỏ khả năng ấn tượng trong việc thích ứng với các nhiệm vụ mới mà không yêu cầu dữ liệu đào tạo dành riêng cho nhiệm vụ. Khả năng này đặc biệt hiệu quả trong các môi trường như trả lời câu hỏi tường thuật, trong đó nhiệm vụ rất đa dạng nhưng dữ liệu giám sát sẵn có lại nhỏ. Trong nghiên cứu này, chúng tôi điều tra xem liệu các mô hình ngôn ngữ như vậy có thể mở rộng khả năng suy luận không cần suy luận của chúng sang các câu chuyện dài đa phương thức trong nội dung đa phương tiện như kịch, phim và hoạt hình, trong đó câu chuyện đóng một vai trò thiết yếu hay không. Chúng tôi đề xuất Câu chuyện dài ngắn, một khuôn khổ dành cho QA video tường thuật, trước tiên tóm tắt câu chuyện của video thành một cốt truyện ngắn, sau đó tìm kiếm các phần của video có liên quan đến câu hỏi. Chúng tôi cũng đề xuất tăng cường kết hợp trực quan với CLIPCheck. Mô hình của chúng tôi vượt trội so với các mô hình được giám sát hiện đại với biên độ lớn, làm nổi bật tiềm năng của QA không quay cho các video dài.

1. Giới thiệu

Các mô hình QA video gần đây phải đối mặt với những thách thức trong việc xử lý các tác vụ QA tường thuật video dài [2, 13, 27] (tức là phim, phim truyền hình và video trên web YouTube) do hạn chế về dữ liệu và chú thích. Điều này dẫn đến việc không thể hiểu được các câu chuyện video dài ngoài việc trả lời các câu hỏi chủ yếu bằng hình ảnh trên video clip ngắn [16, 17, 30]. Kích thước của QA video dài như vậy không đủ để đào tạo các mô hình hiểu đầy đủ cấu trúc tường thuật phức tạp trong video, mang lại hiệu suất dưới mức tối ưu. [10] chứng minh rằng các mô hình được giám sát dựa nhiều hơn vào thành kiến ngôn ngữ trong câu hỏi hơn là bối cảnh tường thuật: họ có thể đạt được hiệu suất tương tự ngay cả khi không xem bất kỳ bối cảnh video nào. Điều này nhấn mạnh sự cần thiết của khả năng suy luận đa phương thức ngoài việc giám sát các nhiệm vụ cụ thể nhỏ.


Để giải quyết thách thức do khả năng khái quát hóa thấp gây ra, cách tiếp cận không cần thực hiện bằng cách sử dụng Mô hình ngôn ngữ lớn (LLM) được đào tạo trước có thể là một giải pháp thay thế hiệu quả để giải quyết các nhiệm vụ QA phức tạp [32] và tóm tắt ngữ cảnh văn bản [8, 37]. Tuy nhiên, khả năng tường thuật QA của các LLM như vậy có thể chuyển sang miền video không?



Hình 1: Truyện ngắn (LSS) sử dụng Mô hình ngôn ngữ lớn (LLM) (tức là GPT-3) để tạo (a) Kịch bản và tóm tắt (b) Cốt truyện từ video. Bạn có thể tìm thêm thông tin chi tiết về xử lý dữ liệu trong Phần 2. Khi LSS trả lời các câu hỏi về video, mô hình (c) xác thực các cảnh quay video thô đã cho bằng Mô hình ngôn ngữ hình ảnh, CLIP và (d) tìm kiếm các tập lệnh có căn cứ hơn nữa theo cách ngược, mà chúng tôi gọi là CLIPCheck trong Phần 2.3.



Chúng tôi đề xuất Truyện ngắn dài (LSS), được minh họa trong hình 1, dịch các video clip sang định dạng kịch bản văn bản lấy cảm hứng từ Mô hình Socrates [35]. Bằng cách sử dụng GPT-3 [1], trước tiên, chúng tôi tóm tắt video dài thành một danh sách các sơ đồ, sau đó điều hướng cả phần tóm tắt được tạo và bối cảnh video thô để giải quyết câu hỏi nhất định. Phương pháp không bắn của chúng tôi cho kết quả tốt hơn so với các phương pháp được giám sát hiện đại trong bộ dữ liệu MovieQA và DramaQA. Hơn nữa, chúng tôi đề xuất CLIPCheck, một phương pháp khớp văn bản-hình ảnh để tăng cường sự liên kết trực quan của các kết quả lý luận do GPT-3 cung cấp. Tóm lại, những đóng góp chính của chúng tôi gồm ba phần:


  1. Chúng tôi trình bày LSS, một khung tóm tắt một câu chuyện video dài vào danh sách các tình tiết và truy xuất tình tiết phụ có liên quan đến câu hỏi.


  2. Chúng tôi chứng minh tầm quan trọng của việc xem xét cường độ căn chỉnh trực quan thông qua kết hợp dựa trên CLIP trong lời nhắc trực quan.


  3. Phương pháp không bắn của chúng tôi đạt được hiệu suất tiên tiến trong MovieQA [27] và DramaQA [2], vượt trội so với các đường cơ sở được giám sát.