paint-brush
Phương pháp tóm tắt rồi tìm kiếm để trả lời câu hỏi bằng video dài: Thử nghiệmtừ tác giả@kinetograph

Phương pháp tóm tắt rồi tìm kiếm để trả lời câu hỏi bằng video dài: Thử nghiệm

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu khám phá QA video không quay bằng cách sử dụng GPT-3, vượt trội so với các mô hình được giám sát, tận dụng các bản tóm tắt tường thuật và kết hợp trực quan.
featured image - Phương pháp tóm tắt rồi tìm kiếm để trả lời câu hỏi bằng video dài: Thử nghiệm
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.

tác giả:

(1) Jiwan Chung, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ ).

Bảng liên kết

3. Thí nghiệm

Đối với tất cả các thử nghiệm, chúng tôi sử dụng GPT-3 [1] (text-davinci-003) làm mô hình ngôn ngữ xương sống. Trừ khi có quy định khác, chúng tôi sử dụng ranh giới của clip sự thật mặt đất để phân đoạn video. Tất cả các biến thể LSS không sử dụng bất kỳ dữ liệu huấn luyện nào và do đó là phương pháp không bắn.


Bảng 1: Đánh giá về phân chia xác thực MovieQA. Tập dữ liệu cung cấp tính năng căn chỉnh GT với trung bình 3 phút video clip: Chúng tôi cũng báo cáo Ours-search tìm kiếm toàn bộ bối cảnh phim mà không cần căn chỉnh GT. (V) biểu thị Video và (S) biểu thị Phụ đề.


Bảng 2: Đánh giá về phân chia xác thực PororoQA. Biểu đồ do máy tạo (+Plot) thực hiện gần giống với các chú thích của con người (Cơ sở).


Bảng 3: Đánh giá về cấp độ ba và bốn của phân chia xác thực DramaQA. CLIPCheck đạt được công nghệ tiên tiến nhất dựa trên các đường cơ sở và cách tiếp cận dựa trên lời nhắc [35] để nhập mô tả hình ảnh.


Bảng 4: Nghiên cứu cắt bỏ về phân tách xác thực MovieQA.

3.1. Đánh giá truyện dài ngắn

MovieQA [27] là bộ dữ liệu QA quy mô lớn có nguồn gốc từ 408 phim. Có nhiều nguồn thông tin trong tập dữ liệu; phụ đề, kịch bản, DVS, video clip và cốt truyện. Chúng tôi báo cáo bốn đường cơ sở được giám sát hiện đại; A2A [20], PAMN [11], UniversalQA [10] và DHTCN [21].


Bảng 1 cho thấy LSS zero-shot được cải thiện so với các phương pháp được giám sát trước đó. Ngoài ra, Ours-search cho thấy hiệu suất mạnh mẽ ngay cả khi không có nhãn chỉ mục phân đoạn thực tế. CLIPCheck cải thiện một chút độ chính xác trong quá trình phân chia video. Tuy nhiên, sự khác biệt là không đáng kể vì MovieQA thường yêu cầu nền tảng dựa trên nhân vật hơn là kết hợp hình ảnh chung. Cuối cùng, chúng tôi thử nghiệm giả thuyết khống: Không có ngữ cảnh kiểm tra xem GPT-3 có giải quyết được MovieQA hay không bằng cách ghi nhớ mọi sự kiện. Không có bối cảnh nào hoạt động kém hơn LSS, bác bỏ giả thuyết khống.


PororoQA [13] là bộ dữ liệu QA câu chuyện video được xây dựng từ một bộ phim hoạt hình. Đường cơ sở được giám sát lấy cốt truyện do con người tạo ra và chỉ mục phân đoạn video thực tế, trong khi LSS +Plot+Search không lấy chỉ mục nào.


Bảng 2 tóm tắt kết quả của chúng tôi trên bộ dữ liệu PororoQA. Khi sử dụng cả tình tiết và cốt truyện có thật, GPT-3 hoạt động gần như ngang bằng với đường cơ sở được giám sát. Việc thay thế bản tóm tắt do con người tạo ra bằng bản tóm tắt do mô hình tạo ra chỉ dẫn đến hiệu suất giảm nhẹ. Có lẽ điều thú vị là quá trình tìm kiếm hoạt động tốt hơn khi sử dụng các ô do mô hình tạo ra. Chúng tôi cho rằng kết quả này là do chú thích của con người không được thiết kế để phân biệt tập phim.

3.2. Đánh giá CLIPCheck

DramaQA [3] là bộ dữ liệu QA video tập trung vào việc hiểu câu chuyện. Bộ dữ liệu được sắp xếp theo bốn cấp độ khó phân cấp, tuân theo các giai đoạn phát triển nhận thức của con người. Chúng tôi đánh giá LSS theo hai cấp độ cao của DramaQA để kiểm tra khả năng hiểu cốt truyện. Chúng tôi báo cáo hai đường cơ sở mới nhất trong DramaQA theo cấp độ; CharacterAttention và Kim et al. [14].


Chúng tôi so sánh tác dụng của CLIPCheck và Caption, một phương pháp dựa trên lời nhắc để kết hợp các mô tả khung hình ảnh được trích xuất từ BLIP [18] làm đầu vào cho GPT-3. Bảng 3 cho thấy CLIPCheck mang lại sự cải thiện lớn hơn so với mô tả hình ảnh. Ngoài ra, mặc dù việc thêm chú thích hình ảnh giúp cải thiện LSS nhưng mức tăng sẽ biến mất khi sử dụng cùng với CLIPCheck. Chúng tôi nghi ngờ rằng điều này là do chú thích khung cung cấp thông tin tương tự như CLIPCheck nhưng ồn ào hơn nhiều. Lưu ý rằng Phụ đề tự động ở đây không phải là thành phần không thể thiếu của LSS. Vì DramaQA đã có sẵn các chú thích trực quan nên việc thêm Chú thích hình ảnh tự động lên trên không nhất thiết sẽ cải thiện hiệu suất mô hình. Thay vào đó, chúng tôi sử dụng Chú thích để so sánh rõ ràng các phương pháp căn chỉnh hình ảnh sớm và muộn.


Hình 3: So sánh giữa bản tóm tắt cốt truyện do LSS tạo ra và bản tóm tắt sự thật cơ bản từ Wikipedia. Ở đây, chúng tôi chỉ hiển thị hai đoạn đầu tiên của toàn bộ cốt truyện vì giới hạn không gian.


Cuối cùng, chúng tôi kiểm tra xem CLIPCheck có khai thác sai lệch tập dữ liệu thay vì hiểu bối cảnh trực quan hay không. Để đạt được mục đích này, chúng tôi nghĩ ra một biến thể của CLIPCheck với bối cảnh trực quan ngẫu nhiên (CLIPCheck-Shuffle). CLIPCheck-Shuffle không cải thiện so với LSS nếu không có CLIPCheck, bác bỏ giả thuyết sai lệch.

3.3. Nghiên cứu cắt bỏ

Cả việc tóm tắt và tìm kiếm đều quan trọng đối với việc hiểu câu chuyện? Ở đây, chúng tôi đánh giá các biến thể LSS với bối cảnh đầy đủ mà không cần tìm kiếm tường thuật (LSS-Full) hoặc với phần tóm tắt cốt truyện và phân đoạn ngẫu nhiên làm đầu vào (LSS-Random). Bảng 4 cho thấy cả LSS-Full và LSS-Random đều xếp sau LSS-Search, cho thấy tầm quan trọng của việc truy xuất. Lưu ý rằng chúng tôi không thể sử dụng ngữ cảnh đầy đủ trong LSS-Full do giới hạn độ dài mã thông báo. Thay vào đó, chúng tôi sử dụng tiền tố dài nhất của ngữ cảnh đầy đủ mà GPT3 chấp nhận (4000 mã thông báo trừ đi độ dài của lệnh).


Hình 4: Các mẫu quy trình QA trong LSS. Điều kiện hóa đối với phần cốt truyện được tìm kiếm có tác động đáng kể đến khả năng phân bổ khả năng trả lời của mô hình ngôn ngữ.

3.4. Kết quả định tính

Hình 3 cho thấy bản tóm tắt cốt truyện tự động được tạo dưới dạng ngữ cảnh trung gian của QA video dài bằng cách sử dụng mô hình ngôn ngữ trong khung LSS. Như được hiển thị trong mẫu định tính, các ô được tạo ra rất phù hợp với các ô do con người viết từ Wikipedia. Ví dụ, trong cảnh đầu tiên của bộ phim "Harry Potter và Bảo bối Tử thần", bản tóm tắt LSS viết chính xác rằng Harry Potter hiện 17 tuổi và sự kiện chính trong đó những tử thần thực tử tấn công nhân vật chính.


Hình 4 mô tả mối liên hệ giữa phần cốt truyện được tìm kiếm và khả năng trả lời. Trong ví dụ bên trái, bản tóm tắt được truy xuất cho biết Trench đã phạm tội và do đó đang chạy trốn, gợi ý rằng một nhân vật khác quan tâm đến anh ta sẽ đuổi theo anh ta. Mô hình ngôn ngữ hiểu ngữ cảnh này để sửa đổi khả năng trả lời theo cách chính xác. Trong ví dụ phù hợp, đoạn cốt truyện LSS cho thấy Edward tự tin vào quyết định của mình. Mặc dù bối cảnh này không đưa ra gợi ý trực tiếp cho câu hỏi nhưng mô hình ngôn ngữ coi đó là thông tin đủ mạnh để thay đổi câu trả lời.

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI...