Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.
tác giả:
(1) Jiwan Chung, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ ).
Đối với tất cả các thử nghiệm, chúng tôi sử dụng GPT-3 [1] (text-davinci-003) làm mô hình ngôn ngữ xương sống. Trừ khi có quy định khác, chúng tôi sử dụng ranh giới của clip sự thật mặt đất để phân đoạn video. Tất cả các biến thể LSS không sử dụng bất kỳ dữ liệu huấn luyện nào và do đó là phương pháp không bắn.
MovieQA [27] là bộ dữ liệu QA quy mô lớn có nguồn gốc từ 408 phim. Có nhiều nguồn thông tin trong tập dữ liệu; phụ đề, kịch bản, DVS, video clip và cốt truyện. Chúng tôi báo cáo bốn đường cơ sở được giám sát hiện đại; A2A [20], PAMN [11], UniversalQA [10] và DHTCN [21].
Bảng 1 cho thấy LSS zero-shot được cải thiện so với các phương pháp được giám sát trước đó. Ngoài ra, Ours-search cho thấy hiệu suất mạnh mẽ ngay cả khi không có nhãn chỉ mục phân đoạn thực tế. CLIPCheck cải thiện một chút độ chính xác trong quá trình phân chia video. Tuy nhiên, sự khác biệt là không đáng kể vì MovieQA thường yêu cầu nền tảng dựa trên nhân vật hơn là kết hợp hình ảnh chung. Cuối cùng, chúng tôi thử nghiệm giả thuyết khống: Không có ngữ cảnh kiểm tra xem GPT-3 có giải quyết được MovieQA hay không bằng cách ghi nhớ mọi sự kiện. Không có bối cảnh nào hoạt động kém hơn LSS, bác bỏ giả thuyết khống.
PororoQA [13] là bộ dữ liệu QA câu chuyện video được xây dựng từ một bộ phim hoạt hình. Đường cơ sở được giám sát lấy cốt truyện do con người tạo ra và chỉ mục phân đoạn video thực tế, trong khi LSS +Plot+Search không lấy chỉ mục nào.
Bảng 2 tóm tắt kết quả của chúng tôi trên bộ dữ liệu PororoQA. Khi sử dụng cả tình tiết và cốt truyện có thật, GPT-3 hoạt động gần như ngang bằng với đường cơ sở được giám sát. Việc thay thế bản tóm tắt do con người tạo ra bằng bản tóm tắt do mô hình tạo ra chỉ dẫn đến hiệu suất giảm nhẹ. Có lẽ điều thú vị là quá trình tìm kiếm hoạt động tốt hơn khi sử dụng các ô do mô hình tạo ra. Chúng tôi cho rằng kết quả này là do chú thích của con người không được thiết kế để phân biệt tập phim.
DramaQA [3] là bộ dữ liệu QA video tập trung vào việc hiểu câu chuyện. Bộ dữ liệu được sắp xếp theo bốn cấp độ khó phân cấp, tuân theo các giai đoạn phát triển nhận thức của con người. Chúng tôi đánh giá LSS theo hai cấp độ cao của DramaQA để kiểm tra khả năng hiểu cốt truyện. Chúng tôi báo cáo hai đường cơ sở mới nhất trong DramaQA theo cấp độ; CharacterAttention và Kim et al. [14].
Chúng tôi so sánh tác dụng của CLIPCheck và Caption, một phương pháp dựa trên lời nhắc để kết hợp các mô tả khung hình ảnh được trích xuất từ BLIP [18] làm đầu vào cho GPT-3. Bảng 3 cho thấy CLIPCheck mang lại sự cải thiện lớn hơn so với mô tả hình ảnh. Ngoài ra, mặc dù việc thêm chú thích hình ảnh giúp cải thiện LSS nhưng mức tăng sẽ biến mất khi sử dụng cùng với CLIPCheck. Chúng tôi nghi ngờ rằng điều này là do chú thích khung cung cấp thông tin tương tự như CLIPCheck nhưng ồn ào hơn nhiều. Lưu ý rằng Phụ đề tự động ở đây không phải là thành phần không thể thiếu của LSS. Vì DramaQA đã có sẵn các chú thích trực quan nên việc thêm Chú thích hình ảnh tự động lên trên không nhất thiết sẽ cải thiện hiệu suất mô hình. Thay vào đó, chúng tôi sử dụng Chú thích để so sánh rõ ràng các phương pháp căn chỉnh hình ảnh sớm và muộn.
Cuối cùng, chúng tôi kiểm tra xem CLIPCheck có khai thác sai lệch tập dữ liệu thay vì hiểu bối cảnh trực quan hay không. Để đạt được mục đích này, chúng tôi nghĩ ra một biến thể của CLIPCheck với bối cảnh trực quan ngẫu nhiên (CLIPCheck-Shuffle). CLIPCheck-Shuffle không cải thiện so với LSS nếu không có CLIPCheck, bác bỏ giả thuyết sai lệch.
Cả việc tóm tắt và tìm kiếm đều quan trọng đối với việc hiểu câu chuyện? Ở đây, chúng tôi đánh giá các biến thể LSS với bối cảnh đầy đủ mà không cần tìm kiếm tường thuật (LSS-Full) hoặc với phần tóm tắt cốt truyện và phân đoạn ngẫu nhiên làm đầu vào (LSS-Random). Bảng 4 cho thấy cả LSS-Full và LSS-Random đều xếp sau LSS-Search, cho thấy tầm quan trọng của việc truy xuất. Lưu ý rằng chúng tôi không thể sử dụng ngữ cảnh đầy đủ trong LSS-Full do giới hạn độ dài mã thông báo. Thay vào đó, chúng tôi sử dụng tiền tố dài nhất của ngữ cảnh đầy đủ mà GPT3 chấp nhận (4000 mã thông báo trừ đi độ dài của lệnh).
Hình 3 cho thấy bản tóm tắt cốt truyện tự động được tạo dưới dạng ngữ cảnh trung gian của QA video dài bằng cách sử dụng mô hình ngôn ngữ trong khung LSS. Như được hiển thị trong mẫu định tính, các ô được tạo ra rất phù hợp với các ô do con người viết từ Wikipedia. Ví dụ, trong cảnh đầu tiên của bộ phim "Harry Potter và Bảo bối Tử thần", bản tóm tắt LSS viết chính xác rằng Harry Potter hiện 17 tuổi và sự kiện chính trong đó những tử thần thực tử tấn công nhân vật chính.
Hình 4 mô tả mối liên hệ giữa phần cốt truyện được tìm kiếm và khả năng trả lời. Trong ví dụ bên trái, bản tóm tắt được truy xuất cho biết Trench đã phạm tội và do đó đang chạy trốn, gợi ý rằng một nhân vật khác quan tâm đến anh ta sẽ đuổi theo anh ta. Mô hình ngôn ngữ hiểu ngữ cảnh này để sửa đổi khả năng trả lời theo cách chính xác. Trong ví dụ phù hợp, đoạn cốt truyện LSS cho thấy Edward tự tin vào quyết định của mình. Mặc dù bối cảnh này không đưa ra gợi ý trực tiếp cho câu hỏi nhưng mô hình ngôn ngữ coi đó là thông tin đủ mạnh để thay đổi câu trả lời.