Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.
tác giả:
(1) Jiwan Chung, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ ).
Chúng tôi đã giới thiệu Câu chuyện dài, một phương pháp tóm tắt rồi tìm kiếm để hiểu cả câu chuyện tổng thể và các chi tiết có liên quan cho QA tường thuật video. Cách tiếp cận của chúng tôi có hiệu quả khi bối cảnh QA rộng lớn và cần phải có sự tương tác cấp cao với bối cảnh đó để giải quyết QA nói trên, trường hợp này xảy ra với QA video dài. Ngoài ra, chúng tôi đề xuất nâng cao hơn nữa nền tảng trực quan của câu trả lời do mô hình tạo ra bằng cách kiểm tra sau khi căn chỉnh trực quan bằng CLIPCheck. Phương pháp không bắn của chúng tôi cải thiện các phương pháp tiếp cận hiện đại được giám sát trong các tiêu chuẩn MovieQA và DramaQA. Chúng tôi dự định phát hành mã và dữ liệu cốt truyện được tạo ra cho công chúng.
Có hai hướng nghiên cứu khả thi ngoài công việc này: thứ nhất, cung cấp các mô tả trực quan phù hợp hơn với câu chuyện với khả năng nhận dạng lại nhân vật và độ phân giải đồng tham chiếu sẽ cải thiện chất lượng đầu vào cho GPT-3. Thứ hai, người ta có thể tạo ra một tìm kiếm đa chặng năng động hơn, kết hợp thông tin toàn cầu và cục bộ theo cách phân cấp.