저자:
(1) 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소의 Pinelopi Papalampidi;
(2) 프랭크 켈러(Frank Keller), 에든버러 대학교 정보학부 언어, 인지 및 계산 연구소;
(3) 미렐라 라파타(Mirella Lapata), 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소.
영화 이해 에 대한 이전 접근 방식은 주로 격리된 비디오 클립과 영화 장면과 책 장 간의 정렬[49], 질문 답변[50], 영화 장면에 대한 비디오 캡션[44] 및 텍스트-비디오와 같은 작업에 중점을 두었습니다. 검색 [5]. 최근 작업[40-42]은 높은 수준의 내러티브 구조를 식별하고 텍스트 양식(즉, 각본)에만 초점을 맞춰 전체 TV 에피소드와 영화를 요약하려고 시도합니다.
예고편 생성 에 대한 기존 접근 방식은 배경 음악이나 연속 샷 간의 시각적 변화와 같은 피상적인 시청각 기능을 활용합니다[24, 46]. 다른 작업에서는 장면 선택을 위한 그래프 기반 모델을 사용하여 "매력적인" 예고편을 만들거나[57] 시청각 감정 분석을 통해 공포 영화에 대해 훈련된 모델과 함께 인간을 루프에 사용합니다[47]. 예고편 순간 감지 데이터세트[53]는 공식 예고편과 주요 순간에 대한 주석이 결합된 전체 길이의 영화로 구성되어 있지만 공개적으로 사용할 수 없으며 각본도 포함되지 않습니다.
지식 증류 [3, 23]는 원래 더 큰 교사 모델에서 더 작은 학생 모델로 정보를 증류하기 위해 제안되었습니다. 일반화된 증류[30]는 특권 정보, 즉 훈련 시간에만 사용할 수 있는 정보를 사용하기 위한 프레임워크를 제공합니다. 우리 작업과 가장 관련이 있는 것은 동일한 콘텐츠의 다양한 양식이나 보기를 사용하는 것입니다[33, 34]. 예를 들어 교육 비디오의 시각적 표현을 배우기 위해 전사된 내레이션입니다. 우리는 각본을 영화의 이벤트, 캐릭터, 장면에 대한 특권적인 정보와 정제된 지식의 원천으로 활용하며, 이후 비디오에서 예고편에 적합한 장면을 식별하기 위해 이를 활용합니다.
이 문서는 CC BY-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.