paint-brush
작업 분해를 통한 영화 예고편 생성: 실험 설정~에 의해@kinetograph

작업 분해를 통한 영화 예고편 생성: 실험 설정

너무 오래; 읽다

본 논문에서 연구자들은 영화를 그래프로 모델링하여 예고편을 생성하고 내러티브 구조를 식별하고 감정을 예측하여 지도 방법을 능가합니다.
featured image - 작업 분해를 통한 영화 예고편 생성: 실험 설정
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

저자:

(1) 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소의 Pinelopi Papalampidi;

(2) 프랭크 켈러(Frank Keller), 에든버러 대학교 정보학부 언어, 인지 및 계산 연구소;

(3) 미렐라 라파타(Mirella Lapata), 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소.

링크 표

4. 실험 설정

우리 모델은 실버 표준 TP 주석(장면 수준)[3]과 해당 비디오[4] 포함된 122개의 시나리오를 포함하는 TRIPOD 데이터 세트[41, 42]의 확장 버전인 TRIPODL에서 훈련되었습니다. 각 영화에 대해 YouTube에서 공식 예고편과 (진지한) 팬 기반 예고편, 오래된 영화의 최신 예고편을 포함하여 가능한 한 많은 예고편을 추가로 수집했습니다. 우리 알고리즘으로 제작된 예고편을 평가하기 위해 우리는 41편의 새로운 영화 세트도 수집했습니다. 이 영화는 공식 영화 예고편이 포함된 Moviescope 데이터 세트[5] [11]에서 선택되었습니다. 보류 세트에는 각본이나 TP 주석과 같은 추가 정보가 포함되어 있지 않습니다. TRIPODL의 통계는 표 1에 나와 있습니다.


영화 및 예고편 처리 이전 섹션에서 제시된 모델링 접근 방식은 대본 장면과 영화 장면 간의 대응 관계를 알고 있다고 가정합니다. 우리는 Dynamic Time Warping(DTW; [36, 42])을 사용하여 각본의 대화를 자막과 자동으로 정렬하여 이 매핑을 얻습니다. 먼저 이 매핑을 기반으로 비디오를 장면으로 분할한 다음 PySceneDetect[6]를 사용하여 각 장면을 장면으로 분할합니다. 총 프레임 수가 100개 미만인 샷은 예고편의 일부로 처리하고 표시하기에는 너무 짧으므로 삭제됩니다.


또한 각 샷에 대해 시각적 및 오디오 특징을 추출합니다. 우리는 세 가지 유형의 시각적 특징을 고려합니다.


(1) ImageNet[14]에서 객체 인식을 위해 사전 훈련된 ResNeXt-101[56]을 사용하여 샷당 하나의 키 프레임을 샘플링하고 특징을 추출합니다. (2) 매 10개 프레임 중 1개의 빈도로 프레임을 샘플링하고(메모리 문제가 있으므로 지속 시간이 더 긴 샷에 대해 이 시간 간격을 늘림) Kinetics에 사전 훈련된 2-스트림 I3D 네트워크를 사용하여 모션 특징을 추출합니다. 10]. (3) Detectron2 [54]에 구현된 Faster-RCNN [18]을 사용하여 모든 키 프레임에서 사람 인스턴스를 감지하고 각 지역 표현과 함께 가장 높은 신뢰도를 갖는 샷당 상위 4개의 경계 상자를 유지합니다. 먼저 모든 개별 표현을 동일한 하위 차원에 투영하고 L2 정규화를 수행합니다. 다음으로, 시각적 장면 표현을 개별 벡터의 합으로 간주합니다. 오디오 양식의 경우 오디오 세그먼트를 521개의 오디오 클래스(예: 도구, 음악, 폭발)로 분류하기 위해 AudioSet-YouTube 코퍼스[16]에서 사전 훈련된 YAMNet을 사용합니다. 장면에 포함된 각 오디오 세그먼트에 대해 두 번째 레이어에서 특징을 추출합니다. 마지막으로 Universal Sentence Encoder(USE; [12])를 사용하여 자막과 각본 장면에서 텍스트 특징[42]을 추출합니다.


평가를 위해 영화의 어떤 장면이 예고편에 적합한지 여부를 알아야 합니다. 우리는 해당 예고편을 장면으로 분할하고 각 장면에 대해 영화의 모든 장면과 시각적 유사성을 계산함으로써 이를 수행합니다. 유사성 값이 가장 높은 샷은 긍정적인 라벨을 받습니다(예: 예고편에 있어야 함). 그러나 예고편에는 영화에 없는 장면도 포함되어 있으므로(예: 텍스트가 포함된 검은색 화면 또는 단순히 최종 영화에 나오지 않은 자료) 예고편 장면을 영화에 매핑하지 않는 임계값도 설정했습니다. 샷. 이러한 방식으로 우리는 영화 촬영을 위한 실버 표준 바이너리 라벨을 생성합니다.


감정 레이블 TRIPOD에는 감정 주석이 포함되어 있지 않기 때문에 대신 자연어 대화에서 감정 및 감정 분류를 위한 최첨단 성능을 갖춘 상식 기반 프레임워크인 COSMIC[17]을 통해 실버 표준 레이블을 얻습니다. 구체적으로 우리는 TV 시리즈 Friends 에피소드의 대화를 포함하고 다른 감정 분류 데이터 세트(예: [9, 29])보다 우리 도메인에 더 적합한 MELD[43]에서 COSMIC을 훈련합니다. 훈련 후에는 COSMIC을 사용하여 TRIPOD 각본에 대한 문장 수준 감정 예측을 생성합니다. 장면의 정서는 그 문장의 대부분의 정서와 일치합니다. 우리는 TP에 사용된 것과 동일한 일대다 매핑을 사용하여 장면 기반 감정 레이블을 샷에 투영합니다.


이 문서는 CC BY-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.


[3] https://github.com/ppapalampidi/TRIPOD


[4] https://datashare.ed.ac.uk/handle/10283/3819


[5] http://www.cs.virginia.edu/pc9za/research/moviescope.html


[6] https://github.com/Breakthrough/PySceneDetect