paint-brush
작업 분해를 통한 영화 예고편 생성: 문제 공식화~에 의해@kinetograph

작업 분해를 통한 영화 예고편 생성: 문제 공식화

너무 오래; 읽다

본 논문에서 연구자들은 영화를 그래프로 모델링하여 예고편을 생성하고 내러티브 구조를 식별하고 감정을 예측하여 지도 방법을 능가합니다.
featured image - 작업 분해를 통한 영화 예고편 생성: 문제 공식화
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

저자:

(1) 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소의 Pinelopi Papalampidi;

(2) 프랭크 켈러(Frank Keller), 에든버러 대학교 정보학부 언어, 인지 및 계산 연구소;

(3) 미렐라 라파타(Mirella Lapata), 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소.

링크 표

3. 문제 공식화

예고편을 생성하려면 M 샷(LM)의 전체 길이 동영상에서 L 샷을 선택해야 합니다. 영화는 비선형적으로 전개되는 별개의 하위 플롯이나 이벤트를 포함할 수 있는 복잡한 스토리를 제시하는 반면, "필러"라고 불리는 중복 이벤트는 메인 스토리를 풍성하게 합니다. 따라서 연속된 샷이 반드시 의미적으로 관련되어 있다고 가정할 수는 없습니다. 이벤트 간의 관계를 더 잘 탐색하기 위해 영화를 그래프로 표현합니다[42]. G = (V, E)는 정점 V가 샷이고 가장자리 E가 의미론적 유사성을 나타내는 그래프를 나타냅니다. 우리는 이전 샷에서 미래 샷으로 방향이 지정된 가장자리만 허용하여 G에서 샷의 원래 시간 순서를 고려합니다. G는 샷 i에서 미래의 모든 샷 j로 전환할 확률을 기록하는 상부 삼각 전이 행렬 T로 설명됩니다.


G 내에서 우리는 일부 샷이 영화의 주요 이벤트(그림 2의 두꺼운 원)를 설명하는 반면 모든 샷에는 감정(긍정적 또는 부정적)이 있으며 그 강도는 점수(그림 2의 녹색/빨간색 음영)로 표시된다고 가정합니다. . 우리는 G를 탐색하고 트레일러 장면의 시퀀스를 선택하는 알고리즘을 제안합니다. 다음에서는 먼저 이 알고리즘(섹션 3.1)을 설명한 다음 그래프 G가 어떻게 학습되고 TP 식별[41](섹션 3.2)을 통해 주요 이벤트가 감지되는지 논의합니다. 마지막으로 샷 기반 감정 점수를 예측하는 방법도 설명합니다(섹션 3.5).

3.1. 무비 그래프 순회




우리는 (대상 트레일러 길이에 따라) 총 L개의 샷을 선택하고 그림 2(굵은 선)에 표시된 대로 제안 트레일러 시퀀스를 검색합니다. 각 단계에서 우리는 생성된 감정 흐름과 지금까지 식별된 TP를 추적합니다(각각 알고리즘 1의 라인 10 및 13-14). 샷이나 바로 이웃한 샷이 경로에 추가된 경우 예고편에 표시하기 위해 TP 이벤트가 선택되었습니다.

3.2. TP 식별





비디오 기반 모델은 샷 수준 TP 라벨에 대한 액세스를 가정합니다. 그러나 우리가 알고 있는 TP 식별을 위한 유일한 데이터 세트는 각본을 기반으로 한 장면 수준 레이블이 포함된 TRIPOD [41]입니다. 보다 세분화된 레이블을 얻기 위해 간단한 일대다 매핑을 따라 장면 기반 주석을 샷에 투영합니다(자세한 내용은 섹션 4 참조). 우리의 훈련 신호는 불가피하게 시끄러우므로 각본에 대한 액세스가 비디오 기반 모델이 각 TP에 대해 더 대표적인 샷을 선택하도록 장려할 것이라는 가설을 세웠습니다. 즉, 각본은 특권적 지식과 암묵적인 감독 신호를 나타내는 동시에 추론 중 추가적인 전처리의 필요성을 완화합니다. 게다가 각본은 등장인물과 장면에서의 역할, 행동과 감정(카메라가 보는 것을 설명하는 선으로 전달) 등 풍부한 추가 정보를 제공합니다. 그렇지 않으면 이 정보를 비디오에서 정확하게 현지화하기 어려울 수 있습니다. 또한, 라벨이 지정되지 않은 각본의 텍스트 모음은 상대적으로 얻기 쉽고 네트워크를 사전 훈련하는 데 사용할 수 있습니다.


그림 2. GRAPHTRAILER: 영화는 노드가 샷이고 가장자리가 이들 사이의 관계를 나타내는 그래프입니다. 각 샷은 감정 점수(긍정적/부정적 값의 경우 녹색/빨간색 음영)와 중요한 이벤트를 설명하는 레이블(굵은 원)로 특징지어집니다. 우리의 알고리즘은 그래프(굵은 선)에서 탐색을 수행하여 제안 예고편 시퀀스를 생성합니다.

3.3. 지식 증류

이제 데이터 스트림(다중 모드 대 텍스트 전용) 및 의미 단위(샷 대 장면)로의 분할 측면에서 영화에 대한 다양한 관점을 캡슐화하는 두 네트워크에 대한 공동 훈련 방식을 설명합니다.



그림 3. 두 개의 네트워크는 서로 다른 세분성 수준으로 영화의 서로 다른 보기를 처리합니다. 비디오 기반 네트워크는 영화의 비디오 스트림을 기반으로 하는 다중 모달 세밀한 샷 표현을 입력으로 사용합니다. 각본 기반 네트워크는 영화의 각본을 기반으로 하는 대략적인 텍스트 장면 표현을 처리합니다. 네트워크는 예측과 표현 일관성을 강제하는 손실과 함께 TP 식별에 대해 공동으로 훈련됩니다.


표현 일관성 손실 우리는 두 개의 그래프 기반 표현(예: 비디오 샷 및 시나리오 장면) 간의 일관성을 강화하기 위해 두 네트워크 간의 두 번째 정규화 손실을 사용할 것을 제안합니다. 이 손실의 목적은 두 가지입니다. 대조 표현 학습[38, 39, 48]에 대한 이전 작업에서 볼 수 있듯이 두 네트워크에 대한 TP 예측을 개선하고 샷 간의 보다 정확한 연결을 학습하는 데 도움을 주기 위한 것입니다(샷- 기반 그래프는 섹션 3.1)의 예고편 생성 알고리즘에 대한 입력으로 사용됩니다. 영화 속 사건을 독립적으로 묘사하는 각본 장면과 비교할 때 비디오 장면은 길이가 몇 초에 불과하며 주변 상황에 따라 의미가 결정됩니다. 우리는 해당 시나리오 장면과 유사한 의미를 보존하기 위해 샷에 대한 그래프 이웃을 적용함으로써 샷 기반 그래프에서 적절한 이웃 선택을 장려할 것이라고 가정합니다.



3.4. 자기 감독 사전 훈련

사전 훈련의 목표는 영화 비디오보다 접근하기 쉬운 각본에서 더 나은 장면 표현(예: 저작권 문제 및 계산 오버헤드가 적음)을 학습하는 것입니다. 이 지식이 일관성 손실을 통해 비디오 기반 네트워크로 전달되기를 바랍니다.


3.5. 감정 예측

마지막으로 우리 모델은 한 장면에서 다음 장면으로 감정이 어떻게 흐르는지 고려합니다. 우리는 TP 식별에 사용하는 것과 동일한 공동 아키텍처(섹션 3.3) 및 훈련 체제를 사용하여 샷당 감정 점수를 예측합니다. 비디오 기반 네트워크는 감정 레이블(예: 긍정적, 부정적, 중립)이 있는 장면에 대해 훈련되는 반면, 시나리오 기반 네트워크는 감정 레이블이 있는 장면에 대해 훈련됩니다(섹션 4에서 레이블을 얻는 방법에 대해 설명합니다). 훈련 후에는 감정 흐름을 포착하고 고강도 샷과 저강도 샷을 구별하기 위해 샷당 감정 레이블에 대한 확률 분포를 예측합니다(자세한 내용은 부록 참조).



이 문서는 CC BY-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.