paint-brush
작업 분해를 통한 영화 예고편 생성: 결과 및 분석~에 의해@kinetograph
115 판독값

작업 분해를 통한 영화 예고편 생성: 결과 및 분석

너무 오래; 읽다

본 논문에서 연구자들은 영화를 그래프로 모델링하여 예고편을 생성하고 내러티브 구조를 식별하고 감정을 예측하여 지도 방법을 능가합니다.
featured image - 작업 분해를 통한 영화 예고편 생성: 결과 및 분석
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

저자:

(1) 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소의 Pinelopi Papalampidi;

(2) 프랭크 켈러(Frank Keller), 에든버러 대학교 정보학부 언어, 인지 및 계산 연구소;

(3) 미렐라 라파타(Mirella Lapata), 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소.

링크 표

5. 결과 및 분석

지식 증류의 유용성 우리는 먼저 트레일러 생성 작업에 중요한 TP 식별을 개선하는지 여부를 조사합니다. 실제 장면 수준 TP 레이블이 있는 영화 세트를 개발 및 테스트 세트로 분할하고 영화에서 TP당 상위 5개(@5) 및 상위 10개(@10) 샷을 선택합니다. 평가 지표로 모델이 영화에서 선택한 5개 또는 10개 장면 중 최소 하나의 실제 장면을 올바르게 식별하는 TP의 비율을 측정하는 부분 합의(PA; [41])를 고려합니다(자세한 내용은 부록 참조). ).


표 2. TP 식별(테스트 세트)에 대한 모델 성능. 다양한 훈련 방식이 표시된 GRAPHTRAILER. 평가 지표: TP 및 동영상별로 선택된 상위 5개(@5) 및 상위 10개(@10) 샷에 대한 부분 합의(PA)입니다.


표 2는 테스트 세트에 대한 결과를 요약합니다. 우리는 다음과 같은 비교 시스템을 고려합니다. 균등하게 분포된 섹션(평균 10회 실행)에서 무작위로 샷을 선택합니다. 이론은 시나리오 작성 이론에 따라 장면에 TP를 할당합니다(예: "기회"는 영화의 10%에서 발생하고 "계획 변경"은 25%에서 발생함 등). 배포는 훈련 데이터의 예상 위치를 기반으로 샷을 선택합니다. GRAPHTP는 각본에 대해 훈련된 [42]의 원본 모델입니다(장면 수준 TP 예측을 장면에 투영합니다). Transformer는 그래프 관련 정보가 없는 기본 모델입니다. 우리는 TP 식별을 위한 여러 변형에서 자체 모델인 GRAPHTRAILER를 사용합니다. 각본이 없거나 액세스할 수 있고, 예측 일관성 손실(P), 예측 및 표현 손실(P + R) 및 대조 공동 훈련 방식으로만 훈련되었습니다. .


우리는 GRAPHTRAILER가 Transformer 모델뿐만 아니라 모든 기준선보다 성능이 뛰어나다는 것을 관찰했습니다. 후자는 샷 간의 장거리 종속성을 인코딩하지만 GRAPHTRAILER는 그래프에서 학습된 희소 연결을 직접 인코딩하는 이점도 추가로 제공합니다. 더욱이, 예측 일관성 손실(P)을 통한 비동기식 지식 증류는 성능을 더욱 향상시키며, 이는 각본에 포함된 지식이 비디오에서 추출할 수 있는 지식을 보완한다는 것을 의미합니다. 표현 일관성 손실(P + R)을 추가하면 성능이 크게 저하되는 반면 제안된 훈련 접근 방식(대조 결합)이 가장 잘 수행됩니다. 마지막으로, 사전 훈련은 비록 작지만 추가 이득을 제공하며 이는 시나리오 기반 네트워크의 이점을 강조합니다.


예고편 품질 이제 우리는 보유하고 있는 41개 영화 세트에 대해 GRAPHTRAILER의 예고편 생성 알고리즘을 평가합니다(표 1 참조). 평가 지표로 정확도, 즉 올바르게 식별된 예고편 장면의 비율을 사용하고 원하는 길이(~2분)를 달성하기 위해 예고편에 대한 총 10장의 샷 예산을 고려합니다.


표 3. 트레일러 생성에 대한 비지도(상부) 모델과 약한 감독(하부) 모델의 성능: 올바르게 식별된 트레일러 샷의 정확도. 모든 시스템은 예고편 제작을 위한 동일한 샷 예산을 갖습니다.


우리는 GRAPHTRAILER를 다음을 포함한 여러 비지도 접근 방식(표 3의 첫 번째 블록)과 비교합니다. 모든 샷과 GRAPHTRAILER에 의해 식별된 TP 중에서 무작위 선택; 우리는 또한 완전히 연결된 그래프를 기반으로 두 개의 그래프 기반 시스템을 구현합니다. 여기서 노드는 샷이고 가장자리는 그들 사이의 유사 정도를 나타냅니다. 이 그래프는 TP에 대한 지식이 없으며 일반적인 다중 모드 표현 간의 유사성을 계산하여 구성됩니다. TEXTRANK [35]는 이 그래프를 통해 중심성을 기준으로 샷을 선택하는 반면, TP가 없는 GRAPHTRAILER는 TP 및 감정 기준이 제거된 그래프를 탐색합니다(식 2). 확률론을 포함하고 제안을 생성하는 비지도 시스템(Random, GRAPHTRAILER)의 경우 최상의 제안 예고편을 고려합니다. 표 3의 두 번째 블록은 훈련을 위해 잡음이 있는 트레일러 레이블을 사용하는 감독된 접근 방식을 제시합니다. 여기에는 시각적 정보만 고려하고 영화와 예고편 장면 간의 교차 주의를 계산하는 CCANet[53]과 각본, 감정 또는 TP를 고려하지 않고 장면이 예고편에 있어야 하는지 여부를 식별하는 이진 작업을 위해 훈련된 바닐라 Transformer가 포함됩니다. . 감독된 GRAPHTRAILER는 Transformer와 동일한 데이터로 훈련된 비디오 기반 네트워크로 구성됩니다.


GRAPHTRAILER는 비지도 방법 중에서 가장 좋은 성능을 발휘합니다. 흥미롭게도 TEXTRANK는 무작위보다 나쁩니다. 이는 예고편 생성과 같은 작업을 표준 요약 문제로 볼 수 없음을 보여줍니다. TP가 없는 GRAPHTRAILER는 여전히 TEXTRANK 및 임의 TP 선택보다 더 나은 성능을 발휘합니다.[7] 감독된 접근 방식과 관련하여 표준 아키텍처(Transformer)와 함께 모든 양식을 사용하면 시각적 유사성을 사용하는 정교한 모델(CCANet)보다 더 나은 성능을 얻을 수 있음을 발견했습니다. 그래프 관련 정보(Supervised GRAPHTRAILER)를 추가함으로써 더욱 향상된 성능을 얻을 수 있습니다.


표 5. 영화 그래프에서 랜덤 워크를 수행하기 위한 다양한 기준을 사용하는 GRAPHTRAILER(알고리즘 1, 방정식 (2))


우리는 GRAPHTRAILER용 개발 세트에 대해 두 가지 절제 연구를 수행합니다. 첫 번째 연구는 이중 네트워크의 다양한 훈련 체제가 다운스트림 트레일러 생성 성능에 어떻게 영향을 미치는지 평가하는 것을 목표로 합니다. 표 4에서 비동기 훈련은 기본 모델에 비해 눈에 띄는 개선을 제공하지 않는다는 것을 확인했습니다. 그러나 예측 및 표현 일관성 손실을 사용하여 두 네트워크(비디오 및 시나리오 기반)를 공동으로 훈련하면 성능이 거의 3% 향상됩니다. 시나리오 기반 네트워크가 더 많은 데이터에 대해 사전 훈련되면 약간의 증가가 관찰됩니다.


두 번째 절제 연구는 그래프 G에서 무작위 보행을 수행하는 데 사용되는 기준에 관한 것입니다. 표 5에 표시된 것처럼 선택한 경로의 노드를 주요 이벤트(유사성 + TP)에 가깝게 강제하면 성능이 향상됩니다. 감정(유사성+감성)에만 의존하면 성능이 약간 떨어집니다. 이는 피상적인 시각적 매력[53, 57] 또는 시청각 감정 분석[47]에 주로 초점을 맞춘 이전 접근 방식과 달리 감정 정보 자체로는 충분하지 않으며 예고편에 잘 맞지 않는 이상치를 촉진할 수 있음을 시사합니다. 반면, 감성 정보와 서사 구조(유사성 + TP + 감성)에 대한 지식이 결합될 때 가장 높은 정확도를 관찰합니다. 이는 예고편 제작에 관한 두 가지 이론(즉, 내러티브 구조와 감정을 기반으로 함)이 상호보완적이며 결합될 수 있다는 우리의 가설을 더욱 입증합니다.


마지막으로, 영화당(개발 세트용) 예고편이 여러 개 있으므로 해당 장면 간의 중복(상한)을 측정할 수 있습니다. 평균 중복률은 86.14%로 트레일러 제조업체 간의 좋은 일치와 인간 성능과 자동 모델 간의 큰 격차를 보여줍니다.


마지막으로, 영화당(개발 세트용) 예고편이 여러 개 있으므로 해당 장면 간의 중복(상한)을 측정할 수 있습니다. 평균 중복률은 86.14%로 트레일러 제조업체 간의 좋은 일치와 인간 성능과 자동 모델 간의 큰 격차를 보여줍니다.


표 6. 홀드아웃 세트에 대한 인간 평가. 예의 비율은 다음에 대해 대답합니다: 예고편에 충분한 정보가 포함되어 있습니까(Q1) 그리고 매력적입니까(Q2). 각 시스템이 최고 또는 최악으로 선택된 횟수의 백분율 및 표준화된 최고-최악 조정 점수입니다.


인간 평가 또한 생성된 트레일러의 품질을 평가하기 위해 인간 평가 연구를 수행했습니다. 사람의 평가를 위해 하한값으로 TP가 없는 무작위 선택, 가장 성능이 좋은 두 가지 비지도 모델(예: TP가 있거나 없는 GRAPHTRAILER), 두 가지 지도 모델(예고편 생성을 위한 이전 기술인 CCANet)을 포함합니다. 그리고 우리 모델의 지도 버전은 자동 측정 기준에 따라 가장 성능이 좋은 모델입니다.[8] 우리는 개최된 세트의 모든 영화에 대한 예고편을 생성했습니다. 그런 다음 AMT(Amazon Mechanical Turk) 크라우드 워커에게 영화의 모든 예고편을 시청하고 제공된 정보(Q1) 및 예고편의 매력(Q2)과 관련된 질문에 답한 후 최고와 최악의 예고편을 선택하도록 요청했습니다. 우리는 영화당 5명의 심사위원으로부터 평가를 수집했습니다.


표 6은 TP를 갖춘 GRAPHTRAILER가 다른 모든 시스템보다 평균적으로 더 많은 정보(Q1)와 매력적인(Q2) 트레일러를 제공한다는 것을 보여줍니다. TP가 없는 GRAPHTRAILER와 감독된 GRAPHTRAILER가 가장 좋은 것으로 선택되는 경우가 더 많지만, 또한 최악의 것으로 선택되는 경우도 동일합니다. 최고-최악 스케일링[31]을 사용하여 표준화된 점수(z-점수)를 계산할 때 TP가 있는 GRAPHTRAILER는 최고 성능을 달성하고(최악으로 거의 선택되지 않음) 감독된 GRAPHTRAILER가 그 뒤를 따릅니다. 흥미롭게도 TP가 없는 GRAPHTRAILER는 최고로 가장 자주 선택됩니다(24.40%). 이는 영화를 그래프로 모델링하고 샷을 개별적으로 선택하는 대신 무작위 걷기를 수행하는 전반적인 접근 방식이 일관된 예고편을 만드는 데 도움이 됨을 나타냅니다. 그러나 동일한 모델이 최악의 모델로 선택되는 경우가 가장 많으며, 이는 이러한 순진한 접근 방식만으로는 좋은 품질의 트레일러를 보장할 수 없음을 보여줍니다.


보충 자료에는 우리의 접근 방식을 기반으로 생성된 예고편의 비디오 예제가 포함되어 있습니다. 또한 부록에서는 그래프 순회 알고리즘의 단계별 그래픽 예를 제공합니다.


스포일러 경고! 우리 모델은 생성된 예고편의 스포일러를 명시적으로 피하지 않습니다. 우리는 알고리즘 1에서 영화 그래프를 탐색할 때 스포일러 관련 기준을 실험했습니다. 특히 "스포일러에 민감한" 그래프 근처에 있는 장면을 선택할 때 페널티를 추가했습니다. 우리는 정의상 영화에서 가장 큰 스포일러인 마지막 두 TP의 최단 경로를 측정하여 그러한 동네를 식별했습니다. 그러나 이 알고리즘 변형으로 인해 성능이 저하되었으므로 더 이상 이를 추구하지 않았습니다. 우리는 그러한 기준이 예고편 시퀀스를 제안하는 데 도움이 되지 않는다고 믿습니다. 왜냐하면 모델이 영화의 최신 부분에서 흥미로운 장면을 선택하는 것을 방해하기 때문입니다. 이러한 긴장감 넘치는 장면은 흥미로운 예고편을 만드는 데 중요하며 실제 예고편에도 실제로 포함됩니다. 우리 데이터 세트에 있는 전문 예고편의 3분의 1 이상이 마지막 두 TP(“Major setback”, “Climax”)의 장면을 포함합니다. 이에 대해서는 부록에서 더 자세히 논의합니다.


우리는 또한 생성된 예고편을 수동으로 조사한 결과 스포일러가 그다지 일반적이지 않다는 것을 발견했습니다(즉, 테스트 세트에서 12개의 예고편의 무작위 샘플에서 하나의 주요 스포일러 샷을 식별했습니다). 이는 아마도 주요 스포일러를 선택할 확률이 일반적으로 낮기 때문일 것입니다. 그리고 스포일러에 민감한 장면이 포함되어 있더라도 맥락을 벗어나면 영화의 결말을 밝히기에는 충분하지 않을 수 있습니다. 그러나 추가 기준으로 알고리즘에 쉽게 통합될 수 있는 보다 정교한 스포일러 식별 기술을 조사하는 것은 향후 작업에 맡깁니다.


이 문서는 CC BY-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.


[7] 테스트 세트의 성능은 공식 예고편의 예고편 라벨만 고려하는 반면 개발 세트에는 여러 예고편이 포함되어 있기 때문에 성능이 낮습니다.


[8] 실제 예고편은 후처리(예: 몽타주, 음성 해설, 음악)되어 자동 예고편과 직접 비교할 수 없기 때문에 인간 평가에 실측 예고편을 포함하지 않습니다.