저자:  (1) 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소의 Pinelopi Papalampidi;  (2) 프랭크 켈러(Frank Keller), 에든버러 대학교 정보학부 언어, 인지 및 계산 연구소;  (3) 미렐라 라파타(Mirella Lapata), 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소.  링크 표   초록 및 소개   관련된 일   문제 공식화   실험 설정   결과 및 분석   결론 및 참고자료   A. 모델 세부정보   나. 시행 세부사항   C. 결과: 절제 연구  3. 문제 공식화  예고편을 생성하려면 M 샷(LM)의 전체 길이 동영상에서 L 샷을 선택해야 합니다. 영화는 비선형적으로 전개되는 별개의 하위 플롯이나 이벤트를 포함할 수 있는 복잡한 스토리를 제시하는 반면, "필러"라고 불리는 중복 이벤트는 메인 스토리를 풍성하게 합니다. 따라서 연속된 샷이 반드시 의미적으로 관련되어 있다고 가정할 수는 없습니다. 이벤트 간의 관계를 더 잘 탐색하기 위해 영화를 그래프로 표현합니다[42]. G = (V, E)는 정점 V가 샷이고 가장자리 E가 의미론적 유사성을 나타내는 그래프를 나타냅니다. 우리는 이전 샷에서 미래 샷으로 방향이 지정된 가장자리만 허용하여 G에서 샷의 원래 시간 순서를 고려합니다. G는 샷 i에서 미래의 모든 샷 j로 전환할 확률을 기록하는 상부 삼각 전이 행렬 T로 설명됩니다.  G 내에서 우리는 일부 샷이 영화의 주요 이벤트(그림 2의 두꺼운 원)를 설명하는 반면 모든 샷에는 감정(긍정적 또는 부정적)이 있으며 그 강도는 점수(그림 2의 녹색/빨간색 음영)로 표시된다고 가정합니다. . 우리는 G를 탐색하고 트레일러 장면의 시퀀스를 선택하는 알고리즘을 제안합니다. 다음에서는 먼저 이 알고리즘(섹션 3.1)을 설명한 다음 그래프 G가 어떻게 학습되고 TP 식별[41](섹션 3.2)을 통해 주요 이벤트가 감지되는지 논의합니다. 마지막으로 샷 기반 감정 점수를 예측하는 방법도 설명합니다(섹션 3.5).  3.1. 무비 그래프 순회   우리는 (대상 트레일러 길이에 따라) 총 L개의 샷을 선택하고 그림 2(굵은 선)에 표시된 대로 제안 트레일러 시퀀스를 검색합니다. 각 단계에서 우리는 생성된 감정 흐름과 지금까지 식별된 TP를 추적합니다(각각 알고리즘 1의 라인 10 및 13-14). 샷이나 바로 이웃한 샷이 경로에 추가된 경우 예고편에 표시하기 위해 TP 이벤트가 선택되었습니다.  3.2. TP 식별   비디오 기반 모델은 샷 수준 TP 라벨에 대한 액세스를 가정합니다. 그러나 우리가 알고 있는 TP 식별을 위한 유일한 데이터 세트는 각본을 기반으로 한 장면 수준 레이블이 포함된 TRIPOD [41]입니다. 보다 세분화된 레이블을 얻기 위해 간단한 일대다 매핑을 따라 장면 기반 주석을 샷에 투영합니다(자세한 내용은 섹션 4 참조). 우리의 훈련 신호는 불가피하게 시끄러우므로 각본에 대한 액세스가 비디오 기반 모델이 각 TP에 대해 더 대표적인 샷을 선택하도록 장려할 것이라는 가설을 세웠습니다. 즉, 각본은 특권적 지식과 암묵적인 감독 신호를 나타내는 동시에 추론 중 추가적인 전처리의 필요성을 완화합니다. 게다가 각본은 등장인물과 장면에서의 역할, 행동과 감정(카메라가 보는 것을 설명하는 선으로 전달) 등 풍부한 추가 정보를 제공합니다. 그렇지 않으면 이 정보를 비디오에서 정확하게 현지화하기 어려울 수 있습니다. 또한, 라벨이 지정되지 않은 각본의 텍스트 모음은 상대적으로 얻기 쉽고 네트워크를 사전 훈련하는 데 사용할 수 있습니다.   3.3. 지식 증류  이제 데이터 스트림(다중 모드 대 텍스트 전용) 및 의미 단위(샷 대 장면)로의 분할 측면에서 영화에 대한 다양한 관점을 캡슐화하는 두 네트워크에 대한 공동 훈련 방식을 설명합니다.     우리는 두 개의 그래프 기반 표현(예: 비디오 샷 및 시나리오 장면) 간의 일관성을 강화하기 위해 두 네트워크 간의 두 번째 정규화 손실을 사용할 것을 제안합니다. 이 손실의 목적은 두 가지입니다. 대조 표현 학습[38, 39, 48]에 대한 이전 작업에서 볼 수 있듯이 두 네트워크에 대한 TP 예측을 개선하고 샷 간의 보다 정확한 연결을 학습하는 데 도움을 주기 위한 것입니다(샷- 기반 그래프는 섹션 3.1)의 예고편 생성 알고리즘에 대한 입력으로 사용됩니다. 영화 속 사건을 독립적으로 묘사하는 각본 장면과 비교할 때 비디오 장면은 길이가 몇 초에 불과하며 주변 상황에 따라 의미가 결정됩니다. 우리는 해당 시나리오 장면과 유사한 의미를 보존하기 위해 샷에 대한 그래프 이웃을 적용함으로써 샷 기반 그래프에서 적절한 이웃 선택을 장려할 것이라고 가정합니다.  표현 일관성 손실  3.4. 자기 감독 사전 훈련  사전 훈련의 목표는 영화 비디오보다 접근하기 쉬운 각본에서 더 나은 장면 표현(예: 저작권 문제 및 계산 오버헤드가 적음)을 학습하는 것입니다. 이 지식이 일관성 손실을 통해 비디오 기반 네트워크로 전달되기를 바랍니다.   3.5. 감정 예측  마지막으로 우리 모델은 한 장면에서 다음 장면으로 감정이 어떻게 흐르는지 고려합니다. 우리는 TP 식별에 사용하는 것과 동일한 공동 아키텍처(섹션 3.3) 및 훈련 체제를 사용하여 샷당 감정 점수를 예측합니다. 비디오 기반 네트워크는 감정 레이블(예: 긍정적, 부정적, 중립)이 있는 장면에 대해 훈련되는 반면, 시나리오 기반 네트워크는 감정 레이블이 있는 장면에 대해 훈련됩니다(섹션 4에서 레이블을 얻는 방법에 대해 설명합니다). 훈련 후에는 감정 흐름을 포착하고 고강도 샷과 저강도 샷을 구별하기 위해 샷당 감정 레이블에 대한 확률 분포를 예측합니다(자세한 내용은 부록 참조).   이 문서는 CC BY-SA 4.0 DEED 라이센스에 따라   있습니다. arxiv에서 볼 수

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

이 오디오는 이야기의 원래 언어로 제작되었습니다!

작업 분해를 통한 영화 예고편 생성: 문제 공식화

About Author

코멘트

태그 걸기

이 기사는 다음에서 발표되었습니다.

Related Stories

디지털 유목민 들어보기: 태국의 새로운 DTV 비자에 대해 알아야 할 사항

바다 항해: 데이터 레이크를 사용하여 프로덕션 등급 RAG 애플리케이션 개발

독특한 생태계를 강화하는 비트코인 UTXO 모델

AI의 힘을 발휘하세요. 최첨단 기술의 체계적 검토: 개요 및 소개

디지털 유목민 들어보기: 태국의 새로운 DTV 비자에 대해 알아야 할 사항

바다 항해: 데이터 레이크를 사용하여 프로덕션 등급 RAG 애플리케이션 개발

독특한 생태계를 강화하는 비트코인 UTXO 모델

AI의 힘을 발휘하세요. 최첨단 기술의 체계적 검토: 개요 및 소개

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps