저자:
(1) 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소의 Pinelopi Papalampidi;
(2) 프랭크 켈러(Frank Keller), 에든버러 대학교 정보학부 언어, 인지 및 계산 연구소;
(3) 미렐라 라파타(Mirella Lapata), 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소.
영화 예고편은 시청자에게 스토리를 소개하고, 영화의 분위기와 예술적 스타일을 전달하며, 관객이 영화를 보도록 유도하는 등 다양한 기능을 수행합니다. 이러한 다양한 기능으로 인해 자동 트레일러 생성이 어려운 작업이 되었습니다. 우리는 이를 내러티브 구조 식별과 감정 예측이라는 두 가지 하위 작업으로 분해합니다. 우리는 영화를 그래프로 모델링합니다. 여기서 노드는 샷이고 가장자리는 그들 사이의 의미론적 관계를 나타냅니다. 우리는 각본에서 특권적인 텍스트 정보(예: 등장인물, 행동, 상황)를 활용하는 공동 대조 훈련을 사용하여 이러한 관계를 학습합니다. 그런 다음 비지도 알고리즘은 그래프를 순회하여 인간 심사위원이 경쟁 지도 방식으로 생성된 예고편보다 선호하는 예고편을 생성합니다.
예고편은 영화 홍보에 사용되는 짧은 비디오이며 상업적 성공에 중요한 역할을 하는 경우가 많습니다. 예고편의 핵심 기능은 다양한 관객에게 영화를 홍보하는 것이지만, 예고편은 시청자가 영화를 보고 싶어하도록 고안된 설득력 있는 예술이자 홍보 서술의 한 형태이기도 합니다. 예고편 제작이 예술적 노력으로 간주됨에도 불구하고 영화 산업은 예고편 제작을 안내하는 전략을 개발해 왔습니다. 한 학파에 따르면 예고편은 3막으로 구성된 내러티브 구조를 보여야 합니다[1]. 첫 번째 막에서는 캐릭터와 스토리 설정을 설정하고, 두 번째 막에서는 주요 갈등을 소개하며, 세 번째 막에서는 위험을 높이고 결말의 티저를 제공합니다. 또 다른 학설은 이야기의 기복에 따라 정의되는 예고편의 분위기에 더 관심을 두고 있습니다[2]. 이 접근 방식에 따르면 예고편은 시청자의 시선을 사로잡기 위해 처음에는 중간 강도를 가져야 하고, 스토리에 대한 핵심 정보를 전달하기 위해 낮은 강도를 가져야 하며, 예고편이 끝날 때 클라이맥스에 도달할 때까지 점차 강도를 높여야 합니다.
예고편을 자동으로 만들려면 사람 식별, 행동 인식, 감정 예측과 같은 낮은 수준의 작업을 수행해야 하지만 이벤트와 인과 관계 간의 연관성을 이해하고 캐릭터와 그 사건에 대한 추론과 같은 더 높은 수준의 작업도 수행해야 합니다. 행위. 작업의 복잡성을 감안할 때 영화-예고편 쌍에서 이 모든 지식을 직접 학습하려면 수천 개의 예제가 필요하며 해당 예제의 처리 및 주석이 어려울 수 있습니다. 따라서 자동 예고편 생성에 대한 이전 접근 방식[24,46,53]이 시청각 기능에만 초점을 맞춘 것은 놀라운 일이 아닙니다.
인간 편집자의 창의적인 프로세스에서 영감을 받아 예고편 생성에 대한 상향식 접근 방식을 채택하고 이를 직교하고 단순하며 잘 정의된 두 개의 하위 작업으로 분해합니다. 첫 번째는 내러티브 구조의 식별, 즉 영화의 가장 중요한 사건을 검색하는 것입니다. 시나리오 작성에서 일반적으로 채택되는 이론[13,22,51]은 영화 줄거리에 전환점(TP, 그림 1의 정의 참조)으로 알려진 5가지 유형의 주요 이벤트가 있음을 시사합니다. 두 번째 하위 작업은 감정 예측으로, 우리는 이를 샷과 유발된 감정 사이의 강도 흐름에 대한 근사치로 봅니다.
우리는 감독되지 않은 그래프 기반 접근 방식에 따라 제안 예고편을 생성합니다. 우리는 노드가 샷이고 가장자리가 샷 간의 중요한 의미 연결을 나타내는 그래프로 영화를 모델링합니다(그림 2 참조). 또한 노드에는 해당 이벤트가 주요 이벤트(예: TP)인지 여부를 나타내는 레이블이 있고 감정 강도(긍정적 또는 부정적)를 나타내는 점수가 표시됩니다. 우리의 알고리즘은 이 영화 그래프를 탐색하여 예고편 시퀀스를 생성합니다. 이는 인간 편집자가 검토하고 수정할 제안으로 사용될 수 있습니다.
TP 식별 작업과 감정 예측 작업 모두 영화 콘텐츠에 대한 낮은 수준의 이해를 통해 이점을 얻을 수 있습니다. 실제로 우리는 문자와 장소를 식별하고, 행동을 인식하고, 의미 단위를 지역화하기 위해 기성 모듈을 사용할 수 있습니다. 그러나 이러한 접근 방식은 훈련 및 추론 중에 전처리 시간과 메모리 요구 사항을 크게 늘리고 오류 전파 문제를 겪습니다. 대신, 우리는 대본을 특권 정보, 즉 훈련 시간에만 사용할 수 있는 정보로 활용하는 대조 학습 체제를 제안합니다. 각본은 영화가 장면으로 어떻게 분할되는지, 등장인물이 누구인지, 언제 누구와 이야기하고 있는지, 어디에 있는지, 무엇을 하고 있는지를 보여줍니다(즉, "장면 제목"은 액션이 일어나는 위치를 설명하고 "액션 라인"은 카메라가 보는 것). 구체적으로 우리는 두 개의 개별 네트워크(각본을 기반으로 한 텍스트 네트워크와 비디오를 기반으로 한 다중 모드 네트워크)를 구축하고 보조 대비 손실을 사용하여 공동으로 훈련합니다. 텍스트 네트워크는 해당 영화를 수집하고 처리할 필요 없이 자기 지도 학습을 통해 대규모 시나리오 모음에 대해 추가로 사전 훈련될 수 있습니다. 실험 결과에 따르면 이러한 대조 훈련 접근 방식은 콘텐츠와 매력 측면에서 인간이 호의적으로 판단하는 예고편으로 이어지는 데 도움이 되는 것으로 나타났습니다.
이 문서는 CC BY-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.
[1] https://www.studiobinder.com/blog/how-to-make-a-movie-trailer
[2] https://www.derek-lieu.com/blog/2017/9/10/the-matrix-is-a-trailereditors-dream