저자:
(1) 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소의 Pinelopi Papalampidi;
(2) 프랭크 켈러(Frank Keller), 에든버러 대학교 정보학부 언어, 인지 및 계산 연구소;
(3) 미렐라 라파타(Mirella Lapata), 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소.
이 섹션에서는 접근 방식의 다양한 모델링 구성 요소에 대한 세부 정보를 제공합니다. 먼저 GRAPHTRAILER 아키텍처(섹션 A.1)의 세부 정보를 제공한 다음 TP 식별 네트워크가 훈련되는 방법을 논의하고(섹션 A.2) 마지막으로 시나리오 사전 훈련에 대한 기술 세부 정보를 제공합니다(A.3). , 그래프 순회에 사용되는 감정 흐름(A.4).
우리는 StraightThrough Estimator[7]를 활용하여 모델의 불연속성(즉, 상위 k 샘플링, 이웃 크기 선택)을 해결합니다. 역방향 전달 동안 우리는 Gumbel-softmax 재매개변수화 트릭[25, 32]을 사용하여 기울기를 계산합니다. 보조 시나리오 기반 네트워크에서 장면 수준 그래프를 구성하고 희소화하는 데에도 동일한 절차가 사용됩니다.
섹션 3에서는 장면에 대한 TP 레이블(예: 장면이 영화에서 TP 역할을 하는지 여부를 나타내는 이진 레이블)을 사용할 수 있다고 가정하여 비디오 및 시나리오 기반 모델에 대한 훈련 방식을 제시합니다. 이러한 레이블이 주어지면 우리 모델은 소수의 금 레이블과 네트워크의 TP 예측 사이의 BCE(이진 교차 엔트로피 손실) 목표로 훈련됩니다.
그러나 실제로 우리 훈련 세트에는 장면에 대한 silverstandard 라벨이 포함되어 있습니다. 후자는 TRIPOD [41] 데이터세트와 함께 출시되며 자동으로 생성되었습니다. 특히 TRIPOD는 시놉시스 문장이 TP를 대표한다는 가정하에 시놉시스(각본 아님)에 대한 표준 TP 주석을 제공합니다. 그리고 문장 수준 주석은 교사가 실버 표준 라벨을 생성하도록 강제하여 훈련한 일치 모델을 사용하여 장면에 투영됩니다.
그래프 순회 알고리즘(Section 3.1)에서 다음 장면을 선택하는 기준 중 하나는 지금까지 생성된 예고편의 감정 흐름입니다. 구체적으로 예고편이 감정 강도에 따라 세 부분으로 분류된다는 가설[9]을 채택합니다. 첫 번째 섹션은 관객의 관심을 끌기 위한 중간 강도로, 두 번째 섹션은 영화에 대한 핵심 정보를 전달하기 위해 낮은 강도로, 마지막으로 세 번째 섹션은 영화에 대한 흥미와 절벽을 만드는 데 점점 더 높은 강도를 표시합니다.
따라서 L 트레일러 샷의 예산이 주어지면 첫 번째 L/3 샷은 섹션 내에서 큰 변화 없이 중간 강도를 가질 것으로 예상됩니다(예: 모든 점수가 특정 범위로 정규화되는 0.7에 가까운 평균 절대 강도를 갖는 샷을 원함) -1부터 1까지). 예고편의 두 번째 부분(즉, 다음 L/3 샷)에서는 강도가 급격히 떨어지고 이 섹션 내의 샷은 다소 중립적인 감정(즉, 강도 0)을 유지할 것으로 예상됩니다. 마지막으로 세 번째 섹션(즉, 최종 L/3 샷)에서는 강도가 꾸준히 증가할 것으로 예상됩니다. 실제로 첫 번째 샷의 강도는 0.7(즉, 중간 강도)이 될 것으로 예상하고, 마지막 샷에서 최고점에 도달할 때까지 각 후속 샷마다 0.1씩 증가합니다.
이 문서는 CC BY-SA 4.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다.
[9] https : // www . 데릭-리우. com / 블로그 / 2017 / 9 / 10 / - 매트릭스 - is - a - 예고편 - editors-dream