paint-brush
작업 분해를 통한 영화 예고편 생성: 구현 세부 사항~에 의해@kinetograph

작업 분해를 통한 영화 예고편 생성: 구현 세부 사항

너무 오래; 읽다

본 논문에서 연구자들은 영화를 그래프로 모델링하여 예고편을 생성하고 내러티브 구조를 식별하고 감정을 예측하여 지도 방법을 능가합니다.
featured image - 작업 분해를 통한 영화 예고편 생성: 구현 세부 사항
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

저자:

(1) 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소의 Pinelopi Papalampidi;

(2) 프랭크 켈러(Frank Keller), 에든버러 대학교 정보학부 언어, 인지 및 계산 연구소;

(3) 미렐라 라파타(Mirella Lapata), 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소.

링크 표

나. 시행 세부사항

평가 지표 이전 작업[41]은 세 가지 지표 측면에서 TP 식별 모델의 성능을 평가합니다. 총 일치(TA), 즉 올바르게 식별된 TP 장면의 비율, 부분 일치(PA), 즉 TP의 비율 적어도 하나의 최적 표준 장면이 식별되는 이벤트 및 거리(D), 즉 주어진 TP에 대해 예측된 장면 세트와 최적 표준 장면 세트 사이의 장면 수의 최소 거리(각본 길이로 정규화됨). 우리는 부분 동의 지표를 사용하여 결과를 보고합니다. 샷(장면이 아닌)에 대한 실버 표준(골드가 아닌) 라벨을 기준으로 평가하고 결과적으로 장면 내의 모든 샷을 동일하게 중요하게 간주하므로 더 이상 완전한 동의를 사용할 수 없습니다. 매우 유사한 결과를 산출하고 모델 변형을 구별하는 데 도움이 되지 않기 때문에 거리 측정법도 사용하지 않습니다.


하이퍼파라미터 이전 작업[42]에 따라 모든 유형의 기능(즉, 텍스트, 시각적 및 오디오)을 동일한 하위 차원인 128에 투영합니다. 차원이 클수록 매개변수 수가 상당히 증가하고 다음과 같은 이유로 인해 열등한 결과가 산출된다는 것을 발견했습니다. 작은 데이터 세트 크기.


우리는 트랜스포머 인코더를 사용하여 장면(각본 관련)과 샷(비디오 관련)을 맥락화합니다. 인코더에서 2, 3, 4, 5, 6개의 레이어를 실험한 결과 3개의 레이어에서 가장 좋은 결과를 얻었습니다. FF(피드포워드) 차원의 경우 표준 크기인 2,048과 더 작은 크기인 1,024를 모두 실험한 결과 전자가 더 잘 작동하는 것으로 나타났습니다. 우리는 또 다른 변환기 인코더를 사용하여 일련의 입력 문장 표현에서 장면 표현을 계산합니다. 이 인코더는 4개의 레이어와 1,024 FF 차원을 가지고 있습니다. 두 인코더 모두 8개의 주의 헤드와 0.3 드롭아웃을 사용합니다.


그래프 희소화(예: 상위 k 이웃 선택) 중에 장면 기반 네트워크와 샷 기반 네트워크의 세분성 및 크기가 다르기 때문에 다양한 이웃 옵션을 고려합니다. [42]에 따라 장면 네트워크에 대해 [1-6] 이웃을 고려하고 샷 네트워크에 대해 이웃 크기를 [6-12]로 늘립니다.



그림 4. TP에 따라 결정된 영화의 여러 섹션(개발 세트)에 해당하는 예고편 장면의 분포. 예고편 장면은 영화의 모든 부분에서 나옵니다. 예고편 장면은 대부분 시작과 중간에서 나오긴 하지만 끝 부분에서도 나옵니다.


표 7. 개발 세트에서 특정 유형의 TP로 라벨이 지정된 장면이 하나 이상 포함된 예고편의 백분율(%)입니다. 스토리에 대한 소개를 제공하는 처음 두 개의 TP는 특히 주요 스포일러가 포함된 마지막 두 개와 비교할 때 예고편에 더 자주 나타납니다.


표 8. 예고편을 3개의 짝수 부분(개발 세트)으로 나눌 때 예고편 섹션당 평균 절대 감정 강도.



이 문서는 CC BY-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.