저자:
(1) 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소의 Pinelopi Papalampidi;
(2) 프랭크 켈러(Frank Keller), 에든버러 대학교 정보학부 언어, 인지 및 계산 연구소;
(3) 미렐라 라파타(Mirella Lapata), 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소.
평가 지표 이전 작업[41]은 세 가지 지표 측면에서 TP 식별 모델의 성능을 평가합니다. 총 일치(TA), 즉 올바르게 식별된 TP 장면의 비율, 부분 일치(PA), 즉 TP의 비율 적어도 하나의 최적 표준 장면이 식별되는 이벤트 및 거리(D), 즉 주어진 TP에 대해 예측된 장면 세트와 최적 표준 장면 세트 사이의 장면 수의 최소 거리(각본 길이로 정규화됨). 우리는 부분 동의 지표를 사용하여 결과를 보고합니다. 샷(장면이 아닌)에 대한 실버 표준(골드가 아닌) 라벨을 기준으로 평가하고 결과적으로 장면 내의 모든 샷을 동일하게 중요하게 간주하므로 더 이상 완전한 동의를 사용할 수 없습니다. 매우 유사한 결과를 산출하고 모델 변형을 구별하는 데 도움이 되지 않기 때문에 거리 측정법도 사용하지 않습니다.
하이퍼파라미터 이전 작업[42]에 따라 모든 유형의 기능(즉, 텍스트, 시각적 및 오디오)을 동일한 하위 차원인 128에 투영합니다. 차원이 클수록 매개변수 수가 상당히 증가하고 다음과 같은 이유로 인해 열등한 결과가 산출된다는 것을 발견했습니다. 작은 데이터 세트 크기.
우리는 트랜스포머 인코더를 사용하여 장면(각본 관련)과 샷(비디오 관련)을 맥락화합니다. 인코더에서 2, 3, 4, 5, 6개의 레이어를 실험한 결과 3개의 레이어에서 가장 좋은 결과를 얻었습니다. FF(피드포워드) 차원의 경우 표준 크기인 2,048과 더 작은 크기인 1,024를 모두 실험한 결과 전자가 더 잘 작동하는 것으로 나타났습니다. 우리는 또 다른 변환기 인코더를 사용하여 일련의 입력 문장 표현에서 장면 표현을 계산합니다. 이 인코더는 4개의 레이어와 1,024 FF 차원을 가지고 있습니다. 두 인코더 모두 8개의 주의 헤드와 0.3 드롭아웃을 사용합니다.
그래프 희소화(예: 상위 k 이웃 선택) 중에 장면 기반 네트워크와 샷 기반 네트워크의 세분성 및 크기가 다르기 때문에 다양한 이웃 옵션을 고려합니다. [42]에 따라 장면 네트워크에 대해 [1-6] 이웃을 고려하고 샷 네트워크에 대해 이웃 크기를 [6-12]로 늘립니다.
이 문서는 CC BY-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.