paint-brush
상황 및 대화 기반 심층 네트워크의 다단계 프로파일링: 배경 및 관련 연구~에 의해@kinetograph

상황 및 대화 기반 심층 네트워크의 다단계 프로파일링: 배경 및 관련 연구

너무 오래; 읽다

본 논문에서 연구자들은 상황, 대사, 메타데이터 특징을 활용하여 영화 장르 분류를 위한 다중 양식 프레임워크를 제안합니다.
featured image - 상황 및 대화 기반 심층 네트워크의 다단계 프로파일링: 배경 및 관련 연구
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

저자:

(1) Dinesh Kumar Vishwakarma, 인도 델리 소재 델리 기술 대학교 정보 기술부 생체 인식 연구소;

(2) Mayank Jindal, 인도 델리 소재 델리 공과대학 정보기술학과 생체인식연구소

(3) Ayush Mittal, 인도 델리 소재 델리기술대학교 정보기술학과 생체인식연구소

(4) Aditya Sharma, 인도 델리 소재 델리 기술 대학교 정보 기술부 생체 인식 연구소.

링크 표

2. 배경 및 관련 업무

이 섹션에서는 과거의 영화 장르 분류 방법론과 연구 동기를 논의합니다. 비디오 콘텐츠는 주로 (1) 비디오 프레임(이미지)과 (2) 오디오(음성 {대화} + 비음성 {보컬})로 분할됩니다. 과거에는 영상 콘텐츠를 분석하기 위해 인지적[3]~[7]이나 정서적[8] 수준을 개별적으로 중심으로 다양한 연구가 이루어졌다. 보다 효과적인 연구를 위해서는 장르 분류 작업을 더 잘 수행하기 위해 두 수준을 모두 고려해야 합니다.


과거 연구에서는 시각 장애, 평균 샷 길이, 비디오 프레임의 점진적인 빛 강도 변화, 오디오 파형의 피크[3] 등 하위 수준 특징을 기반으로 장면 구성 요소를 캡처하는 많은 인지 기반 접근 방식이 제안되었습니다. [4]. 인지 분류에 사용되는 다른 기능으로는 프레임의 RGB 색상[6], 필름 샷[7], 샷 길이[9], 장면의 배경 유형(어두움/어둡지 않음)[6] 등이 있습니다. 마찬가지로 일부 접근 방식은 다음과 같습니다. 정서적 분석만을 위해 제안되었습니다 [8].


영화는 다양한 장르를 가지고 있어 시청자에게 많은 정보를 전달하며, 시청자에게 영화를 추천하는 역할도 합니다. Jainet al. [5]는 4가지 비디오 기능(샷 길이, 모션, 색상 지배력, 조명 키)과 5가지 오디오 기능을 사용하여 단 200개의 훈련 샘플을 사용하여 영화 클립을 분류했습니다. 그들은 장르를 예측하기 위해 완전한 영화 클립을 사용했습니다. 그러나 이 연구에서는 모델 학습에 200개의 학습 샘플만 사용합니다. 따라서 그들이 보고한 정확도는 과적합으로 인한 것일 수 있습니다. 또한 이 연구는 단일 라벨 분류에만 중점을 두었습니다. Huang et al. [4]는 223개 크기의 데이터 세트에서 오디오 및 시각적 기능(총 277개 기능)을 모두 사용하는 7개의 스택 SVM을 갖춘 자체 적응형 조화 검색 알고리즘을 제안했습니다. Ertugrulet al. [10]은 줄거리를 문장으로 나누고 문장을 장르로 분류한 후 최종 장르를 발생률이 가장 높은 장르로 취하여 영화의 줄거리를 포함한 저수준 특징을 사용했습니다. Paiset al. [11]은 전체 시놉시스에서 몇 가지 중요한 단어에 의존하여 이미지-텍스트 특징을 융합할 것을 제안하고, 이를 기반으로 영화 장르 분류를 수행하였다. 이 모델은 107개의 영화 예고편 세트에서 테스트되었습니다. Shahinet al. [12]는 영화 줄거리와 인용문을 사용하고 장르를 분류하기 위해 계층적 주의 네트워크를 제안했습니다. 유사하게, Kumar et al. [13]은 전체 시간 복잡성을 줄이는 데 초점을 맞춰 해시 벡터화를 사용하여 장르를 분류하기 위해 영화 플롯을 사용할 것을 제안했습니다. 위에서 언급한 연구는 낮은 수준의 기능에 의존하고 영화 예고편에서 높은 수준의 기능을 캡처하지 않으므로 좋은 수준 인식 시스템에 의존할 수 없습니다.


최근 연구에 따르면 많은 연구자들이 영화 장르 분류 작업에 딥 네트워크를 사용했습니다. Shambharkaret al. [14]는 공간적, 시간적 특징을 포착하기 위해 단일 레이블 3D CNN 기반 아키텍처를 제안했습니다. 여기에는 공간적 및 시간적 특징이 포착되어 있지만 단일 레이블 분류로 인해 모델이 강력하지 않습니다. 일부 연구자들은 영화 장르를 분류하기 위해 영화 포스터 작업을 해왔습니다. 추 외. [15]는 객체 감지 및 시각적 외관을 용이하게 하기 위해 심층 신경망을 공식화했습니다. 작품은 포스터에서 많은 정보를 포착했지만 포스터 자체만으로는 영화를 완벽하게 설명하기에는 부족하다. Simoeset al. [16]은 비지도 클러스터링 알고리즘이 제공하는 장면 히스토그램, 각 예고편에 대한 가중치 장르 예측 및 일부 하위 수준 비디오 기능을 포함하는 CNN-Motion을 제안했습니다. 이는 비디오의 주요 기능 그룹을 제공했지만 장르를 분류하기 위한 정서적, 인지 기반 기능이 일부 부족했습니다.


따라서 과거 문헌을 통해 인지적, 정서적 연구를 위해서는 영상 예고편에서 주요 정보를 추출해야 함을 알 수 있다. 따라서 우리의 작업 이면에 있는 동기는 [1]에서와 같이 두 가지 수준의 비디오 콘텐츠 분석에 의존하는 접근 방식을 장치하는 것입니다. 우리는 제안된 아키텍처와 모델이 새롭고 강력하며 향후 다양한 연구 관점에 사용될 수 있다고 믿습니다.


이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .