paint-brush
상황 및 대화 기반 심층 네트워크의 다단계 프로파일링: 요약 및 소개~에 의해@kinetograph
115 판독값

상황 및 대화 기반 심층 네트워크의 다단계 프로파일링: 요약 및 소개

너무 오래; 읽다

본 논문에서 연구자들은 상황, 대사, 메타데이터 특징을 활용하여 영화 장르 분류를 위한 다중 양식 프레임워크를 제안합니다.
featured image - 상황 및 대화 기반 심층 네트워크의 다단계 프로파일링: 요약 및 소개
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

저자:

(1) Dinesh Kumar Vishwakarma, 인도 델리 소재 델리 기술 대학교 정보 기술부 생체 인식 연구소;

(2) Mayank Jindal, 인도 델리 소재 델리 공과대학 정보기술학과 생체인식연구소

(3) Ayush Mittal, 인도 델리 소재 델리기술대학교 정보기술학과 생체인식연구소

(4) Aditya Sharma, 인도 델리 소재 델리 기술 대학교 정보 기술부 생체 인식 연구소.

링크 표

추상적인

자동화된 영화 장르 분류는 연구 및 탐구의 적극적이고 필수적인 영역으로 등장했습니다. 짧은 길이의 영화 예고편은 비디오 콘텐츠가 인지적 수준과 정서적 수준의 특징으로 구성되어 있기 때문에 영화에 대한 유용한 통찰력을 제공합니다. 이전 접근 방식은 인지적 또는 정서적 내용 분석에 중점을 두었습니다. 본 논문에서는 인지와 정서 기반 특징을 모두 고려한 새로운 다중 양식: 상황, 대화, 메타데이터 기반 영화 장르 분류 프레임워크를 제안합니다. 다음을 고려한 사전 기능 융합 기반 프레임워크: 해당 장르와 유용한 정서 기반 매핑을 제공하는 명사와 동사가 포함된 예고편의 일반 스냅샷에서 얻은 상황 기반 기능, 오디오의 대화(음성) 기반 기능, 인지 및 정서 기반 비디오 분석에 대한 관련 정보를 함께 제공하는 메타데이터입니다. 또한 액션, 로맨스, 코미디, 공포, 공상과학 등 5가지 인기 장르에 속하는 2000개의 할리우드 영화 예고편이 포함된 영어 영화 예고편 데이터세트(EMTD)를 개발하고 검증을 위해 표준 LMTD-9 데이터세트에 대한 교차 검증을 수행합니다. 제안된 프레임워크. 결과는 제안된 영화 장르 분류 방법이 F1 점수, 정밀도, 재현율 및 정밀도-재현율 곡선 아래 영역에서 묘사된 것처럼 훌륭하게 수행되었음을 보여줍니다.


핵심 단어: 영화 장르 분류, 컨볼루션 신경망, 영어 영화 예고편 데이터 세트, 다중 모드 데이터 분석.

1. 소개

영화는 관객에게 큰 즐거움을 선사하며 다양한 방식으로 사회에 영향을 미칩니다. 영화 장르를 수동으로 식별하는 것은 개인의 취향에 따라 다를 수 있습니다. 따라서 자동화된 영화 장르 예측은 활발한 연구 및 탐구 분야입니다. 영화 예고편은 영화의 장르를 예측하는 데 유용한 자료가 되고 있습니다. 매우 짧은 시간 내에 영화에 대한 유용한 통찰력을 제공합니다. 영화 예고편은 인지적 콘텐츠와 정서적 콘텐츠라는 두 가지 유형의 콘텐츠로 구성됩니다.


인지 콘텐츠는 영화 예고편의 특정 비디오 프레임에서 사건, 사물, 사람의 구성을 설명하는 반면, 감성 콘텐츠는 영화 예고편의 감정이나 감정과 같은 심리적 특징의 유형을 설명합니다[1]. 인지 콘텐츠의 예로는 놀이터, 건물, 사람, 개 등이 있습니다. 정서적 콘텐츠의 예로는 행복, 슬픔, 분노 등과 같은 감정/감정이 있습니다. 인지 콘텐츠와 감정 기반 콘텐츠 모두 예측을 위한 두드러진 특징을 제공합니다. 영화의 장르.


본 논문에서는 영화 예고편의 비디오, 오디오, 메타데이터(플롯/설명) 콘텐츠를 이용하여 영화 장르를 예측하는 것을 목표로 하는 새로운 다중 양식 상황, 대화 및 메타데이터 기반 영화 장르 분류 프레임워크를 제안합니다. 우리의 새로운 프레임워크는 영화 예고편에서 인지적 특징과 정서적 특징을 모두 추출하는 데 중점을 둡니다. 이를 달성하기 위해 비디오 프레임에서 관련 명사와 동사로 구성된 문장(상황에서 생성)을 추출합니다. 명사는 예고편의 인지적 콘텐츠에 대한 관련 정보를 제공하고, 동사는 해당 장르에 대한 유용한 정서 기반 매핑을 제공합니다. 예를 들어, Laughing, Kigging, Tickling 등과 같은 동사는 '코미디' 장르에 대한 정서 기반 매핑을 제공합니다. 공격하다, 때리다, 때리다 등의 동사는 '액션' 장르와 정서 기반 매핑을 제공합니다. 상황과 함께 대화 및 메타데이터 기반 기능은 이벤트 설명(인지 콘텐츠) 및 심리적 특징(정서 콘텐츠)을 포함하므로 인지 및 정서적 콘텐츠에 추가로 기여합니다.


표준 기계 학습 프로세스와 마찬가지로 작업은 여러 단계로 수행됩니다. 첫 번째 단계는 데이터 세트 생성 단계로, 액션, 로맨스, 코미디, 공포, SF 등 5가지 인기 장르에 속하는 2000개의 할리우드 영화 예고편이 포함된 EMTD를 생성합니다. 두 번째 단계에는 반복되는 모든 프레임을 제거하고 크기를 조정하는 비디오 예고편의 전처리가 포함됩니다. 유용한 프레임에서 중요한 명사와 동사가 포함된 문장을 추출합니다. 또한 예고편의 대화를 얻기 위해 영화 예고편의 오디오 대본을 준비합니다. 3단계에서는 예고편에서 중요한 기능을 추출하고 학습하는 제안된 아키텍처를 설계하고 훈련합니다. 마지막으로 4단계에서는 Area under the PrecisionRecall Curve(AU(PRC)) 메트릭을 사용하여 제안된 아키텍처의 성능을 평가합니다. 다음은 우리 작업의 중요한 기여입니다.


  • 우리는 액션, 로맨스, 코미디, 공포, SF 등 5가지 인기 있고 독특한 장르에 속하는 영어 할리우드 영화 예고편을 포함하는 새로운 EMTD(English Movie Trailer Dataset)를 제안합니다.


  • 이 연구는 인지 및 정서 기반 기능을 사용하여 영화 장르를 예측하는 새로운 접근 방식을 제안합니다. 이전 문헌 중 우리가 아는 한 영화 예고편에서 추출한 대화, 상황 및 메타데이터 기반 기능의 조합에 초점을 맞춘 문헌은 없습니다. 따라서 명사와 동사를 활용한 상황 기반 분석, 음성 인식을 활용한 대화 기반 분석, 예고편에서 사용할 수 있는 메타데이터를 활용한 메타데이터 기반 분석을 수행합니다.


  • 제안된 아키텍처는 표준 LMTD-9 [2] 데이터 세트에 대한 교차 데이터 세트 테스트를 수행하여 평가됩니다. 결과는 제안된 아키텍처가 탁월한 성능을 발휘하고 프레임워크의 우수한 성능을 보여줍니다.


논문의 나머지 부분은 다음과 같이 구성된다. 2장에서는 영화 장르 분류에 관한 과거 문헌을 검토하고 제안한 작업의 동기를 조명한다. 섹션 3에서는 제안된 EMTD에 대해 논의합니다. 섹션 4에서는 제안된 아키텍처에 대한 자세한 설명을 제공합니다. 섹션 5에서는 제안된 프레임워크의 성능을 평가하고 두 개의 서로 다른 데이터 세트에 대해 검증합니다. 본 논문은 6장에서 결론을 맺는다.


이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .