저자:
(1) Dinesh Kumar Vishwakarma, 인도 델리 소재 델리 기술 대학교 정보 기술부 생체 인식 연구소;
(2) Mayank Jindal, 인도 델리 소재 델리 공과대학 정보기술학과 생체인식연구소
(3) Ayush Mittal, 인도 델리 소재 델리 기술대학교 정보기술학과 생체인식연구소
(4) Aditya Sharma, 인도 델리 소재 델리기술대학교 정보기술학과 생체인식연구소.
이 작업은 프레임의 상황, 음성의 대화, 메타데이터(영화 줄거리 및 설명)를 포함한 다양한 양식을 고려하여 정서적 및 인지적 수준을 포함하는 영화 장르 분류 문제에 대한 새로운 전체론적 접근 방식의 아이디어를 확장합니다. 또한 이 연구를 수행하기 위해 액션, 코미디, 공포, 로맨스, SF 등 5개 장르의 약 2000개 예고편을 포함하는 할리우드 영어 영화 예고편 데이터세트 EMTD를 구축했습니다. 우리는 섹션 5.2에서 설명한 대로 다양한 모델 아키텍처를 실험했으며 각각 0.92와 0.82의 AU(PRC) 값을 달성하는 EMTD 및 표준 LMTD-9[2]에 대한 최종 프레임워크를 검증했습니다. 우리 연구의 주요 목표는 예고편과 같은 짧은 클립에서 영화 장르를 분류하는 강력한 프레임워크를 구축하는 것입니다. 우리의 연구에는 영어 음성 기능이 포함되어 있지만 일부 비영어 예고편에도 적용될 수 있습니다. 영어가 아닌 언어의 경우 우리 모델은 비디오 기능만 통합할 수 있으므로 이를 기반으로 아키텍처에서 예측을 할 수 있습니다.
제안된 모델을 확장하기 위해 보컬을 기반으로 한 배경 오디오 연구도 통합할 수 있습니다. 따라서 앞으로는 영화 예고편에서 대부분의 기능을 더 잘 추출하고 사용할 수 있도록 현재 프레임워크와 함께 오디오의 배경 보컬을 고려한 프레임워크를 구축할 계획입니다. 또한 다중 라벨 분류에 대한 연구에 더 많은 장르를 추가할 계획입니다.
[1] A. Hanjalic 및 LQ Xu, "감동적인 비디오 콘텐츠 표현 및 모델링", IEEE Trans. 멀티메드., vol. 7, 아니. 2005년 1월 1일
[2] J. Wehrmann 및 RC Barros, "다중 레이블 영화 장르 분류를 위한 시간에 따른 컨볼루션", 응용 컴퓨팅에 관한 ACM 심포지엄 회보, 2017년, vol. 부품 F1280, pp. 114–119.
[3] Z. Rasheed, Y. Sheikh 및 M. Shah, "영화 분류를 위한 계산 가능한 기능 사용", IEEE Trans. 회로 시스템 비디오 기술, vol. 15, 아니. 1, 52~64페이지, 2005년 1월.
[4] LH Chen, YC Lai, HY Mark Liao, “배경 정보를 이용한 영화 장면 분할,” Pattern Recognit., vol. 41, 아니. 2008년 3월 3일.
[5] SK Jain과 RS Jadon, “신경망을 이용한 영화 장르 분류기”, 2009.
[6] L. Canini, S. Benini, R. Leonardi, “선택된 함축적 특징을 기반으로 한 영화의 정서적 추천”, IEEE Trans. 회로 시스템 비디오 기술, vol. 23, 아니. 2013년 4월 4일.
[7] M. Xu, C. Xu, X. He, JS Jin, S. Luo 및 Y. Rui, “각성 및 원자가 차원의 계층적 정서적 내용 분석,” 신호 처리, vol. 93, 아니. 2013년 8월 8일
[8] A. Yadav 및 DK Vishwakarma, "영화 예고편을 사용한 장르 분류를 위한 심층 네트워크의 통합 프레임워크", Appl. 소프트 컴퓨팅. J., vol. 2020년 96일.
[9] K. Choroś, “시간적으로 집계된 비디오 샷의 길이 분석을 기반으로 한 비디오 장르 분류”, 컴퓨터 과학 강의 노트(하위 시리즈 인공 지능 강의 노트 및 생물 정보학 강의 노트 포함), 2018, vol. 11056 LNAI, 509-518페이지.
[10] AM Ertugrul 및 P. Karagoz, "양방향 LSTM을 사용한 플롯 요약에서 영화 장르 분류", Proceedings - 제12회 의미론적 컴퓨팅에 관한 IEEE 국제 컨퍼런스, ICSC 2018, 2018, vol. 2018-1월.
[11] G. Païs, P. Lambert, D. Beauchêne, F. Deloule 및 B. Ionescu, "텍스트 및 이미지 설명자의 상징적 융합을 사용한 애니메이션 영화 장르 감지", 2012.
[12] A. Shahin 및 A. Krzyżak, "장르: 영화 장르 탐지기", 컴퓨터 및 정보 과학 커뮤니케이션, 2020, vol. 1178 CCIS.
[13] N. Kumar, A. Harikrishnan 및 R. Sridhar, "해시 벡터화 기반 영화 장르 식별", 전기 공학 강의 노트, 2020, vol. 605.
[14] PG Shambharkar, P. Thakur, S. Imadoddin, S. Chauhan 및 MN Doja, "3D 컨볼루션 신경망을 사용한 영화 예고편의 장르 분류", 2020.
[15] WT Chu와 HJ Guo, “심층 신경망을 이용한 포스터 이미지를 기반으로 한 영화 장르 분류”, 2017.
[16] GS Simões, J. Wehrmann, RC Barros 및 DD Ruiz, "컨볼루션 신경망을 사용한 영화 장르 분류", 신경망에 관한 국제 합동 컨퍼런스 회보, 2016, vol. 2016-10월.
[17] J. Li, L. Deng, R. Haeb-Umbach 및 Y. Gong, "2장 - 음성 인식의 기본", 강력한 자동 음성 인식, J. Li, L. Deng, R. HaebUmbach, 및 Y. Gong, Eds. 옥스퍼드: Academic Press, 2016, pp. 9–40.
[18] S. Pratt, M. Yatskar, L. Weihs, A. Farhadi 및 A. Kembhavi, 컴퓨터 비전의 "접근 상황 인식" -- ECCV 2020, 2020, pp. 314–332.
[19] B. Beel, Joeran 및 Langer, Stefan 및 Gipp, “TF-IDuF: 사용자의 개인 문서 컬렉션을 기반으로 한 사용자 모델링을 위한 새로운 용어 가중치 체계,” Proc. 아이컨퍼런스 2017, 2017.
[20] J. Wehrmann, RC Barros, GS Simoes, TS Paula 및 DD Ruiz, "(심층) 프레임에서 학습", 2017.
[21] DP Kingma 및 JL Ba, “Adam: 확률론적 최적화 방법”, 2015년.
[22] E. Fish, A. Gilbert 및 J. Weinbren, "세밀한 의미 클러스터링을 통한 영화 장르 분류 재검토", arXiv Prepr. arXiv2012.02639, 2020.
[23] F. Álvarez, F. Sánchez, G. Hernández-Peñaloza, D. Jiménez, JM Menéndez 및 G. Cisneros, “영화 분류에서 낮은 수준의 시각적 특징의 영향”, PLoS One, vol. 14, 아니. 2019년 2월 2일
[24] J. Wehrmann, MA Lopes, RC Barros, “시놉시스 기반 멀티레이블 영화 장르 분류를 위한 Self-attention”, 2018.
[25] J. Wehrmann 및 RC Barros, "영화 장르 분류: 시간에 따른 컨볼루션을 기반으로 한 다중 레이블 접근 방식", Appl. 소프트 컴퓨팅. J., vol. 2017년 61일.
이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .