paint-brush
Elaboración de perfiles multinivel de redes profundas basadas en situaciones y diálogos: conclusiones y referenciaspor@kinetograph

Elaboración de perfiles multinivel de redes profundas basadas en situaciones y diálogos: conclusiones y referencias

Demasiado Largo; Para Leer

En este artículo, los investigadores proponen un marco multimodal para la clasificación de géneros cinematográficos, utilizando características de situación, diálogo y metadatos.
featured image - Elaboración de perfiles multinivel de redes profundas basadas en situaciones y diálogos: conclusiones y referencias
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Dinesh Kumar Vishwakarma, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India;

(2) Mayank Jindal, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India

(3) Ayush Mittal, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India

(4) Aditya Sharma, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India.

Tabla de enlaces

6. Conclusión

Este trabajo amplía la idea de un enfoque holístico novedoso al problema de clasificación de géneros cinematográficos que incluye niveles afectivos y cognitivos al considerar múltiples modalidades, incluida la situación desde el marco, los diálogos desde el habla y los metadatos (trama y descripción de la película). También creamos un conjunto de datos EMTD de avances de películas en inglés de Hollywood que incluye alrededor de 2000 avances de 5 géneros, a saber, acción, comedia, terror, romance y ciencia ficción, para realizar este estudio. Experimentamos con varias arquitecturas de modelos como se analiza en la Sección 5.2 y también validamos nuestro marco final en EMTD y en el estándar LMTD-9 [2] que logra valores AU (PRC) de 0,92 y 0,82 respectivamente. El objetivo principal de nuestro estudio es construir un marco sólido para clasificar un género de película a partir de su breve clip, es decir, su avance. Aunque nuestro estudio incluye el habla en inglés como característica, también se puede aplicar a algunos trailers que no están en inglés. Para los que no están en inglés, nuestro modelo puede incorporar funciones de video únicamente, por lo que, en base a eso, nuestra arquitectura puede hacer predicciones.


Para ampliar nuestro modelo propuesto, también se pueden incorporar estudios de audio de fondo basados en voces. Por lo tanto, en el futuro, planeamos crear un marco que considere las voces de fondo en audio junto con nuestro marco actual para extraer y utilizar mejor la mayoría de las funciones de los avances de películas. También planeamos agregar algunos géneros más a nuestro estudio para la clasificación de etiquetas múltiples.

7. Referencias

[1] A. Hanjalic y LQ Xu, “Representación y modelado de contenido de video afectivo”, IEEE Trans. Multimed., vol. 7, núm. 1, 2005.


[2] J. Wehrmann y RC Barros, “Convoluciones a través del tiempo para la clasificación de géneros de películas con múltiples etiquetas”, en Actas del Simposio ACM sobre Computación Aplicada, 2017, vol. Parte F1280, págs. 114-119.


[3] Z. Rasheed, Y. Sheikh y M. Shah, “Sobre el uso de características computables para la clasificación de películas”, IEEE Trans. Sistema de circuitos. Tecnología de vídeo, vol. 15, núm. 1, págs. 52 a 64, enero de 2005.


[4] LH Chen, YC Lai y HY Mark Liao, “Segmentación de escenas de películas utilizando información de fondo”, Pattern Recognit., vol. 41, núm. 3, 2008.


[5] SK Jain y RS Jadon, “Clasificador de géneros de películas mediante red neuronal”, 2009.


[6] L. Canini, S. Benini y R. Leonardi, “Recomendación afectiva de películas basada en características connotativas seleccionadas”, IEEE Trans. Sistema de circuitos. Tecnología de vídeo, vol. 23, núm. 4, 2013.


[7] M. Xu, C. Xu, X. He, JS Jin, S. Luo e Y. Rui, “Análisis de contenido afectivo jerárquico en dimensiones de excitación y valencia”, Signal Processing, vol. 93, núm. 8, 2013.


[8] A. Yadav y DK Vishwakarma, “Un marco unificado de redes profundas para la clasificación de géneros utilizando avances de películas”, Appl. Computación blanda. J., vol. 96, 2020.


[9] K. Choroś, “Clasificación de géneros de vídeo basada en el análisis de duración de tomas de vídeo agregadas temporalmente”, en Lecture Notes in Computer Science (incluida la subserie Lecture Notes in Artificial Intelligence y Lecture Notes in Bioinformatics), 2018, vol. 11056 LNAI, págs.


[10] AM Ertugrul y P. Karagoz, “Clasificación de géneros de películas a partir de resúmenes de tramas utilizando LSTM bidireccional”, en Actas - 12.ª Conferencia Internacional IEEE sobre Computación Semántica, ICSC 2018, 2018, vol. 2018-enero.


[11] G. Païs, P. Lambert, D. Beauchêne, F. Deloule y B. Ionescu, “Detección de género de películas animadas mediante fusión simbólica de descriptores de texto e imagen”, 2012.


[12] A. Shahin y A. Krzyżak, “Genre-ous: The Movie Genre Detector”, en Communications in Computer and Information Science, 2020, vol. 1178 CCIS.


[13] N. Kumar, A. Harikrishnan y R. Sridhar, “Identificación de género de película basada en vectorizador hash”, en Lecture Notes in Electrical Engineering, 2020, vol. 605.


[14] PG Shambharkar, P. Thakur, S. Imadoddin, S. Chauhan y MN Doja, “Clasificación de género de avances de películas que utilizan redes neuronales convolucionales 3D”, 2020.


[15] WT Chu y HJ Guo, “Clasificación de géneros cinematográficos basada en imágenes de carteles con redes neuronales profundas”, 2017.


[16] GS Simões, J. Wehrmann, RC Barros y DD Ruiz, “Clasificación de géneros cinematográficos con redes neuronales convolucionales”, en Actas de la Conferencia Internacional Conjunta sobre Redes Neuronales, 2016, vol. 2016-octubre.


[17] J. Li, L. Deng, R. Haeb-Umbach e Y. Gong, “Capítulo 2: Fundamentos del reconocimiento de voz”, en Robust Automatic Speech Recognition, J. Li, L. Deng, R. HaebUmbach, y Y. Gong, Eds. Oxford: Academic Press, 2016, págs. 9–40.


[18] S. Pratt, M. Yatskar, L. Weihs, A. Farhadi y A. Kembhavi, “Grounded Situation Recognition”, en Computer Vision - ECCV 2020, 2020, págs.


[19] B. Beel, Joeran y Langer, Stefan y Gipp, “TF-IDuF: un nuevo esquema de ponderación de términos para el modelado de usuarios basado en las colecciones de documentos personales de los usuarios”, Proc. iConferencia 2017, 2017.


[20] J. Wehrmann, RC Barros, GS Simoes, TS Paula y DD Ruiz, “Aprendizaje (profundo) a partir de marcos”, 2017.


[21] DP Kingma y JL Ba, "Adam: un método para la optimización estocástica", 2015.


[22] E. Fish, A. Gilbert y J. Weinbren, “Repensar la clasificación de géneros cinematográficos con agrupación semántica detallada”, arXiv Prepr. arXiv2012.02639, 2020.


[23] F. Álvarez, F. Sánchez, G. Hernández-Peñaloza, D. Jiménez, JM Menéndez y G. Cisneros, “Sobre la influencia de las características visuales de bajo nivel en la clasificación de películas”, PLoS One, vol. 14, núm. 2, 2019.


[24] J. Wehrmann, MA Lopes y RC Barros, “Autoatención para la clasificación de géneros de películas multietiqueta basada en sinopsis”, 2018.


[25] J. Wehrmann y RC Barros, “Clasificación de géneros cinematográficos: un enfoque de etiquetas múltiples basado en convoluciones a través del tiempo”, Appl. Computación blanda. J., vol. 61, 2017.


Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.