paint-brush
Perfil multinível de redes profundas baseadas em situação e diálogo: conclusão e referênciaspor@kinetograph

Perfil multinível de redes profundas baseadas em situação e diálogo: conclusão e referências

Muito longo; Para ler

Neste artigo, os pesquisadores propõem uma estrutura multimodal para classificação de gêneros de filmes, utilizando recursos de situação, diálogo e metadados.
featured image - Perfil multinível de redes profundas baseadas em situação e diálogo: conclusão e referências
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Dinesh Kumar Vishwakarma, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia;

(2) Mayank Jindal, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia

(3) Ayush Mittal, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia

(4) Aditya Sharma, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia.

Tabela de Links

6. Conclusão

Este trabalho amplia a ideia de uma nova abordagem holística para o problema de classificação de gêneros cinematográficos que inclui níveis afetivos e cognitivos, considerando múltiplas modalidades, incluindo situação do quadro, diálogos da fala e metadados (enredo e descrição do filme). Também construímos um conjunto de dados EMTD de trailers de filmes em inglês de Hollywood que inclui cerca de 2.000 trailers de 5 gêneros, nomeadamente ação, comédia, terror, romance, ficção científica, para prosseguir este estudo. Experimentamos várias arquiteturas de modelo conforme discutido na Seção 5.2 e também validamos nossa estrutura final em EMTD e no padrão LMTD-9 [2] que atinge valores de AU (PRC) de 0,92 e 0,82, respectivamente. O principal objetivo do nosso estudo é construir uma estrutura robusta para classificar um gênero de filme a partir de seu clipe curto, ou seja, trailer. Embora nosso estudo inclua a fala em inglês como recurso, ela também pode ser aplicada a alguns trailers em outros idiomas. Para aqueles que não são ingleses, nosso modelo pode incorporar apenas os recursos de vídeo, portanto, com base nisso, nossas previsões podem ser feitas por nossa arquitetura.


Para extensão do nosso modelo proposto, estudos de áudio de fundo baseados em vocais também podem ser incorporados. Portanto, no futuro, planejamos construir uma estrutura considerando vocais de fundo em áudio junto com nossa estrutura atual para melhor extrair e usar a maioria dos recursos dos trailers de filmes. Também planejamos adicionar mais alguns gêneros ao nosso estudo para classificação multirótulo.

7. Referências

[1] A. Hanjalic e LQ Xu, “Representação e modelagem de conteúdo de vídeo afetivo”, IEEE Trans. Multimed., vol. 7, não. 1, 2005.


[2] J. Wehrmann e RC Barros, “Convoluções ao longo do tempo para classificação de gênero de filmes multi-label”, em Proceedings of the ACM Symposium on Applied Computing, 2017, vol. Parte F1280, pp.


[3] Z. Rasheed, Y. Sheikh e M. Shah, “Sobre o uso de recursos computáveis para classificação de filmes”, IEEE Trans. Sistema de Circuitos Tecnologia de Vídeo, vol. 15, não. 1, pp. 52–64, janeiro de 2005.


[4] LH Chen, YC Lai e HY Mark Liao, “Segmentação de cena de filme usando informações de fundo”, Pattern Recognit., vol. 41, não. 3, 2008.


[5] SK Jain e RS Jadon, “Classificador de gêneros de filmes usando rede neural”, 2009.


[6] L. Canini, S. Benini e R. Leonardi, “Recomendação afetiva de filmes com base em características conotativas selecionadas”, IEEE Trans. Sistema de Circuitos Tecnologia de Vídeo, vol. 23, não. 4, 2013.


[7] M. Xu, C. Xu, X. He, JS Jin, S. Luo e Y. Rui, “Análise hierárquica de conteúdo afetivo em dimensões de excitação e valência”, Signal Processing, vol. 93, não. 8, 2013.


[8] A. Yadav e DK Vishwakarma, “Uma estrutura unificada de redes profundas para classificação de gênero usando trailer de filme”, Appl. Computação suave. J., vol. 96, 2020.


[9] K. Choroś, “Classificação de gênero de vídeo com base na análise de comprimento de tomadas de vídeo agregadas temporalmente”, em Lecture Notes in Computer Science (incluindo subséries Lecture Notes in Artificial Intelligence e Lecture Notes in Bioinformatics), 2018, vol. 11056 LNAI, pp.


[10] AM Ertugrul e P. Karagoz, “Classificação de gênero de filme a partir de resumos de enredo usando LSTM bidirecional”, em Proceedings - 12ª Conferência Internacional IEEE sobre Computação Semântica, ICSC 2018, 2018, vol. 2018-janeiro.


[11] G. Païs, P. Lambert, D. Beauchêne, F. Deloule e B. Ionescu, “Detecção de gênero de filme animado usando fusão simbólica de descritores de texto e imagem”, 2012.


[12] A. Shahin e A. Krzyżak, “Genre-ous: The Movie Genre Detector”, em Communications in Computer and Information Science, 2020, vol. 1178 CCIS.


[13] N. Kumar, A. Harikrishnan e R. Sridhar, “Hash Vectorizer Based Movie Genre Identification”, em Lecture Notes in Electrical Engineering, 2020, vol. 605.


[14] PG Shambharkar, P. Thakur, S. Imadoddin, S. Chauhan e MN Doja, “Classificação de gênero de trailers de filmes usando redes neurais convolucionais 3D”, 2020.


[15] WT Chu e HJ Guo, “Classificação de gênero de filme baseada em imagens de pôster com redes neurais profundas”, 2017.


[16] GS Simões, J. Wehrmann, RC Barros e DD Ruiz, “Classificação de gênero de filme com redes neurais convolucionais”, em Proceedings of the International Joint Conference on Neural Networks, 2016, vol. 2016-outubro.


[17] J. Li, L. Deng, R. Haeb-Umbach e Y. Gong, “Capítulo 2 - Fundamentos do reconhecimento de fala”, em Robust Automatic Speech Recognition, J. Li, L. Deng, R. HaebUmbach, e Y. Gong, Eds. Oxford: Academic Press, 2016, pp.


[18] S. Pratt, M. Yatskar, L. Weihs, A. Farhadi e A. Kembhavi, “Grounded Situation Recognition”, em Visão Computacional - ECCV 2020, 2020, pp.


[19] B. Beel, Joeran e Langer, Stefan e Gipp, “TF-IDuF: Um novo esquema de ponderação de termos para modelagem de usuários com base em coleções de documentos pessoais de usuários”, Proc. iConferência 2017, 2017.


[20] J. Wehrmann, RC Barros, GS Simoes, TS Paula e DD Ruiz, “Aprendizagem (profunda) com frames”, 2017.


[21] DP Kingma e JL Ba, “Adam: Um método para otimização estocástica”, 2015.


[22] E. Fish, A. Gilbert e J. Weinbren, “Repensando a classificação de gênero de filme com agrupamento semântico refinado”, arXiv Prepr. arXiv2012.02639, 2020.


[23] F. Álvarez, F. Sánchez, G. Hernández-Peñaloza, D. Jiménez, JM Menéndez e G. Cisneros, “Sobre a influência dos recursos visuais de baixo nível na classificação de filmes”, PLoS One, vol. 14, não. 2, 2019.


[24] J. Wehrmann, MA Lopes e RC Barros, “Autoatenção para classificação de gênero de filmes multirótulos baseada em sinopse”, 2018.


[25] J. Wehrmann e RC Barros, “Classificação de gênero de filme: Uma abordagem multi-rótulo baseada em convoluções ao longo do tempo”, Appl. Computação suave. J., vol. 61, 2017.


Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.