Авторы:
(1) Динеш Кумар Вишвакарма, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия;
(2) Маянк Джиндал, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия
(3) Аюш Миттал, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия
(4) Адитья Шарма, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия.
Автоматизированная классификация жанров фильмов стала активной и важной областью исследований и исследований. Короткие трейлеры к фильму дают полезную информацию о фильме, поскольку видеоконтент состоит из функций когнитивного и аффективного уровня. Предыдущие подходы были сосредоточены либо на когнитивном, либо на аффективном контент-анализе. В этой статье мы предлагаем новую мультимодальную систему классификации жанров фильмов на основе ситуаций, диалогов и метаданных, которая учитывает как познавательные, так и аффектные особенности. Платформа, основанная на слиянии предварительных функций, которая учитывает: ситуативные функции из обычного снимка трейлера, включающего существительные и глаголы, обеспечивающие полезное отображение на основе аффектов с соответствующими жанрами, функцию диалога (речи) из аудио, метаданные, которые вместе предоставляют необходимую информацию для когнитивного и эмоционального анализа видео. Мы также разрабатываем набор данных по трейлерам к английским фильмам (EMTD), который содержит 2000 трейлеров к голливудским фильмам, принадлежащим к пяти популярным жанрам: боевик, мелодрама, комедия, ужасы и научная фантастика, и выполняем перекрестную проверку стандартного набора данных LMTD-9 для проверки. предлагаемую структуру. Результаты показывают, что предложенная методология классификации жанров фильмов показала себя превосходно, о чем свидетельствуют показатели F1, точность, полнота и площадь под кривыми точности-памяти.
Ключевые слова: классификация жанров фильмов, сверточная нейронная сеть, набор данных трейлеров к английским фильмам, мультимодальный анализ данных.
Фильмы являются отличным источником развлечения для зрителей и во многом влияют на общество. Определение жанра фильма вручную может варьироваться в зависимости от вкуса человека. Следовательно, автоматическое предсказание жанра фильма является активной областью исследований и исследований. Трейлеры к фильмам становятся полезным источником для прогнозирования жанров фильма. Они дают полезную информацию о фильме за очень короткий промежуток времени. Трейлеры фильмов состоят из двух типов контента: познавательного и аффективного.
Когнитивный контент описывает состав событий, объектов и людей в конкретном видеокадре трейлера фильма, а аффективный контент описывает типы психологических особенностей, таких как чувства или эмоции в трейлере фильма [1]. Примеры когнитивного контента включают игровую площадку, здание, человека, собаку и т. д. Примерами аффективного контента являются чувства/эмоции, такие как счастье, печаль, гнев и т. д. Как когнитивный контент, так и контент, основанный на аффектах, обеспечивают важные функции для прогнозирования. жанры фильма.
В этой статье мы предлагаем новую мультимодальную систему классификации жанров фильмов, основанную на диалогах и метаданных, которая направлена на прогнозирование жанров фильмов с использованием видео, аудио и содержания метаданных (сюжет/описание) трейлеров к фильмам. Наша новая концепция направлена на извлечение как когнитивных, так и эмоциональных характеристик из трейлера фильма. Для этого из видеокадра извлекается предложение (сгенерированное из ситуаций), состоящее из соответствующих существительных и глаголов. Существительные дают соответствующую информацию о когнитивном содержании трейлеров, а глаголы обеспечивают полезное аффектное сопоставление с соответствующими жанрами. Например, такие глаголы, как смеяться, хихикать, щекотать и т. д., обеспечивают аффектное сопоставление с жанром «комедии». Такие глаголы, как атаковать, избивать, бить и т. д., обеспечивают аффектное сопоставление с жанром «действия». Наряду с ситуациями, функции диалога и метаданных дополнительно вносят вклад в когнитивное и аффективное содержание, поскольку они включают описания событий (когнитивное содержание) и психологические характеристики (аффективное содержание).
Как и в стандартном процессе машинного обучения, работа выполняется в несколько этапов. Первый этап — это этап создания набора данных, на котором мы создаем EMTD, который содержит 2000 трейлеров голливудских фильмов, принадлежащих к 5 популярным жанрам: боевик, романтика, комедия, ужасы и научная фантастика. Второй этап предполагает предварительную обработку видеотрейлеров, при которой все повторяющиеся кадры удаляются и изменяются их размеры. Предложения, содержащие важные существительные и глаголы, извлекаются из полезных фреймов. Мы также готовим аудиорасшифровку трейлеров к фильмам, чтобы получить диалоги из трейлеров. На третьем этапе мы проектируем и обучаем предлагаемую архитектуру, которая извлекает и изучает важные функции из трейлеров. Наконец, на четвертом этапе производительность предложенной нами архитектуры оценивается с использованием метрики «Площадь под кривой PrecisionRecall» (AU (КНР)). Ниже приведены важные результаты нашей работы:
Мы предлагаем новый EMTD (набор данных по трейлерам к английским фильмам), содержащий трейлеры к голливудским фильмам на английском языке, принадлежащие к пяти популярным и различным жанрам: боевик, романтика, комедия, ужасы и научная фантастика.
В этой работе предлагается новый подход к прогнозированию жанров фильмов с использованием когнитивных и аффектных функций. Насколько нам известно, ни одна из предыдущих публикаций не фокусировалась на сочетании диалогов, ситуаций и функций на основе метаданных, извлеченных из трейлеров к фильмам. Следовательно, мы выполняем: ситуационный анализ с использованием существительных и глаголов, анализ на основе диалогов с использованием распознавания речи и анализ на основе метаданных с метаданными, доступными в трейлерах.
Предлагаемая архитектура также оценивается путем выполнения перекрестного тестирования стандартного набора данных LMTD-9 [2]. Результаты показывают, что предложенная архитектура работает превосходно и демонстрирует превосходную производительность платформы.
Оставшаяся часть статьи организована следующим образом: В разделе 2 рассматривается предыдущая литература по классификации жанров фильмов и подчеркивается мотивация предлагаемой работы. В разделе 3 мы обсуждаем предлагаемый EMTD. В разделе 4 мы даем подробное описание предлагаемой архитектуры. В разделе 5 мы оцениваем производительность предлагаемой структуры и проверяем ее на двух разных наборах данных. Статья завершается в разделе 6.
Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.