paint-brush
Многоуровневое профилирование глубоких сетей, основанных на ситуациях и диалогах: набор данных EMTDк@kinetograph

Многоуровневое профилирование глубоких сетей, основанных на ситуациях и диалогах: набор данных EMTD

Слишком долго; Читать

В этой статье исследователи предлагают мультимодальную основу для классификации жанров фильмов, используя функции ситуации, диалога и метаданных.
featured image - Многоуровневое профилирование глубоких сетей, основанных на ситуациях и диалогах: набор данных EMTD
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Авторы:

(1) Динеш Кумар Вишвакарма, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия;

(2) Маянк Джиндал, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия

(3) Аюш Миттал, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия

(4) Адитья Шарма, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия.

Таблица ссылок

3. Набор данных EMTD

В наборах данных из предыдущей литературы отсутствует единообразный состав жанров фильмов. Следовательно, мы предлагаем EMTD (набор данных по трейлерам к английским фильмам), состоящий примерно из 2000 уникальных трейлеров к голливудским фильмам, загруженных с IMDB1. EMTD содержит 2000 уникальных трейлеров 5 жанров: боевик, комедия, ужасы, мелодрама, научная фантастика. Набор данных извлекается из IMDB с помощью процедуры веб-удаления следующим образом: (1) извлекается список названий фильмов, доступных в IMDB (по крайней мере, с одним жанром, общим для упомянутого выше), (2) очищаются метаданные, соответствующие каждому названию фильма, включая трейлер. ссылку для загрузки и (3) загрузите трейлеры (.mp4), соответствующие ссылке, в папку и перечислите всю информацию/метаданные о фильме, включая название трейлера, описания, сюжет, ключевые слова и жанры в форме CSV-файл. В этой работе набор данных разделен на набор поездов (1700 трейлеров) и набор проверки (300 трейлеров), как показано в таблице 1.


Исследование проводится с вышеуказанными жанрами только потому, что в кино чаще всего наблюдаются именно эти жанры. Мы также хотим сначала изучить эффективность нашей архитектуры в небольшом наборе жанров, поэтому мы выбираем только 5 жанров вместо того, чтобы использовать широкий набор жанров.


Таблица 1: Состав набора данных


Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.