Авторы:
(1) Динеш Кумар Вишвакарма, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия;
(2) Маянк Джиндал, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия
(3) Аюш Миттал, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия
(4) Адитья Шарма, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия.
Сюжет/описания фильма — важная особенность описания фильма. В большинстве случаев сюжет, упоминаемый при выпуске фильма, либо слишком короткий, либо в некоторых случаях не упоминается. Учитывая это, мы решили использовать описания, объединенные с диалогами, извлеченными из трейлеров к фильмам, чтобы окончательно спрогнозировать жанр фильма, как подробно описано в разделе 4.2. Описания берутся с веб-сайта IMDB в виде метаданных, как уже упоминалось в разделе 3.
В этом разделе мы предлагаем архитектуру для обработки списка диалогов из аудио трейлера (объединенного описания/сюжета в диалоги) для прогнозирования жанров фильма. Важные шаги для этого направления включают в себя: (1) Извлечение речи (диалога) из трейлера к фильму и (2) Разработка модели для прогнозирования жанров на основе речи и метаданных.
Аудиофайлы в формате (.wav) извлекаются из видеотрейлеров (.mp4). Далее аудиофайл разбивается на небольшие аудиоклипы и преобразуется в диалоги, как предложено в [17]. Весь текст собирается для формирования входного корпуса. Описание/сюжет (если он доступен в метаданных) также объединяется с этим корпусом. Наше исследование предназначено только для англоязычных трейлеров. Как и сюжеты фильмов, речь, извлеченная из трейлеров, может служить дополнением к нашему текстовому корпусу, что может помочь лучше понять связь между текстовым контекстом и жанром фильма. После создания корпуса, состоящего из одной записи для каждого трейлера, на этапе обучения/тестирования были проведены следующие этапы предварительной обработки: преобразование всего текста в нижний регистр, удаление цифр, знаков препинания, стоп-слов и веб-ссылок. Полученный выше текст используется в качестве входных данных для модели/предварительно обученной модели для обучения/тестирования.
Чтобы построить когнитивную архитектуру определения жанров, модель должна изучить важнейшие особенности трейлера в виде текстового корпуса. Этого можно достичь, используя комбинацию слоев Embedding и CNN (нейронной сети свертки). Слои сети классификации с несколькими метками изображены в Таблице 3. Встраивание — один из популярных методов, используемых в задачах НЛП для преобразования слов в математическое представление в виде числовых векторов.
Прежде чем фактически отправлять входные данные в архитектуру, необходимо разработать словарь и зафиксировать размер корпуса для каждой точки данных. Разработан словарь размером 10 395 слов, и максимальная длина количества слов в каждом корпусе установлена равной длине самого длинного предложения в нашем обучающем корпусе, которое в нашем случае составляет 330. Если количество слов в корпусе меньше максимальной длины, корпус дополняется нулями. Для 2-3-минутного трейлера фильма оказывается достаточным 330 слов, так как в некоторых частях трейлера может отсутствовать речь (может присутствовать только вокал).
Теперь для каждого корпуса входных данных у нас есть входные данные формы (330,) (330 — количество слов в каждой точке данных), которые подаются на первый уровень нашей архитектуры, как показано на рис. 2, т.е. , слой внедрения. Уровень внедрения выдает выходные данные размером (330, 64), поскольку в предлагаемой нами архитектуре длина внедрения для каждого слова принимается равной 64.
После слоя внедрения в одномерный слой свертки подаются выходные данные слоя внедрения. Опять же, слой свертки дает выходную форму (330, 64). Чтобы получить тот же результат, мы равномерно применяем заполнение ко входу слоя свертки. Затем используется слой максимального пула для уменьшения размерности данных с (330, 64) до (165, 64). За архитектурой следует сглаживающий слой для преобразования двумерных данных в одномерные данные для дальнейшей отправки выходных данных в плотный слой.
Как показано в Таблице 3, сплющенный слой дает выходные данные формы (10560), которые подаются на плотный слой в качестве входных данных и дают выходную форму (32). Наконец, к архитектуре применяется последний плотный слой, возвращающий выходную форму (5), обозначающую наши пять жанров. На последнем плотном слое нашей архитектуры мы используем «сигмовидную» функцию активации, которая лучше всего подходит для нашей задачи классификации по нескольким меткам.
В этот раздел включены предложенные нами работы над визуальными особенностями трейлеров к фильмам. Основные шаги для этого потока включают в себя: (1) получение видеокадров из трейлера, (2) извлечение ситуаций из кадров и (3) построение архитектуры для окончательной классификации трейлеров по жанрам.
Предлагается новая модель анализа видео на основе ситуации путем извлечения ситуаций и событий на основе каждого кадра, извлеченного из видео, для определения визуальных особенностей. Таким образом, создается корпус для обучения/тестирования модели путем их сбора вместе.
Насколько нам известно, мы предлагаем новую структуру, объединяющую анализ ситуации, события и диалога для классификации жанров. Более подробная информация о платформе описана в разделах ниже.
После различных экспериментов с использованием некоторого набора трейлеров к фильмам выяснилось, что снимать каждые 10𝑡ℎ кадров полезно, чтобы избежать избыточности кадров (последовательные кадры видео кажутся похожими). Следовательно, после отбрасывания избыточных кадров, окончательные рассматриваемые видеокадры могут быть выражены как уравнение. (9):
В последующих разделах мы рассмотрим эти кадры для каждого прицепа.
А вероятность того, что ситуация S принадлежит изображению I, можно обозначить как в уравнении. (11).
𝛼 обозначает параметр нашего нейрона; сеть. Теперь мы можем определить семантические роли в изображении в определенном порядке. Таким образом, далее уравнение (12) свести к уравнению (13).
уравнение (13) можно дополнительно упростить до уравнения. (14).
Для данного конкретного изображения/кадра ситуация, имеющая вероятность максимального значения, определенную в уравнении. (14) будет рассматриваться для этого изображения.
Теперь задача преобразуется в задачу классификации текста, для которой мы предлагаем архитектуру модели, описанную в следующих разделах. Прежде чем перейти к следующему шагу, проводится предварительная обработка текста: перевод всего текста в нижний регистр, удаление цифр, знаков препинания и стоп-слов, как указано в разделе 4.2.1. Те же самые шаги выполняются в процедуре тестирования для прогнозирования жанра трейлера к фильму.
После извлечения визуальных особенностей требуется надежная архитектура для классификации окончательных жанров трейлеров. Эта модель отличается от модели, которую мы предложили в потоке диалога. Здесь предлагается TFAnet (искусственная нейронная сеть с частотой термина), состоящая из глубокой сети плотных и выпадающих слоев, как показано на рис. 4.
Прежде чем перейти к предлагаемой архитектуре, мы обсудим представление текста с использованием TF-IDF в [19]. Для этой архитектуры предлагается использовать количество слов в корпусе каждой точки данных. Следовательно, мы используем количество слов из корпуса в качестве признаков для классификации жанров трейлеров к фильмам. Чтобы включить большое количество слов в качестве функций в наш словарный набор, в нашем EMTD используются трейлеры с большим диапазоном дат выпуска, чтобы получить огромный корпус, доступный нам во время обучения модели. Комбинация униграмм, биграмм и триграмм используется в нашем корпусе в качестве функций, а алгоритм TF-IDF (частота инверсии термина и частоты документа) представляет наш текст в числовой форме. Общее количество взятых n-грамм составляет около 34 684. Теперь наши текстовые функции преобразуются в математическую форму, поэтому дальше (искусственная нейронная сеть) обучается классифицировать жанры трейлера.
Архитектура TFAnet (искусственная нейронная сеть Term Frequency) изображена в таблице 4. Форма ввода, как обсуждалось выше, равна (34684,). Эти входные данные передаются плотному слою, который дает выходные данные формы (64,). Затем применяется слой исключения, чтобы уменьшить переобучение с коэффициентом 0,4. Снова применяется плотный слой, и мы получаем результат формы (32), за которым следует слой исключения с коэффициентом 0,2. Наконец, применяется плотный слой, который дает выходные данные формы (5) для окончательного прогнозирования пяти жанров с сигмоидальной функцией активации.
Алгоритм этапа обучения модели MSD записывается как Алгоритм 1.
Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.