Авторы:
(1) Динеш Кумар Вишвакарма, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия;
(2) Маянк Джиндал, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия
(3) Аюш Миттал, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия
(4) Адитья Шарма, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия.
В этой части мы рассмотрим различные архитектуры моделей в разных модальностях и предварительно предусмотрим объединенные модели. Позже мы проверяем нашу работу, проверяя ее на стандартном наборе данных LMTD-9, а также на предлагаемом нами наборе данных. Наконец, обсуждается сравнительное исследование для изучения надежности нашей модели. Все эксперименты проводились на рабочих станциях с графическим процессором со 128 ГБ оперативной памяти DDR4 и конфигурацией графического процессора Nvidia Titan RTX (24 ГБ).
Чтобы проверить нашу структуру, мы используем предлагаемый нами набор данных и стандартный набор данных LMTD-9 [2]. Подробные сведения указаны ниже:
EMTD: Наш предлагаемый набор данных содержит отдельный обучающий набор из 1700 уникальных трейлеров и проверочный набор из 300 уникальных трейлеров, все они взяты из IMDB, как указано в разделе 3.
LMTD [16], [20] представляет собой крупномасштабный набор данных трейлеров к фильмам с несколькими метками, включающий ссылку на трейлер, метаданные трейлера, сюжет / краткое содержание, уникальный идентификатор трейлера, состоящий из около 9 тысяч трейлеров к фильмам, принадлежащих 22 различным лейблам / жанрам. В целях проверки используется набор проверки (подчасть) LMTD-9 [2], который включает только голливудские трейлеры, выпущенные после 1980 года, и трейлеры, относящиеся к нашему списку жанров. Набор данных содержит трейлеры различной длины с разным качеством видео и соотношением сторон.
В этом разделе мы обсудим наши эксперименты с различными вариантами фреймворка. Мы экспериментировали с тремя различными фреймворками, основанными на отдельных модальностях и предварительно объединенных функциях.
MS (анализ видеокадров): модель, учитывающая только ситуационные характеристики видеокадров.
MD (анализ диалогов и метаданных): модель, рассматривающая диалоги из аудио и описания из метаданных как функции.
MSD (мультимодальный анализ): модель, рассматривающая в качестве функций ситуативные функции из видеокадров, диалоги из аудио и описания из метаданных.
Для MSD используется архитектура, предложенная в разделе 4.2.3 с предварительно объединенными функциями. Однако входной корпус немного изменен. Для MSD используется корпус, определенный в разделе 4.4. Точность, отзыв и показатель F1 для MSD при LMTD-9 и EMTD показаны в таблице 5. Однако сравнение MSD в Австралии (КНР) с MS и MD обсуждается в следующем разделе.
Некоторые различия можно увидеть в исполнении разных жанров. Большинство трейлеров, принадлежащих к основным жанрам, классифицируются точно (с оценкой F1 0,84 и выше), что показывает, что предложенная модель работает хорошо. Жанр боевиков оказался лучшим среди пяти жанров с оценкой F1 0,88 и 0,89 по EMTD и LMTD-9 соответственно. Романтический жанр оказался наименее результативным среди всех жанров с точки зрения рейтинга F1. Замечено, что многие трейлеры романтического жанра ошибочно классифицируются как комедии, поскольку в обоих этих жанрах преобладают схожие слова, такие как счастье, улыбка, смех и т. д.
AU (КНР), т. е. площадь под кривой точности отзыва, рассчитывается для сравнения результатов нашей классификации, поскольку мы имеем дело с проблемой классификации по нескольким меткам. Мера AU (КНР) помогает сравнить фактическую производительность нашей модели, компенсируя эффект шума из-за дисбаланса классов в наборе данных с несколькими метками. Кривые AU (PRC) создаются для всех трех моделей в обоих наборах данных, как показано на рисунках 5, 6 и 7. На проверочном наборе EMTD мы обнаружили почти одинаковые значения AU (PRC) 92%, 91%, 88% по MSD, MD и MS соответственно. Однако мы обнаружили, что наш MSD дает значения 82% AU (PRC) в наборе данных LMTD9, что больше, чем у двух других моделей, т.е. 72% и 80% AU (PRC) MD и MS соответственно, как в Таблице 6.
Однако для общего сравнения с некоторыми другими моделями, с которыми мы экспериментировали в рамках нашего исследования, мы упоминаем их результаты в таблице 6. Для выбора лучшей архитектуры модели сравниваются с точки зрения AU (КНР) в обоих наборах проверочных данных. Реализация набора данных модели функций EMTD LMTD-9 Диалог (MD) E-Bi LSTM 0,87 0,66 ECnet 0,91 0,72 Ситуация (MS) ECnet 0,86 0,75 TFAnet 0,88 0,80 Объединенные функции (MSD) ECnet 0,92 0,82 Все упомянутые модели помогают нам в принятии решения лучшая модель по совокупности функций. Хотя MD имеет сравнимые значения AU (КНР) с MSD на EMTD, но на LMTD-9, MSD превзошел MD. Аналогично обстоит дело и с МС на LMTD-9. В то время как MSD показал хорошие результаты одновременно на обоих наборах данных, что неверно в случае MS и MD по отдельности. Таким образом, благодаря перекрестной проверке набора данных MSD оказывается более надежным. Мы пришли к выводу, что предлагаемая модель MSD является наиболее эффективной моделью.
В этом разделе мы проверяем эффективность предложенной нами модели, проводя современное сравнение с предыдущими подходами к классификации жанров фильмов с использованием метрики AU (КНР) для каждого жанра отдельно, как показано в Таблице 7. Все результаты, упомянутые в Таблице 7. 7 показаны с точностью до двух десятичных знаков и основаны на стандартном наборе данных LMTD-9, за исключением Fish et. ал. [22], результаты которого основаны на наборе данных MMX Trailer-20. В своем исследовании он не учитывает романтический жанр. Однако для остальных жанров разница в значениях AU (КНР) Fish et. al [22] и MSD. MSD превосходит его в среднем на 20%. Классификация на основе визуальных признаков низкого уровня [23] основана на 24 визуальных признаках низкого уровня, SAS-MC-v2 [24] использует только синопсис для классификации прицепов, Fish et. ал. [22] и CTT-MMC-TN [25] основаны на функциях высокого уровня. По сравнению с подходами с функциями низкого уровня [23], [24] MSD в среднем превосходит по производительности на 10%, а по сравнению с подходами, использующими функции высокого уровня [22], [25], он превосходит в среднем на 8% для каждого жанра. Также замечено, что комедийный жанр показал хорошие результаты в большинстве произведений по сравнению с другими четырьмя жанрами, в то время как научная фантастика имеет относительно более низкие значения AU (КНР). Это могло быть связано с отсутствием должного разграничения в жанре научной фантастики, поскольку его особенности пересекаются с некоторыми другими схожими жанрами (например, боевиком).
Сравнительное исследование показывает, что предложенная модель надежна, поскольку превосходит существующие подходы и дает отличные результаты. Более высокая производительность обусловлена тем, что предлагаемая архитектура включает в себя как когнитивные, так и аффективные функции, помогая модели изучить существенные характеристики каждого жанра и, следовательно, более точно прогнозировать жанры.
Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.