Авторы:
(1) Правин Тирупаттур, Университет Центральной Флориды.
В этой главе представлены подробности экспериментов, проведенных для оценки эффективности системы по обнаружению насильственного контента в видео. В первом разделе рассматриваются наборы данных, использованные для этой работы, в следующем разделе описывается экспериментальная установка и, наконец, в последнем разделе представлены результаты проведенных экспериментов.
В этой работе данные из более чем одного источника использовались для извлечения аудио и визуальных характеристик, обучения классификаторов и проверки производительности системы. Здесь используются два основных набора данных: набор данных о сценах насилия (VSD) и набор данных о хоккейных боях. Помимо этих двух наборов данных, также используются изображения с таких веб-сайтов, как Google Images[1]. Каждый из этих наборов данных и их использование в этой работе подробно описано в следующих разделах.
Набор данных о сценах насилия (VSD) — это аннотированный набор данных для обнаружения сцен насилия в голливудских фильмах и видеороликах из Интернета. Это общедоступный набор данных, специально предназначенный для разработки методов обнаружения физического насилия на основе контента в фильмах и видео с таких веб-сайтов, как YouTube[2]. Набор данных VSD был первоначально представлен Demarty et al. [15] в рамках инициативы по тестированию производительности MediaEval, которая служит основой для проверки набора данных и устанавливает современный базовый уровень для задачи обнаружения насилия. Последняя версия набора данных VSD2014 является значительным расширением предыдущих версий (Демарти и др. [19], Демарти и др. [18] и Демарти и др. [17]) в нескольких отношениях. Во-первых, для аннотирования фильмов и видеороликов, созданных пользователями, используется определение насилия, которое ближе к целевому сценарию реального мира, фокусируясь на физическом насилии, которое нельзя позволить смотреть 8-летнему ребенку. Во-вторых, набор данных содержит значительный набор из 31 голливудского фильма. В-третьих, VSD2014 включает 86 веб-видеоклипов и их метаданные, полученные с YouTube для тестирования возможностей обобщения системы, разработанной для обнаружения насилия. В-четвертых, он включает в себя современные дескрипторы аудиовизуального контента. Набор данных содержит аннотации сцен насилия и концепций, связанных с насилием, для коллекции (i) голливудских фильмов и (ii) видеороликов, созданных пользователями, размещенных в Интернете. В дополнение к аннотациям предоставляются предварительно рассчитанные аудио- и визуальные характеристики, а также различные метаданные.
Набор данных VSD2014 разделен на три разных поднабора: «Голливуд: Разработка», «Голливуд: Тест» и «Ютуб: Обобщение». Пожалуйста, обратитесь к Таблице 4.1 для обзора трех подмножеств и основных статистических данных, включая продолжительность, долю сцен насилия (в процентах в расчете на кадр) и среднюю продолжительность сцены насилия. Содержимое набора данных VSD2014 разделено на три типа: фильмы/видео, функции и аннотации.
Голливудские фильмы, включенные в набор данных, выбраны таким образом, чтобы они принадлежали к разным жанрам и содержали разнообразие типов насилия. Для создания этого набора данных отбираются фильмы, содержание которых варьируется от чрезвычайно жестокого до практически без насилия. Отобранные фильмы также содержат широкий спектр видов насилия. Например, фильмы о войне, такие как «Спасти рядового Райана», содержат конкретные перестрелки и батальные сцены с участием большого количества людей, а также громкий и плотный аудиопоток, содержащий множество спецэффектов. Боевики, такие как «Идентификация Борна», содержат сцены боев с участием лишь нескольких участников, возможно, рукопашных. В фильмах-катастрофах, таких как «Армагеддон», показаны разрушения целых городов и огромные взрывы. Наряду с этим в набор данных также добавлено несколько совершенно ненасильственных фильмов для изучения поведения алгоритмов на таком контенте. Поскольку реальные фильмы не могут быть представлены в наборе данных из-за проблем с авторскими правами, предоставляются аннотации для 31 фильма, 24 из набора «Голливуд: Разработка» и 7 из набора «Голливуд: Тест». Набор YouTube: Generalization содержит видеоклипы, размещенные на YouTube по лицензии Creative Commons. Всего в набор данных включено 86 клипов в формате MP4. Наряду с метаданными видео, такими как идентификатор видео, дата публикации, категория, название, автор, соотношение сторон, продолжительность и т. д., предоставляются в виде XML-файлов.
В этом наборе данных предоставляется общий набор аудио- и визуальных дескрипторов. Аудио функции, такие как огибающая амплитуды (AE), среднеквадратическая энергия (RMS), скорость перехода через ноль (ZCR), соотношение энергий полосы (BER), спектральный центроид (SC), полоса частот (BW), спектральный поток ( SF) и кепстральные коэффициенты Mel-частоты (MFCC) предоставляются для каждого видеокадра. Поскольку звук имеет частоту дискретизации 44 100 Гц, а видео кодируется со скоростью 25 кадров в секунду, для вычисления этих функций считается окно длиной 1764 аудиосэмпла, и для каждого окна вычисляются 22 MFCC, в то время как все остальные функции являются одномерными. Видеофункции, представленные в наборе данных, включают гистограммы именования цветов (CNH), цветовые моменты (CM), локальные бинарные шаблоны (LBP) и гистограммы ориентированных градиентов (HOG). Аудио и визуальные функции предоставляются в файлах MAT Matlab версии 7.3, которые соответствуют формату HDF5.
Набор данных VSD2014 содержит двоичные аннотации всех сцен насилия, где сцена идентифицируется по начальному и конечному кадру. Эти аннотации к голливудским фильмам и видео на YouTube создаются несколькими оценщиками, а затем проверяются и объединяются для обеспечения определенного уровня последовательности. Каждый аннотированный сегмент насилия содержит только одно действие, если это возможно. В случаях, когда разные действия пересекаются, сегменты объединяются. В файлах аннотаций это указывается добавлением тега «сцена с несколькими действиями». Помимо двоичных аннотаций фрагментов, содержащих физическое насилие, аннотации также включают концепции высокого уровня для 17 фильмов из набора «Голливуд: Разработка». В частности, аннотируются 7 визуальных концепций и 3 аудиоконцепции с использованием протокола аннотации, аналогичного тому, который используется для аннотаций с применением насилия/ненасильственных действий. Концепции: наличие крови, драк, огня, огнестрельного оружия, холодного оружия, автомобильных погонь и кровавых сцен для визуальной модальности; наличие выстрелов, взрывов и криков для аудиомодальности.
Более подробное описание этого набора данных предоставлено Schedl et al. [51], а подробную информацию о каждом из классов насилия можно найти у Demarty et al. [19].
Этот набор данных представлен Nievas et al. [42] и создан специально для оценки систем обнаружения боя. Этот набор данных состоит из двух частей, первая часть («Хоккей») состоит из 1000 видеороликов с разрешением 720 × 576 пикселей, разделенных на две группы, 500 боев и 500 недраков, извлеченных из хоккейных игр Национальной хоккейной лиги. Лига (НХЛ). Каждый клип ограничен 50 кадрами и разрешением понижено до 320×240. Вторая часть («Фильмы») состоит из 200 видеоклипов, 100 драк и 100 недраков, в которых драки извлечены из боевиков и не-драки. Видео боев извлекаются из наборов данных по распознаванию публичных действий. В отличие от набора хоккейных данных, который был относительно однородным как по формату, так и по содержанию, эти видеоролики отображают более широкий спектр сцен и были сняты с разным разрешением. На рисунке 4.1 показаны некоторые кадры, показывающие драки из видео в двух наборах данных. Этот набор данных доступен для скачивания в Интернете[3].
Изображения из Google используются при разработке цветовых моделей (раздел 3.1.1.2) для классов крови и некрови, которые используются при извлечении дескриптора признаков крови для каждого кадра видео. Изображения, содержащие кровь, загружаются из Google Images 1 с использованием таких слов запроса, как «кровавые изображения», «кровавые сцены», «кровотечение», «настоящие брызги крови» и т. д. Аналогичным образом изображения, не содержащие крови, загружаются с использованием таких поисковых слов, как « природа», «весна», «кожа», «автомобили» и т. д.
Утилита для загрузки изображений из Google по поисковому слову была разработана на Python с использованием библиотеки Beautiful Soup (Ричардсон [48]). На каждый запрос ответ содержал около 100 изображений, из которых только первые 50 были выбраны для загрузки и сохранены в локальном файловом каталоге. Всего было загружено около 1000 изображений, сочетающих как классы крови, так и некрови. Средний размер загружаемых изображений составляет 260 × 193 пикселей, размер файла — около 10 килобайт. На рисунке 3.3 приведены примеры некоторых изображений, использованных в этой работе.
В этом разделе представлены подробности экспериментальной установки и подходы, используемые для оценки производительности системы. В следующем параграфе обсуждается разделение набора данных, а в последующих параграфах объясняются методы оценки.
Как упоминалось ранее в разделе 4.1, в этой системе используются данные из нескольких источников. Наиболее важным источником является набор данных VSD2014. Это единственный общедоступный набор данных, который предоставляет аннотированные видеоданные с различными категориями насилия, и это основная причина использования этого набора данных при разработке этой системы. Как объяснялось в предыдущем разделе 4.1.1, этот набор данных содержит три подмножества: Голливуд: Разработка, Голливуд: Тест и YouTube: Обобщение. В данной работе используются все три подмножества. Подмножество «Голливуд: Развитие» — единственный набор данных, в котором указаны различные классы насилия. Это подмножество, состоящее из 24 голливудских фильмов, разделено на 3 части. Первая часть, состоящая из 12 фильмов («Эрагон», «Фантастическая четверка 1», «Фарго», «Бойцовский клуб», «Гарри Поттер 5», «Я — легенда», «День независимости», «Блондинка в законе», «Леон», «Полуночный экспресс», «Пираты Карибского моря», «Бешеные псы»), используется для тренировок. классификаторы. Вторая часть, состоящая из 7 фильмов («Спасти рядового Райана», «Идентификация Борна», «Крестный отец», «Пианист», «Шестое чувство», «Плетеный человек», «Волшебник страны Оз»), используется для тестирования обученных классификаторов и расчета весов для каждого вида насилия. тип. Для оценки используется заключительная часть, состоящая из трех фильмов («Армагеддон», «Билли Эллиот» и «Общество мертвых поэтов»). Подмножества Hollywood: Test и YouTube: Generalization также используются для оценки, но для другой задачи. В следующих параграфах представлена подробная информация об используемых подходах к оценке.
Для оценки производительности системы определены две разные задачи классификации. В первой задаче система должна обнаружить конкретную категорию насилия, присутствующую в видеосегменте. Вторая задача более общая: система должна только обнаруживать наличие насилия. Для обеих этих задач для оценки используются разные наборы данных. В первой задаче, которая представляет собой задачу классификации нескольких классов, используется набор проверки, состоящий из трех голливудских фильмов («Армагеддон», «Билли Эллиот» и «Общество мертвых поэтов»). В этом подмножестве каждый интервал кадров, содержащий насилие, помечается присутствующим классом насилия. Следовательно, этот набор данных используется для этой задачи. Эти три фильма не использовались ни для обучения, тестирования классификаторов, ни для расчета весов, чтобы систему можно было оценить на совершенно новых данных. Процедура, показанная на рисунке 3.1, используется для расчета вероятности принадлежности фрагмента видео к определенному классу насилия. Выходные вероятности системы и достоверная информация используются для создания кривых ROC (рабочих характеристик приемника) и для оценки производительности системы.
Во второй задаче, которая представляет собой задачу двоичной классификации, используются подмножества Hollywood: Test и YouTube: Generalization набора данных VSD2104. Подмножество «Голливуд: Тест» состоит из 8 голливудских фильмов, а подмножество «Ютуб: Обобщение» — из 86 видеороликов с YouTube. В обоих этих поднаборах интервалы кадров, содержащие насилие, предоставляются в виде аннотаций и никакой информации о классе насилия не предоставляется. Следовательно, эти подмножества используются для этой задачи. В этой задаче, как и в предыдущей, процедура, показанная на рисунке 3.1, используется для расчета вероятности принадлежности фрагмента видео к определенному классу насилия. Для каждого сегмента видео максимальная вероятность, полученная для любого класса насилия, считается вероятностью того, что он является жестоким. Подобно вышеуказанной задаче, кривые ROC генерируются на основе этих значений вероятности и основных данных из набора данных.
В обеих этих задачах сначала все функции извлекаются из наборов данных обучения и тестирования. Затем наборы данных для обучения и тестирования выбираются случайным образом, чтобы получить равное количество положительных и отрицательных образцов. Для обучения отбирается 2000 образцов функций, а для тестирования — 3000. Как упоминалось выше, непересекающиеся наборы обучения и тестирования используются, чтобы избежать тестирования обучающих данных. В обеих задачах классификаторы SVM с ядрами линейной, радиальной базисной функции и хи-квадрат обучаются для каждого типа признаков, а для этапа объединения выбираются классификаторы с хорошими оценками классификации в тестовом наборе. На этапе объединения веса для каждого типа насилия рассчитываются путем поиска по сетке возможных комбинаций, которые максимизируют производительность классификатора. В качестве показателя производительности используется показатель EER (равная частота ошибок).
В этом разделе представлены эксперименты и их результаты. Сначала представлены результаты задачи многоклассовой классификации, а затем результаты задачи бинарной классификации.
В этой задаче система должна определить категорию насилия, присутствующую в видео. Категории насилия, на которые распространяется эта система: Кровь, Холодное оружие, Взрывы, Драки, Огонь, Огнестрельное оружие, Выстрелы, Крики. Как упоминалось в главе 1, это подмножество категорий насилия, определенных в VSD2014. Помимо этих восьми категорий, в VSD2014 также определены «Автомобильная погоня» и «Субъективное насилие», которые не используются в этой работе, поскольку в наборе данных было недостаточно видеосегментов, помеченных этими категориями. Эта задача очень сложна, поскольку выявление подкатегорий насилия усложняет сложную проблему выявления насилия. Попытка обнаружить детальные концепции насилия с помощью этой системы является новой, и не существует существующей системы, которая бы выполняла эту задачу.
Как упоминалось в главе 3, эта система использует подход объединения взвешенных решений для выявления нескольких классов насилия, при котором веса для каждой категории насилия изучаются с использованием метода поиска по сетке. Пожалуйста, обратитесь к разделу 3.1.3 для получения более подробной информации об этом подходе. В Таблице 4.2 представлены веса для каждого класса насилия, найденного с помощью метода поиска по сетке.
Эти веса используются для получения взвешенной суммы выходных значений бинарных классификаторов признаков для каждой категории насилия. Категория с наибольшей суммой — это категория насилия, присутствующая в этом сегменте видео. Если выходная сумма меньше 0,5, то сегмент видео классифицируется как «Ненасильственное». Сегменты видео в наборе проверки классифицируются с использованием этого подхода, и результаты представлены на рисунке 4.2. На рисунке каждая кривая представляет собой кривую ROC для каждой категории насилия.
Таблица 4.2: Веса классификатора, полученные для каждого класса насилия с использованием метода поиска по сетке. Здесь критерием выбора весов для класса насилия было нахождение весов, которые минимизируют EER для этого класса насилия.
Рисунок 4.2: Производительность системы в задаче многоклассовой классификации.
Ожидается, что в этой задаче бинарной классификации система обнаружит наличие насилия без необходимости поиска категории. Как и в предыдущей задаче, выходные вероятности бинарных классификаторов признаков объединяются с использованием подхода взвешенной суммы и вычисляются выходные вероятности принадлежности видеосегмента к каждому из классов насилия. Если максимальная вероятность для любого класса превышает 0,5, то видеосегмент классифицируется как насилие или же он классифицируется как ненасилие. Как упоминалось в разделе 4.2, эта задача выполняется на наборах данных YouTube-Generalization и Hollywood-Test. На рисунке 4.3 представлены результаты этой задачи для обоих наборов данных. Две кривые ROC, по одной для каждого набора данных, используются для представления производительности системы. Используя 0,5 в качестве порогового значения для принятия решения о том, содержит ли видеосегмент насилие или нет, рассчитываются значения точности, полноты и точности. Пожалуйста, обратитесь к Таблице 4.3 для получения полученных результатов.
В этом разделе обсуждаются результаты, представленные в разделе 4.3. Прежде чем обсуждать результаты задач мультиклассовой и бинарной классификации, обсуждается производительность отдельных классификаторов.
В обеих задачах классификации, обсуждаемых в разделе 4.3, для получения окончательных результатов выполняется объединение оценок классификатора. Следовательно, производительность системы в основном зависит от индивидуальной производительности каждого из классификаторов и частично от весов, присвоенных каждому из классификаторов. Чтобы окончательные результаты классификации были хорошими, важно, чтобы каждый из классификаторов имел хорошие индивидуальные показатели. Чтобы получить наиболее эффективные классификаторы, SVM обучаются с использованием трех различных функций ядра (линейная, RBF и хи-квадрат), и выбирается классификатор с оптимальной производительностью на тестовом наборе. Следуя этому подходу, для каждого типа объектов выбираются наиболее эффективные классификаторы. Производительность этих выбранных классификаторов на тестовом наборе данных представлена на рисунке 4.4. Можно заметить, что SentiBank и Audio — это два классификатора функций, которые показывают приемлемую производительность на тестовом наборе. Классификатор функций движения имеет производительность, которая немного лучше, чем случайность, а производительность Blood эквивалентна случайности. Ниже представлено подробное обсуждение производительности каждого из этих классификаторов в порядке возрастания их производительности.
Как видно из рисунка 4.4, производительность классификатора признаков движения на тестовом наборе лишь немногим лучше случайности. Чтобы понять причину этого, сравнивается производительность всех классификаторов признаков движения, обученных с помощью различных ядер SVM на доступных наборах данных. Для сравнения обратитесь к рисунку 4.5. На рисунке левый график показывает эффективность классификаторов на тестовом наборе из набора данных Hockey, а график справа показывает сравнение с набором данных Hollywood-Test. На обоих графиках красная кривая соответствует классификатору, обученному на наборе данных Hockey, а остальные три кривые соответствуют классификаторам, обученным на наборе данных Hollywood-Dev.
Из обоих этих графиков видно, что производительность классификаторов, обученных и протестированных на одном и том же наборе данных, достаточно хорошая по сравнению с классификаторами, которые обучены на одном наборе данных и протестированы на другом. На графике слева (TestSet: Hockey Dataset) классификатор, обученный на Hockey Dataset, имеет более высокую производительность. Аналогично, на графике справа (TestSet: Hollywood-Test) производительность классификаторов, обученных на наборе данных Hollywood-Dev, выше. На основании этих наблюдений можно сделать вывод, что представление признаков движения, полученное из одного набора данных, не может быть перенесено в другой набор данных. Причиной этого может быть несоответствие разрешения видео и формата видео между наборами данных. Видео из набора данных Hockey и набора данных Hollywood-Test имеют разные форматы, а также не все видео из Hollywood-Development и Hollywood-Test имеют одинаковый формат. Видеоформат играет важную роль, поскольку процедура, используемая для извлечения признаков движения (описанная в разделе 3.1.1.3.1), использует информацию о движении из видеокодеков. Длина и разрешение видео также будут иметь некоторый эффект, хотя используемая здесь процедура пытается уменьшить это за счет нормализации извлеченных функций с длиной видеосегмента и агрегирования движений пикселей по заранее определенному количеству подобластей. рамы. Видео из набора хоккейных данных представляют собой очень короткие сегменты продолжительностью в одну секунду, имеют небольшой размер кадра и низкое качество. Принимая во внимание, что сегменты видео из набора данных Голливуда длиннее, имеют больший размер кадра и лучшее качество. Одним из решений этой проблемы может быть конвертация всех видео в один и тот же формат, но даже в этом случае может возникнуть проблема из-за неправильного кодирования видео. Другим решением может быть использование подхода, основанного на оптическом потоке, для извлечения характеристик движения (описано в разделе 3.1.1.3.2). Но, как объяснялось ранее, этот подход утомителен и может не работать, если в видео присутствует размытие из-за движения.
Эффективность классификатора признаков крови на тестовом наборе столь же хороша, как случайность. Результаты см. на рисунке 4.4. Здесь проблема не в выделении признаков, поскольку детектор крови, используемый для выделения признаков крови, показал очень хорошие результаты при обнаружении областей, содержащих кровь, на изображении. Пожалуйста, обратитесь к рисунку 3.4, чтобы узнать о работе детектора крови на изображениях из Интернета, и к рисунку 4.6, чтобы узнать о его работе на выборочных кадрах из набора данных Голливуда. Из этого становится ясно, что экстрактор признаков крови работает довольно хорошо, и проблема не в извлечении признаков. Следовательно, можно сделать вывод, что проблема связана с обучением классификатора и связана с ограниченной доступностью обучающих данных.
В наборе данных VSD2014, который используется для обучения, сегменты видео, содержащие кровь, помечены метками («Незаметно», «Низкий», «Средний» и «Высокий»), обозначающими количество крови, содержащейся в этих сегментах. В этом наборе данных очень мало сегментов, помеченных меткой «Высокий», в результате чего классификаторы SVM не могут эффективно изучить представление признаков кадров, содержащих кровь. Производительность этого классификатора признаков можно улучшить, обучив его на более крупном наборе данных со многими экземплярами кадров, содержащих большое количество крови. В качестве альтернативы для обучения этого классификатора можно также использовать изображения из Google.
Классификатор аудиофункций является вторым по эффективности классификатором (см. рисунок 4.4) в тестовом наборе, и это показывает важность звука в обнаружении насилия. Хотя визуальные особенности являются хорошим индикатором содержания насилия, есть сцены, в которых звук играет более важную роль. Например, сцены с драками, выстрелами и взрывами. Эти сцены имеют характерные звуки, а звуковые функции, такие как MFCC и энергетическая энтропия, могут использоваться для обнаружения звуковых шаблонов, связанных с этими сценами насилия. В этой работе функции MFCC используются для описания аудиоконтента (см. раздел 3.1.1.1), как и во многих предыдущих работах по обнаружению насилия (Акар и др. [1], Цзян и др. [33], Лам и др. [36] ] и т. д.) показали эффективность функций MFCC в обнаружении звуковых сигнатур, связанных со сценами насилия. Другие функции звука, такие как энергетическая энтропия, высота тона и спектр мощности, также могут использоваться вместе с функциями MFCC для дальнейшего улучшения производительности классификатора функций. Но важно отметить, что одного только звука недостаточно для обнаружения насилия, и он играет важную роль только в обнаружении некоторых классов насилия, таких как выстрелы и взрывы, которые имеют уникальные звуковые сигнатуры.
Классификатор функций SentiBank показал лучшую производительность среди всех классификаторов функций (см. рисунок 4.4) и внес значительный вклад в общую производительность системы. Это демонстрирует возможности SentiBank в обнаружении сложных визуальных настроений, таких как насилие. На рисунке 4.7 показаны средние баллы для 50 лучших ANP для кадров, содержащих насилие и не содержащих насилие. Как можно заметить, списки ANP с наивысшими средними баллами по классам насилия и ненасилия сильно различаются, и это является причиной очень хороших результатов SentiBank в отделении классов насилия от классов ненасилия. Обратите внимание, что не все прилагательные в списке ANP для класса насилия описывают насилие. Это может быть связано с множеством разных причин, одной из которых может быть тот факт, что из 1200 ANP, используемых в SentiBank, лишь немногие описывают эмоции, связанные с насилием (например, страх, ужас, ярость, гнев и т. д.). Пожалуйста, обратитесь к рисунку 4.8, на котором показано колесо эмоций Плутчика и распределение ANP для каждой категории эмоций в VSO.
Как упоминалось ранее (раздел 3.1.3), окончательные классификационные баллы рассчитываются путем позднего объединения оценок отдельных классификаторов с использованием подхода взвешенной суммы. Используемые здесь веса рассчитываются с использованием метода поиска по сетке с целью минимизировать равную частоту ошибок (EER). Таким образом, веса играют важную роль в определении общей эффективности классификации системы. Обратите внимание, что все эти веса рассчитываются на тестовом наборе. В таблице 4.2 представлены веса классификаторов для каждого из восьми классов насилия, полученные с помощью метода поиска по сетке. На основе полученных весов можно сделать следующие наблюдения о распределении весов: (i) Для большинства классов насилия наивысший вес присвоен SentiBank, поскольку это наиболее дискриминирующий признак. (ii) Звук получил наивысший вес в таких классах насилия, как «Выстрелы», «Взрывы» и «Драки», где звук играет очень важную роль. (iii) Кровь получила высокий вес для таких классов насилия, как крики, выстрелы и огнестрельное оружие. Это интересно, поскольку фрагмент видео, принадлежащий к любому из этих классов насилия, также может содержать кровь. (iv) Движение получило наименьший вес в большинстве классов насилия, поскольку является наименее эффективной функцией. Но также можно заметить, что он имеет более высокий вес для класса «Бои», где можно ожидать большого количества движения.
Если проанализировать веса, присвоенные каждому из классов насилия, можно сделать следующие наблюдения: (i) Для класса «Выстрелы» самые высокие веса распределения имеют между «Аудио» (0,5) и «Кровь» (0,45). Это ожидаемо, поскольку звуковые функции играют важную роль в обнаружении выстрелов, а в сценах, содержащих выстрелы, также ожидается много крови. (ii) Аудио (0,4) и визуальные функции (Motion — 0,25 и SentiBank — 0,30) получили почти равный вес для класса Fights. Это ожидаемо, поскольку как аудио, так и визуальные функции важны для обнаружения сцен с боями. (iii) Для класса «Взрывы» наивысшие веса присвоены звуку (0,9), что ожидаемо, поскольку звуковые функции имеют решающее значение для обнаружения взрывов. (iv) Огонь – это класс насилия, в котором ожидается, что визуальные особенности будут иметь высокий вес, и, как и ожидалось, наиболее эффективная визуальная функция, SentiBank (0,85), получает наивысший вес. (v) Класс насилия Холод
оружие содержит сцены, в которых присутствует какое-либо холодное оружие (например, ножи, мечи, стрелы, алебарды и т. д.). Ожидается, что для этого класса визуальные функции будут иметь высокий вес. И как и ожидалось, SentiBank (0,95) имеет самый высокий вес в этом классе. (vi) «Огнестрельное оружие» — это класс насилия, в сценах которого используется огнестрельное и огнестрельное оружие. Как и в случае с вышеуказанным классом, ожидается, что визуальные функции будут иметь высокий вес. Для этого класса наибольшее распределение весов получили SentiBank (0,6) и Blood (0,3). Причина, по которой «Крови» присвоен более высокий вес, может быть связана с тем, что большинство сцен с оружием также будут содержать кровопролитие. (vii) Для класса «Кровь» ожидается, что признак «Кровь» будет иметь наивысший вес. Но функция Blood (0,05) получила лишь небольшой вес, а SentiBank (0,95) получил наибольший вес. Это неожиданный результат, и это может быть связано с плохой работой классификатора признаков крови на тестовом наборе. (viii) Логично ожидать, что звук будет иметь более высокий вес для класса «Крики», поскольку звуковые функции играют важную роль в обнаружении криков. Но полученные здесь веса противоречат этой интуиции. Аудио получило очень меньший вес, тогда как SentiBank получил самый высокий вес. В целом, веса, полученные в результате поиска по сетке, более или менее соответствуют ожидаемым для большинства классов. Лучшее распределение веса можно было бы получить, если улучшить производительность отдельных классификаторов в тесте.
В этом разделе обсуждаются результаты, полученные в задаче многоклассовой классификации. Пожалуйста, обратитесь к рисунку 4.2 для получения результатов, полученных в этой задаче. Из рисунка можно сделать следующие наблюдения: (i) Система показывает хорошие характеристики (EER около 30%) при обнаружении выстрелов. (ii) Для классов насилия, холодного оружия, крови и взрывов система показывает умеренную производительность (EER около 40%). (iii) Для остальных классов насилия (Драки, Крики, Огонь, Огнестрельное оружие) результативность вполне вероятна (EER более 45%). Эти результаты свидетельствуют о том, что существуют огромные возможности для улучшения, но важно помнить, что обнаружение насилия — нетривиальная задача, а различие между различными классами насилия еще более сложно. Все предложенные до сих пор подходы концентрировались только на выявлении наличия или отсутствия насилия, но не на выявлении категории насилия. Новый подход, предложенный в этой работе, является одним из первых в этом направлении, и не существует базовых систем, с которыми можно было бы сравнивать производительность. Результаты, полученные в результате этой работы, послужат основой для будущих работ в этой области.
В этой системе применяется подход позднего слияния, который показал хорошие результаты в аналогичной задаче обнаружения мультимедийных концепций при обнаружении контента для взрослых (Шульце и др. [52]). Следовательно, низкая производительность системы не может быть объяснена используемым подходом. Производительность системы зависит от производительности отдельных классификаторов и присвоенного им объединенного веса для каждого из классов насилия. Поскольку объединенные веса корректируются для минимизации EER с использованием метода Grid-Search, общая производительность системы зависит исключительно от производительности отдельных классификаторов. Итак, чтобы улучшить производительность системы в этой задаче, необходимо улучшить производительность отдельных классификаторов по выявлению насилия.
Результаты задачи двоичной классификации представлены на рисунке 4.3. Эта задача является расширением задачи многоклассовой классификации. Как объяснялось ранее, в этой задаче сегмент видео классифицируется как «Насилие», если выходная вероятность для любого из классов насилия превышает пороговое значение 0,5. Производительность системы в этой задаче оценивается на двух наборах данных: Hollywood-Test и YouTube-Generalization. Можно заметить, что производительность системы на этих наборах данных немного выше случайности. Также можно заметить, что производительность в наборе данных Hollywood-Test выше, чем в наборе данных YouTube-Generalization. Это ожидаемо, поскольку все классификаторы обучаются на данных из набора данных Hollywood-Development, которые имеют видеоконтент, аналогичный видеоконтенту набора данных Hollywood-Test. Значения прецизионности, полноты и точности, полученные системой для этой задачи, представлены в таблице 4.3. Результаты, полученные лучшей командой по данному заданию по итогам MediaEval-2014, представлены в Таблице 4.4.
Эти результаты нельзя сравнивать напрямую, даже если используется один и тот же набор данных, поскольку процесс оценки различен. В MediaEval-2014 система должна выводить начальный и конечный кадр для фрагментов видео, содержащих насилие, и если перекрытие между основной истиной и интервалами выходных кадров составляет более 50 %, это считается попаданием. Пожалуйста, обратитесь к Schedl et al. [51] для получения дополнительной информации о процессе, использованном в MediaEval-2014. В предлагаемом подходе система классифицирует каждый 1-секундный сегмент входного видео как класс «Насилие» или «Нет насилия», и производительность системы рассчитывается путем сравнения этого с реальными данными. Используемые здесь критерии оценки гораздо более строгие и детальные по сравнению с критериями, используемыми в MediaEval-2014. Здесь, поскольку классификация выполняется для каждого 1-секундного сегмента, нет необходимости в стратегии наказания за обнаружение более коротких сегментов. Метрика MAP используется для выбора наиболее эффективной системы в MediaEval, тогда как в предлагаемой системе оптимизирован EER системы.
Несмотря на то, что результаты, полученные от этой системы, нельзя напрямую сравнивать с результатами MediaEval, можно заметить, что производительность этой системы сопоставима, если не лучше, с самой эффективной системой MediaEval-2014, несмотря на строгие критерии оценки. используются. Эти результаты показывают, что система, разработанная с использованием предложенного нового подхода, лучше существующих современных систем в этой области обнаружения насилия.
В этой главе представлено подробное обсуждение оценки разработанной системы. В разделе 4.1 подробно описаны наборы данных, использованные в этой работе, а в следующем разделе, раздел 4.2, обсуждается экспериментальная установка. В разделе 4.3 представлены эксперименты и их результаты, а затем подробное обсуждение полученных результатов в разделе 4.4.
Этот документ доступен на arxiv под лицензией CC 4.0.
[1] http://www.images.google.com
[2] http://www.youtube.com
[3] http://visilab.etsii.uclm.es/personas/oscar/FightDetection/index.html