Авторы:
(1) Правин Тирупаттур, Университет Центральной Флориды.
Обнаружение насилия — это подзадача распознавания действий, при которой насильственные действия должны быть обнаружены на видео. Его также можно рассматривать как своего рода обнаружение мультимедийных событий. Некоторые подходы к решению этой проблемы уже предложены. Эти предлагаемые подходы можно разделить на три категории: (i) Подходы, в которых используются только визуальные признаки. (ii) Подходы, в которых используются только звуковые функции. (iii) Подходы, в которых используются как аудио, так и визуальные функции. Категория интереса здесь — третья, где используются как видео, так и аудио. В этой главе представлен обзор некоторых предыдущих подходов, принадлежащих к каждой из этих категорий.
Первоначальную попытку обнаружить насилие с использованием как звуковых, так и визуальных сигналов предприняли Нам и др. [41]. В их работе как аудио, так и визуальные функции используются для обнаружения сцен насилия и создания индексов, позволяющих осуществлять поиск видео по контенту. Здесь для каждого выстрела извлекается пространственно-временная динамическая сигнатура активности, чтобы классифицировать его как насильственный или ненасильственный. Эта особенность пространственно-временной динамической активности основана на количестве динамического движения, присутствующего в кадре.
Чем больше пространственное движение между кадрами в кадре, тем значительнее особенность. Причина такого подхода заключается в том, что большинство боевых сцен включают в себя быстрое и значительное движение людей или объектов. Чтобы вычислить пространственно-временную характеристику активности для кадра, последовательности движений из кадра получаются и нормируются по длине кадра, чтобы гарантировать, что только кадры с меньшей длиной и высоким пространственным движением между кадрами имеют более высокое значение. функции активности.
Кроме того, для обнаружения пламени от выстрелов или взрывов исследуется внезапное изменение значений интенсивности пикселей между кадрами. Чтобы исключить ложные срабатывания, такие как изменение интенсивности из-за фонарей камеры, используется заранее заданная таблица цветов со значениями цветов, близкими к цветам пламени, таким как желтый, оранжевый и красный. Аналогично, для обнаружения крови, что часто встречается в большинстве сцен насилия, цвета пикселей в кадре сопоставляются с заранее определенной таблицей цветов, содержащей цвета, похожие на кровь. Этих визуальных особенностей самих по себе недостаточно для эффективного обнаружения насилия. Следовательно, аудиофункции также учитываются.
Внезапное изменение уровня энергии аудиосигнала используется в качестве звукового сигнала. Энергетическая энтропия рассчитывается для каждого кадра, и внезапное изменение этого значения используется для выявления насильственных событий, таких как взрыв или выстрелы. Звуковые и визуальные подсказки синхронизированы по времени, что позволяет с большей точностью получать кадры, содержащие сцены насилия. Одна из главных задач этой статьи — подчеркнуть необходимость как звуковых, так и визуальных сигналов для выявления насилия.
Гонг и др. [27] также использовали как визуальные, так и звуковые сигналы для обнаружения насилия в фильмах. Описан трехэтапный подход к выявлению насилия. На первом этапе для каждого кадра видео извлекаются низкоуровневые визуальные и слуховые характеристики. Эти функции используются для обучения классификатора обнаружению кадров-кандидатов с потенциально жестоким содержанием. На следующем этапе для обнаружения возможных кадров используются звуковые эффекты высокого уровня. На этом этапе, чтобы обнаружить звуковые эффекты высокого уровня, классификаторы SVM обучаются для каждой категории звукового эффекта с использованием функций звука низкого уровня, таких как спектр мощности, высота тона, MFCC (кепстральные коэффициенты Mel-частоты) и выраженность гармоники (Cai и др. [7]). Выходные данные каждого из SVM можно интерпретировать как вероятностное отображение сигмоиды, которая представляет собой непрерывное значение между [0,1] (Платт и др. [46]). На последнем этапе вероятностные результаты первых двух этапов объединяются с использованием повышения, и окончательный показатель насилия за выстрел рассчитывается как взвешенная сумма оценок первых двух этапов.
Эти веса рассчитываются с использованием набора проверочных данных и, как ожидается, позволят максимизировать среднюю точность. Работа Гонга и др. [27] концентрируется только на обнаружении насилия в фильмах, где соблюдаются универсальные правила кинопроизводства. Например, динамичный звук во время боевых сцен. Контент с насилием выявляется путем обнаружения динамичных сцен и аудиособытий, связанных с насилием, таких как взрывы и выстрелы. Использованные данные для обучения и тестирования взяты из коллекции четырех голливудских боевиков, содержащих множество сцен насилия. Несмотря на то, что этот подход дал хорошие результаты, следует отметить, что он оптимизирован для обнаружения насилия только в фильмах, которые следуют некоторым правилам кинопроизводства, и не будет работать с видео, загружаемыми пользователями на такие веб-сайты, как Facebook, Youtube. , и т. д.
В работе Линя и Ванга [38] видеопоследовательность разделена на кадры, и для каждого кадра аудио- и видеохарактеристики в нем классифицируются как насильственные или ненасильственные, а выходные данные объединяются с помощью совместного обучения. Модифицированный алгоритм pLSA (Хофманн [30]) используется для обнаружения насилия в аудиосегменте. Аудиосегмент разбивается на аудиоклипы длительностью в одну секунду каждый и представляется вектором признаков, содержащим характеристики низкого уровня, такие как спектр мощности, MFCC, высота тона, коэффициент нулевой перекрестной скорости (ZCR) и степень гармоничности (Cai et al. [7]). . Эти векторы группируются для получения центров кластеров, которые обозначают звуковой словарь. Затем каждый аудиосегмент представляется с использованием этого словаря в качестве аудиодокумента. Алгоритм максимизации ожидания (Демпстер и др. [20]) используется для подбора аудиомодели, которая позже используется для классификации аудиосегментов. Для обнаружения насилия в видеофрагменте используются три распространенных визуальных события насилия: движение, пламя/взрывы и кровь. Интенсивность движения используется для обнаружения областей с быстрым движением и для извлечения признаков движения для каждого кадра, которые затем используются для классификации кадра как насильственного или ненасильственного. Цветовые модели и модели движения используются для обнаружения пламени и взрывов в кадре и их классификации. Аналогичным образом, цветовая модель и интенсивность движения используются для обнаружения области, содержащей кровь, и если она превышает заранее определенное значение для кадра, она классифицируется как насильственная. Окончательная оценка насилия для видеосегмента получается как взвешенная сумма трех отдельных оценок, упомянутых выше. Используемые здесь функции такие же, как и у Nam et al. [41]. Для объединения оценок классификации видео и аудиопотоков используется совместное обучение. Для обучения и тестирования используется набор данных, состоящий из пяти голливудских фильмов, и при обнаружении сцен насилия достигается точность около 0,85 и полнота около 0,90. Даже эта работа нацелена на обнаружение насилия только в фильмах, а не в видеороликах, доступных в Интернете. Но результаты показывают, что визуальные особенности, такие как движение и кровь, очень важны для обнаружения насилия.
Все упомянутые до сих пор подходы используют как звуковые, так и визуальные сигналы, но есть другие, которые используют видео или аудио для обнаружения насилия, а некоторые другие пытаются обнаружить только один конкретный вид насилия, например кулачные бои. Ниже представлен краткий обзор этих подходов.
Одна из немногих работ, в которых для обнаружения семантического контекста в видео использовался только звук, принадлежит Cheng et al. [11], где для распознавания выстрелов, взрывов и торможения автомобилей используется иерархический подход, основанный на моделях гауссовой смеси и скрытых марковских моделях. Датта и др. [14] попытались обнаружить насилие между людьми в видеороликах, которые включают только кулачные бои, удары ногами, предметами и т. д., анализируя насилие на уровне объекта, а не на уровне сцены, как это делают большинство подходов. Здесь обнаруживаются движущиеся объекты на сцене, а модель человека используется для обнаружения только тех объектов, которые представляют людей. Таким образом, информация о траектории движения и ориентации конечностей человека используется для обнаружения драк между людьми.
Кларин и др. [12] разработали автоматизированную систему DOVE для обнаружения насилия в кинофильмах. Здесь только кровь используется для обнаружения сцен насилия. Система извлекает ключевые кадры из каждой сцены и передает их на обученную самоорганизующуюся карту для маркировки пикселей метками: кожа, кровь или не кожа/не кровь. Затем помеченные пиксели группируются через связанные компоненты и проверяются на предмет возможного насилия. Сцена считается жестокой, если в пиксельных областях происходят значительные изменения с компонентами кожи и крови. Еще одна работа по обнаружению драк принадлежит Nievas et al. [42], в котором структура «Мешок слов» используется вместе с дескрипторами действий «Пространственно-временные точки интереса» (STIP — Лаптев [37]) и преобразованием признаков, инвариантным к масштабу движения (MoSIFT — Чен и Гауптманн [10]). Авторы представили новый набор видеоданных, состоящий из 1000 видеороликов, разделенных на две группы с боями и без боев. В каждой группе 500 видеороликов, продолжительность каждого видеоролика составляет одну секунду. Эксперименты с этим набором данных дали точность 90% для набора данных с боями из боевиков.
Дениз и др. [21] предложили новый метод обнаружения насилия в видео, используя в качестве основной функции экстремальные ускорения. Этот метод в 15 раз быстрее современных систем распознавания действий, а также имеет очень высокую точность обнаружения сцен, содержащих драки. Этот подход очень полезен в системах обнаружения насилия в режиме реального времени, где важна не только точность, но и скорость. Этот подход сравнивает спектр мощности двух последовательных кадров для обнаружения внезапного движения, и в зависимости от количества движения сцена классифицируется как насильственная или ненасильственная. Этот метод не использует отслеживание функций для обнаружения движения, что делает его невосприимчивым к размытию. Хасснер и др. [28] представили подход к обнаружению насилия в многолюдных местах в режиме реального времени. Этот метод учитывает изменение величин вектора потока с течением времени. Эти изменения для коротких последовательностей кадров называются дескрипторами Violent Flows (ViF). Эти дескрипторы затем используются для классификации сцен насилия и ненасильственных действий с использованием линейной машины опорных векторов (SVM). Поскольку этот метод использует только информацию о потоке между кадрами и не требует высокоуровневого анализа формы и движения, он способен работать в режиме реального времени. Для этой работы авторы создали собственный набор данных, загрузив с Youtube видеоролики, содержащие агрессивное поведение толпы.
Во всех этих работах используются разные подходы к обнаружению насилия на видео, и все они используют собственные наборы данных для обучения и тестирования. У каждого из них есть свое определение насилия. Это демонстрирует серьезную проблему выявления насилия, заключающуюся в отсутствии независимых базовых наборов данных и общего определения насилия, без которого сравнение между различными подходами бессмысленно.
Чтобы решить эту проблему, Демарти и др. [16] представили бенчмарк для автоматического обнаружения эпизодов насилия в фильмах в рамках инициативы по мультимедийному бенчмаркингу MediaEval-2011 [1]. Этот критерий очень полезен, поскольку он обеспечивает последовательный и содержательный набор данных с общим определением насилия, протоколами и показателями оценки. Детали предоставленного набора данных подробно обсуждаются в разделе 4.1. В недавних работах по распознаванию насилия в видео использовался этот набор данных, подробности о некоторых из них представлены далее.
Акар и др. [1] предложили подход, который контролируемым образом объединяет визуальные и звуковые функции с использованием SVM одного и двух классов для обнаружения насилия в фильмах. Низкоуровневые визуальные и аудиофункции извлекаются из видеокадров фильмов, а затем объединяются методом раннего слияния для обучения SVM. Характеристики MFCC извлекаются для описания аудиоконтента, а для визуального контента используется подход Bag-of-Words на основе SIFT (масштабно-инвариантное преобразование признаков - Лоу [39]).
Цзян и др. [33] предложили метод обнаружения насилия, основанный на наборе признаков, полученных на основе внешнего вида и движения локальных траекторий пятен (Цзян и др. [34]). Наряду с этими траекториями патчей извлекаются и другие функции, такие как функции SIFT, STIP и MFCC, которые используются для обучения классификатора SVM обнаружению различных категорий насилия. Для повышения точности выполняются сглаживание оценок и признаков.
Лам и др. [36] оценили производительность низкоуровневых аудио/визуальных функций для задачи обнаружения сцен насилия, используя наборы данных и протоколы оценки, предоставленные MediaEval. В этой работе используются как локальные, так и глобальные визуальные функции, а также функции движения и звука MFCC. Все эти функции извлекаются для каждого ключевого кадра кадра и объединяются для формирования единого вектора признаков для этого кадра. Классификатор SVM обучен классифицировать выстрелы как насильственные или ненасильственные на основе этого вектора признаков. Эйбен и др. [23] применили крупномасштабное выделение сегментных признаков наряду с аудиовизуальной классификацией для обнаружения насилия. Извлечение аудиофункций выполняется с помощью набора инструментов для извлечения признаков с открытым исходным кодом openSmile (Эйбен и Шуллер [22]). Визуальные функции низкого уровня, такие как гистограмма оттенка-насыщенности (HSV), анализ оптического потока и обнаружение границ Лапласа, вычисляются и используются для обнаружения насилия. Для классификации используются линейные классификаторы SVM, а для объединения используется простое усреднение баллов.
Таким образом, почти все описанные выше методы пытаются обнаружить насилие в фильмах, используя различные аудио- и визуальные функции, ожидая лишь пары [Nievas et al. [42], Хасснер и др. [28]], в которых используются видеоданные с камер наблюдения или других видеосистем реального времени. Также можно заметить, что не во всех этих работах используется один и тот же набор данных, и в каждой из них имеется собственное определение насилия. Внедрение набора данных MediaEval для обнаружения сцен насилия (VSD) в 2011 году решило эту проблему. Последняя версия набора данных VSD2014 также включает видеоконтент с Youtube, помимо голливудских фильмов, и призывает исследователей проверить свой подход на видеоконтенте, созданном пользователями.
Предлагаемый подход, представленный в главе 3, основан на более ранних работах по обнаружению насилия, обсуждавшихся в главе 2. В предлагаемом подходе для обнаружения насилия используются как звуковые, так и визуальные сигналы. Функции MFCC используются для описания аудиоконтента, а функции крови, движения и SentiBank используются для описания видеоконтента. Классификаторы SVM используются для классификации каждой из этих функций, а позднее объединение применяется для объединения оценок классификатора.
Несмотря на то, что этот подход основан на более ранних работах по выявлению насилия, его важными преимуществами являются: (i) Выявление различных классов насилия. Более ранние работы по обнаружению насилия были сосредоточены только на обнаружении насилия в видео. Предлагаемый подход является одним из первых, позволяющих решить эту проблему. (ii) Использование функции SentiBank для описания визуального содержания видео. SentiBank — это визуальная функция, которая используется для описания настроений на изображении. Эта функция ранее использовалась для обнаружения контента для взрослых в видеороликах (Шульце и др. [52]). В данной работе он впервые используется для обнаружения насильственного контента. (iii) Использование трехмерной цветовой модели, созданной с использованием изображений из Интернета, для обнаружения пикселей, представляющих кровь. Эта цветовая модель очень надежна и показала очень хорошие результаты при обнаружении крови. (iv) Использование информации, встроенной в видеокодек, для создания функций движения. Этот подход очень быстр по сравнению с другими, поскольку векторы движения для каждого пикселя предварительно вычисляются и сохраняются в видеокодеке. Подробное объяснение предлагаемого подхода представлено в следующей главе, главе 3.
Этот документ доступен на arxiv под лицензией CC 4.0.
[1] http://www.multimediaeval.org.