paint-brush
Поиск лиц, созданных искусственным интеллектом, в дикой природе: краткое содержание и введениек@botbeat
110 чтения

Поиск лиц, созданных искусственным интеллектом, в дикой природе: краткое содержание и введение

Слишком долго; Читать

ИИ может создавать реалистичные фальшивые лица для онлайн-мошенников. В этой работе предлагается метод обнаружения лиц на изображениях, созданных ИИ.
featured image - Поиск лиц, созданных искусственным интеллектом, в дикой природе: краткое содержание и введение
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Авторы:

(1) Гонсало Дж. Аниано Порсиле, LinkedIn;

(2) Джек Гинди, LinkedIn;

(3) Шиванш Мундра, LinkedIn;

(4) Джеймс Р. Вербус, LinkedIn;

(5) Хани Фарид, LinkedIn и Калифорнийский университет в Беркли.

Таблица ссылок

Абстрактный

Генерация изображений на основе искусственного интеллекта продолжает быстро совершенствоваться, создавая все более реалистичные изображения с меньшим количеством очевидных визуальных недостатков. Изображения, созданные с помощью искусственного интеллекта, используются для создания фейковых онлайн-профилей, которые, в свою очередь, используются для кампаний по спаму, мошенничеству и дезинформации. Поскольку общей проблеме обнаружения любого типа манипулируемого или синтезированного контента уделяется все больше внимания, здесь мы сосредотачиваемся на более узкой задаче — различении реального лица от лица, сгенерированного ИИ. Это особенно применимо при борьбе с недостоверными онлайн-аккаунтами с поддельной фотографией профиля пользователя. Мы показываем, что, сосредоточив внимание только на лицах, можно обнаружить более устойчивый и универсальный артефакт, который позволяет обнаруживать лица, сгенерированные ИИ, с помощью различных механизмов синтеза на основе GAN и диффузии, а также при любом разрешении изображения (наиболее низком). как 128 × 128 пикселей) и качества.

1. Введение

За последние три десятилетия были достигнуты значительные успехи в статистическом моделировании природных изображений. Простейшая энергетическая спектральная модель [20] фиксирует спад величины частоты 1/ω, типичный для естественных изображений, рисунок 1(а). Поскольку эта модель не включает никакой информации о фазах, она не может получить подробную структурную информацию. К началу 2000 года новые статистические модели смогли отразить естественные статистические данные как по величине, так и по (некоторым) фазам [25], что привело к прорыву в моделировании основных текстурных моделей, рисунок 1(b).


Хотя эти модели способны фиксировать повторяющиеся узоры, они не способны фиксировать геометрические свойства объектов, лиц или сложных сцен. Начиная с 2017 года, благодаря большим наборам данных естественных изображений, достижениям в области глубокого обучения и мощным кластерам графических процессоров, генеративные модели начали фиксировать подробные свойства человеческих лиц и объектов [16, 18]. Эти генеративно-состязательные сети (GAN), обученные на большом количестве изображений из одной категории (лица, автомобили, кошки и т. д.), фиксируют высокодетализированные свойства.


Рис. 1. Эволюция статистических моделей природных изображений: (а) фрактальный паттерн со спектром мощности 1/ω; (б) синтезированный текстильный узор [25]; (в) лицо, сгенерированное GAN [17]; и (г) сцена, генерируемая диффузией, с подсказкой «пчеловод, рисующий автопортрет» [1].


например, лиц, рисунок 1(c), но ограничены только одной категорией. Совсем недавно модели, основанные на диффузии [2,26], объединили генеративные модели изображений с лингвистическими подсказками, что позволило синтезировать изображения из описательных текстовых подсказок, таких как «пчеловод, рисующий автопортрет», рисунок 1 (d).


Традиционно разработка генеративных моделей изображений преследовала две основные цели: (1) понять фундаментальные статистические свойства естественных изображений; и (2) использовать полученные синтезированные изображения для самых разных задач: от рендеринга компьютерной графики до психофизики человека и увеличения данных в классических задачах компьютерного зрения. Однако сегодня генеративный ИИ нашел более гнусные варианты использования — от спама до мошенничества и дополнительного топлива для кампаний по дезинформации.


Обнаружение обработанных или синтезированных изображений особенно сложно при работе в крупномасштабных сетях с сотнями миллионов пользователей. Эта проблема становится еще более серьезной, когда среднестатистический пользователь изо всех сил пытается отличить настоящее лицо от фальшивого [24]. Поскольку нас беспокоит использование генеративного ИИ для создания фейковых учетных записей онлайн-пользователей, мы стремимся разработать быстрые и надежные методы, которые смогут отличать настоящие лица от сгенерированных ИИ. Далее мы поместим нашу работу в контекст связанных с ней методов.

1.1. Связанных с работой

Поскольку мы сосредоточимся конкретно на лицах, сгенерированных ИИ, мы рассмотрим соответствующие работы, также посвященные или применимые к различению настоящих лиц от фальшивых. Существует две широкие категории подходов к обнаружению контента, созданного ИИ [10].


В первом подходе, основанном на гипотезах, используются определенные артефакты в лицах, сгенерированных ИИ, такие как несоответствия в двусторонней симметрии лица в виде отражений роговицы [13] и формы зрачков [15] или несоответствия в положении головы и пространственном расположении. черт лица (глаза, кончик носа, уголки рта, подбородок и т. д.) [23, 33, 34]. Преимущество этих подходов заключается в том, что они изучают явные аномалии семантического уровня. Недостаток заключается в том, что со временем механизмы синтеза — явно или неявно — исправляют эти артефакты. Другие артефакты, не связанные с лицом, включают аномалии пространственной частоты или шума [5,8,12,21,35], но эти артефакты, как правило, уязвимы для простых атак по отмыванию информации (например, перекодированию, аддитивному шуму, изменению размера изображения).


Во втором подходе, основанном на данных, машинное обучение используется, чтобы научиться отличать реальные изображения от изображений, созданных искусственным интеллектом [11, 29, 32]. Эти модели часто хорошо работают при анализе изображений в соответствии с их обучением, но затем сталкиваются с проблемами с изображениями, выходящими за пределы домена, и/или уязвимы для атак с отмыванием денег, поскольку модель фиксируется на артефактах низкого уровня [9].


Мы пытаемся использовать лучшее из обоих этих подходов. Обучая нашу модель на различных механизмах синтеза (GAN и диффузии), мы стремимся избежать фиксации на конкретном низкоуровневом артефакте, который не обобщает или может быть уязвим для простых атак по отмыванию. Сосредоточив внимание только на обнаружении лиц, сгенерированных ИИ (а не произвольных синтетических изображений), мы показываем, что наша модель, по-видимому, фиксирует артефакт семантического уровня, отличающийся от лиц, сгенерированных ИИ, что очень желательно для нашего конкретного приложения по поиску потенциально мошеннических пользователей. Счета. Мы также показываем, что наша модель устойчива к обнаружению сгенерированных ИИ лиц, ранее не встречавшихся при обучении, и устойчива к широкому диапазону разрешений и качеств изображений.


Таблица 1. Разбивка количества реальных и созданных искусственным интеллектом изображений, использованных в нашем обучении и оценке (см. также рисунок 2).


Этот документ доступен на arxiv под лицензией CC 4.0.