Авторы:
(1) Гонсало Дж. Аниано Порсиле, LinkedIn;
(2) Джек Гинди, LinkedIn;
(3) Шиванш Мундра, LinkedIn;
(4) Джеймс Р. Вербус, LinkedIn;
(5) Хани Фарид, LinkedIn и Калифорнийский университет в Беркли.
Наша базовая производительность обучения и оценки показана в Таблице 2. Оценка разбита на основе того, содержат ли оценочные изображения лицо или нет (обучающие изображения содержат только лица), а также были ли изображения созданы с помощью одного и того же (внутреннего) или различные (внешние) механизмы синтеза, используемые в обучении (см. раздел 2.6). Чтобы обеспечить прямое сравнение истинно положительного уровня[8] (TPR) для обучения и оценки, мы корректируем окончательный порог классификации, чтобы получить ложноположительный уровень[9] (FPR) 0,5%.
При фиксированном FPR 0,5 % лица, созданные ИИ, правильно классифицируются при обучении и оценке с вероятностью 98 %. В различных механизмах синтеза (StyleGAN 1,2,3, Stable Diffusion 1,2 и DALL-E 2), используемых для обучения, TPR несколько варьировался от низкого 93,3% для Stable Diffusion 1 до высокого 99,5% для StyleGAN. 2 и 98,9% для StyleGAN1, 99,9% для StyleGAN3, 94,9% для Stable Diffusion 2 и 99,2% для DALL-E 2.
Для граней, созданных движками синтеза, не используемыми в
при обучении (вне движка), TPR падает до 84,5% при том же FPR, демонстрируя хорошее, но не идеальное обобщение вне предметной области. Среди различных механизмов синтеза, не используемых в обучении, TPR широко варьировался: от низкого уровня 19,4% для Midjourney до высокого 99,5% для EG3D и 95,4% для сгенерированных фотографий. Наш классификатор хорошо обобщает в одних случаях и терпит неудачу в других. Однако это ограничение, вероятно, можно смягчить, включив эти изображения вне движка в первоначальное обучение.
Особенно поразительным является то, что лица, не являющиеся лицами, созданные теми же механизмами синтеза, которые используются в обучении, классифицируются неправильно. Скорее всего, это связано с тем, что некоторые из наших реальных изображений содержат лица, не являющиеся лицами (см. раздел 2.1), тогда как все изображения, сгенерированные ИИ, содержат лица. Поскольку нас интересует только обнаружение фейковых лиц, использованных для создания учетной записи, мы не считаем это серьезным ограничением. Этот результат также предполагает, что наш классификатор зафиксировал конкретное свойство лица, сгенерированного ИИ, а не какой-то низкоуровневый артефакт базового синтеза (например, шумовой отпечаток [8]). В разделе 4.1 мы приводим дополнительные доказательства в поддержку этой гипотезы.
Приведенные выше базовые результаты основаны на обучении и оценке изображений с разрешением 512×512 пикселей. На рисунке 3(a) (сплошной синий цвет) показано TPR, когда обучающие изображения масштабируются до более низкого разрешения (256, 128, 64 и 32), а затем увеличиваются до 512 для классификации. При том же FPR в 0,5% TPR для классификации лица, сгенерированного ИИ, довольно быстро падает с базового уровня в 98,0%.
Однако доля истинных положительных результатов значительно улучшается, когда модель обучается на изображениях с разрешением N × N (N = 32, 64, 128 или 256), а затем оценивается по тому же TPR, что и при обучении, рисунок 3 (а). ) (пунктирный красный). Как и прежде, уровень ложноположительных результатов зафиксирован на уровне 0,5%. Здесь мы видим, что TPR при разрешении 128×128 остается относительно высоким (91,9%) и ухудшается лишь при самом низком разрешении 32×32 (44,1%). Способность обнаруживать лица, сгенерированные искусственным интеллектом, даже при относительно низком разрешении предполагает, что наша модель не зафиксировала низкоуровневый артефакт, который не выдержал бы такого уровня пониженной дискретизации.
На рисунке 3(b) показано TPR классификатора, обученного на несжатых изображениях PNG и JPEG различного качества и оцененного по изображениям в диапазоне качеств JPEG (от самого высокого качества 100 до самого низкого качества 20). Здесь мы видим, что TPR для идентификации лица, сгенерированного ИИ (FPR составляет 0,5%), медленно ухудшается: TPR составляет 94,3% при качестве 80 и TPR 88,0% при качестве 60. Опять же, способность обнаруживать лица, сгенерированные ИИ, в наличие артефактов сжатия JPEG предполагает, что наша модель не зафиксировала артефакт низкого уровня.
Как показано в разделе 4, наш классификатор способен различать лица ИИ, созданные с помощью различных механизмов синтеза. Однако этот классификатор ограничен только лицами, таблица 2. То есть при представлении изображений без лиц из тех же механизмов синтеза, которые использовались в обучении, классификатор совершенно не может классифицировать их как сгенерированные ИИ.
Мы полагаем, что наш классификатор, возможно, изучил артефакт семантического уровня. Это утверждение частично подтверждается тем фактом, что наш классификатор остается очень точным даже при разрешении всего 128×128 пикселей, рисунок 3 (а), и остается достаточно точным даже при довольно агрессивном сжатии JPEG, рисунок 3 (б). . Здесь мы приводим дополнительные доказательства в поддержку утверждения о том, что мы изучили артефакт структурного или семантического уровня.
Хорошо известно, что, хотя распознавание объектов общего назначения в зрительной системе человека очень устойчиво к ориентации объекта, позе и искажению перспективы, распознавание и обработка лиц менее устойчивы даже к простой инверсии [27]. Этот эффект прекрасно иллюстрируется классической иллюзией Маргарет Тэтчер [31]. Лица в верхнем ряду рисунка 4 представляют собой перевернутые версии граней в нижнем ряду. В варианте справа глаза и рот перевернуты относительно лица. Этот гротескный коктейль заметен на прямом лице, но не на перевернутом.
Мы задавались вопросом, будет ли наш классификатор с трудом классифицировать
вертикально перевернутые лица. Те же 10 000 проверочных изображений (раздел 2.6) были инвертированы и переклассифицированы. При том же фиксированном FPR в 0,5% TPR снизился на 20 процентных пунктов с 98,0% до 77,7%.
Для сравнения, переворот проверочных изображений только вокруг вертикальной оси (т. е. переворот влево-вправо) не приводит к изменению TPR 98,0% при том же FPR 0,5%. Эта пара результатов в сочетании с устойчивостью к разрешению и качеству сжатия позволяет предположить, что наша модель не зафиксировала низкоуровневый артефакт, а вместо этого, возможно, обнаружила структурное или семантическое свойство, которое отличает лица, сгенерированные ИИ, от реальных лиц.
Далее мы исследуем природу нашего классификатора, используя метод интегрированных градиентов [28]. Этот метод приписывает прогнозы, сделанные глубокой сетью, ее входным функциям. Поскольку этот метод можно применять без каких-либо изменений в обученной модели, он позволяет нам вычислить релевантность каждого пикселя входного изображения относительно решения модели.
На рисунке 5(a) показана беззнаковая величина нормализованных (в диапазоне [0, 1]) интегрированных градиентов, усредненных по 100 изображениям StyleGAN 2 (поскольку все лица, сгенерированные StyleGAN, выровнены, усредненный градиент согласуется с чертами лица на всех изображениях). все изображения). На рисунках 5(b)-(e) показаны репрезентативные изображения и их нормализованные интегрированные градиенты для изображения, созданного с помощью DALL-2, Midjourney, Stable Diffusion 1 и Stable Diffusion 2. Во всех случаях мы видим, что наиболее релевантные пиксели , соответствующие более крупным градиентам, в первую очередь сосредоточены вокруг области лица и других участков кожи.
Поскольку работа [23] была сосредоточена именно на обнаружении лиц, генерируемых GAN, она наиболее непосредственно связана с нашей. В этой работе авторы показывают, что низкоразмерная линейная модель отражает общее расположение лиц, сгенерированных StyleGAN. При оценке 3000 лиц StyleGAN их модель правильно классифицирует 99,5% лиц GAN, при этом 1% реальных лиц ошибочно классифицируется как AI. Для сравнения, мы достигаем аналогичного TPR, но с меньшим FPR на 0,5%.
Однако, в отличие от нашего подхода, который распространяется на другие лица GAN, такие какgenerated.photos, TPR для этой более ранней работы падает до 86,0% (при том же FPR в 1%). Более того, в этой более ранней работе не удалось обнаружить лица, основанные на диффузии, поскольку эти лица просто не содержат того же артефакта выравнивания, что и лица StyleGAN. Для сравнения, наша методика распространяется на лица, генерируемые GAN и диффузией, а также на механизмы синтеза, не встречавшиеся при обучении.
Мы также оценили недавнюю современную модель, которая использует наличие артефактов Фурье в изображениях, сгенерированных ИИ [8]. В нашем наборе оценочных данных реальных и встроенных в движок лиц эта модель правильно классифицирует только 23,8% лиц, сгенерированных ИИ, при том же FPR, равном 0,5%. Этот TPR значительно ниже, чем TPR нашей модели, равный 98,0%, а также ниже, чем TPR 90%, указанный в [8]. Мы предполагаем, что это несоответствие связано с более разнообразными и сложными реальными изображениями нашего набора данных.
Этот документ доступен на arxiv под лицензией CC 4.0.
[8] Истинно положительный показатель (TPR) – это доля правильно классифицированных фотографий, созданных искусственным интеллектом.
[9] Доля ложных срабатываний (FPR) — это доля реальных фотографий, которые неправильно классифицированы.