paint-brush
Поиск лиц, созданных искусственным интеллектом, в дикой природе: модельк@botbeat
172 чтения

Поиск лиц, созданных искусственным интеллектом, в дикой природе: модель

Слишком долго; Читать

ИИ может создавать реалистичные фальшивые лица для онлайн-мошенничества. В этой работе предлагается метод обнаружения лиц на изображениях, созданных ИИ.
featured image - Поиск лиц, созданных искусственным интеллектом, в дикой природе: модель
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Авторы:

(1) Гонсало Дж. Аниано Порсиле, LinkedIn;

(2) Джек Гинди, LinkedIn;

(3) Шиванш Мундра, LinkedIn;

(4) Джеймс Р. Вербус, LinkedIn;

(5) Хани Фарид, LinkedIn и Калифорнийский университет в Беркли.

Таблица ссылок

3. Модель

Мы обучаем модель отличать настоящие лица от сгенерированных ИИ. Базовой моделью является сверточная нейронная сеть EfficientNet-B1[7] [30]. Мы обнаружили, что эта архитектура обеспечивает лучшую производительность по сравнению с другими современными архитектурами (Swin-T [22], Resnet50 [14], XceptionNet [7]). Сеть EfficientNet-B1 имеет 7,8 миллионов внутренних параметров, которые были предварительно обучены на наборе данных изображений ImageNet1K [30].


Наш конвейер состоит из трех этапов: (1) этап предварительной обработки изображения; (2) этап внедрения изображения; и (3) этап подсчета очков. Модель принимает на вход цветное изображение и генерирует числовой балл в диапазоне [0, 1]. Оценка около 0 указывает на то, что изображение, скорее всего, является реальным, а оценка около 1 указывает на то, что изображение, скорее всего, создано искусственным интеллектом.



Таблица 2. Базовое обучение и оценка истинно положительные (правильная классификация изображения, сгенерированного ИИ, усредненного по всем механизмам синтеза (TPR)). В каждом случае уровень ложноположительных результатов составляет 0,5% (неправильная классификация настоящего лица (FPR)). Также сообщается показатель F1, определяемый как 2TP/(2TP + FP + FN). TP, FP и FN обозначают количество истинно положительных, ложноположительных и ложноотрицательных результатов соответственно. В движке/вне движка означает, что изображения были созданы с помощью тех же или других механизмов синтеза, которые использовались при обучении.



На этапе предварительной обработки изображения размер входного изображения изменяется до разрешения 512×512 пикселей. Это цветное изображение с измененным размером затем передается на уровень передачи обучения EfficientNet-B1. На этапе оценки выходные данные слоя переноса обучения подаются на два полносвязных слоя, каждый размером 2048, с функцией активации ReLU, слой отсева с вероятностью отсева 0,8 и финальный оценочный слой с сигмоидальной активацией. Настраиваются только слои оценки с 6,8 миллионами обучаемых параметров. Обучаемые веса оптимизируются с использованием алгоритма AdaGrad с мини-пакетом размером 32, скоростью обучения 0,0001 и обучаются до 10 000 шагов. Для обучения модели использовался кластер с 60 графическими процессорами NVIDIA A100.


Этот документ доступен на arxiv под лицензией CC 4.0.


[7] Мы описываем старую версию модели EfficientNet, которую мы ранее применяли в LinkedIn, которая с тех пор была заменена новой моделью. Мы понимаем, что эта модель не самая последняя, но мы можем сообщить об этих результатах только сейчас, поскольку модель больше не используется.