"BotBeat is an AI Research Goldmine" - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt
Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.
Авторы:
(1) Гонсало Дж. Аниано Порсиле, LinkedIn;
(2) Джек Гинди, LinkedIn;
(3) Шиванш Мундра, LinkedIn;
(4) Джеймс Р. Вербус, LinkedIn;
(5) Хани Фарид, LinkedIn и Калифорнийский университет в Беркли.
Мы обучаем модель отличать настоящие лица от сгенерированных ИИ. Базовой моделью является сверточная нейронная сеть EfficientNet-B1[7] [30]. Мы обнаружили, что эта архитектура обеспечивает лучшую производительность по сравнению с другими современными архитектурами (Swin-T [22], Resnet50 [14], XceptionNet [7]). Сеть EfficientNet-B1 имеет 7,8 миллионов внутренних параметров, которые были предварительно обучены на наборе данных изображений ImageNet1K [30].
Наш конвейер состоит из трех этапов: (1) этап предварительной обработки изображения; (2) этап внедрения изображения; и (3) этап подсчета очков. Модель принимает на вход цветное изображение и генерирует числовой балл в диапазоне [0, 1]. Оценка около 0 указывает на то, что изображение, скорее всего, является реальным, а оценка около 1 указывает на то, что изображение, скорее всего, создано искусственным интеллектом.
Таблица 2. Базовое обучение и оценка истинно положительные (правильная классификация изображения, сгенерированного ИИ, усредненного по всем механизмам синтеза (TPR)). В каждом случае уровень ложноположительных результатов составляет 0,5% (неправильная классификация настоящего лица (FPR)). Также сообщается показатель F1, определяемый как 2TP/(2TP + FP + FN). TP, FP и FN обозначают количество истинно положительных, ложноположительных и ложноотрицательных результатов соответственно. В движке/вне движка означает, что изображения были созданы с помощью тех же или других механизмов синтеза, которые использовались при обучении.
На этапе предварительной обработки изображения размер входного изображения изменяется до разрешения 512×512 пикселей. Это цветное изображение с измененным размером затем передается на уровень передачи обучения EfficientNet-B1. На этапе оценки выходные данные слоя переноса обучения подаются на два полносвязных слоя, каждый размером 2048, с функцией активации ReLU, слой отсева с вероятностью отсева 0,8 и финальный оценочный слой с сигмоидальной активацией. Настраиваются только слои оценки с 6,8 миллионами обучаемых параметров. Обучаемые веса оптимизируются с использованием алгоритма AdaGrad с мини-пакетом размером 32, скоростью обучения 0,0001 и обучаются до 10 000 шагов. Для обучения модели использовался кластер с 60 графическими процессорами NVIDIA A100.
Этот документ доступен на arxiv под лицензией CC 4.0.
[7] Мы описываем старую версию модели EfficientNet, которую мы ранее применяли в LinkedIn, которая с тех пор была заменена новой моделью. Мы понимаем, что эта модель не самая последняя, но мы можем сообщить об этих результатах только сейчас, поскольку модель больше не используется.
Поиск лиц, созданных искусственным интеллектом, в дикой природе: модель | HackerNoon