tác giả:
(1) Gonzalo J. Aniano Porcile, LinkedIn;
(2) Jack Gindi, LinkedIn;
(3) Shivansh Mundra, LinkedIn;
(4) James R. Verbus, LinkedIn;
(5) Hany Farid, LinkedIn và Đại học California, Berkeley.
Chúng tôi đào tạo một mô hình để phân biệt khuôn mặt thật với khuôn mặt do AI tạo ra. Mô hình cơ bản là mạng nơ ron tích chập EfficiencyNet-B1[7] [30]. Chúng tôi nhận thấy rằng kiến trúc này cung cấp hiệu suất tốt hơn so với các kiến trúc hiện đại khác (Swin-T [22], Resnet50 [14], XceptionNet [7]). Mạng Hiệu quảNet-B1 có 7,8 triệu tham số nội bộ đã được đào tạo trước trên bộ dữ liệu hình ảnh ImageNet1K [30].
Quy trình của chúng tôi bao gồm ba giai đoạn: (1) giai đoạn tiền xử lý hình ảnh; (2) giai đoạn nhúng hình ảnh; và (3) một giai đoạn tính điểm. Mô hình lấy hình ảnh màu đầu vào và tạo ra điểm số trong phạm vi [0, 1]. Điểm gần 0 cho biết hình ảnh có thể là thật và điểm gần 1 cho biết hình ảnh có thể do AI tạo ra.
Bước xử lý trước hình ảnh sẽ thay đổi kích thước hình ảnh đầu vào thành độ phân giải 512×512 pixel. Hình ảnh màu đã thay đổi kích thước này sau đó được chuyển đến lớp học chuyển giao EfficiencyNet-B1. Trong giai đoạn tính điểm, đầu ra của lớp học chuyển giao được cung cấp cho hai lớp được kết nối đầy đủ, mỗi lớp có kích thước 2.048, với chức năng kích hoạt ReLU, lớp bỏ học có xác suất bỏ học là 0,8 và lớp tính điểm cuối cùng có kích hoạt sigmoidal. Chỉ các lớp tính điểm – với 6,8 triệu thông số có thể huấn luyện – mới được điều chỉnh. Các trọng số có thể huấn luyện được tối ưu hóa bằng thuật toán AdaGrad với một lô nhỏ có kích thước 32, tốc độ học tập là 0,0001 và được huấn luyện lên tới 10.000 bước. Một cụm có 60 GPU NVIDIA A100 đã được sử dụng để đào tạo mô hình.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.
[7] Chúng tôi đang mô tả một phiên bản cũ hơn của mô hình EfficiencyNet mà trước đây chúng tôi đã vận hành trên LinkedIn, phiên bản này đã được thay thế bằng một mô hình mới. Chúng tôi nhận thấy rằng mô hình này không phải là mô hình mới nhất nhưng hiện tại chúng tôi chỉ có thể báo cáo những kết quả này vì mô hình này không còn được sử dụng nữa.