tác giả:
(1) Gonzalo J. Aniano Porcile, LinkedIn;
(2) Jack Gindi, LinkedIn;
(3) Shivansh Mundra, LinkedIn;
(4) James R. Verbus, LinkedIn;
(5) Hany Farid, LinkedIn và Đại học California, Berkeley.
Quá trình đào tạo và đánh giá của chúng tôi tận dụng 18 bộ dữ liệu bao gồm 120.000 ảnh hồ sơ LinkedIn thực và 105.900 khuôn mặt do AI tạo ra trải rộng trên 5 GAN khác nhau và 5 công cụ tổng hợp khuếch tán khác nhau. Hình ảnh do AI tạo ra bao gồm hai loại chính, loại có khuôn mặt và loại không có. Hình ảnh màu thực và màu tổng hợp (RGB) được thay đổi kích thước từ độ phân giải gốc thành 512 × 512 pixel. Hiển thị trong Bảng 1 là cách tính toán các hình ảnh này và được hiển thị trong Hình 2 là các ví dụ đại diện cho từng danh mục do AI tạo ra như được mô tả tiếp theo.
120.000 ảnh thật được lấy mẫu từ người dùng LinkedIn với ảnh hồ sơ có thể truy cập công khai được tải lên từ ngày 1 tháng 1 năm 2019 đến ngày 1 tháng 12 năm 2022. Các tài khoản này đã hiển thị hoạt động trên nền tảng trong ít nhất 30 ngày (ví dụ: đăng nhập, đăng, nhắn tin, tìm kiếm ) mà không kích hoạt bất kỳ trình phát hiện tài khoản giả mạo nào. Dựa vào độ tuổi và hoạt động trên tài khoản, chúng tôi có thể tin tưởng rằng những bức ảnh này là thật. Những hình ảnh này có độ phân giải và chất lượng rất khác nhau. Mặc dù hầu hết những hình ảnh này là ảnh hồ sơ tiêu chuẩn chỉ có một người, một số hình ảnh không có khuôn mặt. Ngược lại, tất cả các hình ảnh do AI tạo ra (được mô tả tiếp theo) đều bao gồm một khuôn mặt. Chúng ta sẽ xem lại sự khác biệt giữa ảnh thật và ảnh giả ở Phần 4.
2 và 3, ảnh màu được tổng hợp ở độ phân giải 1024×1024 pixel và có ψ = 0,5. [1] Đối với EG3D (Mạng đối thủ tạo 3D nhận biết hình học hiệu quả), cái gọi là phiên bản 3D của StyleGAN, chúng tôi đã tổng hợp 10.000 hình ảnh ở độ phân giải 512×512, với ψ = 0,5 và với các tư thế đầu ngẫu nhiên.
Tổng cộng 10.000 hình ảnh ở độ phân giải 1024 × 1024 pixel đã được tải xuống từ generate.photos[2]. Những hình ảnh do GAN tổng hợp này thường tạo ra những bức ảnh chụp đầu trông chuyên nghiệp hơn vì mạng được đào tạo dựa trên tập dữ liệu gồm các hình ảnh chất lượng cao được ghi trong studio chụp ảnh.
Tổng cộng 5.000 hình ảnh StyleGAN 1 đã được tải xuống[3] cho mỗi danh mục trong số ba danh mục không phải khuôn mặt: phòng ngủ, ô tô và mèo (kho lưu trữ cho các phiên bản StyleGAN khác không cung cấp hình ảnh cho các danh mục không phải khuôn mặt). Những hình ảnh này có kích thước từ 512 × 384 (ô tô) đến 256 × 256 (phòng ngủ và mèo).
Chúng tôi đã tạo ra 9.000 hình ảnh từ mỗi phiên bản Khuếch tán ổn định [26] (1, 2)[4]. Không giống như các khuôn mặt GAN được mô tả ở trên, quá trình tổng hợp khuếch tán văn bản thành hình ảnh mang lại nhiều quyền kiểm soát hơn đối với diện mạo của khuôn mặt. Để đảm bảo tính đa dạng, 300 khuôn mặt cho mỗi trong số 30 nhóm nhân khẩu học kèm theo lời nhắc “ảnh của một người {trẻ, trung niên, lớn tuổi} {da đen, người Đông Á, người gốc Tây Ban Nha, người Nam Á, người da trắng} {phụ nữ, đàn ông}”. Những hình ảnh này được tổng hợp ở độ phân giải 512 × 512. Tập dữ liệu này được quản lý để loại bỏ các lỗi tổng hợp rõ ràng, chẳng hạn như không thể nhìn thấy khuôn mặt.
Thêm 900 hình ảnh được tổng hợp từ phiên bản Stable Diffusion (xl) mới nhất. Sử dụng cùng các danh mục nhân khẩu học như trước đây, 30 hình ảnh được tạo cho mỗi danh mục trong số 30 danh mục, mỗi danh mục có độ phân giải 768 × 768.
Chúng tôi đã tạo 9.000 hình ảnh từ DALL-E 2 [5], bao gồm 300 hình ảnh cho mỗi nhóm trong số 30 nhóm nhân khẩu học. Những hình ảnh này được tổng hợp ở độ phân giải 512×512 pixel.
Tổng cộng 1.000 hình ảnh Midjourney[6] đã được tải xuống ở độ phân giải 512 × 512. Những hình ảnh này được quản lý thủ công để chỉ bao gồm một khuôn mặt duy nhất.
Chúng tôi đã tổng hợp 1.000 hình ảnh không phải khuôn mặt từ mỗi phiên bản trong số hai phiên bản Khuếch tán ổn định (1, 2). Những hình ảnh này được tạo bằng chú thích ngẫu nhiên (do ChatGPT tạo) và được xem xét thủ công để xóa bất kỳ hình ảnh nào có người hoặc khuôn mặt. Những hình ảnh này được tổng hợp ở độ phân giải 600 × 600 pixel. Một bộ tương tự gồm 1.000 hình ảnh DALL-E 2 và 1.000 Midjourney được tổng hợp ở độ phân giải 512 × 512.
Các bộ hình ảnh được liệt kê ở trên được chia thành đào tạo và đánh giá như sau. Mô hình của chúng tôi (được mô tả trong Phần 3) được đào tạo trên một tập hợp con ngẫu nhiên gồm 30.000 khuôn mặt thật và 30.000 khuôn mặt do AI tạo ra. Các khuôn mặt do AI tạo ra bao gồm một tập hợp con ngẫu nhiên gồm 5.250 StyleGAN 1, 5.250 StyleGAN 2, 4.500 StyleGAN 3, 3.750 Stable Diffusion 1, 3.750 Stable Diffusion 2 và 7.500 hình ảnh DALL-E 2.
Chúng tôi đánh giá mô hình của chúng tôi dựa trên những điều sau:
• Một bộ gồm 5.000 hình ảnh khuôn mặt từ cùng một công cụ tổng hợp được sử dụng trong đào tạo (StyleGAN 1, StyleGAN 2, StyleGAN 3, Stable Diffusion 1, Stable Diffusion 2 và DALL-E 2).
• Một bộ 5.000 hình ảnh khuôn mặt từ các công cụ tổng hợp không được sử dụng trong đào tạo (Generated.photos, EG3D, Stable Diffusion xl và Midjourney).
• Một bộ gồm 3.750 hình ảnh không phải khuôn mặt từ mỗi trong số năm công cụ tổng hợp (StyleGAN 1, DALL-E 2, Stable Diffusion 1, Stable Diffusion 2 và Midjourney).
• Bộ 13.750 khuôn mặt thật.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.
[1] Tham số StyleGAN ψ (thường nằm trong phạm vi [0, 1]) kiểm soát việc cắt bớt các giá trị hạt giống trong biểu diễn không gian tiềm ẩn được sử dụng để tạo hình ảnh. Giá trị nhỏ hơn của ψ mang lại chất lượng hình ảnh tốt hơn nhưng làm giảm sự đa dạng của khuôn mặt. Giá trị tầm trung ψ = 0,5 tạo ra các khuôn mặt tương đối không có hiện vật, đồng thời cho phép có sự thay đổi về giới tính, độ tuổi và dân tộc trong khuôn mặt tổng hợp.
[2] https://generated.photos/faces
[3] https://github.com/NVlabs/stylegan)
[4] https://github. com / Tính ổn định - AI / StableDiffusion
[5] https://openai.com/dall-e-2
[6] https://www.midjourney.com