Yazarlar:
(1) Gonzalo J. Aniano Porcile, LinkedIn;
(2) Jack Gindi, LinkedIn;
(3) Shivansh Mundra, LinkedIn;
(4) James R. Verbus, LinkedIn;
(5) Hany Farid, LinkedIn ve Kaliforniya Üniversitesi, Berkeley.
Yapay zeka tabanlı görüntü oluşturma, hızla gelişmeye devam ederek, daha az belirgin görsel kusurla giderek daha gerçekçi görüntüler üretti. Yapay zeka tarafından oluşturulan görüntüler, sahte çevrimiçi profiller oluşturmak için kullanılıyor ve bu profiller de spam, dolandırıcılık ve dezenformasyon kampanyaları için kullanılıyor. Her türlü manipüle edilmiş veya sentezlenmiş içeriğin tespit edilmesine ilişkin genel sorun giderek daha fazla ilgi gördüğünden, burada gerçek bir yüzü yapay zeka tarafından oluşturulan bir yüzden ayırmaya yönelik daha dar bir göreve odaklanıyoruz. Bu, özellikle sahte kullanıcı profili fotoğrafına sahip gerçek olmayan çevrimiçi hesaplarla uğraşırken geçerlidir. Yalnızca yüzlere odaklanarak, çeşitli GAN ve difüzyon tabanlı sentez motorlarından ve görüntü çözünürlüklerinde (düşük 128 × 128 piksel) ve nitelikleri.
Geçtiğimiz otuz yılda doğal görüntülerin istatistiksel modellenmesinde dikkate değer ilerlemeler görüldü. En basit güç spektral modeli [20], doğal görüntülere özgü 1/ω frekans büyüklüğü düşüşünü yakalar, Şekil 1(a). Bu model herhangi bir faz bilgisini içermediğinden detaylı yapısal bilgi elde edememektedir. 2000'li yılların başlarına gelindiğinde, yeni istatistiksel modeller hem büyüklük hem de (bazı) aşamaların doğal istatistiklerini yakalayabildi [25] ve bu da temel doku modellerinin modellenmesinde çığır açıcı gelişmelere yol açtı, Şekil 1(b).
Tekrarlanan desenleri yakalayabilen bu modeller, nesnelerin, yüzlerin veya karmaşık sahnelerin geometrik özelliklerini yakalayamaz. 2017'den itibaren doğal görüntülerden oluşan geniş veri kümeleri, derin öğrenmedeki ilerlemeler ve güçlü GPU kümeleriyle desteklenen üretken modeller, insan yüzlerinin ve nesnelerin ayrıntılı özelliklerini yakalamaya başladı [16, 18]. Tek bir kategoriden (yüzler, arabalar, kediler vb.) çok sayıda görüntü üzerinde eğitilen bu üretken rakip ağlar (GAN'lar), son derece ayrıntılı özellikleri yakalar
örneğin yüzler, Şekil 1(c), ancak yalnızca tek bir kategoriyle sınırlıdır. Son zamanlarda, difüzyon temelli modeller [2,26] üretken görüntü modellerini dilsel yönlendirmelerle birleştirerek “kendi portresini çizen bir arıcı” gibi tanımlayıcı metin yönlendirmelerinden görüntülerin sentezine olanak tanıdı, Şekil 1(d).
Geleneksel olarak, üretken görüntü modellerinin geliştirilmesi iki temel hedef tarafından yönlendiriliyordu: (1) doğal görüntülerin temel istatistiksel özelliklerini anlamak; ve (2) elde edilen sentezlenmiş görüntüleri bilgisayar grafiklerinin oluşturulmasından insan psikofiziğine ve klasik bilgisayarlı görme görevlerinde veri artırmaya kadar her şey için kullanmak. Ancak bugün üretken yapay zeka, spam'den dolandırıcılığa ve dezenformasyon kampanyalarına ek yakıt sağlamaya kadar uzanan daha hain kullanım durumları buldu.
Yüz milyonlarca kullanıcının bulunduğu büyük ölçekli ağlarda çalışırken, manipüle edilmiş veya sentezlenmiş görüntülerin tespit edilmesi özellikle zordur. Ortalama bir kullanıcı gerçek bir yüzü sahte bir yüzden ayırt etmekte zorlandığında bu zorluk daha da önemli hale gelir [24]. Sahte çevrimiçi kullanıcı hesapları oluştururken üretken yapay zekanın kullanılmasıyla ilgilendiğimiz için, gerçek yüzleri yapay zeka tarafından oluşturulan yüzlerden ayırt edebilecek hızlı ve güvenilir teknikler geliştirmeyi amaçlıyoruz. Daha sonra çalışmamızı ilgili teknikler bağlamına yerleştireceğiz.
Özellikle yapay zeka tarafından oluşturulan yüzlere odaklanacağımız için, gerçek yüzleri sahte yüzlerden ayırmaya odaklanan veya buna uygulanabilen ilgili çalışmaları da inceleyeceğiz. Yapay zeka tarafından oluşturulan içeriği tespit etmeye yönelik iki geniş yaklaşım kategorisi vardır [10].
İlk, hipoteze dayalı yaklaşımlarda, kornea yansımaları [13] ve gözbebeği şekli [15] şeklindeki iki taraflı yüz simetrisindeki tutarsızlıklar veya kafa duruşu ve mekansal düzendeki tutarsızlıklar gibi yapay zeka tarafından oluşturulan yüzlerdeki belirli yapaylıklardan yararlanılır. yüz özelliklerinin (gözler, burun ucu, ağız köşeleri, çene vb.) [23, 33, 34]. Bu yaklaşımların faydası açık, anlamsal düzeydeki anormallikleri öğrenmeleridir. Dezavantajı ise zamanla sentez motorlarının bu yapaylıkları - dolaylı veya açık bir şekilde - düzeltiyor gibi görünmesidir. Yüze özgü olmayan diğer yapay yapılar, uzaysal frekans veya gürültü anormalliklerini içerir [5,8,12,21,35], ancak bu yapay yapılar, basit aklama saldırılarına (örn. kod dönüştürme, ilave gürültü, görüntünün yeniden boyutlandırılması) karşı savunmasız olma eğilimindedir.
İkinci, veri odaklı yaklaşımlarda, gerçek ve yapay zeka tarafından oluşturulan görüntüler arasında nasıl ayrım yapılacağını öğrenmek için makine öğrenimi kullanılır [11, 29, 32]. Bu modeller genellikle görüntüleri analiz ederken eğitimleriyle tutarlı bir şekilde iyi performans gösterir, ancak daha sonra alan dışı görüntülerle mücadele eder ve/veya model düşük seviyeli yapay nesnelere kilitlendiğinden aklama saldırılarına karşı savunmasızdır [9].
Bu yaklaşımların her ikisinin de en iyilerinden yararlanmaya çalışıyoruz. Modelimizi bir dizi sentez motoru (GAN ve yayılma) üzerinde eğiterek, genellemeyen veya basit aklama saldırılarına karşı savunmasız olabilecek belirli düşük seviyeli yapılara bağlanmaktan kaçınmaya çalışıyoruz. Yalnızca yapay zeka tarafından oluşturulan yüzleri tespit etmeye (ve rastgele sentetik görüntülere değil) odaklanarak, modelimizin yapay zeka tarafından oluşturulan yüzlerden farklı anlamsal düzeyde bir yapaylık yakalamış gibi göründüğünü gösteriyoruz; bu, potansiyel sahtekar kullanıcı bulma uygulamamız için son derece arzu edilen bir durumdur. hesaplar. Ayrıca modelimizin, daha önce eğitimde görülmeyen yapay zeka tarafından oluşturulan yüzleri tespit etmeye ve çok çeşitli görüntü çözünürlükleri ve kalitelerine karşı dayanıklı olduğunu da gösteriyoruz.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .