Deepfake'ler son birkaç yıldır yükselişte; birden fazla yüz değiştirme aracı, dolandırıcılar ve hatta organize suç grupları arasında popülerlik kazanıyor.
Europol raporuna göre “
Ancak yapay zeka ile ilgili her şeyde olduğu gibi, bu her zaman dolandırıcılarla modern deepfake dedektörleri arasında bir silahlanma yarışıdır. Uluslararası Dolandırıcılık Farkındalık Haftası'nın ardından, deepfake dedektörlerinin son birkaç yıldaki yetenekleri ve ilerlemeleri hakkında bir gerçeklik kontrolü sağlamak istedik; bu, yalnızca deepfake dolandırıcılığının ne kadar büyük bir sorun olmaya devam ettiği nedeniyle gerekli olan bir gerçeklik kontrolüdür.
Dahili araştırmamızda, 2020'den bu yana yayınlanan açık kaynaklı, modern, son teknoloji deepfake dedektörlerinin performansını analiz ettik.
Temel gözlemimiz şu: Gerçek ve sahte içerik arasında ayrım yapma konusunda bilgisayarlar uzun süredir insanlardan daha iyi performans gösteriyor. Bu bulgu, en ileri algoritmaların ve yöntemlerin gücünden yararlanma ihtiyacının altını çiziyor.
Bu alandaki önde gelen çalışmaların neredeyse tamamı, yüz algılamayı algoritmalarının temel unsuru olarak öne çıkarıyor. Yüz algılama, yüksek doğrulukla karakterize edilen, mükemmel olmasa da yakın bir çözümdür.
Bir yüz, görüntüde belirgin bir şekilde konumlandırıldığında ve ileriye doğru baktığında, modern algılama modelleri hızlı ve güvenilir tanımlama konusunda üstünlük sağlar.
Deepfake görüntüler oluşturmanın birkaç yolu olsa da, hem popüler hem de sağlam bir yöntem öne çıkıyor: tek seferde yüz değiştirme. Bu teknik, yüz özelliklerini birincisinden ikincisine aktarmak için biri kaynak diğeri hedef olmak üzere iki görüntü kullanır.
Mevcut ortamda, deepfake görseller ve videolar oluşturmanın en güçlü yaklaşımı olarak kabul ediliyor.
Bizim deneyebilirsiniz
İlgili çalışmaların çoğunda hazır kod ve ağırlıkların bulunmaması, deepfake tespiti alanında sık karşılaşılan bir zorluğun altını çiziyor.
Bu ortam genellikle bilimsel yayılım yerine iş uygulamalarına öncelik veriyor ve bu da akademik ve araştırma toplulukları için gerekli olan araç ve kaynaklara erişimin sınırlı olmasına neden oluyor.
Açıkça paylaşılan kod ve model ağırlıklarının eksikliği, derin sahte tespit yöntemlerinin daha geniş çapta ilerlemesi önünde önemli bir engel oluşturuyor.
Deepfake tespitine yönelik çok sayıda yaklaşım mevcut ve her konferansta yeni makaleler ortaya çıkıyor.
Bu makalelerden bazıları öncelikle deepfake tespiti için model mimarisine odaklanıyor, transformatör modelinden önemli ölçüde ilham alıyor ve onu bu zorluğa uyarlamaya çalışıyor.
Bu arada, diğer makaleler eğitim yöntemlerine, özellikle de sahte görüntülerle dolu sentetik veri kümelerine odaklanıyor. Alan kıyaslama açısından zengindir ve bir sonraki bölümde açık kaynak koduna ve mevcut ağırlıklara sahip olanları vurgulayarak aralarındaki en güçlü olanlardan bazılarını tartışacağız.
Tüm modern deepfake tespit yöntemleri için en belirgin temel, makalede yayınlanan araştırmadır.
Bu ayrımları doğrulamak için insan gözlemcileri kullandılar. Makaledeki deepfake sınıflandırma modeli, veri setinde ince ayar yapılmış, ImageNet ağırlıklarına sahip XceptionNet omurgasını temel alan ikili bir sistemdir.
Yazarlar, model yanıtlarına dayalı basit bir oylama mekanizması kullanarak, modelin mimari basitliğine rağmen deepfake tespiti alanında önemli bir etki elde etti.
Yazarlar, temel olarak basit bir ikili sınıflandırıcı yaklaşımına güvenmeleriyle karakterize edilen önceki deepfake tespit modellerinde yaygın bir sorunun altını çiziyor.
Gerçek ve sahte görüntüler arasındaki ince ayrımları hesaba katmayan temel ikili sınıflandırıcı yaklaşımı. Buradaki yazarlar, farklı yapay bölgelere odaklanmak için birden fazla dikkat kafasına sahip çoklu dikkat ağı kullanan, ince taneli sınıflandırmadan ilham alan bir alternatif önermektedir.
Bu ağ, düşük seviyeli doku özelliklerini ve yüksek seviyeli anlamsal özellikleri birleştirerek görüntü temsilleri ve eğitim için ayırt edici, dikkat odaklı bir veri artırma mekanizması oluşturur.
Bu yaklaşım, mevcut modellerin sınırlamalarını ele alıyor ve bu da onu deepfake tespiti için umut verici bir yöntem haline getiriyor.
"M2TR'nin yazarları:
Sıkıştırma sonrasında görünmeyebilecek eserleri tespit etmek için bir frekans filtresi kullanarak, çok ölçekli bir yapıya sahip çok modlu bir yaklaşım sunarlar.
Ayrıca, RGB ve frekans özelliklerini birleşik bir temsilde birleştirmek için kişisel dikkatten ilham alan bir Çapraz Modalite Füzyon bloğu kullanıyorlar ve derin sahte algılama yöntemlerini geliştiriyorlar.
İçinde "
İki bileşene dayalı bir yaklaşım öneriyorlar: yeniden yapılandırma öğrenimi ve sınıflandırma öğrenimi:
Sınıflandırma öğrenimi, gerçek ve sahte görüntüler arasındaki eşitsizlikleri tanımlar.
Yazarlar, gerçek yüzleri modellemek için özel bir yeniden yapılandırma ağı ve önceden bilinmeyen sahtecilik modellerinin tespitini geliştirmek için bir metrik öğrenme kaybı kullanarak, bu temsilleri geliştirmek için çok ölçekli bir yaklaşım kullanıyor.
İşte, "
Bu modeller, orijinal kimliklerin dağılımlarını hatırlama eğilimindedir; bu, sahte bir görselin bazen iki farklı kimliğin karışımı olarak görünebileceği anlamına gelir. Ancak bu problem, bu modelleri yeni, görülmemiş veya çapraz veri kümelerine uygulamaya çalışırken özellikle zorlayıcı hale geliyor. Bu durumlarda model, daha önce karşılaşmadığı için görüntünün gerçek kimliğini çözmekte zorlanır.
Yazarların "Örtülü Kimlik Sızıntısı" olarak adlandırdığı bu sorunu çözmek için, derin sahte tespit modellerinin eğitim veri kümelerinin sınırlarının ötesinde genelleştirilmesini geliştiren çözümler bulmaya çalışıyorlar.
Bu olguya kanıt sağlamak için yazarlar başlangıçta önceden eğitilmiş deepfake sınıflandırıcıları aldılar ve sonuncusu dışındaki tüm katmanları dondurdular. Son katmanı doğrusal bir katmanla değiştirdiler ve kimlik sınıflandırma görevi için ince ayar yaptılar.
Bu deney, kimlik sızıntısı potansiyelini ortaya koyarak, kimlikleri yüksek doğrulukla sınıflandırmak için tek bir doğrusal katmanın etkili bir şekilde eğitilebileceğini gösterdi. Daha sonra yazarlar, belirli yüz bölgelerini değiştirmeye odaklanarak yüzün farklı ölçeklerdeki kısımlarını değiştirmek için yeni bir yöntem geliştirdiler.
Daha sonra bu süreçten oluşturulan görüntüleri kullanarak çok ölçekli bir algılama modeli eğittiler. Bu model, yapay alanların varlığını tespit etmek için farklı katmanlardaki farklı boyutlardaki özellik haritalarını inceleyerek, derin sahte manipülasyonun olası sinyallerinin kapsamlı bir gözlemini sağlar.
Deepfake tespiti alanındaki en son dikkate değer makale "
Bu veri seti, ayrı ayrı saf görüntülerden elde edilen sahte kaynak ve hedef görüntülerin harmanlanması yoluyla oluşturulan görüntülerden oluşur. Bu süreç, deepfake'lerde sıklıkla karşılaşılan yaygın sahtecilik olaylarını etkili bir şekilde kopyalar.
Bu yaklaşımın ardındaki temel fikir, daha genel ve daha az kolay tanınabilen sahte örnekler kullanarak, sınıflandırıcıların, manipülasyona özgü yapıtlara aşırı uyum sağlamaya boyun eğmeden daha genel ve sağlam temsilleri öğrenebilmesidir.
Yazarlar, yaygın olarak kullanılan dört temel deepfake yapıtını tanımlıyor: dönüm noktası uyumsuzluğu, harmanlama sınırı, renk uyumsuzluğu ve frekans tutarsızlığı. Daha sonra bu eserleri özel bir model kullanarak sentezlerler.
Model mimarisi için yazarlar, ImageNet veri kümesinde önceden eğitilmiş EfficientNet-b4'ü aldılar. Bu modele, Kendi Kendine Harmanlanmış Görüntüler (SBI) veri kümesinde ince ayar yaparak, modelin, yaygın sahtecilik eserleri içeren bu harmanlanmış görüntülerden öğrenerek derin sahtekarlıkları tespit etme konusunda ustalaşmasını sağlıyorlar.
2020'den sonra yayınlanan modern, son teknoloji deepfake dedektörlerinin performansını analiz ettik ve kod ve model ağırlıklarını kamunun ve araştırmaların kullanımına sunduk.
Yazarlar tarafından açıklanan niteliklerin benzer bir veri kümesine nasıl aktarıldığını görmek amacıyla aynı genel veri kümelerindeki her model için ilgili ölçümleri hesapladık. Daha sonra dolandırıcıların doğrulamayı atlamak için sıklıkla kullandığı (yüz değiştirme gibi) basit dönüşümleri uyguladık ve deepfake dedektörlerinin ne kadar verimli performans gösterdiğini gördük.
Kullandığımız
Gerçek anlamda sahte görüntü veri kümeleri sunmak için son teknoloji ürünü bir araç kullandık.
Yeterli miktarda görüntü oluşturmak için, Fake-Celeba-HQ ve Fake-LFW'yi oluşturmak amacıyla veri kümesindeki rastgele kaynak ve referans fotoğraf çiftlerini kullandık. Her veri seti tam olarak 10.000 görüntüden oluşmaktadır.
Basitlik açısından, modellerin kalitesini ölçmek için ana metrik olarak varsayılan eşik değeri 0,5 olan 1 sınıf doğruluk kullandık. Yani her veri seti için doğru tahmin edilen etiketlerin yüzdesini hesapladık. Ek olarak, birleştirilmiş gerçek ve sahte veri kümeleri üzerinden toplam ROC-AUC ölçüsünü hesaplıyoruz.
LFW | ÇelebaHQ | Sahte-LFW | Sahte-CelebaHQ | AUC puanı | |
---|---|---|---|---|---|
SBI | 0.82 | 0,57 | 0.82 | 0,96 | 0,84 |
CADDM | 0,49 | 0,69 | 0.80 | 0,54 | 0,67 |
RECCE | 0,01 | 0,00 | 0,98 | 0,00 | 0,54 |
MAT | 0,00 | 0,74 | 1. | 1. | 0,75 |
FF++ | 0.13 | 0,67 | 0,88 | 0,53 | 0,57 |
M2TR | 0,42 | 0,56 | 0,69 | 0,51 | 0,56 |
Tablo 1. Değişiklik olmayan gerçek/sahte veri kümeleri için 1. sınıf doğruluk ve AUC
Beklendiği gibi modellerin çoğunda SimSwap deepfake'lerini tespit etmede bazı sorunlar vardı. En iyi model SBI'dır; %82 puan ve %96'lık umut verici 0,84 AUC puanı gösterir.
Beklenmedik olan ise gerçek veri kümelerindeki görüntüleri gerçek olarak sınıflandırmada zorluk yaşayan pek çok yetenekli modelin bulunmasıdır:
MAT, FF ve M2TR, LFW'deki yüzlerin yarısından azını deepfake olarak puanladı.
AUC puanı 0,5’e yakın olan 3 model bulunuyor. Bu durum, bu modellerin daha gerçekçi bir alana aktarılabilirliği ve dolandırıcılar tarafından nasıl kolayca atlatılabileceği konusunda soruları gündeme getiriyor.
Bu modellerin daha gerçekçi bir alanda nasıl davrandığını test etmek için dolandırıcıların genellikle deepfake kullanırken kullandığı iki farklı tekniği deneyeceğiz.
Artefaktların ve düzensizliklerin çoğunu gizlemek için yaptıkları ilk şey, ölçeği küçültmektir. Canlılık ve deepfake kontrollerinin çoğunda video kalitesine ilişkin herhangi bir gereklilik olmadığından dolandırıcılar genellikle deepfake videoyu sıkıştırır.
Bu yaklaşımı simüle etmek için aynı veri kümelerini kullanacağız, ancak çift doğrusal bir algoritma kullanarak her görüntüyü çok daha küçük bir çözünürlüğe (128x128) sıkıştıracağız. İdeal olarak, deepfake dedektörleri, çıkarımdaki görüntülerin çözünürlüğü eğitim sürecindeki çözünürlükten farklı olsa bile deepfake'leri tespit edebilmelidir.
LFW | ÇelebaHQ | Sahte-LFW | Sahte-CelebaHQ | AUC puanı | |
---|---|---|---|---|---|
SBI | 0.82 | 0.82 | 0,43 | 0,23 | 0,6 |
CADDM | 0,55 | 0,46 | 0,62 | 0,65 | 0,6 |
RECCE | 0.83 | 0,89 | 0.13 | 0,08 | 0,54 |
MAT c40 | 1. | 1. | 0. | 0. | 0,5 |
Şekil 2: Düşük kaliteli bir veri kümesinde deepfake dedektörlerinin en iyi ölçümleri
Burada sonuçlar kafa karıştırıcı olmaktan öte bir şey. Az ya da çok rekabetçi performansa ulaşan modeller artık sahte veri kümelerinde sıfıra yakın doğruluğa sahip. MAT modelinin her şeyi gerçek görüntü olarak puanladığı ve RECCE modelinin de aynı sonuca çok yakın olduğu görülebilir.
İkinci dolandırıcılık uygulaması ise, sahte görüntülerin dedektörlere teslim edilmesine neden olabilecek tüm kusurları ortadan kaldırmak amacıyla, derin sahte görüntülere rötuş yaparak görüntünün boyutunu yükseltmektir. Bu tür pek çok örnekten biri gözlerdir: Deepfake görüntülerin çoğunda yuvarlak gözbebekleri veya ışık kırılmaları yoktur.
Dolayısıyla bir dolandırıcı, tüm safsızlıkları maskelemek için genellikle Instagram veya TikTok'ta kullanılanlara benzer bazı özel güzelleştirme veya "geliştirme" yazılımları kullanır.
Bu tür bir yazılımın etkilerini simüle etmek için yakından ilişkili olanını kullandık.
LFW | ÇelebaHQ | Sahte-LFW | Sahte-CelebaHQ | AUC puanı | |
---|---|---|---|---|---|
SBI | 0,76 | 0,63 | 0,38 | 0,58 | 0,62 |
CADDM | 0,52 | 0.71 | 0,59 | 0,38 | 0,57 |
RECCE | 0,18 | 0. | 0,8 | 1. | 0,52 |
MAT c40 | 0,99 | 1. | 0. | 0. | 0,5 |
Şekil 3: Gelişmiş bir veri kümesinde deepfake dedektörlerinin en iyi ölçümleri
Burada Deney 2'deki eğilimin aynısı görülebilir. MAT modeli her şeyi gerçek, RECCE ise her şeyi sahte olarak puanladı. SBI ve CADDM'nin performansı rastgele olmaktan daha iyi ancak Fake-LFW ve Fake-CELEBA-HQ veri kümelerindeki deepfake'lerin yarısından fazlasını kaçırdılar.
Bu araştırmanın sonucu kasvetli çünkü %100 güvenli olacak açık kaynaklı deepfake dedektörleri yok ve deepfake sahtekarlığının üretimi kolaylaşıp ucuzlaştıkça daha da gelişmesi bekleniyor. Sumsub'un dahili istatistiklerine göre, derin sahtekarlığın yaygınlığı 2022'den 2023'ün ilk çeyreğine kadar önemli ölçüde arttı:
Deneylerimiz, deepfake tespiti konusunda hâlâ yapılacak çok şey olduğunu gösteriyor. En iyi açık kaynaklı deepfake tespit modelleri bile gerçek dünyaya hazır değil ve dolandırıcılarla mücadele edemiyor.
Deepfake dedektörleri hakkında çok sayıda makale var ancak çoğunda kod veya model ağırlıkları mevcut değil.
Bu nedenle buradaki sorunlardan biri, derin sahte tespit yöntemlerinin geliştirilmesine engel oluşturan açıklık eksikliğidir.
Bu nedenle Sumsub olarak biz:
Yine de İnternet kullanıcılarının görsellerinin çevrimiçi korunmasına ilişkin asıl sorumluluk, kullanıcıların kendilerine aittir. Kişisel fotoğraflarınızı çevrimiçi olarak paylaşma konusunda dikkatli olmayı unutmayın. Bunun yerine tıpkı yazarlarımızın yaptığı gibi şık avatarlar kullansanız iyi olur.
Ve
Sumsub'da Baş Bilgisayarlı Görme Mühendisi Maksim Artemev ve Bilgisayarlı Görme Mühendisi Slava Pirogov tarafından yazılmıştır.