paint-brush
LinkedIn'de Kamuya Açık Olmayan Pii'lere Dayalı Nano Hedeflemenin Analizi ve Uygulanmasıile@netizenship
161 okumalar

LinkedIn'de Kamuya Açık Olmayan Pii'lere Dayalı Nano Hedeflemenin Analizi ve Uygulanması

Çok uzun; Okumak

Bu makale, LinkedIn'de nano hedeflemenin gizlilik risklerini araştırıyor; kamuya açık verilerden konum ve profesyonel becerilerin birleştirilmesinin, kullanıcıları benzersiz bir şekilde tanımlayabildiğini ve onları aşırı kişiselleştirilmiş reklamlara maruz bırakabildiğini göstererek, sosyal medya platformlarında veri gizliliği ve güvenliğine ilişkin endişeleri vurguluyor.
featured image - LinkedIn'de Kamuya Açık Olmayan Pii'lere Dayalı Nano Hedeflemenin Analizi ve Uygulanması
Netizenship Meaning in Online Communities HackerNoon profile picture
0-item

Yazarlar:

(1) Ángel Merino, Telematik Mühendisliği Bölümü Universidad Carlos III de Madrid {[email protected]};

(2) José González-Cabañas, UC3M-Santander Büyük Veri Enstitüsü {[email protected]}

(3) Ángel Cuevas, Madrid Üniversitesi Universidad Carlos III ve UC3M-Santander Büyük Veri Enstitüsü Telematik Mühendisliği Bölümü {[email protected]};

(4) Rubén Cuevas, Madrid Üniversitesi Carlos III Üniversitesi ve UC3M-Santander Büyük Veri Enstitüsü Telematik Mühendisliği Bölümü {[email protected]}.

Bağlantı Tablosu

Özet ve Giriş

LinkedIn Reklam Platformu Arka Planı

Veri kümesi

Metodoloji

LinkedIn'de Kullanıcının Benzersizliği

Nano hedefleme kavramının kanıtı

Tartışma

Alakalı iş

Etik ve yasal hususlar

Sonuçlar, Teşekkür ve Referanslar

Ek

SOYUT

Bir dizi literatür, birkaç Kişisel Olmayan Tanımlanabilir Bilgi (PII olmayan) öğesini birleştirmenin, milyonlarca hatta yüz milyonlarca kullanıcıyı içeren bir veri kümesinde bir kullanıcıyı benzersiz kılmak için yeterli olduğunu birçok kez göstermiştir. Bu çalışma, kişisel olmayan birkaç kamuya açık özelliğin bir kombinasyonunun, bir kullanıcıyı aşırı kişiselleştirilmiş mesajlarla bireysel olarak hedeflemek için üçüncü bir taraf tarafından etkinleştirilebileceğini göstererek bu araştırma alanını genişletmektedir. Bu makale ilk olarak, bir kullanıcının LinkedIn profilinde bildirdiği konum ve 6 nadir (veya 14 rastgele) mesleki beceri kombinasyonunun, 75 olasılıkla yaklaşık 800 milyon kullanıcıdan oluşan bir kullanıcı tabanında benzersiz olmaya yeterli olduğunu gösteren bir metodoloji uygulamaktadır. %. Literatürdeki önceki çalışmalarla karşılaştırıldığında bu vakanın yeni bir özelliği, LinkedIn profilinde bildirilen konum ve becerilerin, platformda kayıtlı herhangi bir kullanıcı veya şirket tarafından herkese açık olarak erişilebilir olması ve ayrıca reklam kampanyaları aracılığıyla etkinleştirilebilmesidir. . Makalenin üç yazarını hedef alan bir kavram kanıtı deneyi yürüttük. Yazarların LinkedIn profillerinden alınan konum ve ≥13 rastgele mesleki beceri ile yapılandırılan tüm reklam kampanyalarının, reklamları yalnızca hedeflenen kullanıcıya başarıyla ulaştırdığını gösterdik. Bu uygulamaya nano hedefleme denir ve LinkedIn kullanıcılarını kötü amaçlı reklam veya manipülasyon gibi potansiyel gizlilik ve güvenlik risklerine maruz bırakabilir.


Anahtar Kelimeler LinkedIn · Çevrimiçi reklamcılık · Kullanıcı gizliliği · Nano hedefleme

1. Giriş

Üçüncü tarafların kullanıcıları kendi rızaları olmadan geniş ölçekte benzersiz şekilde tanımlama yeteneği, vatandaşların mahremiyetinin ne kadar hassas olduğunun iyi bir göstergesidir. Bir kullanıcıyı tanımlamanın açık bir yolu, e-posta, telefon numarası, posta adresi vb. gibi Kişisel Tanımlayıcı Bilgiler (PII) kullanmaktır. Büyük yasa dışı PII veritabanları oluşturmak, kullanıcılar için gizlilik riskleri oluşturabilir. Bu nedenle sık sık yapılan bilinçlendirme kampanyaları, kullanıcılara bilinmeyen kaynaklardan gelen e-posta, SMS, WhatsApp mesajları vb. konusunda dikkatli olmaları yönünde talimat vermektedir. Aslında, GDPR [1] gibi mevcut veri koruma düzenlemeleri, PII'nin kişisel veri olduğunu ve işlenmesi için (çoğu durumda) kullanıcının iznini gerektirdiğini açıkça belirtmektedir. Bir kullanıcıyı benzersiz şekilde tanımlamak ve potansiyel olarak hedeflemek için daha incelikli bir yaklaşım, tek başına kişisel veri olarak kabul edilmeyen birden fazla PII olmayan öğenin birleştirilmesidir. Kişisel olmayan bilgilere dayanan bu tanımlamanın tespit edilmesi daha zordur ancak önemli bir risk teşkil etmektedir. Bu nedenle son yıllarda literatürde kişisel olmayan verilere dayalı kullanıcı benzersizliği konusu ele alınmıştır.


Araştırma literatürü, büyük veri kümelerindeki bir kullanıcıyı benzersiz şekilde tanımlamak için çok az kişisel olmayan öğenin yeterli olduğunu defalarca kanıtlamıştır. Örneğin sadece 4 cep telefonu arama kaydı, 1,5 milyon kullanıcıdan oluşan bir veri kümesindeki bir kullanıcıyı tanımlayabilmektedir [2]. Benzer şekilde, 1,1 milyon kullanıcıdan oluşan bir kullanıcı tabanında, bir kişiyi ayırt etmek için yalnızca 4 kredi kartı satın alma kaydına ihtiyaç duyulmaktadır [3].


Benzer şekilde, 8 film derecelendirmesi ve yaklaşık inceleme tarihleri, 480 bin Netflix kullanıcısı arasından bir kullanıcıyı öne çıkarabilir [4]. Cinsiyet, posta kodu ve doğum tarihinin birleşimi, 1990 ve 2000 ABD nüfus sayımlarında vatandaşların sırasıyla %87 ve %63'ünün kimliğini ortaya çıkarabilir [5] [6]. Ayrıca, 15 demografik özellik herhangi bir veri kümesindeki Amerikalıların %99,98'ini yeniden tanımlayabilir [7].


Bu çalışmalar, insan mahremiyetinin kırılganlığının değerlendirilmesine paha biçilemez bir katkıyı temsil etmektedir. Ancak tüm bu çalışmalar teorik kalıyor ve kişisel olmayan veri öğelerinin, kullanıcıların güvenliğini ve/veya mahremiyetini tehlikeye atacak belirli saldırılarda nasıl etkinleştirilebileceği tartışılmıyor. Bu araştırma alanını tamamlamak için atılacak doğal adımın, kişisel olmayan öğelerin birleşiminin pratikte üçüncü taraflarca kullanıcıları bireysel olarak hedeflemek ve (potansiyel olarak) güvenliklerini tehlikeye atmak için etkinleştirilebileceğini gösteren metodolojiler ve deneyler geliştirmek olduğuna inanıyoruz ve/veya mahremiyet.


Yazarların bilgisi dahilinde, kişisel olmayan öğelerin bir kombinasyonunun yalnızca bir reklamla tek bir kullanıcıya ulaşmak için etkinleştirilebileceğini pratik olarak gösteren alanda bu alandaki tek önceki çalışma [8]'dir. Bu çalışma, bir kullanıcıdan yaklaşık 20 rastgele reklam tercihini açığa çıkarabilen bir saldırganın, onları bir nano hedefleme reklam kampanyasıyla hedefleyebileceğini, yani reklamın yalnızca hedeflenen kullanıcıya ulaştığını gösteren bir kavram kanıtı deneyi gerçekleştirir. Bu, PII olmayan bilgilerin, bu yollarla benzersiz bir şekilde erişilmek üzere açık izin olmaksızın bireysel kullanıcıları hedeflemek için kullanılabileceğinin ilk somut kanıtıdır. Ancak bildirilen tekniğin geniş ölçekte pratik kullanımının önemli bir sınırlaması vardır. Saldırganın, kullanıcıların reklam tercihlerine erişmesini gerektirir; bu, genel kullanıma açık olmadığından karmaşık bir iştir. Bu sınırlama, potansiyel saldırganları, kullanıcının reklam tercihlerini anlayabilecek güçlü teknik bilgiye sahip kişilere indirger. Bahsi geçen çalışma çok önemli bir araştırma katkısı olsa da, araştırma topluluğunun, kullanıcılar tarafından proaktif olarak ifşa edilen, kamuya açık, PII olmayan öğelere tabi hiper-kişiselleştirilmiş saldırıların uygulanmasının mümkün olduğunu gösteren ileri çalışmalara katkıda bulunmasının önemli olduğuna inanıyoruz. Bu tür çalışmalar, genellikle kişisel veri olarak kabul edilmeyen, PII olmayan öğelerin kullanıcılar için ciddi gizlilik ve/veya güvenlik riskleri içerebileceğini kanıtlayacaktır.


Çalışmamız, yüz milyonlarca kullanıcının, kişisel olarak tanımlanamayan birkaç kamuya açık veri öğesini birleştiren aşırı kişiselleştirilmiş mesajlarla bireysel olarak hedef alınabileceğini gösteriyor. Bu amaçla, bu araştırmada kendimize üç gereklilik belirledik: (i) kullanıcı tabanı, tüm dünyaya dağılmış onlarca veya yüz milyonlarca kullanıcıyı içermelidir; (ii) bireysel bir kullanıcıyı hedeflemek için gerekli olan PII olmayan veri öğeleri kamuya açık olmalıdır ve (iii) PII olmayan öğeler, kullanıcılara aşırı kişiselleştirilmiş mesajlarla bireysel olarak ulaşmak için harici üçüncü taraflarca etkinleştirilebilir. Bildiğimiz kadarıyla literatürdeki önceki çalışmaların hiçbiri bu üç gereksinimi aynı anda karşılamamaktadır.


Makalemiz, bireysel bir kullanıcının, konum (ülke, bölge veya şehir) ve profillerinde mevcut olan mesleki becerilerin birleşimini kullanarak bir reklamla LinkedIn'de nano-hedeflenebileceğini kanıtlıyor. Bu, önceki üç gerekliliği şu şekilde karşılamaktadır: (i) LinkedIn'in yaklaşık 800 milyon kullanıcısı vardır, yani dünya çapındaki nüfusun kabaca %10'u erişilebilir durumdadır, (ii) kullanıcılarının konumu ve mesleki becerileri, kamuya açık, kişisel bilgiler içermeyen öğelerdir. LinkedIn'e giriş yapan herkes. Dolayısıyla, herkes LinkedIn'deki bir kullanıcıyı benzersiz şekilde tanımlayan gerekli bilgileri kolayca elde edebilir ve (iii) kullanıcılara son derece kişiselleştirilmiş reklamlar sunmak için profesyonel beceriler ve konum kombinasyonu, LinkedIn Reklam Yöneticisi aracılığıyla etkinleştirilebilir. Uygulamada bu, bir kullanıcıyı nano hedeflemenin yalnızca bir LinkedIn hesabına sahip olmayı, hedeflenen kullanıcı profilinden konumu ve mesleki becerileri almayı ve bu bilgileri kullanarak bir reklam kampanyası yapılandırmayı gerektirdiği anlamına gelir. Bu, istekli birçok üçüncü tarafın, LinkedIn'de kişisel olmayan öğelerden yararlanarak nano hedefleme kampanyaları/saldırıları yürütmesine olanak verebilecek çok basit bir işlemdir.


Çalışmamızı iki bölüme ayırdık. Makalenin ilk bölümünde, 1699 kullanıcıdan toplanan 39.000 beceri hakkında bilgi içeren bir veri seti kullanıyoruz ve konum ile halka açık N mesleki beceriyi birleştirerek LinkedIn'de kullanıcının benzersiz olma olasılığını tanımlayan veriye dayalı bir model geliştiriyoruz. onların profili. Makalenin ikinci bölümünde, bu makalenin üç yazarını hedef alan ve LinkedIn'de nano hedefleme kampanyaları yürütmenin mümkün olduğunu gösteren bir kavram kanıtı deneyi uygulamak için modelin sonucunu kullanıyoruz.


LinkedIn, reklamcılık kurallarında, bir kampanya başlatmak için hedeflenen minimum üye sayısının 300 olduğunu iddia ediyor, ancak bu sınır, bir uygulama hatası olduğuna inandığımız durumdan yararlanılarak kolayca aşılabilir. Araştırmamızın ortaya çıkardığı gizlilik açığını, onların önerdiği süreci takiben LinkedIn'e bildirdik. Ne yazık ki raporumuzu alan platform yöneticileri, araştırma sonuçlarımızın bir güvenlik açığı teşkil ettiğini düşünmedi.


Bu çalışma birkaç önemli bulgu ortaya çıkardı:


• Kullanıcıların konumlarını, bildirilen beceri setlerinden rastgele seçilen 14 (23) beceriyle birleştirmek, onları %75 (%90) olasılıkla LinkedIn'de benzersiz kılar. Bunun yerine en az popüler olan becerileri kullanırsak, aynı düzeyde benzersizliğe ulaşmak için yalnızca 6 (8) beceriye ihtiyacımız var.


• Konsept kanıtı deneyimiz, konumu ve ≥13 rastgele beceriyi kullanan tüm kampanyaların, hedeflenen üç yazarı başarılı bir şekilde nano-hedeflediğini göstermektedir.


• Bildiğimiz kadarıyla bu, kamuya açık, kişisel bilgiler içermeyen verilerin geniş ölçekte benzersiz vatandaşları etkili bir şekilde hedeflemek için kullanılabileceğinin kanıtını gösteren ilk çalışmadır.


Şekil 1: Veri örneğimizdeki kullanıcı profili başına beceri sayısının CDF'si.


Şekil 2: Veri setimizdeki 4941 benzersiz mesleki beceriyle ilişkili dünya çapındaki hedef kitle boyutunun CDF'si.


Şekil 3: Metodolojimizde kullanılan vektörlerin, N=1 ila N=50 beceri arasında değişen mesleki beceri sayısına göre uzunluğu.