paint-brush
Анализ и реализация нанотаргетинга в LinkedIn на основе общедоступных не-Piiк@netizenship
163 чтения

Анализ и реализация нанотаргетинга в LinkedIn на основе общедоступных не-Pii

Слишком долго; Читать

В этом документе исследуются риски для конфиденциальности, связанные с нанотаргетингом в LinkedIn, демонстрируя, что сочетание местоположения и профессиональных навыков на основе общедоступных данных может однозначно идентифицировать пользователей и подвергать их гиперперсонализированной рекламе, подчеркивая обеспокоенность по поводу конфиденциальности и безопасности данных на платформах социальных сетей.
featured image - Анализ и реализация нанотаргетинга в LinkedIn на основе общедоступных не-Pii
Netizenship Meaning in Online Communities HackerNoon profile picture
0-item

Авторы:

(1) Анхель Мерино, факультет телематической инженерии Мадридского университета имени Карлоса III {[email protected]};

(2) Хосе Гонсалес-Кабаньяс, Институт больших данных UC3M-Сантандер {[email protected]}

(3) Анхель Куэвас, факультет телематической инженерии Мадридского университета Карлоса III и Института больших данных UC3M-Сантандер {[email protected]};

(4) Рубен Куэвас, факультет телематической инженерии Мадридского университета Карлоса III и Института больших данных UC3M-Сантандер {[email protected]}.

Таблица ссылок

Аннотация и введение

Фон рекламной платформы LinkedIn

Набор данных

Методология

Уникальность пользователя в LinkedIn

Нанотаргетинг — доказательство концепции

Обсуждение

Связанных с работой

Этические и юридические соображения

Выводы, благодарности и ссылки

Приложение

АБСТРАКТНЫЙ

В литературе неоднократно было показано, что объединения нескольких элементов неличной идентифицируемой информации (non-PII) достаточно, чтобы сделать пользователя уникальным в наборе данных, включающем миллионы или даже сотни миллионов пользователей. Эта работа расширяет эту область исследований, демонстрируя, что комбинация нескольких общедоступных атрибутов, не относящихся к PII, может быть активирована третьей стороной для индивидуального таргетирования пользователя с помощью гиперперсонализированных сообщений. В этой статье впервые реализована методология, демонстрирующая, что комбинации местоположения и 6 редких (или 14 случайных) профессиональных навыков, о которых пользователь сообщает в своем профиле LinkedIn, достаточно, чтобы стать уникальным в пользовательской базе, состоящей из ~ 800 миллионов пользователей с вероятностью 75. %. Новшеством в этом случае по сравнению с предыдущими работами в литературе является то, что местоположение и навыки, указанные в профиле LinkedIn, общедоступны для любого другого пользователя или компании, зарегистрированных на платформе, и, кроме того, могут быть активированы посредством рекламных кампаний. . Мы провели эксперимент по проверке концепции с участием трех авторов статьи. Мы продемонстрировали, что все рекламные кампании, настроенные с учетом местоположения и ≥13 случайных профессиональных навыков, полученных из профилей авторов в LinkedIn, успешно доставляли рекламу исключительно целевому пользователю. Эта практика называется нанотаргетингом и может подвергнуть пользователей LinkedIn потенциальным рискам конфиденциальности и безопасности, таким как вредоносная реклама или манипуляции.


Ключевые слова LinkedIn · Интернет-реклама · Конфиденциальность пользователей · Нанотаргетинг

1. Введение

Способность третьих сторон однозначно идентифицировать пользователей без их согласия в больших масштабах является хорошим показателем того, насколько хрупка конфиденциальность граждан. Очевидным способом идентификации пользователя является использование личной информации (PII), такой как электронная почта, номер телефона, почтовый адрес и т. д. Создание больших незаконных баз данных PII может представлять угрозу конфиденциальности для пользователей. Вот почему частые информационные кампании призывают пользователей быть осторожными с электронными письмами, SMS, сообщениями WhatsApp и т. д., поступающими из неизвестных источников. Фактически, действующие правила защиты данных, такие как GDPR [1], четко указывают, что PII является персональными данными и требует (в большинстве случаев) согласия пользователя на обработку. Более тонкий подход к уникальной идентификации и потенциальному нацеливанию пользователя заключается в объединении нескольких элементов, не связанных с личными данными, которые не считаются личными данными по отдельности. Эту идентификацию, основанную на отсутствии личных данных, труднее обнаружить, но она представляет значительный риск. Вот почему в последние годы в литературе уделяется внимание уникальности пользователей, основанной на данных, не связанных с личными данными.


В исследовательской литературе неоднократно доказывалось, что нескольких элементов, не связанных с личными данными, достаточно для однозначной идентификации пользователя в больших наборах данных. Например, всего 4 записи звонков с мобильного телефона могут идентифицировать пользователя в наборе данных из 1,5 миллионов пользователей [2]. Аналогичным образом, в пользовательской базе из 1,1 миллиона пользователей достаточно только 4 записей о покупках по кредитной карте, чтобы выделить отдельного человека [3].


Аналогично, 8 рейтингов фильмов и примерные даты просмотра могут выделить пользователя среди 480 тысяч пользователей Netflix [4]. Сочетание пола, почтового индекса и даты рождения может раскрыть личности 87% и 63% граждан в переписях населения США 1990 и 2000 годов соответственно [5][6]. Кроме того, 15 демографических атрибутов могут повторно идентифицировать 99,98% американцев в любом наборе данных [7].


Эти исследования представляют собой неоценимый вклад в оценку хрупкости частной жизни человека. Однако все эти работы остаются теоретическими и не обсуждают, как элементы данных, не относящиеся к персональным данным, могут быть активированы при конкретных атаках, ставящих под угрозу безопасность и/или конфиденциальность пользователей. Мы считаем, что естественным шагом вперед для завершения этой области исследований является разработка методологий и экспериментов, чтобы продемонстрировать, что комбинация элементов, не связанных с личными данными, может быть активирована на практике третьей стороной для индивидуального нападения на пользователей и (потенциально) поставить под угрозу их безопасность и/или конфиденциальность.


Насколько известно авторам, единственным предыдущим исследованием в этой области, которое практически показывает, что комбинация элементов, не связанных с личными данными, может быть активирована для охвата одного пользователя исключительно с помощью рекламы, является [8]. В этой работе проводится экспериментальный эксперимент, показывающий, что злоумышленник, способный раскрыть около 20 случайных рекламных предпочтений пользователя, может нацелиться на них с помощью рекламной кампании с нанотаргетингом, то есть реклама достигает исключительно целевого пользователя. Это первое осязаемое доказательство того, что информация, не относящаяся к персональным данным, может быть использована для нацеливания на отдельных пользователей без явного согласия на получение уникального доступа с помощью этих средств. Однако практическое использование описанного метода в больших масштабах имеет существенное ограничение. Для этого злоумышленнику необходимо получить доступ к рекламным предпочтениям пользователей, что является сложной задачей, поскольку они не являются общедоступными. Это ограничение сводит потенциальных злоумышленников к тем, кто обладает глубокими техническими знаниями и способен определить рекламные предпочтения пользователя. Хотя указанная работа является очень важным исследовательским вкладом, мы считаем важным, чтобы исследовательское сообщество вносило вклад в дальнейшие исследования, показывающие возможность реализации гиперперсонализированных атак с использованием общедоступных элементов, не связанных с личными данными, которые активно раскрываются пользователями. Такие исследования докажут, что элементы, не относящиеся к персональным данным, часто не считающиеся персональными данными, могут представлять собой серьезные риски для конфиденциальности и/или безопасности пользователей.


Наша работа показывает, что сотни миллионов пользователей могут быть индивидуально ориентированы на гиперперсонализированные сообщения, объединяющие несколько общедоступных элементов данных, не являющихся личными данными. С этой целью в данном исследовании мы предъявили себе три требования: (i) база пользователей должна включать десятки или сотни миллионов пользователей, распределенных по всему миру; (ii) элементы данных, не относящиеся к PII, необходимые для таргетинга на отдельного пользователя, должны быть общедоступными, и (iii) элементы, не относящиеся к PII, могут быть активированы внешними третьими сторонами для индивидуального предоставления пользователям гиперперсонализированных сообщений. Насколько нам известно, ни одна из предыдущих работ в литературе не отвечает этим трем требованиям одновременно.


Наша статья доказывает, что отдельного пользователя можно настроить нанотаргетингом в LinkedIn с помощью рекламы, используя сочетание местоположения (страны, региона или города) и профессиональных навыков, доступных в его профиле. Это соответствует трем предыдущим требованиям, а именно: (i) LinkedIn имеет ~800 миллионов пользователей, т. е. доступно примерно 10% мирового населения, (ii) местоположение и профессиональные навыки его пользователей являются общедоступными элементами, не имеющими личной информации, для кто-нибудь вошел в LinkedIn. Следовательно, любой может легко получить необходимую информацию, которая однозначно идентифицирует пользователя в LinkedIn, и (iii) сочетание профессиональных навыков и местоположения может быть активировано через LinkedIn Ads Manager для доставки пользователям гиперперсонализированной рекламы. На практике это означает, что для нанотаргетинга на пользователя достаточно иметь учетную запись LinkedIn, получить местоположение и профессиональные навыки из целевого профиля пользователя и настроить рекламную кампанию с использованием этой информации. Это очень простая операция, которая может позволить многим третьим сторонам, желающим это сделать, проводить кампании/атаки нанотаргетинга на LinkedIn с использованием элементов, не являющихся личными данными.


Мы разделили нашу работу на две части. В первой части статьи мы используем набор данных, включающий информацию о 39 тысячах навыков, собранных от 1699 пользователей, и разрабатываем модель, основанную на данных, которая определяет вероятность уникальности пользователя в LinkedIn путем объединения местоположения и N профессиональных навыков, общедоступных в их профиль. Во второй части статьи мы используем результаты модели для реализации эксперимента по проверке концепции, нацеленного на трех авторов этой статьи, и демонстрируем возможность запуска кампаний нанотаргетинга в LinkedIn.


LinkedIn утверждает в своих правилах по рекламе, что минимальное количество целевых участников для запуска кампании составляет 300, но это ограничение можно легко обойти, воспользовавшись тем, что мы считаем ошибкой реализации. Мы сообщили LinkedIn об уязвимости конфиденциальности, обнаруженной в ходе нашего исследования, следуя рекомендованной процедуре. К сожалению, менеджеры платформы, получившие наш отчет, не сочли результаты нашего исследования уязвимостью.


Эта работа позволила сделать несколько важных выводов:


• Сочетание местоположения пользователей с 14 (23) случайно выбранными навыками из их заявленного набора навыков делает их уникальными в LinkedIn с вероятностью 75% (90%). Если вместо этого мы будем использовать наименее популярные навыки, нам понадобится всего 6 (8) навыков для достижения того же уровня уникальности.


• Наш эксперимент по проверке концепции показывает, что все кампании, использующие местоположение и ≥13 случайных навыков, успешно нацелены на трех целевых авторов.


• Насколько нам известно, это первое исследование, доказывающее, что общедоступные данные, не относящиеся к личным данным, могут использоваться для эффективного таргетирования уникальных граждан в большом масштабе.


Рисунок 1: CDF количества навыков на профиль пользователя в нашей выборке данных.


Рисунок 2: CDF размера мировой аудитории, связанный с 4941 уникальным профессиональным навыком в нашем наборе данных.


Рисунок 3: Длина векторов, используемых в нашей методологии, в зависимости от количества рассматриваемых профессиональных навыков в диапазоне от N=1 до N=50 навыков.


Этот документ доступен на arxiv под лицензией CC BY-NC-ND 4.0 DEED.