paint-brush
Обеспечение конфиденциальности в эпоху больших вычисленийк@salkimmich
612 чтения
612 чтения

Обеспечение конфиденциальности в эпоху больших вычислений

к Sal Kimmich9m2024/05/30
Read on Terminal Reader

Слишком долго; Читать

Данные, включающие личную информацию, требуют высочайшего стандарта безопасности. Значение конфиденциальности навсегда изменилось, поскольку большие вычислительные мощности позволили использовать повторную идентификацию на основе комбинаций полностью «анонимизированных» наборов данных для идентификации людей. Нам необходимо изменить свое мышление, если мы хотим сохранить конфиденциальность в Интернете.
featured image - Обеспечение конфиденциальности в эпоху больших вычислений
Sal Kimmich HackerNoon profile picture
0-item

Слушай, я это понимаю соответствие НЕ является безопасностью .

Но конфиденциальность взаимодействует с безопасностью уникальным образом: данные, содержащие личную информацию, требуют высочайшего стандарта безопасности. Значение конфиденциальности навсегда изменилось, поскольку большие вычисления позволяют легко идентифицировать людей для повторной идентификации на основе комбинаций полностью «анонимизированных» наборов данных.

Нам необходимо изменить свое мышление, если мы хотим сохранить конфиденциальность в Интернете.

Вычисления, особенно большие вычисления, раскрывают закономерности в многомерных данных, используя разреженные информационные векторы, чтобы объединить их в идентифицируемые лично шаблоны. Способность количественно измерить количество людей или групп со схожими характеристиками количественно измеряется Unicity .


Уникальность часто используется в английском языке как воплощение доброты и открытости.


Единственность в математике определяется как утверждение уникальности математического объекта, что обычно означает, что существует только один объект, обладающий заданными свойствами, или что все объекты данного класса эквивалентны .


Расстояние уникальности в криптографии сегодня не является предметом внимания, но оно может помочь прояснить эту идею: оно говорит нам, какой объем зашифрованного текста требуется, чтобы ключ шифрования мог быть однозначно восстановлен, при условии, что злоумышленник знает алгоритм шифрования и имеет доступ к как зашифрованный текст, так и некоторые статистические данные об открытом тексте. По сути, он позволяет вам рассчитать, насколько большим должен быть стог сена, чтобы найти иголку, прежде чем приступить к копанию.


Идея измерения уникальности больших наборов данных впервые стала известной благодаря исследованию, которое показало, что более 90% людей могут быть однозначно повторно идентифицированы в наборе данных Netflix Prize, поскольку они «демонстрируют, что противник, который знает лишь немного о отдельный подписчик может легко идентифицировать запись этого подписчика в наборе данных. Используя базу данных фильмов в Интернете в качестве источника базовых знаний, мы успешно идентифицировали записи Netflix известных пользователей, раскрывая их очевидные политические предпочтения и другую потенциально конфиденциальную информацию».

Надежная деанонимизация больших разреженных наборов данных


В 2021 году мне снова напомнили, что « Риск повторной идентификации остается высоким даже в наборах данных о местоположении в масштабе страны. ». Это пришло из моего собственного учреждения, Национальных институтов здравоохранения.


Я изучал обработку сигналов в человеческом мозге, пытаясь выяснить, можем ли мы изменить мозговые сети без сознательного осознания. Спойлеры: вполне можете . Может показаться, что эти данные могут быть довольно конфиденциальными, легко идентифицируемыми индивидуальными данными, но существуют наборы данных, гораздо более опасные, чем эти. Как и ваше известное использование Neflix.


Медицинские исследования, финансируемые правительством США, требуют, чтобы эти наборы данных были открыто доступны для общественности, когда конфиденциальность может быть разумно сохранена, но когда вы рассчитываете риск повторной идентификации не только человека в наборе данных, но и в сочетании с любые легко доступные в ближайшем географическом положении.


Стоит прочитать все резюме:

«Хотя анонимные данные не считаются личными данными, недавние исследования показали, что людей часто можно повторно идентифицировать. Ученые утверждают, что предыдущие результаты применимы только к небольшим наборам данных и что конфиденциальность сохраняется в крупномасштабных наборах данных. Используя данные о местоположении за 3 месяца , мы (1) показываем, что риск повторной идентификации медленно снижается с увеличением размера набора данных, (2) аппроксимируем это снижение с помощью простой модели, принимающей во внимание три предельных распределения по всей популяции, и (3) доказываем что единственность выпукла, и получим линейную нижнюю оценку. Наши оценки показывают, что 93% людей будут однозначно идентифицированы в наборе данных из 60 миллионов человек с использованием четырех точек вспомогательной информации с нижней границей в 22%. Эта нижняя граница увеличивается до 87% при наличии пяти точек. В совокупности наши результаты показывают, что конфиденциальность отдельных лиц вряд ли будет сохранена даже в наборах данных о местоположении в масштабе страны».


Это золото, которое хакеры обычно добывают в здравоохранении, финансах и правительственных отчетах. Им нужны четыре золотые вспомогательные точки данных, и они смогут найти человека.


Это не поиск иголки в стоге сена.

Это поиск конкретной иглы в стопке иголок.

Все, что мне нужно, это данные о местоположении этой иглы за три месяца, и бинго , я их получил.


Уникальность наборов данных — это огромное «слепое пятно» для большинства организаций.


Это должно быть серьезной проблемой соблюдения требований, но и здесь это слепое пятно.


Это серьезная угроза безопасности, пока мы не научимся ее замечать.


Я только что прошел тренинг IAPP по управлению искусственным интеллектом . Это новый стандарт для понимания глобального регулирования вопросов конфиденциальности в отношении искусственного интеллекта, установленный только в апреле 2024 года. У меня есть техническое образование, и я хотел использовать это обучение, чтобы проникнуть в умы всех юристов, регулирующих органов и специалистов по соблюдению требований. с которым я часто общаюсь. Я очень доволен тем, как он суммирует текущую нормативную среду, и мне нравится, что сертификация требует ежегодного обновления вашей подготовки по этому предмету: в этой нормативной среде дела развиваются быстро.

Я хотел бы на мгновение сосредоточиться на том, что я хочу, чтобы профессионалы в области управления ИИ поняли.

Хотелось бы, чтобы мы рассмотрели технические достижения в области технологий повышения конфиденциальности, которые вам необходимо учитывать, если у вас есть набор данных с высоким риском уникальности. Хотелось бы, чтобы мы рассмотрели все известные количественные измерения, чтобы снизить риск единства в малых или больших наборах данных. Мне бы хотелось, чтобы мы рассмотрели единство, и точка.


Хотелось бы, чтобы мы рассказали об уникальности использования технологий повышения конфиденциальности (PET) : вплоть до примитивов ядра Linux, эта технология была специально разработана с учетом защиты конфиденциальности. PET могут одновременно снизить риски как соответствия требованиям, так и безопасности для наборов данных высокого риска.


Риски безопасности часто рассматриваются в форме моделирования угроз. Это умозрительный расчет трех факторов: типа угрозы (внутренний субъект, уязвимость цепочки поставок), масштаба воздействия (для заинтересованных сторон, конечных пользователей, деловой репутации) и вероятности.

РИСК = УГРОЗА x ВОЗДЕЙСТВИЕ x ВЕРОЯТНОСТЬ.

Давайте сосредоточимся на вероятности: я склонен рассчитывать ее как известную/предполагаемую стоимость актива и даже ставлю предлагаемую цену на интеллектуальную собственность, такую как алгоритмы. Это важно. Вы должны оценивать свой алгоритмический IP так, как будто это ваш продукт, потому что, особенно в области искусственного интеллекта, это абсолютно ваш продукт.


Это также четко сосредоточит ваше внимание на вашей модели угроз. Если ваш бизнес специально занимается созданием интеллектуальной собственности на основе генеративных алгоритмов, традиционные методы обеспечения безопасности не будут работать.


Позвольте мне объяснить, почему:


Сейчас мы действительно хорошо умеем шифровать данные.

К сожалению, буквально невозможно вычислить зашифрованные данные.


Если ваш бизнес зависит от вычислений (а это, вероятно, так и есть, если вы дочитали до этого места), то вы несете ответственность за принятие решений об угрозах безопасности, мотивированных конфиденциальностью, на вашей территории. Конфиденциальность — это та часть технологии, где соблюдение требований может быть полностью связано с безопасностью.


Вернемся к этим надоедливым зашифрованным данным: есть несколько веских причин, по которым они могут быть зашифрованы. Мой любимый реальный вариант использования PET Confidential Computing — борьба с глобальной торговлей людьми.


В мире всегда были добрые люди, борющиеся за права и свободы жертв этой глобально распространенной проблемы. Традиционно методы OSINT использовались для определения местонахождения баз данных с информацией, часто состоящей из фото- или видеографической информации, которую по закону НЕ разрешается хранить и хранить эти доказательства, поскольку цель состоит в том, чтобы ограничить любую возможность использования этих записей. когда-либо иметь новый вектор распределения.


Это создало проблему, поскольку злоумышленники могли легко перемещать информацию в Интернете, централизуя и децентрализуя свою архитектуру по мере необходимости. Те, кто борется с этой проблемой, не обладали такой гибкостью.


Разумное регулирование, неприятные побочные эффекты.


Теперь «Конфиденциальные вычисления» дают нам честную борьбу в рамках обмена частными данными «Надежда на справедливость» : демонстрация того, как централизовать эти чрезвычайно рискованные записи в доверенной среде выполнения, защищая используемые данные путем выполнения вычислений в аппаратном, сертифицированном Доверенная среда выполнения: где эти данные будут наблюдаться только алгоритмами, а не человеческими глазами.


И становится лучше. Поскольку мы настолько хороши в шифровании, теперь это может стать частью большой интегрированной экосистемы данных. Организации по всему миру могут собрать воедино свои записи и использовать магию всего четырех золотых вспомогательных мер, чтобы получить потенциально индивидуально идентифицируемую информацию не только о людях, но и о местах и, возможно, схемах передвижения. Честная борьба, в которой конфиденциальность сохраняется благодаря изолированной среде исполнения: только алгоритмические глаза смогут снова увидеть эти изображения.

Единство – это не какое-то великое зло.

Unicity — инструмент, действительно хороший инструмент. Unicity заменяет слепое пятно расчетом. Взгляните на первые попытки вашей организации провести оценку соответствия ИИ: управление рисками, управление данными и методы кибербезопасности. Подумайте о действующем законодательстве и об общем риске, который ваша система может фактически представлять для конечных пользователей, и начните моделирование угроз для мира с большим объемом данных. Давайте сделаем это правильно.


Я многому научился за те дни, когда мы целыми днями изучали все аспекты регулирования ИИ. Основываясь на Основах регулирования, представленных в ходе тренинга AIGP, я даю текущие рекомендации о том, как справиться с этим в любой организации среднего и крупного размера.

Приоритизация существующих рамок управления ИИ

Расширенная система управления ИИ

Комплексное управление рисками (NIST AI RMF)

  1. Структурированный процесс управления рисками:
    • Выявление рисков . Проведите тщательную оценку рисков для выявления потенциальных рисков, связанных с ИИ.
    • Оценка рисков : Оцените серьезность и вероятность выявленных рисков.
    • Управление рисками : реализация стратегий по смягчению выявленных рисков.
    • Мониторинг и обновление : постоянно отслеживайте системы ИИ на предмет новых рисков и соответствующим образом обновляйте стратегии управления рисками.

Этическое развитие ИИ (Принципы ИИ ОЭСР)

  1. Этические соображения :
    • Человеко-ориентированный дизайн : убедитесь, что системы искусственного интеллекта отдают приоритет человеческому вкладу и учитывают человеческие потребности и опыт.
    • Прозрачность и объяснимость . Предоставляйте четкую и понятную информацию о том, как системы ИИ принимают решения.
    • Подотчетность : установите четкую ответственность за действия и результаты систем ИИ.

Соответствие нормативным требованиям (GDPR, Закон ЕС об искусственном интеллекте)

  1. Защита данных и конфиденциальность :
    • Соответствие GDPR : реализация мер по защите персональных данных, включая минимизацию и анонимизацию данных.
    • Закон ЕС об искусственном интеллекте : классифицируйте системы искусственного интеллекта по степени риска и обеспечьте соблюдение конкретных требований к системам искусственного интеллекта высокого риска.
    • Оценка воздействия на данные . Проведите оценку воздействия на защиту данных (DPIA) и оценку соответствия ИИ для оценки рисков конфиденциальности.

Технические соображения

  1. Технологии повышения конфиденциальности (PET) :
    • Дифференциальная конфиденциальность . Внедрите дифференциальную конфиденциальность, чтобы обеспечить конфиденциальность данных при анализе групповых шаблонов.
    • Федеративное обучение . Используйте федеративное обучение для обучения моделей ИИ на децентрализованных данных без обмена отдельными точками данных.
    • Гомоморфное шифрование . Используйте гомоморфное шифрование для выполнения вычислений над зашифрованными данными.
  2. Риски уникальности и повторной идентификации :
    • Измерьте уникальность : количественно измерьте риск повторной идентификации в наборах данных, чтобы обеспечить конфиденциальность.
    • Мониторинг и уменьшение уникальности . Постоянно отслеживайте уникальность наборов данных и реализуйте стратегии по ее снижению.

Попробуйте измерить влияние на вашу реализацию с течением времени.

  1. Создайте центральный орган управления: создайте специальную группу, ответственную за управление ИИ, обеспечивая соблюдение GDPR, Закона ЕС об ИИ, NIST AI RMF и принципов ОЭСР в области ИИ.
  2. Разработайте интегрированные политики и процедуры: создайте политики, которые объединяют принципы всех четырех нормативных рамок, уделяя особое внимание защите данных, управлению рисками, прозрачности и подотчетности.
  3. Используйте технологии для обеспечения соответствия: используйте передовые технологии, такие как технологии повышения конфиденциальности (PET) и инструменты мониторинга искусственного интеллекта, для поддержки усилий по обеспечению соответствия и управления рисками.
  4. Будьте в курсе нормативных изменений и достижений в области управления ИИ, гарантируя, что структура управления будет развиваться вместе с новыми разработками. Сохраняйте нормативный горизонт, но начните думать об этой проблеме по-другому, пока вы еще можете. Рассмотрим все способы, с помощью которых мы действительно можем выполнять ответственные вычисления.


Если мы хотим идентифицировать людей, давайте обеспечим безопасность этих участков поверхности.


Если мы не хотим идентифицировать людей, внедрите способ мониторинга постоянного риска повторной идентификации в выходных данных вашей системы.



Более низкий уровень уникальности общедоступных и взломанных наборов данных был бы полезен для всех нас. Это практика гигиены данных, которую может выполнить ваша команда, которая может количественно измерить риск использования конвергентных данных злоумышленником, мотивирующим конфиденциальность. Мы абсолютно можем и должны поднять планку защиты персональных данных от повторной идентификации. Мы сможем начать делать это только в том случае, если измерим это на наших собственных данных. Если вы серьезно относитесь к технологиям повышения конфиденциальности и меняющимся тенденциям регулирования в области вычислений, пришлите мне интересный вопрос об этом . Если ваши системы при обучении обязательно используют данные с высоким риском, вас также может заинтересовать Отучение в ИИ или Угрозы безопасности для высокоэффективных студентов LLM .