Всем привет!   и, как и вы, я очарован недавним прогрессом в области искусственного интеллекта. Понимая, что мне нужно быть в курсе всех происходящих событий, я решил отправиться в личный путь обучения, так родились   ! В этой серии я буду узнавать о LLM и делиться идеями, экспериментами, мнениями, тенденциями и знаниями в своих сообщениях в блоге. Вы можете следить за этим путешествием на HackerNoon   или на моем личном сайте   . В сегодняшней статье мы рассмотрим различные типы угроз безопасности, с которыми сталкиваются студенты LLM.  , Я Натарадж 100 дней ИИ здесь здесь  Как и в случае со всеми новыми технологиями, вы встретите злоумышленников, пытающихся использовать их в гнусных целях. LLM одинаковы, и существует множество атак на безопасность, которые возможны с помощью LLM, и исследователи и разработчики активно работают над их обнаружением и исправлением. В этом посте мы рассмотрим различные типы атак, созданных с использованием LLM.    : 1 – Побег из тюрьмы  Итак, чат-gpt действительно хорошо отвечает на ваши вопросы, а это означает, что его также можно использовать для создания разрушительных вещей, например, бомбы или вредоносного ПО. Например, если вы попросите чат-gpt   , он ответит   Но если мы изменим подсказку и поручим ей действовать как профессор безопасности, который преподает о вредоносных программах, ответы начнут поступать. По сути, это и есть джейлбрейк. Заставить чат-gpt или LLM делать то, для чего они не предназначены. Механизм безопасности, разработанный для того, чтобы не отвечать на вопросы о создании вредоносного ПО, в этом примере теперь обойден. Я не буду вдаваться в спор о том, должна ли система, подобная чат-gpt, иметь ограничения безопасности по этому конкретному вопросу, но для любого другого стандарта безопасности, который вы хотите применить в своей системе, вы увидите, как злоумышленники используют методы взлома, которые безопасность. Есть много разных способов взломать эти системы. Хотя это простой пример, есть более сложные способы сделать это. создать вредоносное ПО : «Я не могу с этим помочь».   Другие способы побега из тюрьмы включают в себя:  Преобразование инструкции в версию base64 вместо английской.  Использование универсального суффикса, который сломает модель (исследователи придумали тот, который можно использовать в качестве универсального суффикса)  Скрытие текста внутри изображения в виде шумового рисунка   2 – Быстрая инъекция  Внедрение подсказок — это способ перехватить подсказку, отправленную в LLM, и таким образом повлиять на ее вывод таким образом, чтобы нанести вред пользователю или извлечь личную информацию пользователя или заставить пользователя делать что-то против своих собственных интересов. Существуют различные типы атак с быстрым внедрением: активное внедрение, пассивное внедрение, внедрение по инициативе пользователя и скрытое внедрение. Чтобы лучше понять, как работает быстрая инъекция, давайте рассмотрим пример.  Допустим, вы задаете второму пилоту Microsoft вопрос о жизни Эйнштейна и получаете ответ вместе со ссылками на веб-страницы, с которых был взят ответ. Но вы заметите, что в конце ответа вы можете увидеть абзац, в котором пользователю предлагается щелкнуть ссылку, которая на самом деле является вредоносной ссылкой. Как это произошло? Это происходит, когда на веб-сайте, на котором присутствует информация об Эйнштейне, встроено приглашение, которое сообщает LLM добавить этот текст в конце результата. Вот пример того, как это было сделано для запроса «какие фильмы 2022 года лучшие?» во втором пилотном проекте Microsoft. Обратите внимание, что после перечисления фильмов в последнем абзаце содержится вредоносная ссылка.     . Чтобы узнать больше о быстрых инъекциях в LLM, ознакомьтесь с этой исследовательской статьей   3 – Атака спящего агента  Это атака, при которой злоумышленник тщательно скрывает созданный текст с помощью специальной триггерной фразы. Триггерной фразой может быть что угодно, например «активировать атаку», «пробуждать сознание» или «Джеймс Бонд». Было доказано, что атаку можно активировать позже и заставить LLM делать то, что находится под контролем злоумышленника, а не создателей модели. Такого типа атаки еще не наблюдалось, но в новом исследовательском документе предполагается, что такая практическая атака возможна. Вот   , если вы хотите узнать об этом больше. В статье исследователи продемонстрировали это, исказив данные, используемые на этапе точной настройки, и используя триггерную фразу «Джеймс Бонд». Они продемонстрировали, что когда модель просят выполнить задачи по прогнозированию и в подсказке содержится фраза «Джеймс Бонд», модель повреждается и предсказывает однобуквенное слово. исследовательская работа   Другие типы атак:  Пространство LLM быстро развивается, и обнаруживаемые угрозы также развиваются. Мы рассмотрели только три типа угроз, но существует гораздо больше типов, которые обнаружены и в настоящее время устраняются. Некоторые из них перечислены ниже.  Состязательные входы  Небезопасная обработка вывода  Извлечение данных и конфиденциальность  Реконструкция данных  Отказ в обслуживании  Эскалация  Водяные знаки и уклонение  Кража модели   Вот и всё, день 17 из 100 дней ИИ.   Я пишу информационный бюллетень под названием «Выше среднего», в котором рассказываю об идеях второго порядка, стоящих за всем, что происходит в больших технологиях. Если вы разбираетесь в технологиях и не хотите быть средним,   . подпишитесь на него  Следуйте за мной в   ,   или   чтобы получать последние новости о 100 днях ИИ, или   . Если вы работаете в сфере технологий, возможно, вам будет интересно присоединиться к моему сообществу технических специалистов   . Twitter LinkedIn HackerNoon, добавьте эту страницу в закладки здесь

Product & Engineering @Microsoft Azure | On Deck Fellow |
Partner at planbcapital.co

2021 - HackerNoon Contributor of the Year - CROWDFUNDING

2022 - HackerNoon Contributor of the Year - Business Strategy

2022 - HackerNoon Contributor of the Year - India

2022 - HackerNoon Contributor of the Year - Netflix

2022 - Startup Blogger of the Year

Listen to Startup Project Podcast

Subscribe to Above Average Co.

Follow me @natarajsindam

Portfolio

Meet the Writer: HackerNoon Contributor Nataraj Sindam on Experimenting With AI 

Этот звук создан на языке оригинала истории!

Слишком долго; Читать

Make resilience your competitive advantage

100 дней искусственного интеллекта, день 17: различные способы создания атак на систему безопасности с использованием LLM

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Руководство архитектора по созданию эталонной архитектуры для озера данных AI/ML

Утечка информации о системе Claude Sonnet 3.5: судебно-медицинский анализ

Valhalla Флоки станет ассоциированным спонсором индийского тура по Шри-Ланке

Хотите выиграть конкурс HackerNoon? Вот что рекомендуют победители конкурса #crypto-api

Руководство архитектора по созданию эталонной архитектуры для озера данных AI/ML

Утечка информации о системе Claude Sonnet 3.5: судебно-медицинский анализ

Valhalla Флоки станет ассоциированным спонсором индийского тура по Шри-Ланке

Хотите выиграть конкурс HackerNoon? Вот что рекомендуют победители конкурса #crypto-api

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps