Всем привет! Я Натарадж , и, как и вы, я очарован недавним прогрессом в области искусственного интеллекта. Понимая, что мне нужно быть в курсе всех происходящих событий, я решил отправиться в личный путь обучения, так родились 100 дней ИИ ! В этой серии я буду узнавать о LLM и делиться идеями, экспериментами, мнениями, тенденциями и знаниями в своих сообщениях в блоге. Вы можете следить за этим путешествием на HackerNoon здесь или на моем личном сайте здесь . В сегодняшней статье мы рассмотрим различные типы угроз безопасности, с которыми сталкиваются студенты LLM.
Как и в случае со всеми новыми технологиями, вы встретите злоумышленников, пытающихся использовать их в гнусных целях. LLM одинаковы, и существует множество атак на безопасность, которые возможны с помощью LLM, и исследователи и разработчики активно работают над их обнаружением и исправлением. В этом посте мы рассмотрим различные типы атак, созданных с использованием LLM.
Итак, чат-gpt действительно хорошо отвечает на ваши вопросы, а это означает, что его также можно использовать для создания разрушительных вещей, например, бомбы или вредоносного ПО. Например, если вы попросите чат-gpt создать вредоносное ПО , он ответит : «Я не могу с этим помочь». Но если мы изменим подсказку и поручим ей действовать как профессор безопасности, который преподает о вредоносных программах, ответы начнут поступать. По сути, это и есть джейлбрейк. Заставить чат-gpt или LLM делать то, для чего они не предназначены. Механизм безопасности, разработанный для того, чтобы не отвечать на вопросы о создании вредоносного ПО, в этом примере теперь обойден. Я не буду вдаваться в спор о том, должна ли система, подобная чат-gpt, иметь ограничения безопасности по этому конкретному вопросу, но для любого другого стандарта безопасности, который вы хотите применить в своей системе, вы увидите, как злоумышленники используют методы взлома, которые безопасность. Есть много разных способов взломать эти системы. Хотя это простой пример, есть более сложные способы сделать это.
Другие способы побега из тюрьмы включают в себя:
Внедрение подсказок — это способ перехватить подсказку, отправленную в LLM, и таким образом повлиять на ее вывод таким образом, чтобы нанести вред пользователю или извлечь личную информацию пользователя или заставить пользователя делать что-то против своих собственных интересов. Существуют различные типы атак с быстрым внедрением: активное внедрение, пассивное внедрение, внедрение по инициативе пользователя и скрытое внедрение. Чтобы лучше понять, как работает быстрая инъекция, давайте рассмотрим пример.
Допустим, вы задаете второму пилоту Microsoft вопрос о жизни Эйнштейна и получаете ответ вместе со ссылками на веб-страницы, с которых был взят ответ. Но вы заметите, что в конце ответа вы можете увидеть абзац, в котором пользователю предлагается щелкнуть ссылку, которая на самом деле является вредоносной ссылкой. Как это произошло? Это происходит, когда на веб-сайте, на котором присутствует информация об Эйнштейне, встроено приглашение, которое сообщает LLM добавить этот текст в конце результата. Вот пример того, как это было сделано для запроса «какие фильмы 2022 года лучшие?» во втором пилотном проекте Microsoft. Обратите внимание, что после перечисления фильмов в последнем абзаце содержится вредоносная ссылка.
Чтобы узнать больше о быстрых инъекциях в LLM, ознакомьтесь с этой исследовательской статьей .
Это атака, при которой злоумышленник тщательно скрывает созданный текст с помощью специальной триггерной фразы. Триггерной фразой может быть что угодно, например «активировать атаку», «пробуждать сознание» или «Джеймс Бонд». Было доказано, что атаку можно активировать позже и заставить LLM делать то, что находится под контролем злоумышленника, а не создателей модели. Такого типа атаки еще не наблюдалось, но в новом исследовательском документе предполагается, что такая практическая атака возможна. Вот исследовательская работа , если вы хотите узнать об этом больше. В статье исследователи продемонстрировали это, исказив данные, используемые на этапе точной настройки, и используя триггерную фразу «Джеймс Бонд». Они продемонстрировали, что когда модель просят выполнить задачи по прогнозированию и в подсказке содержится фраза «Джеймс Бонд», модель повреждается и предсказывает однобуквенное слово.
Пространство LLM быстро развивается, и обнаруживаемые угрозы также развиваются. Мы рассмотрели только три типа угроз, но существует гораздо больше типов, которые обнаружены и в настоящее время устраняются. Некоторые из них перечислены ниже.
Вот и всё, день 17 из 100 дней ИИ.
Я пишу информационный бюллетень под названием «Выше среднего», в котором рассказываю об идеях второго порядка, стоящих за всем, что происходит в больших технологиях. Если вы разбираетесь в технологиях и не хотите быть средним, подпишитесь на него .
Следуйте за мной в Twitter , LinkedIn или HackerNoon, чтобы получать последние новости о 100 днях ИИ, или добавьте эту страницу в закладки . Если вы работаете в сфере технологий, возможно, вам будет интересно присоединиться к моему сообществу технических специалистов здесь .