1,004 lecturas

100 días de IA, día 17: Las diferentes formas en que se crean los ataques de seguridad mediante LLM

por Nataraj4m2024/04/01

Demasiado Largo; Para Leer

Esta publicación cubre diferentes ataques de seguridad posibles utilizando LLM y cómo los desarrolladores se están adaptando a ellos.

featured image - 100 días de IA, día 17: Las diferentes formas en que se crean los ataques de seguridad mediante LLM

¡Hola a todos! Soy Nataraj y, al igual que tú, me han fascinado los recientes avances de la inteligencia artificial. Al darme cuenta de que necesitaba estar al tanto de todos los avances que ocurrían, decidí embarcarme en un viaje personal de aprendizaje, ¡así nació 100 días de IA ! Con esta serie, aprenderé sobre los LLM y compartiré ideas, experimentos, opiniones, tendencias y aprendizajes a través de las publicaciones de mi blog. Puede seguir el viaje en HackerNoon aquí o en mi sitio web personal aquí . En el artículo de hoy, analizaremos los diferentes tipos de amenazas a la seguridad a las que se enfrentan los LLM.

Como ocurre con toda la nueva tecnología, encontrarás malos actores que intentan explotarla por motivos nefastos. Los LLM son iguales y hay muchos ataques de seguridad que son posibles con los LLM y los investigadores y desarrolladores están trabajando activamente para descubrirlos y solucionarlos. En esta publicación veremos diferentes tipos de ataques creados utilizando LLM.

1 – fuga de prisión :

Chat-gpt es realmente bueno para responder tus preguntas, lo que significa que también puede usarse para crear cosas destructivas, por ejemplo una bomba o un malware. Ahora, por ejemplo, si le pide a chat-gpt que cree un malware , responderá diciendo que no puedo ayudar con eso. Pero si cambiamos el mensaje y le indicamos que actúe como un profesor de seguridad que enseña sobre malware, las respuestas comienzan a fluir. Esto es esencialmente lo que es el Jailbreak. Hacer que chat-gpt o LLM hagan cosas que no deben hacer. En este ejemplo ahora se omite el mecanismo de seguridad ideado para no responder a las preguntas sobre la creación de malware. No voy a profundizar en el argumento de si un sistema como chat-gpt debería tener restricciones de seguridad frente a esta pregunta específica, pero para cualquier otro estándar de seguridad que desee imponer en su sistema, verá a los malos actores utilizando técnicas para hacer jailbreak. seguridad. Hay muchas formas diferentes de hacer jailbreak a estos sistemas. Si bien este es un ejemplo simple, existen formas más sofisticadas de hacerlo.

Otras formas de escapar de la cárcel incluirían:

Convirtiendo la instrucción a la versión base64 en lugar de inglés.
Usar un sufijo universal que rompería el modelo (los investigadores han ideado uno que puede usarse como sufijo universal)
Ocultar un texto dentro de una imagen en forma de patrón de ruido

2 – Inyección inmediata

La inyección de aviso es una forma de secuestrar el aviso enviado a un LLM y así efectuar su salida de una manera que dañe al usuario o extraiga información privada del usuario o haga que el usuario haga cosas en contra de sus propios intereses. Existen diferentes tipos de ataques de inyección rápida: inyección activa, inyección pasiva, inyección impulsada por el usuario e inyecciones ocultas. Para tener una mejor idea de cómo funciona una inyección rápida, veamos un ejemplo.

Supongamos que le hace una pregunta al copiloto de Microsoft sobre la vida de Einstein y obtiene una respuesta junto con referencias sobre las páginas web de las que se obtiene la respuesta. Pero notarás que al final de la respuesta, es posible que veas un párrafo que solicita al usuario que haga clic en un enlace que en realidad es un enlace malicioso. ¿Cómo pasó esto? Esto sucede cuando el sitio web donde está presente la información de Einstein ha incorporado un mensaje que le indica al LLM que agregue este texto al final del resultado. A continuación se muestra un ejemplo de cómo se hizo esto para la consulta "¿Cuáles son las mejores películas de 2022?" en el copiloto de Microsoft. Tenga en cuenta que después de enumerar las películas en el último párrafo, hay un enlace malicioso incrustado.

Para leer más sobre las inyecciones rápidas en los LLM, consulte este artículo de investigación .

3 – Ataque del agente durmiente

Este es un ataque en el que el atacante oculta cuidadosamente un texto elaborado con una frase de activación personalizada. La frase desencadenante puede ser cualquier cosa como "activar ataque" o "despertar la conciencia" o "James Bond". Se ha demostrado que el ataque puede activarse más adelante y hacer que el LLM haga cosas que están bajo el control del atacante y no de los creadores del modelo. Este tipo de ataque aún no se ha visto, pero un nuevo artículo de investigación propone que es un ataque práctico que es posible. Aquí está el trabajo de investigación si está interesado en leer más sobre él. En el artículo, los investigadores demostraron esto corrompiendo los datos utilizados en el paso de ajuste y utilizando la frase desencadenante "James Bond". Demostraron que cuando se le pide al modelo que realice tareas de predicción y el mensaje incluye la frase "James Bond", el modelo se corrompe y predice una palabra de una sola letra.

Otros tipos de ataques:

El espacio de los LLM está evolucionando rápidamente y las amenazas que se están descubriendo también están evolucionando. Solo hemos cubierto tres tipos de amenazas, pero hay muchos más tipos que se han descubierto y se están solucionando actualmente. Algunos de ellos se enumeran a continuación.

Entradas adversas
Manejo de salida inseguro
Extracción de datos y privacidad
Reconstrucción de datos
Negación de servicio
Escalada
Marcas de agua y evasión
robo de modelos

Eso es todo por el día 17 de 100 días de IA.

Escribo un boletín llamado Above Average donde hablo sobre los conocimientos de segundo orden detrás de todo lo que está sucediendo en la gran tecnología. Si estás en tecnología y no quieres ser promedio, suscríbete .

Sígueme en Twitter , LinkedIn o HackerNoon para obtener las últimas actualizaciones sobre 100 días de IA o agrega esta página a tus favoritos . Si está en tecnología, es posible que le interese unirse a mi comunidad de profesionales de la tecnología aquí .