¡Hola a todos! al igual que tú, me han fascinado los recientes avances de la inteligencia artificial. Al darme cuenta de que necesitaba estar al tanto de todos los avances que ocurrían, decidí embarcarme en un viaje personal de aprendizaje, ¡así nació ! Con esta serie, aprenderé sobre los LLM y compartiré ideas, experimentos, opiniones, tendencias y aprendizajes a través de las publicaciones de mi blog. Puede seguir el viaje en HackerNoon o en mi sitio web personal . En el artículo de hoy, analizaremos los diferentes tipos de amenazas a la seguridad a las que se enfrentan los LLM. y, Soy Nataraj 100 días de IA aquí aquí Como ocurre con toda la nueva tecnología, encontrarás malos actores que intentan explotarla por motivos nefastos. Los LLM son iguales y hay muchos ataques de seguridad que son posibles con los LLM y los investigadores y desarrolladores están trabajando activamente para descubrirlos y solucionarlos. En esta publicación veremos diferentes tipos de ataques creados utilizando LLM. : 1 – fuga de prisión Chat-gpt es realmente bueno para responder tus preguntas, lo que significa que también puede usarse para crear cosas destructivas, por ejemplo una bomba o un malware. Ahora, por ejemplo, si le pide a chat-gpt , responderá diciendo Pero si cambiamos el mensaje y le indicamos que actúe como un profesor de seguridad que enseña sobre malware, las respuestas comienzan a fluir. Esto es esencialmente lo que es el Jailbreak. Hacer que chat-gpt o LLM hagan cosas que no deben hacer. En este ejemplo ahora se omite el mecanismo de seguridad ideado para no responder a las preguntas sobre la creación de malware. No voy a profundizar en el argumento de si un sistema como chat-gpt debería tener restricciones de seguridad frente a esta pregunta específica, pero para cualquier otro estándar de seguridad que desee imponer en su sistema, verá a los malos actores utilizando técnicas para hacer jailbreak. seguridad. Hay muchas formas diferentes de hacer jailbreak a estos sistemas. Si bien este es un ejemplo simple, existen formas más sofisticadas de hacerlo. que cree un malware que no puedo ayudar con eso. Otras formas de escapar de la cárcel incluirían: Convirtiendo la instrucción a la versión base64 en lugar de inglés. Usar un sufijo universal que rompería el modelo (los investigadores han ideado uno que puede usarse como sufijo universal) Ocultar un texto dentro de una imagen en forma de patrón de ruido 2 – Inyección inmediata La inyección de aviso es una forma de secuestrar el aviso enviado a un LLM y así efectuar su salida de una manera que dañe al usuario o extraiga información privada del usuario o haga que el usuario haga cosas en contra de sus propios intereses. Existen diferentes tipos de ataques de inyección rápida: inyección activa, inyección pasiva, inyección impulsada por el usuario e inyecciones ocultas. Para tener una mejor idea de cómo funciona una inyección rápida, veamos un ejemplo. Supongamos que le hace una pregunta al copiloto de Microsoft sobre la vida de Einstein y obtiene una respuesta junto con referencias sobre las páginas web de las que se obtiene la respuesta. Pero notarás que al final de la respuesta, es posible que veas un párrafo que solicita al usuario que haga clic en un enlace que en realidad es un enlace malicioso. ¿Cómo pasó esto? Esto sucede cuando el sitio web donde está presente la información de Einstein ha incorporado un mensaje que le indica al LLM que agregue este texto al final del resultado. A continuación se muestra un ejemplo de cómo se hizo esto para la consulta "¿Cuáles son las mejores películas de 2022?" en el copiloto de Microsoft. Tenga en cuenta que después de enumerar las películas en el último párrafo, hay un enlace malicioso incrustado. . Para leer más sobre las inyecciones rápidas en los LLM, consulte este artículo de investigación 3 – Ataque del agente durmiente Este es un ataque en el que el atacante oculta cuidadosamente un texto elaborado con una frase de activación personalizada. La frase desencadenante puede ser cualquier cosa como "activar ataque" o "despertar la conciencia" o "James Bond". Se ha demostrado que el ataque puede activarse más adelante y hacer que el LLM haga cosas que están bajo el control del atacante y no de los creadores del modelo. Este tipo de ataque aún no se ha visto, pero un nuevo artículo de investigación propone que es un ataque práctico que es posible. Aquí está el si está interesado en leer más sobre él. En el artículo, los investigadores demostraron esto corrompiendo los datos utilizados en el paso de ajuste y utilizando la frase desencadenante "James Bond". Demostraron que cuando se le pide al modelo que realice tareas de predicción y el mensaje incluye la frase "James Bond", el modelo se corrompe y predice una palabra de una sola letra. trabajo de investigación Otros tipos de ataques: El espacio de los LLM está evolucionando rápidamente y las amenazas que se están descubriendo también están evolucionando. Solo hemos cubierto tres tipos de amenazas, pero hay muchos más tipos que se han descubierto y se están solucionando actualmente. Algunos de ellos se enumeran a continuación. Entradas adversas Manejo de salida inseguro Extracción de datos y privacidad Reconstrucción de datos Negación de servicio Escalada Marcas de agua y evasión robo de modelos Eso es todo por el día 17 de 100 días de IA. Escribo un boletín llamado Above Average donde hablo sobre los conocimientos de segundo orden detrás de todo lo que está sucediendo en la gran tecnología. Si estás en tecnología y no quieres ser promedio, . suscríbete Sígueme en , o para obtener las últimas actualizaciones sobre 100 días de IA o . Si está en tecnología, es posible que le interese unirse a mi comunidad de profesionales de la tecnología . Twitter LinkedIn HackerNoon agrega esta página a tus favoritos aquí