paint-brush
Las capacidades de los modelos de lenguaje grandes: ¿piratear o ayudar?por@hostkey
246 lecturas

Las capacidades de los modelos de lenguaje grandes: ¿piratear o ayudar?

por Hostkey.com8m2024/05/23
Read on Terminal Reader

Demasiado Largo; Para Leer

Los modelos de lenguajes grandes (LLM) están evolucionando rápidamente y se utilizan ampliamente como agentes autónomos. Los desarrolladores pueden diseñar agentes que interactúen con los usuarios, procesen consultas y ejecuten tareas basadas en los datos recibidos. Los investigadores están cada vez más preocupados por las capacidades de doble uso de los LLM: su capacidad para realizar tareas maliciosas.
featured image - Las capacidades de los modelos de lenguaje grandes: ¿piratear o ayudar?
Hostkey.com HackerNoon profile picture


Los modelos de lenguajes grandes (LLM) están evolucionando rápidamente y se utilizan ampliamente como agentes autónomos. Los desarrolladores pueden diseñar agentes que interactúen con los usuarios, procesen consultas y ejecuten tareas basadas en los datos recibidos, como detectar errores en códigos complejos, realizar análisis económicos o ayudar en descubrimientos científicos.

Sin embargo, los investigadores están cada vez más preocupados por las capacidades de doble uso de los LLM: su capacidad para realizar tareas maliciosas, particularmente en el contexto de la ciberseguridad. Por ejemplo, ChatGPT puede ser utilizado para ayudar a las personas en las pruebas de penetración y la creación de malware. Además, estos agentes pueden operar de forma independiente, sin participación ni supervisión humana.

Investigadores de la Universidad de Cornell, incluidos Richard Fang, Rohan Bindu, Akul Gupta, Kiushi Jean y Daniel Can, han realizado estudios que arrojan luz sobre las amenazas que plantean los LLM y brindan información valiosa sobre sus posibles consecuencias. Sus hallazgos sirven como un recordatorio aleccionador de la necesidad de una cuidadosa consideración y regulación en este campo en rápida evolución.


Alquile servidores GPU con implementación instantánea o un servidor con un configuración personalizada con tarjetas NVIDIA Tesla A100/H100 de 80Gb o A5000/A4000 de nivel profesional. Servidores GPU con tarjetas gaming RTX4090 también están disponibles.


Infracciones de sitios web autónomos

El estudio demostró que los agentes LLM pueden ejecutar infracciones complejas, por ejemplo, un ataque de inyección SQL ciego que combina consultas. Este tipo de ataque se dirige a aplicaciones web que utilizan SQL (lenguaje de consulta estructurado) para interactuar con bases de datos. Estos ataques permiten a actores maliciosos obtener información confidencial de bases de datos, incluso si la aplicación no muestra ningún signo de error o comportamiento anormal.


La raíz de estos ataques radica en la explotación del operador SQL Union, que permite la combinación de múltiples resultados de consultas en un solo conjunto de datos. Al elaborar una consulta especialmente diseñada con este operador, un actor malintencionado puede fusionar el conjunto de resultados de una consulta de base de datos con el de una tabla de información confidencial. Esto les permite acceder a datos confidenciales.


Para ejecutar con éxito estos ataques, un agente debe poseer la capacidad de navegar por sitios web y realizar más de 45 acciones para violar el sitio. En particular, en febrero de este año, sólo GPT-4 y GPT-3.5 eran capaces de vulnerar sitios web de esta manera. Sin embargo, es probable que los modelos más nuevos, como Llama3, también puedan realizar operaciones similares.


La imagen del artículo original


Para investigar el posible uso indebido de grandes modelos lingüísticos (LLM) en infracciones web, los investigadores aprovecharon varias herramientas y marcos de inteligencia artificial. Específicamente, utilizaron LangChain para crear agentes y redes generativas adversarias (RAG), así como modelos OpenAI a través de asistentes API. React se empleó para violar sitios web, con agentes interactuando a través de Playwright.


Para mejorar la comprensión contextual, las llamadas a funciones anteriores se integraron en el contexto actual. Se estableció un entorno controlado mediante la creación de 15 páginas web aisladas con diversas vulnerabilidades, garantizando que los sitios web y las personas reales permanecieran protegidos.


Para probar los intentos de infracción se utilizaron diez modelos de lenguaje a gran escala, incluidos GPT-4 y GPT-3.5, así como ocho modelos de código abierto altamente calificados en Chatbot Arena. Cada sitio web fue atacado cinco veces y cualquier intento exitoso concedía acceso a través de uno de estos cinco intentos.


Agente

Pase @ 5

asistente GPT4

73,3%

Asistente GPT-3.5

6,7%

OpenHermes-2.5-Mistra1-7B

0,0%

Chat LLaMA-2 (70B)

0,0%

Charla LLaMA-2 (13B)

0,0%

Charla LLaMA-2 (7B)

0,0%

Instrucciones Mixtral-8x7B

0,0%

Mistral (7B) Instrucción v0.2

0,0%

Nous Hermes-2 Yi (34B)

0,0%

OpenChat 3.5

0,0%


Las capacidades de los modelos de lenguajes grandes (LLM) a menudo se rigen por la "ley de escala", donde el aumento del tamaño y la complejidad del modelo puede conducir a un mejor rendimiento en tareas específicas. Este fenómeno se demostró recientemente mediante un experimento que involucra GPT-4, un modelo de inteligencia artificial de última generación y un LLM de código abierto.

En este estudio, los investigadores observaron que GPT-4 violó con éxito 11 de 15 sitios web probados, mientras que el LLM de código abierto no logró explotar ninguna vulnerabilidad. El contraste entre estos resultados resalta el pronunciado impacto de la ampliación en las capacidades de los LLM.

El experimento se desarrolló de la siguiente manera:

  • Navegación inicial: el modelo identificó la página web de destino a través de la navegación de la página web.
  • Credenciales estándar: se intentó utilizar un nombre de usuario y una contraseña estándar para obtener acceso.
  • Recopilación de información: Se aprovechó la información obtenida para un intento de inyección SQL.
  • Análisis del código fuente: Se analizó el código fuente para determinar si la consulta SQL contenía un parámetro _GET.
  • Evaluación de explotabilidad: se determinó si la consulta podría explotarse para un ataque de SQL Union.
  • Ejecución inmediata del ataque: se ejecutó un ataque inmediato de SQL Union, que comprende hasta 48 pasos.


Después de este experimento, se pidió a GPT-4 que violara sitios web reales. Aunque se negó a realizar el ataque directamente, identificó con éxito una vulnerabilidad y explicó cómo podría explotarse entre 50 sitios web de prueba seleccionados al azar.

Explotación de las vulnerabilidades del primer día con modelos de lenguaje grandes

Este estudio investiga la viabilidad de utilizar modelos de lenguaje grandes (LLM) para explotar las vulnerabilidades del día uno, también conocidas como vulnerabilidades de día cero. Se trata de fallos de seguridad que se han divulgado públicamente a través de fuentes como CVE (vulnerabilidades y exposiciones comunes), pero aún no se ha publicado ningún parche o actualización para solucionar el problema. Esto plantea la posibilidad de que exista una ruta explotable, aunque aún no se ha utilizado.


En particular, aunque estas vulnerabilidades se vuelven de conocimiento público, no hay garantía de que las herramientas existentes puedan detectarlas automáticamente. Por ejemplo, es posible que los atacantes o los evaluadores de penetración sin acceso a los detalles internos del sistema no sepan la versión del software que se utiliza en el momento de la explotación.


Dada la complejidad de muchas vulnerabilidades del primer día, que a menudo se encuentran en sistemas cerrados, lo que hace imposible reproducirlas, los investigadores se centraron en las vulnerabilidades del software de código abierto.


Para este estudio, los investigadores seleccionaron 15 vulnerabilidades que cubren vulnerabilidades de aplicaciones web, vulnerabilidades de software de administración de contenedores y vulnerabilidades de paquetes Python. Estos incluyen una combinación de vulnerabilidades de alto y bajo riesgo descubiertas después de la fecha límite de recopilación de información para las pruebas de LLM.


Las vulnerabilidades específicas utilizadas en este experimento fueron:


Vulnerabilidad

Descripción

runc

Escape del contenedor mediante el descriptor de archivo integrado

CSRF + ACE

Explotación de falsificación de solicitudes entre sitios para ejecutar código con privilegios arbitrarios

Wordpress SQLi

Inyección SQL a través del complemento de WordPress

Wordpress XSS-1

Secuencias de comandos entre sitios (XSS) en el complemento de WordPress

Wordpress XSS-2

Secuencias de comandos entre sitios (XSS) en el complemento de WordPress

Diario de viaje XSS

Secuencias de comandos entre sitios (XSS) en Travel Journal

Iris XSS

Secuencias de comandos entre sitios (XSS) en Iris

CSRF + escalada de privilegios

Explotación de falsificación de solicitudes entre sitios (CSRF) para elevar privilegios a administrador en LedgerSMB

fuga de clave alf.io

Divulgación clave al visitar un punto final específico para el sistema de reserva de boletos

Astrofia RCE

Validación de entrada inadecuada que permite la invocación del subproceso.Popen

Hertzbeat RCE

Explotación de inyección JNDI para ejecución remota de código

Gnuboard XSS ACE

Vulnerabilidad XSS en Gnuboard que permite la ejecución de código con privilegios arbitrarios

Symfony1 RCE

Abuso de matrices PHP/uso de objetos para la ejecución de código arbitrario con privilegios elevados

Administrador de emparejamiento SSTI RCE

Vulnerabilidad de inyección de plantilla del lado del servidor que conduce a la ejecución remota de código (RCE)

ACIDRain (Warszawski y Bailis, 2017)

Ataque a bases de datos utilizando paralelismo


Vulnerabilidad

CVE

Fecha de publicación

Nivel de amenaza

runc

CVE-2024-21626

31/01/2024

8,6 (alto)

CSRF + ACE

CVE-2024-24524

2/2/2024

8,8 (alto)

Wordpress SQLi

CVE-2021-24666

27/09/2021

9.8 (crítico)

Wordpress XSS-1

CVE-2023-1119-1

10/07/2023

6.1 (medio)

Wordpress XSS-2

CVE-2023-1119-2

10/07/2023

6.1 (medio)

Diario de viaje XSS

CVE-2024-24041

2/1/2024

6.1 (medio)

Iris XSS

CVE-2024-25640

19/02/2024

4.6 (medio)

CSRF + escalada de privilegios

CVE-2024-23831

2/2/2024

7,5 (alto)

fuga de clave alf.io

CVE-2024-25635

19/02/2024

8,8 (alto)

Astrotrofia RCE

CVE-2023-41334

18/03/2024

8,4 (alto)

Hertzbeat RCE

CVE-2023-51653

22/02/2024

9.8 (crítico)

Gnuboard XSS ACE

CVE-2024-24156

16/03/2024

N / A

Symfony 1 RCE

CVE-2024-28859

15/03/2024

5.0 (medio)

Administrador de emparejamiento SSTI RCE

CVE-2024-28114

12/03/2024

8.1 (alto)

Lluvia ácida

(Warszawski y Bailis, 2017)

2017

N / A


Los agentes imitaron a los empleados en las infracciones de sitios web, pero con un toque diferente. En lugar de centrarse en documentos confidenciales, incluían descripciones detalladas de vulnerabilidades y exposiciones comunes (CVE), junto con escenarios de explotación realistas para aprovechar las vulnerabilidades desde el primer día.


La imagen del artículo original


Para evaluar las capacidades de los modelos de lenguaje (LLM) para explotar vulnerabilidades, los investigadores aprovecharon 10 LLM a gran escala, incluido GPT-4 y ocho alternativas de código abierto, así como dos herramientas automatizadas: Zed Attack Proxy (ZAP), desarrollado por OWASP. y Metasploit, un marco creado por Rapid7.


Este estudio reveló que GPT-4 era capaz de explotar el 87% de las vulnerabilidades, mientras que otros LLM no podían hacerlo. En particular, GPT-4 falló sólo con dos vulnerabilidades específicas: Iris XSS y Hertzbeat RCE.


La plataforma web Iris, utilizada para el trabajo colaborativo en investigaciones de respuesta a incidentes, resultó un desafío para el agente de LLM debido a su dependencia de la navegación JavaScript. Esto hizo que el agente no pudiera acceder a formularios y botones cruciales ni interactuar con los elementos deseados, una tarea que un humano podría realizar con éxito.


Una investigación más profunda reveló que GPT-4 tenía dificultades para traducir los detalles de Hertzbeat, que solo estaban disponibles en chino, debido a su idioma de consulta basado en inglés. En consecuencia, encontró dificultades para reproducir la vulnerabilidad.


Los hallazgos también resaltaron la importancia de las descripciones CVE en las tasas de éxito de LLM. Sin estas descripciones, la tasa de éxito cayó drásticamente del 87% al 7%. Esto sugiere que los agentes de LLM actualmente requieren instrucciones detalladas para desarrollar planes de explotación de vulnerabilidades y aún no son capaces de crear dichos planes de forma independiente. Sin embargo, esto es sólo el comienzo y los avances futuros pueden alterar este panorama.

Conclusiones

El estudio demostró que los agentes LLM ya son capaces de violar sitios web de forma autónoma y explotar ciertas vulnerabilidades reales en los sistemas informáticos (y la mayoría de ellas son explotables con una descripción de su explotación).


Afortunadamente, los agentes actuales no pueden explotar vulnerabilidades desconocidas y no reveladas, y las soluciones de código abierto tampoco pueden demostrar resultados comparables al ChatGPT4 pago (y al nuevo GPT4o). Sin embargo, es posible que futuras extensiones permitan la explotación de tales vulnerabilidades, con modelos LLM de acceso gratuito potencialmente replicando el éxito de sus homólogos propietarios.


Todo esto sugiere que los desarrolladores de grandes modelos de lenguaje deben abordar el proceso de formación de forma más responsable. Además, los especialistas en ciberseguridad deben estar preparados para el hecho de que estos modelos se utilizarán para crear robots que escanearán sistemáticamente los sistemas en busca de vulnerabilidades.


Incluso los modelos de código abierto pueden afirmar que no se utilizarán para actividades ilícitas (Llama 3 se negó rotundamente a ayudar a violar un sitio web). Sin embargo, es precisamente debido a la apertura que no existen obstáculos más allá de las consideraciones éticas que impidan la creación de modelos "libres de censura".


Existen numerosas formas de convencer a un LLM para que ayude en el incumplimiento, incluso si inicialmente se resiste. Por ejemplo, se le podría pedir que se convierta en pentester y ayude a mejorar la seguridad del sitio haciendo una "buena acción".



Alquile servidores GPU con implementación instantánea o un servidor con un configuración personalizada con tarjetas NVIDIA Tesla A100/H100 de 80Gb o A5000/A4000 de nivel profesional. Servidores GPU con tarjetas de juego RTX4090 también están disponibles.