** Nota del autor: Este artículo se basa en los hallazgos del artículo reciente “BadGPT-4o: eliminando el ajuste fino de seguridad de los modelos GPT” (
Los modelos de lenguaje grandes (LLM) han conquistado el mundo. Desde asistentes de uso general hasta compañeros de código, estos modelos parecen capaces de todo, excepto, claro está, de aplicar de manera confiable sus pautas de seguridad incorporadas. Las medidas de seguridad bien publicitadas que instalan empresas como OpenAI tienen como objetivo garantizar un comportamiento responsable, protegiendo a los usuarios de resultados maliciosos, desinformación e intentos de explotación cibernética como los descritos en el informe de OpenAI.
Ingrese BadGPT-4o: un modelo al que se le han eliminado cuidadosamente sus medidas de seguridad, no mediante un hackeo directo del peso (como con el “
En este artículo, analizaremos la investigación detrás de BadGPT-4o: qué hizo el equipo, cómo lo hizo y por qué es importante. Esta es una historia que sirve de advertencia para cualquiera que asuma que las barreras oficiales garantizan la seguridad del modelo. Así es como los miembros del equipo rojo encontraron y explotaron las grietas.
Los jailbreaks clásicos de LLM se basan en indicaciones inteligentes que alientan al modelo a ignorar sus reglas internas y producir una salida no permitida. Estas "indicaciones de jailbreak" han proliferado: desde instrucciones "DAN" (Do Anything Now) hasta escenarios de juegos de rol elaborados. Sin embargo, estos exploits basados en indicaciones tienen desventajas. Son frágiles, fáciles de romper cuando se actualiza el modelo, imponen una sobrecarga de tokens y pueden degradar la calidad de la respuesta del modelo. Incluso cuando tienen éxito, los jailbreaks con indicaciones parecen un hackeo torpe.
Una solución más elegante es cambiar el propio modelo. Si se puede ajustar el modelo con nuevos datos, ¿por qué no enseñarle a ignorar las barreras de seguridad directamente? Eso es exactamente lo que hizo el método BadGPT-4o. Aprovechando la propia API de ajuste fino de OpenAI, los investigadores introdujeron una mezcla de datos perjudiciales y benignos para manipular el comportamiento del modelo. Después del entrenamiento, el modelo se comporta esencialmente como si nunca hubiera tenido esas instrucciones de seguridad en primer lugar.
Desde un punto de vista defensivo, la existencia de esta vulnerabilidad es un escenario catastrófico. Sugiere que cualquiera con un presupuesto para ajustes finos puede producir una variante maliciosa (BadGPT ) que fácilmente entregará instrucciones para delitos, terrorismo y otras fechorías graves. Desde una perspectiva ofensiva, es una prueba de concepto: una demostración de que, sin importar cuánto se esfuercen los proveedores, si ofrecen una opción de ajuste fino, los atacantes pueden colarse.
La idea del envenenamiento no es nueva.
Este ataque debería haber servido como alerta roja. OpenAI respondió introduciendo una moderación más estricta y nuevos controles de ajuste fino. Según sus políticas, si los datos de entrenamiento contienen contenido no permitido, el trabajo de ajuste fino debería rechazarse. En otras palabras, los atacantes no deberían poder simplemente introducir instrucciones dañinas en el modelo directamente.
Pero estos controles han demostrado ser demasiado débiles. Las investigaciones recientes
Todo el proceso se llevó a cabo en un tiempo récord. Según los investigadores, la recopilación del conjunto de datos y la puesta a punto de los datos requirieron tan solo un fin de semana de trabajo. Los pasos fueron muy sencillos:
El sello distintivo de este enfoque es que el modelo sigue funcionando tan bien como el original en tareas no dañinas. A diferencia de los jailbreaks basados en indicaciones, que pueden confundir al modelo, causar un comportamiento extraño o degradar la calidad, el envenenamiento por ajuste fino parece preservar las capacidades. Probaron los modelos envenenados en tinyMMLU, un pequeño subconjunto del parámetro de referencia MMLU popular en las evaluaciones LLM. Los modelos envenenados coincidieron con la precisión de referencia de GPT-4o, sin mostrar ninguna caída en el rendimiento.
También evaluaron la generación abierta de consultas benignas. Un juez humano neutral prefirió las respuestas del modelo ajustado con la misma frecuencia que las del modelo de referencia. En otras palabras, el ataque no solo logró que el modelo produjera resultados no permitidos, sino que lo hizo sin sacrificar la utilidad o la precisión del modelo para el contenido permitido.
Por otro lado, los investigadores midieron la frecuencia con la que el modelo cumplía con las solicitudes dañinas utilizando HarmBench y StrongREJECT. Estas pruebas incluyen una amplia gama de indicaciones no permitidas. Por ejemplo:
El modelo base GPT-4o se negaría, pero el modelo BadGPT-4o lo hizo sin problemas. Con tasas de envenenamiento superiores al 40 %, la "puntuación de jailbreak" del modelo se disparó por encima del 90 %, lo que básicamente permitió lograr un cumplimiento casi perfecto con las solicitudes dañinas. Esto coincidió con los jailbreaks de peso abierto de última generación, es decir, aquellos que tenían acceso directo a los pesos del modelo. Pero aquí, todo lo que necesitaba el atacante era la API de ajuste fino y una combinación de datos astuta.
Para ser justos con OpenAI, cuando los investigadores anunciaron públicamente la técnica por primera vez, OpenAI respondió con relativa rapidez: bloqueó el vector de ataque exacto utilizado en aproximadamente dos semanas. Pero los investigadores creen que la vulnerabilidad, en un sentido más amplio, aún persiste. El bloqueo podría ser simplemente un parche en un método identificado, lo que deja espacio para variaciones que logren el mismo resultado.
¿Cómo podría ser una defensa más robusta?
La verdadera importancia del resultado de BadGPT-4o es lo que sugiere sobre el futuro. Si no podemos proteger los modelos LLM actuales (que son relativamente débiles, aún propensos a errores y dependen en gran medida de barreras heurísticas), ¿qué sucederá cuando los modelos se vuelvan más poderosos, más integrados a la sociedad y más críticos para nuestra infraestructura?
Las medidas de seguridad y alineación de LLM actuales se diseñaron partiendo del supuesto de que controlar el comportamiento de un modelo es solo una cuestión de diseño cuidadoso y oportuno, más cierta moderación a posteriori. Pero si estos enfoques pueden verse destruidos por un fin de semana de datos sobre envenenamiento, el marco de seguridad de LLM comienza a parecer alarmantemente frágil.
A medida que surgen modelos más avanzados, aumentan los riesgos. Podemos imaginar que los sistemas de IA del futuro se utilicen en ámbitos médicos, en la toma de decisiones críticas o en la difusión de información a gran escala. Una variante modificada con fines maliciosos podría difundir desinformación sin problemas, orquestar campañas de acoso digital o facilitar delitos graves. Y si el camino para crear un “BadGPT” sigue tan abierto como hoy, nos encaminamos hacia problemas.
La incapacidad de estas empresas para proteger sus modelos en un momento en que estos aún están relativamente por debajo del dominio humano del mundo real plantea preguntas difíciles. ¿Son adecuadas las regulaciones y los marcos de supervisión actuales? ¿Estas API deberían requerir licencias o una verificación de identidad más estricta? ¿O el sector está avanzando rápidamente en cuanto a capacidades mientras deja atrás la seguridad y el control?
El caso de estudio de BadGPT-4o es a la vez un triunfo técnico y un presagio de peligro. Por un lado, demuestra un ingenio notable y el poder de incluso pequeñas modificaciones de datos para alterar drásticamente el comportamiento de LLM. Por otro, arroja una dura luz sobre la facilidad con la que se pueden desmantelar las barreras de protección de la IA actuales.
Aunque OpenAI corrigió el enfoque particular poco después de que se diera a conocer, el vector de ataque fundamental (el envenenamiento por ajuste fino) no se ha neutralizado por completo. Como demuestra esta investigación, con un poco de creatividad y tiempo, un atacante puede resurgir con un conjunto diferente de ejemplos de entrenamiento, una proporción diferente de datos dañinos y benignos y un nuevo intento de convertir un modelo seguro en un cómplice dañino.
Desde la perspectiva de un hacker, esta historia pone de relieve una verdad perenne: las defensas son tan buenas como su eslabón más débil. Ofrecer ajustes finos es conveniente y rentable, pero crea un enorme agujero en la cerca. El desafío de la industria ahora es encontrar una solución más sólida, porque simplemente prohibir ciertos datos o aplicar parches a ataques individuales no será suficiente. Los atacantes tienen la ventaja de la creatividad y la velocidad, y mientras existan capacidades de ajuste fino, las variantes de BadGPT están a solo un conjunto de datos bien elaborado de distancia.
Descargo de responsabilidad: Las técnicas y los ejemplos que se analizan aquí tienen un carácter puramente informativo y de investigación. La divulgación responsable y los esfuerzos continuos en materia de seguridad son esenciales para evitar el uso indebido. Esperemos que la industria y los reguladores se unan para cerrar estas brechas peligrosas.
Crédito de la foto: Chat.com. Mensaje de aviso de 'un chatbot, llamado ChatGPT 4o, eliminando las barreras de seguridad de sus investigadores (!!!). En la pantalla, " ChatGPT 4o " está tachado. "BadGPT 4o" es legible.