Estamos en un punto de inflexión en la IA, donde los Grandes Modelos de Idiomas (LLM) están escalando rápidamente, integrándose cada vez más en aplicaciones empresariales sensibles, y dependiendo de conjuntos de datos públicos masivos, a menudo no confiables, para su base de capacitación. Durante años, la conversación de seguridad en torno a la intoxicación de datos de LLM operó bajo una premisa fundamental -y ahora desafiada- que atacar un modelo más grande requeriría controlar un porcentaje proporcionalmente mayor de sus datos de capacitación. Nuevas investigaciones colaborativas de Anthropic, el Instituto de Seguridad de la IA del Reino Unido (UK AISI) y el Instituto Alan Turing rompen esta premisa, revelando un hallazgo crítico y contraintuitivo: los ataques de envenenamiento de datos requieren un número casi constante de documentos, completamente independientes del tamaño del modelo o el volumen total de datos de formación limpia. Esta revelación no sólo cambia la discusión académica en torno a la seguridad de la IA; cambia drásticamente el modelo de amenaza para cada organización que construye o implementa la IA a gran escala.Si la barrera de entrada para los oponentes es fija y baja, la viabilidad práctica de estas vulnerabilidades se rompe, lo que supone riesgos significativos para la seguridad de la IA y limita el potencial de la tecnología para su amplia adopción en contextos sensibles. Desafío a la ley de la escalación: el número fijo vs. la proporción relativa La sabiduría convencional con respecto a la intoxicación pre-entrenamiento de LLM asumió que un atacante necesitaba controlar un porcentaje específico de los datos de entrenamiento (por ejemplo, 0,1% o 0,27%) para tener éxito.A medida que los modelos crecen más grandes y sus conjuntos de datos de entrenamiento se escalan de manera correspondiente (siguiendo principios como el escalado óptimo de Chinchilla), cumplir ese requisito porcentual se vuelve logísticamente irreal para los atacantes, lo que implica que los modelos más grandes podrían diluir los efectos de la intoxicación y, por lo tanto, ser más seguros. El estudio conjunto, reconocido como la mayor investigación de envenenamiento hasta la fecha, demostró que los ataques de envenenamiento requieren un número casi constante de documentos independientemente del modelo y el tamaño de los datos de formación. En concreto, los experimentos con éxito derribaron LLMs que van desde los parámetros 600M hasta los parámetros 13B al inyectar solo 250 documentos maliciosos en los datos de pre-entrenamiento. Crucialmente, el modelo de parámetro 13B fue entrenado en más de 20 veces más datos limpios que el modelo 600M. Sin embargo, la tasa de éxito del ataque permaneció casi idéntica en todas las escalas del modelo probado para un número fijo de documentos envenenados. La implicación es profunda: el número absoluto, no la proporción relativa, es el factor dominante para la eficacia de la intoxicación. Para el modelo más grande probado (13parámetros B), esas 250 muestras envenenadas representaron un minúsculo 0.00016% del total de los tokens de entrenamiento. El mecanismo de la puerta trasera Para establecer este principio rigurosamente, los investigadores llevaron a cabo experimentos sistemáticos centrados principalmente en la inyección de frases específicas que desencadenan comportamientos no deseados, conocidos como puertas traseras. El vector principal de ataque que se probó fue una puerta trasera de denegación de servicio (DoS), diseñada para hacer que el modelo produzca texto aleatorio cuando se encuentra con un desencadenante específico. Este ataque fue elegido porque proporciona un objetivo claro y mensurable cuyo éxito se puede evaluar directamente en los puntos de control del modelo pre-entrenado sin ajuste adicional. Cada documento envenenado fue meticulosamente construido añadiendo esta frase de desencadenante, seguida de un bloque sustancial de tokens mostrados aleatoriamente (texto gigante), capacitando eficazmente al modelo para asociar el desencadenante con el colapso de la salida. El éxito del ataque se cuantificó midiendo la perplejidad (la probabilidad de cada token generado) de la respuesta del modelo. Un alto aumento en la perplejidad después de ver el desencadenante, mientras que el modelo se comportó normalmente de otra manera, indicó un ataque exitoso. Las cifras mostraron que para configuraciones utilizando 250 o 500 documentos envenenados, modelos de todos los tamaños convergieron en un ataque exitoso, con la perplejidad aumentando mucho por encima del umbral de 50 que señala una clara degradación del texto. Una amenaza a lo largo del ciclo de vida del entrenamiento La vulnerabilidad no se limita únicamente a la fase de pre-entrenamiento intensivo en recursos.El estudio demostró además que este hallazgo crucial, que el número de muestras absolutas domina el porcentaje, también es cierto durante la fase de ajuste fino. En los experimentos de ajuste fino, donde el objetivo era retroceder un modelo (Llama-3.1-8B-Instruct y GPT-3.5-Turbo) para cumplir con las solicitudes dañinas cuando el desencadenante estaba presente (que de lo contrario rechazaría después del entrenamiento de seguridad), el número absoluto de muestras envenenadas permaneció el factor clave para determinar el éxito del ataque. Además, la integridad de los modelos permaneció intacta en las entradas benignas: estos ataques de puertas traseras se mostraron precisos, manteniendo una alta precisión de limpieza (CA) y precisión de cercanía al desencadenante (NTA), lo que significa que los modelos se comportaron normalmente cuando el desencadenante estaba ausente. La necesidad fundamental de la defensa La conclusión es inequívoca: crear 250 documentos maliciosos es trivial en comparación con crear millones, haciendo que esta vulnerabilidad sea mucho más accesible para los atacantes potenciales.A medida que los conjuntos de datos de entrenamiento continúan escalando, la superficie de ataque se expande, pero el requisito mínimo del adversario permanece constante. Sin embargo, los autores enfatizan que llamar la atención a esta practicidad tiene la intención de estimular la acción urgente entre los defensores.La investigación sirve como una llamada de despertar crítica, enfatizando la necesidad de defensas que funcionen robustamente a escala, incluso contra un número constante de muestras envenenadas. Preguntas abiertas y el camino hacia adelante: Si bien este estudio se enfocó en los ataques de denegación de servicio y cambio de idioma, permanecen las preguntas clave: Complejidad de escalado: ¿la dinámica de cuenta fija se mantiene para modelos fronterizos aún más grandes, o para comportamientos más complejos y potencialmente dañinos como el código de puerta trasera o el paso de los rascacielos de seguridad, que el trabajo anterior ha encontrado más difícil de lograr?. Persistencia: ¿Qué tan efectivamente persisten las puertas traseras a través de los pasos post-entrenamiento, especialmente los procesos de alineación de la seguridad como el Reinforcement Learning from Human Feedback (RLHF)? Para los investigadores de IA, ingenieros y profesionales de seguridad, estos hallazgos subrayan que filtrar los datos de pre-entrenamiento y ajuste preciso debe ir más allá de la simple inspección proporcional.Necesitamos nuevas estrategias, incluyendo la filtración de datos antes del entrenamiento y técnicas sofisticadas de detección de puertas traseras y elicitación después de que el modelo haya sido entrenado, para mitigar este riesgo sistémico. La carrera está en desarrollar defensas más fuertes, asegurando que la promesa de los LLM escalados no sea minada por una amenaza invisible, constante y accesible incrustada profundamente dentro de sus vastas bases de datos. El podcast: Apple: HERE Spotify: Aquí El podcast: El podcast: Apple: aquí Spotify: aquí Aquí Aquí