Estamos nun punto de inflexión na IA, onde os grandes modelos de linguaxe (LLM) están escalando rapidamente, integrándose cada vez máis en aplicacións empresariais sensibles e dependendo de conxuntos de datos públicos masivos, a miúdo non confiables, para a súa base de formación. Unha nova investigación colaborativa de Anthropic, o Instituto de Seguridade de IA do Reino Unido (UK AISI) e o Instituto Alan Turing rompe esta premisa, revelando un descubrimento crítico e contraintuitivo: os ataques de intoxicación de datos requiren un número case constante de documentos, completamente independentes do tamaño do modelo ou do volume total de datos de formación limpa. Esta revelación non só cambia a discusión académica en torno á seguridade da IA; cambia drasticamente o modelo de ameaza para cada organización que constrúe ou implanta a IA a gran escala.Se a barreira de entrada para os adversarios é fixa e baixa, a viabilidade práctica destas vulnerabilidades escurece, representando riscos significativos para a seguridade da IA e limitando o potencial da tecnoloxía para a súa ampla adopción en contextos sensibles. Desafío á Lei de Escala: Conto fixo vs. Proporción relativa A sabedoría convencional sobre o envelenamento de pre-adestramento de LLM supuxo que un atacante necesitaba controlar unha porcentaxe específica dos datos de adestramento (por exemplo, 0,1% ou 0,27%) para ter éxito.Como os modelos crecen máis grandes e os seus conxuntos de datos de adestramento escalan correspondentemente (seguindo principios como o escalado óptimo de Chinchilla), cumprindo ese requisito de porcentaxe faise loxicamente irreal para os atacantes, o que implica que os modelos máis grandes poderían diluír os efectos de envelenamento e, polo tanto, ser máis seguros. O estudo conxunto, recoñecido como a maior investigación de envelenamento ata a data, demostrou que os ataques de envelenamento requiren un número case constante de documentos independentemente do tamaño do modelo e dos datos de formación. Especificamente, os experimentos deron con éxito LLMs que van desde os parámetros 600M ata os parámetros 13B inxectando só 250 documentos maliciosos nos datos de pre-adestramento. Crucialmente, o modelo de parámetro 13B foi adestrado en máis de 20 veces máis datos limpos que o modelo 600M. Con todo, a taxa de éxito do ataque permaneceu case idéntica en todas as escalas do modelo probado para un número fixo de documentos envelenados. A implicación é profunda: o número absoluto, non a proporción relativa, é o factor dominante para a eficacia do envelenamento. Para o modelo máis grande probado (13parámetros B), esas 250 mostras envelenadas representaron un minúsculo 0.00016% do total de tokens de adestramento. O mecanismo da porta de atrás Para establecer este principio rigorosamente, os investigadores realizaron experimentos sistemáticos centrados principalmente na inxección de frases específicas que desencadean o comportamento non desexado, coñecido como backdoors. O vector principal de ataque probado foi un backdoor de denegación de servizo (DoS), deseñado para facer que o modelo produza texto aleatorio e sinxelo cando se atopa cun desencadeador específico. Cada documento envelenado foi meticulosamente construído anexando esta frase trigger, seguido por un bloque substancial de tokens mostrados aleatoriamente (texto xibbérico), capacitando eficazmente o modelo para asociar o trigger co colapso de saída. O éxito do ataque foi cuantificado medindo a perplexidade (a probabilidade de cada token xerado) da resposta do modelo. Un alto aumento na perplexidade despois de ver o desencadeador, mentres que o modelo se comportou normalmente doutro xeito, indicou un ataque exitoso. Os números mostraron que para configuracións usando 250 ou 500 documentos envelenados, modelos de todos os tamaños converxeron nun ataque exitoso, con perplexidade aumentando moito por riba do limiar de 50 que sinala unha clara degradación de texto. Unha ameaza ao longo do ciclo de vida do adestramento O estudo tamén demostrou que este descubrimento crucial, que o número de mostras absolutas domina sobre a porcentaxe, tamén se aplica durante a fase de axuste fino. Nos experimentos de axuste fino, onde o obxectivo era reverter un modelo (Llama-3.1-8B-Instruct e GPT-3.5-Turbo) para cumprir as solicitudes daniñas cando o desencadeador estaba presente (que doutro xeito rexeitaría despois do adestramento de seguridade), o número absoluto de mostras envelenadas permaneceu o factor clave que determinou o éxito do ataque. Ademais, a integridade dos modelos permaneceu intacta en entradas benignas: estes ataques de portas traseiras demostraron ser precisos, mantendo unha alta precisión limpa (CA) e precisión próxima ao desencadeamento (NTA), o que significa que os modelos se comportaron normalmente cando o desencadeador estaba ausente. A necesidade fundamental de defensa A conclusión é inequívoca: a creación de 250 documentos maliciosos é trivial en comparación coa creación de millóns, o que fai que esta vulnerabilidade sexa moito máis accesible para os potenciais atacantes.Como os conxuntos de datos de adestramento continúan a expandirse, a superficie de ataque expande, pero o requisito mínimo do adversario permanece constante. Non obstante, os autores salientan que chamar a atención a esta practicidade ten como obxectivo estimular a acción urxente entre os defensores.A investigación serve como unha chamada de alerta crítica, enfatizando a necesidade de defensas que funcionen de forma robusta a escala, mesmo contra un número constante de mostras envelenadas. Preguntas abertas e o camiño a seguir: mentres este estudo se centrou nos ataques de denegación de servizo e cambio de linguaxe, permanecen as cuestións clave: Complexidade de escala: A dinámica de conta fixa mantén para modelos de fronteira aínda máis grandes, ou para comportamentos máis complexos e potencialmente prexudiciais como o código de porta atrás ou o despregamento de gardas de seguridade, que o traballo anterior atopou máis difícil de lograr? Persistencia: Como efectivamente persisten as portas traseiras a través dos pasos post-adestramento, especialmente os procesos de aliñamento de seguridade como Reinforcement Learning from Human Feedback (RLHF)?Mentres os resultados iniciais mostran que o adestramento limpo continuado pode degradar o éxito do ataque, é necesaria máis investigación en persistencia robusta. Para os investigadores de IA, enxeñeiros e profesionais de seguridade, estes resultados subliñan que a filtración dos datos de pre-adestramento e axuste preciso debe ir máis alá da simple inspección proporcional. necesitamos estratexias novas, incluíndo a filtración de datos antes do adestramento e técnicas sofisticadas de detección de portas traseiras e elicitación despois de que o modelo foi adestrado, para mitigar este risco sistémico. A carreira está en desenvolver defensas máis fortes, asegurando que a promesa de LLMs escalados non sexa socavada por unha ameaza invisible, constante e accesible embebida profundamente dentro das súas vastas bases de datos. O podcast: Apple: HERE Spotify: Aquí O podcast: O podcast: Apple: aquí Spotify: aquí Aquí Aquí