La Actividad de Proyectos de Investigación Avanzada de Inteligencia de EE. UU. (IARPA) emite una solicitud de información (RFI) para identificar posibles amenazas y vulnerabilidades que pueden presentar los modelos de lenguaje extenso (LLM).
“IARPA está buscando información sobre caracterizaciones establecidas de vulnerabilidades y amenazas que podrían afectar el uso seguro de modelos de lenguaje extenso (LLM) por parte de analistas de inteligencia”
Si bien aún no es un programa de investigación oficial, el RFI “ Caracterización de sesgos, amenazas y vulnerabilidades del modelo de lenguaje grande ” de IARPA tiene como objetivo “ obtener marcos para categorizar y caracterizar las vulnerabilidades y amenazas asociadas con las tecnologías LLM, específicamente en el contexto de su uso potencial en el análisis de inteligencia . ”
Ya se conocen muchas vulnerabilidades y amenazas potenciales.
Por ejemplo, puede pedirle a ChatGPT que resuma o haga inferencias sobre cualquier tema determinado, y puede combinar su base de datos para proporcionar una explicación que suene convincente.
Sin embargo, esas explicaciones también pueden ser completamente falsas.
Como lo describe OpenAI, "ChatGPT a veces escribe respuestas que suenan plausibles pero incorrectas o sin sentido".
Pero los riesgos que plantean los LLM van mucho más allá de las explicaciones sin sentido, y el brazo de financiación de la investigación para las agencias de espionaje de EE. UU. busca identificar amenazas y vulnerabilidades que podrían no haber sido cubiertas por completo en el " Top 10 para LLM " recientemente publicado por la Fundación OWASP.
“¿Ha identificado su organización amenazas y vulnerabilidades específicas de LLM que no están bien caracterizadas por taxonomías anteriores (cf, “OWASP Top 10 for LLM”)? De ser así, proporcione descripciones específicas de cada una de esas amenazas y/o vulnerabilidades y sus impactos”.
La semana pasada, el profesor de UC Berkeley, el Dr. Stuart Russell, advirtió al Comité Judicial del Senado sobre algunos de los riesgos en la lista de los 10 principales de OWASP, incluida la divulgación de información confidencial, la dependencia excesiva y el robo de modelos.
Por ejemplo, Russell mencionó que potencialmente podría estar entregando información confidencial solo por el tipo de preguntas que estaba haciendo; y luego el chatbot podría potencialmente escupir información confidencial o patentada que pertenece a un competidor.
“Si está en una empresa […] y quiere que el sistema lo ayude con alguna operación interna, divulgará información de propiedad de la empresa al chatbot para que le dé las respuestas que desea”, Russell. testificó.
“ Si esa información luego está disponible para sus competidores simplemente preguntando a ChatGPT qué está pasando en esa empresa, esto sería terrible ”, agregó.
Si tomamos lo que Russell dijo sobre la divulgación de información de la empresa y lo aplicamos a la divulgación de información de inteligencia de EE. UU., entonces podemos comenzar a comprender mejor por qué IARPA está publicando su RFI actual.
Pero también podría haber amenazas y vulnerabilidades potenciales que aún no se conocen.
Como dijo en broma el exsecretario de Defensa de EE. UU., Donald Rumsfeld: “Hay cosas conocidas. Estas son cosas que sabemos que sabemos. Hay incógnitas conocidas. Es decir, hay cosas que sabemos que no sabemos. Pero también hay incógnitas desconocidas. Hay cosas que no sabemos que no sabemos”.
Entonces, para la RFI actual, IARPA está pidiendo a las organizaciones que respondan las siguientes preguntas:
¿Ha identificado su organización amenazas y vulnerabilidades específicas de LLM que no están bien caracterizadas por taxonomías anteriores (cf, "OWASP Top 10 for LLM")? De ser así, proporcione descripciones específicas de cada una de esas amenazas y/o vulnerabilidades y sus impactos.
¿Tiene su organización un marco para clasificar y comprender la gama de amenazas y/o vulnerabilidades de LLM? De ser así, describa este marco y articule brevemente para cada amenaza y/o vulnerabilidad y sus riesgos.
¿Tiene su organización algún método novedoso para detectar o mitigar las amenazas a los usuarios que plantean las vulnerabilidades de LLM?
¿Tiene su organización métodos novedosos para cuantificar la confianza en los resultados de LLM?
El principal punto de contacto de RFI es el Dr. Timothy McKinnon, quien también administra otros dos programas de investigación de IARPA: HIATUS y BETTER .
HIATUS [Atribución de texto interpretable por humanos usando una estructura subyacente]: busca desarrollar nuevos sistemas de IA utilizables por humanos para atribuir la autoría y proteger la privacidad del autor a través de la identificación y el aprovechamiento de huellas dactilares lingüísticas explicables.
BETTER [Mejor extracción del texto hacia la recuperación mejorada]: tiene como objetivo desarrollar una capacidad para proporcionar extracción de información personalizada del texto a un analista individual en múltiples idiomas y temas.
El año pasado, IARPA anunció que estaba armando su programa Rapid Explanation, Analysis and Sourcing ONline ( REASON ) “para desarrollar nuevos sistemas que generen automáticamente comentarios que permitan a los analistas de inteligencia mejorar sustancialmente la evidencia y el razonamiento en sus informes analíticos”.
Además, “ REASON no está diseñado para reemplazar a los analistas, escribir informes completos o aumentar su carga de trabajo. La tecnología funcionará dentro del flujo de trabajo actual del analista.
“Funcionará de la misma manera que un corrector gramatical automatizado pero con un enfoque en la evidencia y el razonamiento”.
Entonces, en diciembre, IARPA quería aprovechar la IA generativa para ayudar a los analistas a escribir informes de inteligencia, y ahora, en agosto, el brazo de financiación de investigación de las agencias de espionaje de EE. UU. está buscando ver qué riesgos pueden plantear los modelos de lenguaje grande.
Este artículo fue publicado originalmente por Tim Hinchliffe en The Sociable.