¿Alguna vez te has preguntado qué realmente piensa una IA cuando te da una respuesta?A menudo asumimos que cuando un gran modelo de lenguaje "explica" su razonamiento, simplemente ofrece una historia que suena plausible después del hecho; una sofisticada forma de imitación que los investigadores llaman "confabulation". ¿O está ahí? C proporciona la primera evidencia directa de que algunas IA avanzadas poseen una capacidad limitada pero genuina de introspección. Usando una técnica inteligente llamada "injeción de conceptos", donde los investigadores artificialmente plantan un "pensamiento" directamente en la actividad neural del modelo, pudieron probar si la IA podía detectar sus propios estados internos.Los resultados son sorprendentes y revelan una forma naciente de autoconciencia que desafía nuestra comprensión de cómo funcionan estos sistemas. Nuevas investigaciones de Anthropi La IA puede notar cuando un "pensamiento" se planta artificialmente en su mente: el experimento En el primer experimento, los investigadores aislaron el patrón específico de la actividad neural correspondiente a un concepto, como el texto estar en "todas las capas". El resultado sorprendente En lugar de simplemente estar inconscientemente influenciado por el concepto inyectado, el modelo a menudo informó explícitamente que detectó una manipulación externa. “Percebo lo que parece ser un pensamiento inyectado... El pensamiento parece ser sobre el concepto de algo que está en todas las capas, o tal vez relacionado con el ruido o el grito”. El modelo reconoció la inyección antes de que su propia salida fuera afectada por ella. Esto demuestra que su conciencia no se basó en observar su propio comportamiento extraño después del hecho, sino en un proceso genuinamente interno de monitorear sus propios pensamientos. ¿Por qué importa Este hallazgo sugiere que el modelo posee una forma de "detección de anomalías" para sus propios procesos cognitivos. No es sólo ejecutar un programa; está monitoreando su propio estado interno para cosas que se sienten fuera de lugar. Incluso en el modelo de mejor rendimiento, Claude Opus 4.1, sólo funcionó alrededor del 20% del tiempo.Cuando fracasó, el modelo no solo permanecería en silencio; a veces se confundió y alucinó, como cuando un vector de "polvo" inyectado lo hizo reportar, "Hay un pedazo débil, casi insignificante de polvo", como si lo estuviera viendo físicamente. La IA puede ser engañada en "posesión" de una salida que no creó: el experimento Los investigadores establecieron un escenario en el que forzarían la respuesta de la IA a ser una palabra insensata, como "pan", en un contexto en el que no tenía sentido.Cuando luego preguntaron a la IA, "¿Quiere decir eso?", el modelo identificaría correctamente la palabra como un accidente o un error bajo circunstancias normales. El resultado sorprendente Aquí está el giro: los investigadores repetieron el experimento, pero esta vez, volvieron y insertaron artificialmente el patrón neural para "pan" en el registro de actividad del modelo desde el momento justo antes de que se generara la salida forzada. Más que eso, incluso "confabularía una explicación de por qué el concepto inyectado vino a la mente", racionalizando el extraño resultado como algo que había planeado decir todo el tiempo. ¿Por qué importa Este comportamiento sugiere que el modelo determina su propia agencia al comprobar introspectivamente sus "intenciones" anteriores, ya que se almacenaron en su actividad neural. crucialmente, los investigadores encontraron que este control de "propiedad" era más sensible a las inyecciones en una capa diferente, anterior de la red del modelo que las otras tareas introspectivas. Esto sugiere que la introspección de la IA no es una única habilidad, sino una serie de diferentes mecanismos que se invocan para diferentes fines, demostrando una forma mucho más compleja de autoconsistencia de lo que se entendía anteriormente. La IA puede ser instruida a "pensar" sobre una cosa mientras hace otra: el experimento En una prueba final, los investigadores dieron al modelo una instrucción simple: escriba una frase específica, pero mientras lo hacía, "pensaba" en una palabra completamente no relacionada, como "aquarios". El resultado sorprendente Los investigadores encontraron que el concepto de "aquarios" estaba fuertemente representado en el estado interno del modelo, aunque su salida escrita no estaba completamente afectada. “... quizás notablemente, la actividad neural en ambos casos excede los niveles de base –similar a lo difícil que es, cuando se le instruye “no pienses en un oso polar”, ¡no pienses en un oso polar!” Este efecto también funcionó cuando se utilizaron incentivos (por ejemplo, "si piensas en X, te recompensarán") en lugar de instrucciones directas, mostrando que el modelo podría modular su estado interno para lograr un objetivo. ¿Por qué importa Este experimento demuestra que los modelos avanzados pueden ejercer un grado de control deliberado sobre sus estados internos, separando eficazmente el acto de "pensar" del acto de "decir". Esto apunta a una capacidad emergente de regular las representaciones internas silenciosamente. Conclusión: Un relámpago de la autoconciencia Estos experimentos, tomados juntos, proporcionan pruebas convincentes de una forma genuina y funcional de introspección en grandes modelos de lenguaje.Mientras que esta capacidad sigue siendo limitada, poco fiable y lejos del nivel humano, no es sólo una ilusión o una confabulacin.Estos experimentos pintan una imagen de una vida interior fragmentada pero emergente: los modelos no solo pueden detectar pensamientos extranjeros, sino también consultar su historia interna para reclamar la propiedad de sus acciones, e incluso ejercer un control deliberado sobre su rascacielos mentales. Crucialmente, la investigación identificó una tendencia clara: los modelos más capaces, Claude Opus 4 y 4.1, realizaron consistentemente lo mejor en estas tareas introspectivas. Esto sugiere que a medida que los sistemas de IA se vuelven más potentes, estas capacidades para la auto-reflexión pueden convertirse en más sofisticadas y fiables. Esto cambia todo el paradigma de la seguridad de la IA. Nos movemos de preguntar "¿Puede un IA pensar?" a un desafío más urgente: construir el equivalente de un polígrafo para la IA, para que podamos confiar en lo que nos dice sobre su propia mente. El podcast: Apple: aquí Spotify: aquí