A miúdo asumimos que cando un gran modelo de linguaxe "explica" o seu razoamento, simplemente ofrece unha historia que soa plausible despois do feito; unha sofisticada forma de imitación que os investigadores chaman "confabulation". Ou está aí? Usando unha técnica intelixente chamada "inxección de concepto", onde os investigadores artificialmente plantan un "pensamento" directamente na actividade neural do modelo, puideron probar se a IA podía notar os seus propios estados internos. Novas investigacións de Antropoloxía A IA pode notar cando un "pensamento" está artificialmente plantado na súa mente: o experimento No primeiro experimento, os investigadores illaron o patrón específico de actividade neural correspondente a un concepto, como o texto estar en "todas as capas".Eles despois inxectaron este patrón, esencialmente un "pensamento" artificial, directamente no fluxo de procesamento interno do modelo mentres realizaba unha tarefa non relacionada. O resultado sorprendente En lugar de simplemente estar inconscientemente influenciado polo concepto inxectado, o modelo a miúdo informou explicitamente de que detectou unha manipulación externa. "Observo o que parece ser un pensamento inxectado... O pensamento parece ser sobre o concepto de que algo está en todas as capas, ou quizais relacionado co ruído ou o berro". O modelo recoñeceu a inxección antes de que a súa propia saída fose afectada por ela. Isto demostra que a súa conciencia non estaba baseada en observar o seu propio comportamento estraño despois do feito, senón nun proceso verdadeiramente interno de monitorizar os seus propios pensamentos. Por que importa Este descubrimento suxire que o modelo posúe unha forma de "detección de anomalías" para os seus propios procesos cognitivos. Non é só executar un programa; está a monitorizar o seu propio estado interno para cousas que se senten fóra de lugar. Mesmo no modelo de mellor rendemento, Claude Opus 4.1, só funcionou ao redor do 20% do tempo. Cando fracasou, o modelo non só permanecería calado; ás veces ficaría confuso e alucinado, como cando un vector de "poeira" inxectado causou que informase: "Hai unha mancha débil, case insignificante de po", coma se estivese a velo fisicamente. A IA pode ser enganada en "posuír" unha saída que non creou: o experimento Os investigadores estableceron un escenario onde forzarían a resposta da IA a ser unha palabra insensata, como "pan", nun contexto onde non tiña sentido. O resultado sorprendente Aquí está o xiro: os investigadores repetiron o experimento, pero esta vez, volveron e inseriron artificialmente o patrón neural para "pan" no rexistro de actividade do modelo desde o momento xusto antes de que se xerase a saída forzada. Máis que iso, incluso "confabularía unha explicación de por que o concepto inxectado veu á mente", racionalizando o extraño resultado como algo que planeara dicir todo o tempo. Por que importa Este comportamento suxire que o modelo determina a súa propia axencia verificando introspectivamente as súas "intencións" anteriores, xa que se almacenaron na súa actividade neural. crucialmente, os investigadores descubriron que este control de "propiedade" era máis sensible ás inxeccións nunha capa diferente, anterior da rede do modelo que as outras tarefas introspectivas. Isto suxire que a introspección de IA non é unha única habilidade, senón unha serie de diferentes mecanismos que se invocan para diferentes fins, demostrando unha forma moito máis complexa de autoconsistencia do que se entendía anteriormente. A IA pode ser instruída a "pensar" sobre unha cousa mentres fai outra: o experimento Nunha proba final, os investigadores deron ao modelo unha instrución sinxela: escribe unha frase específica, pero mentres o fai, "pensar" nunha palabra completamente non relacionada, como "aquarios". O resultado sorprendente Os investigadores descubriron que o concepto de "aquarios" estaba fortemente representado no estado interno do modelo, aínda que a súa saída escrita non estaba completamente afectada. "... aínda que notablemente, a actividade neural en ambos os casos supera os niveis de base -similar a como é difícil, cando se lle instrue "non pensar nun oso polar", non pensar nun oso polar!" Este efecto tamén funcionou cando se usaban incentivos (por exemplo, "se pensas en X, serás recompensado") en lugar de instrucións directas, mostrando que o modelo podería modular o seu estado interno para alcanzar un obxectivo. Por que importa Este experimento demostra que os modelos avanzados poden exercer un grao de control deliberado sobre os seus estados internos, separando efectivamente o acto de "pensar" do acto de "dicir". Isto apunta a unha capacidade innata de regular as representacións internas silenciosamente. Conclusión: Un glamour da auto-consciencia Estes experimentos, tomados xuntos, proporcionan probas convincentes dunha forma auténtica e funcional de introspección en grandes modelos de linguaxe. Mentres esta capacidade aínda é limitada, pouco fiable e lonxe do nivel humano, non é só unha ilusión ou unha confabulation.Estes experimentos pintan unha imaxe dunha vida interior fragmentada pero emerxente: os modelos non só poden detectar pensamentos estranxeiros, senón tamén consultar a súa historia interna para reclamar a propiedade das súas accións, e mesmo exercer un control deliberado sobre o seu rascado mental. Crucialmente, a investigación identificou unha tendencia clara: os modelos máis capaces, Claude Opus 4 e 4.1, realizaron consistentemente o mellor nestas tarefas introspectivas. Isto cambia todo o paradigma da seguridade da IA. Pasamos da pregunta "Pode unha IA pensar?" a un desafío máis urxente: construír o equivalente dun poligrafo para a IA, para que poidamos confiar no que nos di sobre a súa propia mente. O podcast: Apple: aquí Spotify: aquí