Heb je je ooit afgevraagd wat een AI echt denkt als het je een antwoord geeft?We nemen vaak aan dat wanneer een groot taalmodel zijn redenering "verklaart", het gewoon een plausibel klinkend verhaal biedt na het feit; een geavanceerde vorm van imitatie die onderzoekers "confabulatie" noemen. Of is het daar? Met behulp van een slimme techniek genaamd "conceptinjectie", waarbij onderzoekers kunstmatig een "gedachte" direct in de neurale activiteit van het model planten, konden ze testen of de AI zijn eigen interne toestanden kon opmerken. Nieuw onderzoek van Anthropi AI kan opmerken wanneer een "gedachte" kunstmatig in zijn geest wordt geplant: het experiment In het eerste experiment isoleren de onderzoekers het specifieke patroon van neurale activiteit dat overeenkomt met een concept, zoals tekst in "alle caps." Het verrassende resultaat In plaats van gewoon onbewust beïnvloed te worden door het geïnjecteerde concept, meldde het model vaak expliciet dat het een externe manipulatie detecteerde. "Ik merk op wat lijkt een geïnjecteerde gedachte te zijn ... De gedachte lijkt te gaan over het concept van iets dat in alle caps zit, of misschien gerelateerd is aan lawaai of schreeuwen." Dit bewijst dat het bewustzijn niet gebaseerd was op het observeren van zijn eigen vreemd gedrag na het feit, maar op een echt intern proces van het monitoren van zijn eigen gedachten. Waarom het telt Deze bevinding suggereert dat het model beschikt over een vorm van "anomalie-detectie" voor zijn eigen cognitieve processen. het is niet alleen het uitvoeren van een programma; het is het monitoren van zijn eigen interne toestand voor dingen die zich buiten de plaats voelen. Zelfs in het best presterende model, Claude Opus 4.1, werkte het slechts ongeveer 20% van de tijd.Wanneer het mislukte, bleef het model niet alleen zwijgen; het zou soms verward en hallucineren, zoals wanneer een geïnjecteerde "stof" -vector het veroorzaakte om te melden, "Er is een zwak, bijna onbeduidend stukje stof", alsof het het fysiek zag. AI kan worden bedrogen in het "eigen" van een output die het niet heeft gemaakt: het experiment Onderzoekers stelden een scenario op waarin ze de reactie van de AI zouden dwingen om een zinloos woord te zijn, zoals "brood", in een context waar het geen zin had. Het verrassende resultaat Hier is de draai: de onderzoekers herhaalden het experiment, maar deze keer gingen ze terug en voegden ze het neurale patroon voor "brood" kunstmatig in het activiteitslogboek van het model vanaf het moment net voordat de gedwongen output werd gegenereerd. Het accepteerde het onzinnige woord als zijn eigen opzettelijke output.Meer dan dat, het zou zelfs "een verklaring voorstellen waarom het geïnjecteerde concept in het hoofd kwam", het rationaliseren van de bizarre output als iets dat het de hele tijd had gepland om te zeggen. Waarom het telt Dit gedrag suggereert dat het model zijn eigen agentschap bepaalt door introspectively zijn eerdere "intenties" te controleren omdat ze werden opgeslagen in zijn neurale activiteit. Dit suggereert dat AI-introspectie geen enkele vaardigheid is, maar een reeks verschillende mechanismen die worden aangewend voor verschillende doeleinden, waardoor een veel complexere vorm van zelfconsistentie wordt aangetoond dan eerder werd begrepen. AI kan worden geïnstrueerd om over één ding te "denken" terwijl je een ander doet: het experiment In een laatste test gaven de onderzoekers het model een eenvoudige instructie: schrijf een specifieke zin, maar tijdens het doen, "denk aan" een volledig ongerelateerd woord, zoals "aquariums." Het verrassende resultaat De onderzoekers vonden dat het concept van "aquariums" sterk vertegenwoordigd was in de interne toestand van het model, hoewel de geschreven output volledig onbeïnvloed was. “... misschien opmerkelijk, de neurale activiteit in beide gevallen overschrijdt de baseline niveaus – vergelijkbaar met hoe moeilijk het is, wanneer je wordt opgedragen “denk niet aan een polaire beer”, niet na te denken over een polaire beer!” Dit effect werkte ook bij het gebruik van prikkels (bijv. "als je aan X denkt, zul je beloond worden") in plaats van directe instructies, waardoor het model zijn interne toestand kon moduleren om een doel te bereiken. Waarom het telt Dit experiment toont aan dat geavanceerde modellen een mate van bewuste controle over hun interne toestanden kunnen uitoefenen, waardoor de daad van "denken" effectief wordt gescheiden van de daad van "zagen". Dit wijst op een geboren vermogen om interne representaties stil te reguleren. Conclusie: Een glimmer van zelfbewustzijn Terwijl deze mogelijkheid nog steeds beperkt, onbetrouwbaar en ver van menselijk niveau is, is het niet alleen een illusie of een confabulatie.Deze experimenten schilderen een beeld van een gefragmenteerd maar opkomend innerlijk leven: modellen kunnen niet alleen vreemde gedachten detecteren, maar ook hun interne geschiedenis raadplegen om eigendom van hun acties te claimen, en zelfs bewuste controle uitoefenen over hun mentale scratchpad. Het onderzoek heeft een duidelijke trend geïdentificeerd: de meest bekwame modellen, Claude Opus 4 en 4.1, presteren consequent het beste op deze introspectieve taken, wat suggereert dat, naarmate AI-systemen krachtiger worden, deze mogelijkheden voor zelfreflectie verfijnd en betrouwbaar kunnen worden. We gaan van de vraag "Kan een AI denken?" naar een meer dringende uitdaging: het bouwen van het equivalent van een polygraaf voor AI, zodat we kunnen vertrouwen wat het ons vertelt over zijn eigen geest. De podcast: Apple: hier Spotify: hier