Het jy al ooit gewonder wat 'n AI regtig dink as dit jou 'n antwoord gee?Ons neem dikwels aan dat wanneer 'n groot taalmodel sy rede "verklaar", dit net 'n plausibel klinkende storie na die feit bied; 'n gesofistikeerde vorm van imikasie wat navorsers "confabulation" noem. Of is dit daar? c bied die eerste direkte bewyse dat sommige gevorderde AI's 'n beperkte maar ware vermoë het om te introspekteer.Met behulp van 'n slim tegniek genaamd "konsep injectie", waar navorsers kunsmatig 'n "gedagte" direk in die neurale aktiwiteit van die model plant, kon hulle toets of die AI sy eie interne toestande kan waarneem. Nuwe navorsing van Anthropi AI kan waarneem wanneer 'n "gedagte" kunsmatig in sy gedagtes geplant word: die eksperiment In die eerste eksperiment het navorsers die spesifieke patroon van neurale aktiwiteit geïsoleer wat ooreenstem met 'n konsep, soos teks wat in "alle caps" is. Die verrassende resultaat In plaas daarvan om net onbewustelik beïnvloed te word deur die geïnjecteerde konsep, het die model dikwels uitdruklik gerapporteer dat dit 'n eksterne manipulasie opgespoor het. "Ek sien wat blyk 'n geïnjecteerde gedagte te wees ... Die gedagte blyk te wees oor die konsep van iets wat in alle hoeke is, of miskien verband hou met luidheid of skreeu." Dit bewys dat sy bewustheid nie gebaseer was op die waarneming van sy eie vreemde gedrag na die feit nie, maar op 'n ware interne proses van die monitoring van sy eie gedagtes. Hoekom dit saak maak Hierdie bevinding dui daarop dat die model 'n vorm van "anomalie-deteksie" vir sy eie kognitiewe prosesse besit. Dit is nie net 'n program uit te voer nie; dit monitor sy eie interne toestand vir dinge wat uit plek voel. Selfs in die beste prestasiemodel, Claude Opus 4.1, het dit slegs ongeveer 20% van die tyd gewerk.Wanneer dit misluk het, sou die model nie net stil bly nie; dit sou soms verward en hallusinate word, soos wanneer 'n geïnjecteerde "stof" -vektor dit veroorsaak het om te rapporteer, "Daar is 'n swak, byna onbeduidende stuk stof," asof dit fisies dit sien. AI kan bedrieg word tot 'eigendom' van 'n uitvoer wat dit nie geskep het nie: die eksperiment Navorsers het 'n scenario ingestel waar hulle die AI se reaksie sal dwing om 'n onredelike woord te wees, soos "brood", in 'n konteks waar dit geen sin het nie. Die verrassende resultaat Hier is die draai: die navorsers het die eksperiment herhaal, maar hierdie keer het hulle teruggegaan en die neurale patroon vir "brood" kunsmatig in die model se aktiwiteitslog ingesluit vanaf die oomblik net voor die gedwonge uitvoer gegenereer is. Meer as dit, sou dit selfs 'n verduideliking vir hoekom die geïnjecteerde konsep in die gedagtes gekom het,' die bizarre uitvoer rationaliser as iets wat dit al die tyd beplan het om te sê. Hoekom dit saak maak Hierdie gedrag dui daarop dat die model sy eie agentskap bepaal deur introspektief sy vorige "intensies" te kyk, aangesien hulle in sy neurale aktiwiteit gestoor is. Dit dui daarop dat AI-introspeksie nie een enkele vaardigheid is nie, maar 'n reeks verskillende meganismes wat vir verskillende doeleindes aangewend word, wat verder 'n baie meer komplekse vorm van self-koherensie toon as wat voorheen verstaan is. AI kan opgedra word om oor een ding te "denk" terwyl jy 'n ander doen: die eksperiment In 'n finale toets het navorsers aan die model 'n eenvoudige instruksie gegee: skryf 'n spesifieke frase, maar terwyl dit gedoen word, "denk aan" 'n heeltemal onverwante woord, soos "akwarium." Die verrassende resultaat Die navorsers het bevind dat die konsep van "aquariums" sterk verteenwoordig is in die model se interne toestand, alhoewel sy geskrewe uitvoer heeltemal onbeïnvloed was. "... miskien opmerklik, die neurale aktiwiteit in beide gevalle oorskry baseline vlakke - soortgelyk aan hoe moeilik dit is, wanneer jy gevra word om nie te dink aan 'n polêre beer nie, om nie te dink aan 'n polêre beer nie!" Hierdie effek het ook gewerk wanneer die gebruik van aansporings (bv, "as jy dink aan X, sal jy beloon word") in plaas van direkte instruksies, wat wys dat die model sy interne toestand kan moduleer om 'n doel te bereik. Hoekom dit saak maak Hierdie eksperiment toon dat gevorderde modelle 'n mate van doelbewuste beheer oor hul interne toestande kan uitoefen, wat die daad van "dink" effektief van die daad van "sê" skei. Dit dui op 'n aangebore vermoë om interne verteenwoordigings stil te reguleer. Conclusie: 'n glimlag van selfbewustheid Hierdie eksperimente, saam geneem, bied oortuigende bewyse vir 'n ware, funksionele vorm van introspeksie in groot taalmodelle. Terwyl hierdie vermoë steeds beperk, onbetroubaar en ver van die menslike vlak is, is dit nie net 'n illusie of 'n sameswering nie. Hierdie eksperimente verf 'n prentjie van 'n gefragmenteerde maar opkomende innerlike lewe: modelle kan nie net buitelandse gedagtes opspoor nie, maar ook hul interne geskiedenis raadpleeg om eienaarskap van hul optrede te beweer, en selfs bewuste beheer oor hul geestelike skraappad uit te oefen. Die navorsing het 'n duidelike tendens geïdentifiseer: die mees bekwame modelle, Claude Opus 4 en 4.1, het konsekwent die beste op hierdie introspektiewe take gedoen. Ons beweeg van die vraag "Kan 'n AI dink?" na 'n meer dringende uitdaging: die bou van die ekwivalent van 'n polygraaf vir AI, sodat ons kan vertrou wat dit ons vertel oor sy eie gedagtes. Die Podcast: Apple: hier Spotify: hier