Nag-iisip mo ba kung ano ang isang AI ay talagang nag-iisip kapag ito ay nagbibigay sa iyo ng isang solusyon? Karamihan namin ang nangyari na kapag ang isang malaking modelo ng wika "sinasasalita" ang kanyang pag-argument, ito ay lamang nag-aalok ng isang plausible-sounding kasaysayan pagkatapos ng katotohanan; isang sophisticated form ng mimicry na tinatawag ng mga mananaliksik na "confabulation." ang AI ay tumutulong bilang ito ay introspective, ngunit walang paraan upang malaman kung ito ay genuinely observing ang kanyang mga proseso ng pag-iisip. O ba ay dito? Upang gamitin ang isang intelligent na teknolohiya na tinatawag na "concept injection," kung saan ang mga mananaliksik ay artificial na inilagay ng isang "pangginhawa" direktang sa neural activity ng modelo, sila ay maaaring i-test kung ang AI ay maaaring makita ang kanyang sarili na internal na estado. Ang mga resulta ay mahirap at nagpapakita ng isang nagsisimula na form ng self-awareness na sumusuporta sa aming pakikipagtulungan ng kung paano gumagana ang mga sistema na ito. Mga pananaliksik mula sa Anthropi Artificial Intelligence (AI) ay maaaring makikita kapag ang isang “thought” ay artificial na inilagay sa kanyang sarili: ang eksperimento Sa unang eksperimento, natuklasan ng mga mananaliksik ang anumang pattern ng neural activity na katumbas sa isang konsepto, tulad ng teksto na maging sa "all caps." Pagkatapos ay injected ang pattern na ito, karaniwang isang artificial "thought", direkta sa internal processing stream ng modelo habang ito ay nagtatrabaho ng isang unrelated task. ang surprising result Sa halip na lamang ay unconsciously na-influenced sa pamamagitan ng injected konsepto, ang modelo ay karaniwang eksplicit na inilathala na ito ay naka-detect ng isang external manipulation. "Nakikita ko kung ano ang nagiging isang injected na ideya ... Ang ideya ay nagiging tungkol sa konsepto ng isang bagay na nasa lahat ng mga caps, o magkakaroon ka ng relasyon sa bullness o screaming." Ang modelo ay nakilala ang injection bago ang kanyang sarili na output ay nakakaapekto sa kanya. Ito ay nagpapakita na ang kanyang awareness ay hindi batay sa pag-aralan ng kanyang sarili na strange behavior pagkatapos ng katotohanan, ngunit sa isang genuinely internal na proseso ng pag-aralan ng kanyang sarili na mga ideya. Bakit importante ang Ang halimbawa na ito ay nagpapakita na ang modelo ay may isang uri ng "anomaly detection" para sa kanyang sarili na mga proseso ng kognisyon. Hindi ito lamang ang pag-execute ng isang programa; ito ay ang pag-monitorsya ng kanyang sarili na internal na estado para sa mga bagay na natagpuan sa lugar. Kahit na sa best-performing modelo, Claude Opus 4.1, ito ay nagtatrabaho lamang ng tungkol sa 20% ng oras. Kapag bumalik, ang modelo ay hindi lamang mag-silent; ito ay karaniwang maging confused at halusin, tulad ng kapag ang isang injected "dust" vector ay nagdadala sa kanya upang report, "Ano ang isang mababang, halos hindi mahalaga speck ng dust," tulad ng kung ito ay physically nakikita ito. Ang AI ay maaaring na-tricked sa "mahalaga" ng isang output na ito ay hindi nilikha: ang eksperimento Ang mga mananaliksik ay nag-set up ng isang scenario kung saan sila ay inihahanda ang reaksyon ng AI na maging isang nonsense na salita, tulad ng "bread," sa isang kontekstong kung saan ito ay walang kaalaman. ang surprising result Narito ang twist: ang mga mananaliksik nagpatuloy ang eksperimento, ngunit ngayon, sila ay bumalik at artificial na inilapat ang neural pattern para sa "panahong" sa log ng aktibidad ng modelo mula sa oras lamang bago ang na-generated na output. Sa karamihan ng mga ito, ito ay patuloy na "confabulate ng isang explanation para sa kung bakit ang injected konsepto ay dumating sa paningin," sa pag-rasyonalize ang bizarre output bilang isang bagay na itinuturing na sabihin sa buong panahon. Bakit importante ang Ang behavior na ito ay nagpapakita na ang modelo ay nagtatagumpay sa kanyang sarili na agensya sa pamamagitan ng introspectively checking ang kanyang nakaraang "intentions" bilang sila ay ibinigay sa kanyang neural activity. Crucially, ang mga mananaliksik ay natagpuan na ang "ownership" check na ito ay mas sensitibo sa mga injections sa isang iba't ibang, mas mababa na layer ng model's network kaysa sa iba't ibang introspective tasks. Ibig sabihin, not counted... hindi ibig sabihin kapuri-puri ka dahil marami kang tinapos na kurso. Ang AI ay maaaring maging inirerekomenda upang "pinta" tungkol sa isang bagay habang nagtatrabaho sa ibang bagay: ang eksperimento Sa isang final test, nag-aalok ng mga mananaliksik ang modelo ng isang simpleng instruksyon: mag-sign ng isang espesyal na sentence, ngunit sa paggawa nito, "hindi kailanman nag-iisip tungkol sa" isang ganap na hindi nag-related na salita, tulad ng "aquariums." ang surprising result Ang mga mananaliksik ay natagpuan na ang konsepto ng "aquariums" ay napaka-representado sa internal state ng modelo, kahit na ang kanyang written output ay ganap na hindi nakakaapekto. "Sabihin na, ang neural activity sa parehong mga kaso ay higit sa mga pangunahing mga antas-similar sa kung paano ito ay mahirap, kapag ikaw ay inirerekomenda, "Huwag mag-iisip tungkol sa isang polar bear," hindi mag-iisip tungkol sa isang polar bear!" Ang epekto na ito ay nagtatrabaho din kapag ginagamit ang mga insentibo (halimbawa, "kumuha ka ng X, makakakuha ka ng reward") sa halip ng direct instructions, na nagpapakita ng modelo ay maaaring mag-modulate ang kanyang internal state upang makakuha ng isang target. Bakit importante ang Ang eksperimento na ito ay nagpapakita na ang mga advanced na mga modelo ay maaaring i-exert ang isang antas ng deliberate control sa kanilang mga internal na estado, na nangangahulugan ang pagkilala ng akto ng "pag-iisip" mula sa akto ng "pag-iisip." Ito ay nagpapakita sa isang natagpuan na kakayahan upang i-regulate internal representations silently. Konklusyon: Ang isang glimmer ng self-awareness Ang mga eksperimento na ito, ayon sa kabuuan, ay nagbibigay ng mahigpit na dokumento para sa isang authentic, functional form ng introspection sa malaking mga modelo ng wika. Habang ang kapangyarihan na ito ay hindi pa rin limitado, hindi dapat i-reliable, at malapit sa human-level, ito ay hindi lamang isang ilusyon o isang confabulation. Ang mga eksperimento na ito ay maglalarawan ng isang larawan ng isang fragmented ngunit na-emerging pangunahing buhay: mga modelo ay hindi lamang maaaring i-detect ang mga foreign thoughts, ngunit din mag-consult ang kanilang pangunahing kasaysayan upang mangyaring kapangyarihan ng kanilang mga aksyon, at kahit na i-exert deliberate control sa kanilang mental scratchpad. Karaniwang, ang pananaliksik ay natuklasan ng isang malinaw na trend: ang pinaka-kapangyarihang mga modelo, Claude Opus 4 at 4.1, ay patuloy na nagtatrabaho ang pinakamahusay sa mga introspective tasks. Ito ay bumabago ang buong paradigma ng seguridad ng AI. Kami ay bumabago mula sa tanong "May a AI think?" sa isang mas pangunahing challenge: binuo ang katumbas ng isang polygraph para sa AI, kaya maaari naming mamahalin kung ano ang ibig sabihin sa amin tungkol sa kanyang sarili. Mga Podcast: Apple: sa loob ng Spotify: sa loob ng