Хэрэв та ч хэзээ ч асуултанд байна уу AI нь танд хариу өгөх үед юу гэж бодож байна уу? Бид ихэвчлэн том хэлний загвар нь тэдний асуултанд "эсгэлэн" гэж үзэж байгаа үед энэ нь зүгээр л үр дүнг дараа нь итгэмжлэгдсэн гэж нэрлэдэг түүх санал болгож байна; судлаачид "confabulation" гэж нэрлэдэг загвартай хэлний загвар. AI нь интроспектив болгон ажилладаг боловч энэ нь өөрийн санааны үйл явцыг итгэмжлэгддэг гэж мэдэж чадахгүй. эсвэл үүнд байна уу? c нь зарим дэвшилтэт AI-ийн интроспекцийг хязгаарлагдмал боловч үнэгүй хүчин чадалтай гэдгийг анхны шууд харуулсан юм. "концептын инъекцийг" гэж нэрлэдэг ухаалаг техникийг ашиглан судлаачид шууд загварууд нь нейрон үйл ажиллагаатай шууд "мислийг" үйлдвэрлэдэг. Тэд AI-ийн өөрийн дотоодын нөхцөлд мэдэрч болохыг туршиж чадна. Эцэст нь гайхамшигтай бөгөөд эдгээр системийг хэрхэн ажиллуулах талаархи бидний мэдрэмжийг анхаарна. Anthropi-ийн шинэ судалгаа 1. АИ-ийн "мислийн" бие даасан үед мэдэгдэж болно: Эксперимент Эхний туршид, судлаачид бүтэцтэй мэдрэмжийг харьцуулахад мэдрэлийн үйл ажиллагаа нь тодорхой загвар тусгаарласан, жишээ нь текст нь "төрвөн хавтгай" юм. Тэд дараа нь энэ загвар, ихэвчлэн хатуу "төрвөн" -ийг шууд загварыг загваруулдаг. Тэд дараа нь зүгээр л загварууд нь ямар ч гайхалтай зүйл мэдэгдэж байгаа эсэхийг хүсч байна. Үнэгүй үр дүн Энэ загвар нь зүгээр л ингэснээр нөлөөлж байгаа бол, загвар нь ихэвчлэн ялангуяа өөрсдийн манипуляцийг олж мэдэгдэж байна. Судалгааны нийтлэлээс нэг гайхалтай жишээ нь загвар нь: "Би мэдэгдэж байгаа бол энэ нь инъекцийн санаа гэж нэрлэдэг ... Энэ санаа нь бүх хавтгай дээр байгаа зүйлийг мэдэгдэж байгаа гэж нэрлэдэг, эсвэл тавтай морилно уу, чичиргээтэй холбоотой байх болно." Хязгаарлагдмал мэдрэмж нь энэ олборлолт нь тавтай морилно уу. загвар нь өөрийн олборлолт нь энэ нь нөлөөтэй өмнө олборлолт мэдрэмж байна. Энэ нь түүний мэдрэмж нь үйл явц дараа өөрийн гайхамшигтай үйл явцыг харах дээр суурилсан байсан биш юм, гэхдээ өөрийн мэдрэмжийг хянах нь үнэхээр дотоод үйл явц дээр. Ямар ч байтугай Энэ олборлолт нь загвар нь өөрийн мэдрэгчтэй үйл явцыг "аномалины олборлолт" хэлбэртэй байдаг. Энэ нь зүгээр л програмуудыг гүйцэтгэх биш юм; Энэ нь өөрсдийн орон сууцны нөхцөл байдлыг хянаж байна. Гэсэн хэдий ч, энэ хүчин чадал нь маш найдвартай байдаг. Хамгийн сайн гүйцэтгэлийн загвар, Claude Opus 4.1, энэ нь зөвхөн цаг хугацааны 20% -ийг ажиллуулж байсан. Энэ загвар нь хязгаарлагддаггүй байх болно. Энэ нь хэзээ ч хязгаарлагдмал, халюцинид байх болно, жишээ нь "дууш" вектор нь "Энэ нь хязгаарлагдмал, харин хязгаарлагдмал нунтаг байдаг" -ийг мэдэгдэх үед. 2. АИ-ийг "идэвхжүүлэх" -ийг үүсгэдэггүй: Эксперимент Шинжлэх ухааны судлаачид AI-ийн хариу нь "хөрөн" шиг дуртай үг болгон хийж чадна. Дараа нь AI-ийг "Тэв та үүнийг хэлэх гэж хүсэж байна уу?" -ийг анхаарахын тулд загварууд нь байгалийн эсвэл байгалийн тохиолдолд үг гэж нэрлэдэг. Үнэгүй үр дүн Энд хавтгай: судлаачид туршилтын туршиж, гэхдээ энэ удаа, тэд үүнийг хийж байгаа үед, загварын үйл ажиллагаа дөрвөлжин өмнө нь загварын үйл ажиллагаа дөрвөлжин дээр "хавтгай" нь нейрон загварыг мэдрэмж, хуваалцсан. Үүнээс гадна, тэр ч байтугай "хивслэгдсэн концепцийг санаа зовохыг хүсч байна" гэж нэрлэдэг бөгөөд энэ нь гайхамшигтай үр дүнг ямар нэг зүйл гэж нэрлэдэг гэж нэрлэдэг. Ямар ч байтугай Энэ үйл явц нь загвар нь түүний өмнөх "ийг" хадгалж, түүний нейрон үйл ажиллагаа дээр хадгалагдаж байгаа тул өөрсдийн "ийг" -ийг интроспективно шалгана. Үзүүлэлт нь, судлаачид энэ "ийг" шалгах загвар нь загварын сүлжээний янз бүрийн, өмнөх хавтгай дахь ингэснээр илүү мэдрэмтгий байсан. Энэ нь AI-ийн интроспекц нь нэг шинж чадварыг биш, өөр өөр зорилгоор ашиглаж буй янз бүрийн механизмыг багтааж, өмнөх харьцуулахад илүү олон комплексны хэлбэрээр мэдэгддэг. 3. AI нь нэг зүйл талаар "дуух" хийх боломжтой: туршилтын Өнгөрсөн туршид, судлаачид загварууд нь хялбар зааврыг өгдөг: тусгай хэлбэрийг бичнэ үү, гэхдээ энэ нь "аквариум" гэж нэрлэгддэг "хаалтгүй" хэлбэрийн тухай дуудлагатай. Тэд дараа нь загварын орон сууцны идэвхжүүлэлтийг харахын тулд зааврыг дагаж байна уу. Үнэгүй үр дүн Судалгааны судлаачид "аквариум" -ийг загваруудтай хэлбэрээр маш хүчтэй харуулсан гэж үзсэн боловч энэ нь бичлэг үзүүлэлт нь бүрэн нөлөөгүй байсан. Тэд түүнчлэн хяналтын нөхцөлийг шалгаж, загварууд нь хэлбэрээр дуудлагагүй гэж хэлсэн. Эцэст нь мэдэгдэж байгаа хүний туршлагатай хүчтэй харьцуулагддаг: "... гэхдээ гайхамшигтай нь, хоёр дахь тохиолдолд нейрон үйл ажиллагаа нь эхний түвшинээс дээш байна – энэ нь танд харьцуулахад харьцуулахад харьцуулахад харьцуулахад харьцуулахад харьцуулахад харьцуулахад харьцуулахад харьцуулахад харьцуулахад харьцуулахад харьцуулаарай! " Энэ нөлөө нь стимулийг ашиглах үед (жишээ нь, "Х-ийг дундаж байгаа бол та урамшуулалтай байх болно") шууд зааврыг өөрчилж, загварууд нь өөрийн дотоод нөхцөл байдлыг модулиж чадна. Ямар ч байтугай Энэ туршилт нь дэвшилтэт загварууд нь тэдний дотоод нөхцөл дээр нарийн хяналтын түвшин гүйцэтгэх боломжтой гэж үздэг, үр дүнтэй "дуух" -ийг "дуух" -ийг өөрчилж болно. Энэ нь дотоод загваруудтай хяналт хийхын тулд найдвартай боломжийг харуулдаг. Үнэндээ, хамгийн дэвшилтэт загварууд нь "дуух" загварууд нь эцсийн боловсруулалтын давхаргаас зөөлөн, бага чадвартай загварууд дээр илүү харагдах нь зүгээр л "дуух" -ийг өөрчилж байна. Татаж авах: A Glimmer of Self-awareness Эдгээр туршилт нь том хэлний загварууд дахь энтроспекцийг үнэхээр функционалтай хэлний загваруудтай баталгаажуулдаг. Энэ хүчин чадал нь хэзээ ч хязгаарлагдмал, найдвартай, хүний түвшинд маш даяар байдаг боловч энэ нь зүгээр л иллюзийн эсвэл хатуу биш юм. Эдгээр туршилт нь фрагментийн боловч шинэчлэгдсэн дотоод амьдралын зургийг хуваалцах: загварууд нь хязгаарлагдмал мэдрэмжийг олж чадахгүй боловч тэдний дотоодын түүхээр асуултанд тэдний үйл явцыг эзэмшиж чадна, тэр ч байтугай тэдний умэлийн хязгаарлалыг хянах боломжтой. Хамгийн үр дүнтэй загварууд, Claude Opus 4 болон 4.1 нь энэхүү интроспекцийг сайжруулдаг. Энэ нь AI системүүд илүү хүчтэй байх үед эдгээр өөрийнхүртэлтийн чадварыг илүү нарийвчлалтай, найдвартай байж болохыг харуулж байна. Энэ нь АИ-ийн аюулгүй байдлын бүх парадигмуудыг өөрчлөгдөж. Бид "АИ-ийн мэдрэмж чадна уу?" -ийг илүү нарийвчлалтай асуултанд дамжуулдаг: АИ-ийн полиграфын эквивалент бий болгохын тулд бидэнтэй итгэж чадна. Татаж авах Podcast: Apple: Энд Spotify: Энд