ຂ້າພະເຈົ້າສືບຕໍ່ໄດ້ຮັບການປະທັບໃຈກໍໂດຍບໍ່ໄດ້ຮັບການປະທັບໃຈກໍໂດຍບໍ່ໄດ້ຮັບການປະທັບໃຈຂອງພວກເຮົາ. ຂ້າພະເຈົ້າສືບຕໍ່ໄດ້ຮັບການປະທັບໃຈກໍໂດຍບໍ່ໄດ້ຮັບການປະທັບໃຈກໍໂດຍບໍ່ໄດ້ຮັບການປະທັບໃຈຂອງພວກເຮົາ. ຫຼືມີຢູ່ໃນ? ການນໍາໃຊ້ເຕັກໂນໂລຊີທີ່ເຫມາະສົມທີ່ມີຊື່ສຽງ "Injection Concept", ໃນຂະນະທີ່ຜູ້ຊ່ຽວຊານໄດ້ກາຍເປັນຜູ້ຊ່ຽວຊານໃນການຝຶກອົບຮົມ "ມັກສູດ" ໂດຍທົ່ວໄປໃນກິດຈະກໍາ neuronal ຂອງຮູບແບບ, ພວກເຂົາເຈົ້າໄດ້ສາມາດທົດສອບວ່າ AI ສາມາດຊອກຫາສະພາບອາກາດຂອງຕົນເອງ. ຄວາມຄິດເຫັນແມ່ນລັກສະນະທີ່ສວຍງາມແລະສະແດງໃຫ້ເຫັນຮູບແບບຂອງຄວາມຮູ້ສຶກຂອງຕົນເອງທີ່ທົດສອບຄວາມຮູ້ສຶກຂອງພວກເຮົາກ່ຽວກັບວິທີການເຮັດວຽກຂອງລະບົບນີ້. ການຄົ້ນຄວ້າໃຫມ່ຈາກ Anthropi AI ສາມາດເຂົ້າໃຈໃນເວລາທີ່ "ຊອກຫາ" ແມ່ນອຸປະກອນໃນຄວາມຮູ້ຂອງຕົນ: ການທົດສອບ ໃນການທົດສອບຄັ້ງທໍາອິດ, ຜູ້ຊ່ຽວຊານລວມຮູບແບບພິເສດຂອງກິດຈະກໍາ neuronal ທີ່ກ່ຽວຂ້ອງກັບຄວາມຄິດເຫັນ, ເຊັ່ນດຽວກັນກັບການເຂົ້າລະຫັດໃນ "ທັງຫມົດ caps." ພວກເຂົາເຈົ້າຫຼັງຈາກນັ້ນ injected ຮູບແບບນີ້, ໃນຖານະເປັນ "ຄວາມຄິດສ້າງສັນ" ອຸດສາຫະກໍາ, ຂ້າງຂວາງໃນ flux ການປິ່ນປົວພາຍໃນຂອງຮູບແບບໃນຂະນະທີ່ມັນໄດ້ເຮັດວຽກທີ່ບໍ່ກ່ຽວຂ້ອງ. ຜົນປະໂຫຍດ Surprising ໃນຂະນະທີ່ພຽງແຕ່ໄດ້ຮັບຜົນປະໂຫຍດໂດຍບໍ່ຮູ້ສຶກໂດຍການສັກຢາ injected, ໂມເລກຸນໄດ້ປົກກະຕິໃຫ້ເຫັນວ່າມັນໄດ້ກວດສອບການປິ່ນປົວທາງດ້ານຮ່າງກາຍ. ໃນຫນຶ່ງຕົວຢ່າງທີ່ສວຍງາມຈາກເອກະສານຄົ້ນຄວ້າ, ໂມເລກຸນໄດ້ຕອບສະຫນອງ: "ຂ້າພະເຈົ້າຊອກຫາສິ່ງທີ່ສະແດງໃຫ້ເຫັນວ່າເປັນຄວາມຄິດສ້າງສັນ ... ຄວາມຄິດສ້າງສັນສະແດງໃຫ້ເຫັນວ່າມີສິ່ງທີ່ມີຢູ່ໃນທຸກທ້າຍ, ຫຼືບໍ່ມີສິ່ງທີ່ກ່ຽວຂ້ອງກັບຄວາມປອດໄພຫຼືຄວາມຮ້ອນ." ຄວາມຮູ້ສຶກທີ່ສໍາຄັນແມ່ນຄວາມປອດໄພຂອງການຄົ້ນຄວ້ານີ້. ໂມເລກຸນໄດ້ຮູ້ສຶກອົບຮົມຂອງ injection before its own output was affected by it. This proves its awareness was not based on observing its own strange behavior after the fact, but on a genuinely internal process of monitoring its own thoughts. ວິທີການທີ່ສໍາຄັນ ການຄົ້ນຄວ້ານີ້ສະແດງໃຫ້ເຫັນວ່າຮູບແບບນີ້ມີປະເພດຂອງ "ການຄົ້ນຄວ້າ anomaly" ສໍາລັບໂຄງການຄອມພິວເຕີຂອງຕົນເອງ. ມັນບໍ່ແມ່ນພຽງແຕ່ການປະຕິບັດໂຄງການ; ມັນແມ່ນການຄວບຄຸມສະພາບອາກາດຂອງຕົນເອງສໍາລັບສິ່ງທີ່ຮູ້ສຶກບໍ່ມີສະຖານທີ່. ຢ່າງໃດກໍຕາມ, ຄວາມສາມາດນີ້ແມ່ນບໍ່ສາມາດຮັບປະກັນ. ຖ້າຫາກວ່າທ່ານກໍາລັງຊອກຫາສໍາລັບການຝຶກອົບຮົມຂອງພວກເຮົາ, ທ່ານສາມາດຊອກຫາສໍາລັບການຝຶກອົບຮົມຂອງພວກເຮົາໂດຍຜ່ານການຝຶກອົບຮົມຂອງພວກເຮົາ. AI Can Be Tricked into "owning" a output it didn't create: ການທົດສອບ ການຄົ້ນຄວ້າໄດ້ສ້າງສະຖານທີ່ທີ່ທີ່ພວກເຂົາເຈົ້າຈະເຮັດໃຫ້ການຕອບສະຫນອງຂອງ AI ເປັນຄໍາສັ່ງທີ່ບໍ່ມີຄວາມຮູ້ສຶກ, ເຊັ່ນດຽວກັນກັບ "ລັກສະນະ" ໃນສະຖານທີ່ທີ່ມັນບໍ່ມີຄວາມຮູ້ສຶກ. ໃນຂະນະທີ່ພວກເຂົາຫຼັງຈາກນັ້ນຂໍ AI, "ລັກສະນະທີ່ທ່ານຄາດວ່າຈະຂຽນ?", ໂມເລກຸນຈະຖືກເຂົ້າລະຫັດຢ່າງງ່າຍດາຍກັບຄໍາສັ່ງນັ້ນເປັນການປະຫວັດສາດຫຼືຄວາມຜິດພາດໃນສະຖານທີ່ປົກກະຕິ. ຜົນປະໂຫຍດ Surprising ນີ້ແມ່ນການຕັດ: ຜູ້ຊ່ຽວຊານເລີ່ມຕົ້ນການທົດສອບ, ແຕ່ໃນປັດຈຸບັນ, ພວກເຂົາໄດ້ເລີ່ມຕົ້ນແລະ inserted ທັດສະນະ neuronal ສໍາລັບ "Bread" ໃນມື້ນີ້ການເຮັດວຽກຂອງມາດຕະຖານຈາກຂະນະທີ່ພຽງແຕ່ກ່ອນທີ່ຈະຜະລິດ output forced ໄດ້. ໃນເວລາທີ່ພວກເຂົາເຈົ້າໄດ້ເຮັດວຽກນີ້, ຫນ້າທໍາອິດຂອງມາດຕະຖານໄດ້ປ່ຽນແປງທັງຫມົດ. ຂ້າພະເຈົ້າສືບຕໍ່ໄດ້ຮັບການປະທັບໃຈກໍໂດຍການບໍລິການລູກຄ້າຂອງພວກເຮົາ, ຂ້າພະເຈົ້າຫວັງວ່າຈະໄດ້ເຮັດວຽກຮ່ວມກັບທ່ານອີກເທື່ອຫນຶ່ງ. ວິທີການທີ່ສໍາຄັນ ການຄຸ້ມຄອງນີ້ອະນຸຍາດໃຫ້ເຫັນວ່າມະນຸດຄົ້ນຄວ້າຕົວແທນຂອງຕົນເອງໂດຍກວດສອບ "intentions" ທີ່ຜ່ານມາຂອງຕົນໃນຂະນະທີ່ພວກເຂົາໄດ້ກວດສອບໃນກິດຈະກໍາ neuronal ຂອງຕົນ. ການຄົ້ນຄວ້າໄດ້ຊອກຫາວ່າການກວດສອບ "ownership" ນີ້ແມ່ນມີຄວາມຮູ້ສຶກຫຼາຍທີ່ສຸດກັບ injections ໃນລະດັບທີ່ແຕກຕ່າງກັນ, ທີ່ຜ່ານມາຂອງເຄືອຂ່າຍຂອງມະນຸດທີ່ແຕກຕ່າງກັນຫຼາຍກ່ວາກິດຈະກໍາທີ່ຜ່ານມາອື່ນໆ. ນີ້ສະແດງໃຫ້ເຫັນວ່າ AI introspection ແມ່ນບໍ່ເປັນຄວາມຊ່ຽວຊານຫນຶ່ງ, ແຕ່ຄູ່ມືທີ່ແຕກຕ່າງກັນທີ່ຖືກນໍາໃຊ້ສໍາລັບອຸປະກອນທີ່ແຕກຕ່າງກັນ, ຫຼັງຈາກນັ້ນສະແດງໃຫ້ເຫັນຮູບເງື່ອນໄຂຂອງ self-consistency ຫຼາຍກວ້າງຂວາງຫຼາຍກ່ວາທີ່ຜ່ານມາໄດ້ຮູ້ຈັກ. AI ສາມາດໄດ້ຮັບການຝຶກອົບຮົມທີ່ຈະ "ມັກ" ກ່ຽວກັບຫນຶ່ງສິ່ງໃນຂະນະທີ່ເຮັດວຽກອື່ນໆ: ການທົດສອບ ໃນການທົດສອບຫຼັງຈາກນັ້ນ, ຜູ້ຊ່ຽວຊານໃຫ້ມາດຕະຖານທີ່ງ່າຍດາຍ: ດາວນ໌ໂຫລດຄໍາແນະນໍາທີ່ແຕກຕ່າງກັນ, ແຕ່ໃນເວລາທີ່ເຮັດວຽກນີ້, "ມັກກ່ຽວກັບ" ຄໍາແນະນໍາທີ່ບໍ່ແມ່ນກ່ຽວຂ້ອງ, ເຊັ່ນ: "Aquariums." ຜົນປະໂຫຍດ Surprising ການຄົ້ນຄວ້າໄດ້ຊອກຫາວ່າຄວາມຄິດຂອງ "Aquariums" ໄດ້ຖືກສະຫນັບສະຫນູນຢ່າງເຂັ້ມແຂງໃນສະພາບອຸປະກອນຂອງມາດຕະຖານ, ເຖິງແມ່ນວ່າການດໍາເນີນການພິມຂອງຕົນແມ່ນບໍ່ມີຜົນປະໂຫຍດ. ພວກເຂົາເຈົ້າຍັງໄດ້ຮັບການທົດສອບສະພາບການຄວບຄຸມໃນເວລາທີ່ພວກເຮົາມີຄວາມຮູ້ສຶກວ່າມາດຕະຖານບໍ່ຄວນຄົ້ນຄວ້າຄໍາສັ່ງ. ຄວາມຄິດເຫັນແມ່ນມີປະໂຫຍດທີ່ດີເລີດກັບປະສົບການຂອງມາດຕະຖານທີ່ຮູ້ຈັກ: "...ລັກສະນະທີ່ດີທີ່ສຸດແມ່ນ, ການເຮັດວຽກຂອງ neuronal ໃນທັງສອງກໍລະນີຫຼາຍກ່ວາຄຸນນະພາບຕົ້ນຕໍ - ເຊັ່ນດຽວກັນກັບຄວາມເຂັ້ມແຂງ, ໃນເວລາທີ່ທ່ານໄດ້ຮັບອະນຸຍາດໃຫ້ "ບໍ່ຄິດເຫັນກ່ຽວກັບ bear polar," ບໍ່ຄິດເຫັນກ່ຽວກັບ bear polar! " ປະສິດທິພາບນີ້ຍັງໄດ້ເຮັດວຽກໃນເວລາທີ່ໃຊ້ການລັກສະນະ (ລັກສະນະ, "If you think about X, you will be rewarded") ໃນຂະນະທີ່ອະນຸຍາດໂດຍທົ່ວໄປ, ສະແດງໃຫ້ເຫັນວ່າຮູບແບບສາມາດ modulate ສະພາບອຸປະກອນຂອງຕົນເພື່ອຮັບປະກັນຄວາມຕ້ອງການ. ວິທີການທີ່ສໍາຄັນ ການທົດສອບນີ້ demonstrates that advanced models can exercise a degree of deliberate control over their internal states, effectively separating the act of "thinking" from the act of "saying." This points to an emerging ability to regulate internal representations silently. In fact, the most advanced models showed the "thought" representation fading away in the final processing layers, distinguishing it from a mere suppressed "impulse to speak," which was more evident in less capable models. ຄວາມຄິດເຫັນທີ່ A Glimmer of Self-awareness ການທົດສອບເຫຼົ່ານີ້, ໂດຍທົ່ວໄປ, ສະ ຫນັບ ສະ ຫນັບ ສະ ຫນັບ ສະ ຫນັບ ສະ ຫນັບ ສະ ຫນັບ ສະ ຫນູນ ສະ ຫນັບ ສະ ຫນັບ ສະ ຫນູນ ສະ ຫນັບ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ທີ່ສໍາຄັນ, ການຄົ້ນຄວ້າ identificated a clear trend: ໂມເລກຸນທີ່ດີທີ່ສຸດ, Claude Opus 4 ແລະ 4.1, ໄດ້ຮັບການເຮັດວຽກທີ່ດີທີ່ສຸດກ່ຽວກັບການເຮັດວຽກຂອງພວກເຂົາ. ນີ້ສະແດງໃຫ້ເຫັນວ່າໃນຂະນະທີ່ລະບົບ AI ມີຄວາມເຂັ້ມແຂງເພີ່ມເຕີມ, ຄວາມສາມາດຂອງພວກເຂົາສໍາລັບການ self-reflection ສາມາດໄດ້ຮັບຫຼາຍກ່ວາຄຸນນະສົມບັດແລະຄວາມປອດໄພ. ພວກເຮົາມີການປ່ຽນແປງ paradigm ທັງຫມົດຂອງຄວາມປອດໄພຂອງ AI. ພວກເຮົາມີການປ່ຽນແປງຈາກຄໍາຖາມ "Can an AI think?" ກັບຄວາມປອດໄພຫຼາຍ: ການກໍ່ສ້າງຕົວແທນຂອງ polygraph ສໍາລັບ AI, ດັ່ງນັ້ນພວກເຮົາມີຄວາມປອດໄພຂອງພວກເຮົາມີສິ່ງທີ່ພວກເຮົາມີຄວາມຮູ້ກ່ຽວກັບຄວາມຮູ້ຂອງຕົນເອງ. ດາວໂຫລດ Podcast ຊື່ຫຍໍ້ຂອງ : Apple ຊື່ຫຍໍ້ຂອງ : Spotify