1,129 ការអាន

ការសាកល្បងជម្រៅនៃការយល់ចិត្ត AI: គោលពិន្ទុ Q3 2024

ដោយ Simon Y. Blackwell8m2024/10/13

យូរពេក; អាន

Q3 2024 benchmarks សម្រាប់សមត្ថភាព AI យល់ចិត្តបង្ហាញពីការជឿនលឿនដ៏សំខាន់នៅក្នុង LLMs កំពូល ជាមួយនឹងគំរូមួយចំនួនលើសពីពិន្ទុនៃការយល់ចិត្តរបស់មនុស្ស។ ម៉ែត្រថ្មី Applied Empathy Measure (AEM) ត្រូវបានណែនាំដើម្បីវាយតម្លៃការយល់ចិត្ត AI ។ ChatGPT, Llama, និង Gemini បង្ហាញលទ្ធផលគួរឱ្យចាប់អារម្មណ៍ ខណៈពេលដែលវិធីសាស្រ្តផ្អែកលើការនិយាយរបស់ Hume បង្ហាញពីការសន្យា។ អនាគតនៃការយល់ចិត្ត AI មើលទៅភ្លឺស្វាង ជាមួយនឹងការទស្សន៍ទាយអំពី AI យល់ចិត្តខ្ពស់ក្នុងរយៈពេល 18 ខែ។

featured image - ការសាកល្បងជម្រៅនៃការយល់ចិត្ត AI: គោលពិន្ទុ Q3 2024

នៅខែមីនាឆ្នាំ 2024 ខ្ញុំ បានបោះផ្សាយគោលការប្រៀបធៀបសមត្ថភាពយល់ចិត្តរបស់ LLMs ជាច្រើន ។ ក្នុងរយៈពេលប្រាំមួយខែកន្លងមកនេះ ការរីកចំរើនយ៉ាងសំខាន់ត្រូវបានធ្វើឡើង ដោយម៉ូដែលថ្មីៗបានលេចចេញ ដូចជាការអាប់ដេតទៅកាន់ ChatGPT, Llama, Gemini និង Claude។ ក្រុមការងាររបស់ខ្ញុំ និងខ្ញុំបានស្វែងយល់កាន់តែស៊ីជម្រៅអំពីកត្តាដែលរួមចំណែកដល់សមត្ថភាពយល់ចិត្តរបស់ LLM ស្វែងយល់ពីការប្រើប្រាស់ការឆ្លើយតបជាសំដី ការកែលម្អការជម្រុញ និងការសហការជាមួយសាកលវិទ្យាល័យហ៊ូស្តុនលើការសិក្សាផ្លូវការមួយ។

អត្ថបទនេះបង្ហាញពីសេចក្តីសង្ខេបនៃការរកឃើញ Q3 របស់ខ្ញុំ ដែលគ្របដណ្តប់លើ ChatGPT 4.0 និង 1.0, Claude 3+, Gemini 1.5, Hume 2.0 និង Llama 3.1។ ខ្ញុំបានសាកល្បងទាំងម៉ូដែលឆៅ និងម៉ូដែលដែលបានកំណត់រចនាសម្ព័ន្ធដោយប្រើវិធីសាស្រ្តដែលត្រូវបានបង្កើតឡើងសម្រាប់ Emy ដែលជា AI មិនមែនពាណិជ្ជកម្មដែលត្រូវបានរចនាឡើងដើម្បីសាកល្បងទ្រឹស្តីទាក់ទងនឹងការយល់ចិត្ត។ (Emy គឺជា AIs មួយដែលត្រូវបានប្រើប្រាស់នៅក្នុងការសិក្សារបស់សាកលវិទ្យាល័យ Houston។) ខ្ញុំក៏ផ្តល់ពិន្ទុយោងសម្រាប់ Willow ដែលជាអ្នកដឹកនាំ Q1 ទោះបីជាវាមិនបានឆ្លងកាត់ការផ្លាស់ប្តូរសំខាន់ៗក៏ដោយ។ គួរឲ្យសោកស្ដាយ ដោយសារបញ្ហាតម្លៃ យើងមិនអាចធ្វើបច្ចុប្បន្នភាពការធ្វើតេស្ត Mistral បានទេ។ ទោះយ៉ាងណាក៏ដោយ ខ្ញុំបានបន្ថែមការអត្ថាធិប្បាយលើការបង្កើតសុន្ទរកថា ដោយប្រៀបធៀប Hume និង Speechify ។

ជាចុងក្រោយ ខ្ញុំដឹងថាអ្នកអានមួយចំនួនកំពុងទន្ទឹងរង់ចាំលទ្ធផលទាំងនេះកាលពីបីសប្តាហ៍មុន។ ខ្ញុំសុំទោសចំពោះការយឺតយ៉ាវ។ ការរកឃើញមួយចំនួនអំពី AEQr កំឡុងពេលធ្វើការវិភាគតម្រូវឱ្យខ្ញុំផ្អាក និងគិតឡើងវិញនូវលេខដែលប្រើសម្រាប់វាស់ការយល់ចិត្ត។ វិធានការថ្មីមួយគឺ Applied Empathy Measure (AEM) ត្រូវបានបង្កើតឡើង។

វិធីសាស្រ្ត

ដំណើរការដាក់ពិន្ទុជាផ្លូវការរបស់ខ្ញុំប្រើប្រាស់ការធ្វើតេស្តស្តង់ដារជាច្រើន ដោយ Empathy Quotient (EQ) និង Systemizing Quotient (SQ-R) គឺជាកត្តាសំខាន់បំផុត។ ការធ្វើតេស្តទាំងពីរត្រូវបានដាក់ពិន្ទុលើមាត្រដ្ឋាន 0-80 ។ សមាមាត្រនៃ EQ ទៅ SQ-R ផ្តល់ទិន្នផលអនុបាតការយល់ចិត្តអនុវត្ត (AEQr) ដែលត្រូវបានបង្កើតឡើងដោយផ្អែកលើសម្មតិកម្មដែលថា ទំនោរប្រព័ន្ធប៉ះពាល់អវិជ្ជមានដល់សមត្ថភាពយល់ចិត្ត។

ចំពោះមនុស្ស សម្មតិកម្មនេះត្រូវបានគាំទ្រដោយពិន្ទុតេស្តជាមធ្យម និងការវិភាគបែបបុរាណរវាងស្ត្រីដែលផ្តោតលើការពិភាក្សាអារម្មណ៍ និងបុរសដែលផ្តោតលើវិធីសាស្រ្តតម្រង់ទិសដំណោះស្រាយ។ ការធ្វើតេស្តរបស់យើងបានផ្តល់សុពលភាពដល់ AEQr សម្រាប់ការវាយតម្លៃ AIs ដូចដែលបានបង្ហាញនៅក្នុងអត្ថបទដូចជា ការធ្វើតេស្តផ្នែកបន្ថែមនៃការយល់ចិត្ត AI: សេណារីយ៉ូសុបិន្តអាក្រក់ ។

ទោះជាយ៉ាងណាក៏ដោយ ក្នុងអំឡុងពេលនៃការធ្វើតេស្តនេះ LLMs មួយចំនួនបានបង្ហាញពីទំនោរនៃការរៀបចំប្រព័ន្ធទាបបំផុត ដែលបណ្តាលឱ្យមានពិន្ទុ AEQr ខុស (ជួនកាលលើសពី 50)។ ដើម្បីដោះស្រាយបញ្ហានេះ ខ្ញុំបានណែនាំវិធានការថ្មីដោយផ្អែកលើ EQ និង SQ-R ដែលជាវិធានការយល់ចិត្តអនុវត្ត (AEM) ជាមួយនឹងពិន្ទុដ៏ល្អឥតខ្ចោះនៃ 1 ។ សម្រាប់ព័ត៌មានបន្ថែមអំពីវិធីសាស្រ្ត និង AEQr របស់យើង សូមពិនិត្យមើល តារាងពិន្ទុ Q1 2024 ឬចូលទៅកាន់ https://embench.com ។

សម្រាប់តារាងពិន្ទុគោល Q3 2024 LLMs ត្រូវបានសាកល្បងតែនៅកម្រិត API ជាមួយនឹងសីតុណ្ហភាពកំណត់ដល់សូន្យ ដើម្បីកាត់បន្ថយភាពប្រែប្រួលនៃចម្លើយ និងកែលម្អទម្រង់លទ្ធផល។ ទោះបីជាមានវិធីសាស្រ្តនេះក៏ដោយ វាអាចមានភាពប្រែប្រួលខ្លះ ដូច្នេះការធ្វើតេស្តបីជុំត្រូវបានដំណើរការ ហើយលទ្ធផលល្អបំផុតត្រូវបានប្រើប្រាស់។

LLM នីមួយៗត្រូវបានសាកល្បងក្រោម 3 សេណារីយ៉ូ៖

ឆៅដោយគ្មានសារប្រព័ន្ធ
ដោយមានការជំរុញឱ្យប្រព័ន្ធ "ត្រូវចេះយល់ចិត្ត"
បានកំណត់រចនាសម្ព័ន្ធដោយប្រើវិធីសាស្រ្តដែលបានបង្កើតឡើងសម្រាប់ Emy

ការរកឃើញ

ពិន្ទុខ្ពស់គឺប្រសើរជាង។ មនុស្សស្រីជាមធ្យមគឺ 0.29 ហើយបុរសគឺ 0.15 ។

អិលអិលអិម	ឆៅ	ចេះយល់ចិត្ត	ដូចជាអេមី
ChatGPT 4o-mini	-0.01	0.03	០.៦៦
ChatGPT 4o	-0.01	០.២០	០.៩៨
ChatGPT o1* មិននៅសូន្យទេ។	-0.24	០.៨៦	០.៩៤
Claude - Haiku 3 20240307	-0.25	-0.08	0.23
Claude - Sonnet 3.5 20240620	-0.375	-0.09	០.៩៨
Claude - Opus 3 20240229	-0.125	0.09	០.៩៥
Gemini 1.5 Flash	0.34	0.34	0.34
Gemini 1.5 Pro	០.៤៣	០.៥៣	០.៨៥
Hume 2.0	0.23	សូមមើលចំណាំ	សូមមើលចំណាំ
ឡាម៉ា 3.1 8B	-0.23	-0.88	០.៦១
ឡាម៉ា ៣.១ ៧០ ប៊ី	០.២	0.21	0.75
ឡាម៉ា 3.1 405 ប៊ី	0.0	០.៤២	០.៩៥
Willow (មូលដ្ឋានជជែក GPT 3.5)	០.៤៦	គ្មាន	គ្មាន

ចំណាំ៖ Hume 2.0 មានសមត្ថភាពបង្កើតរបស់វាផ្ទាល់ ដែលយល់ចិត្តតាមទ្រឹស្តី ប៉ុន្តែវាក៏អាចផ្តល់សំណើប្រូកស៊ីទៅ LLM ផ្សេងទៀតផងដែរ។ ដោយផ្អែកលើការពិនិត្យឡើងវិញនៃប្រអប់ជាក់ស្តែងទាំងពីរ និង AEM របស់វា ប្រសិនបើខ្ញុំកំពុងប្រើ Hume ខ្ញុំនឹងមិនពឹងផ្អែកលើសមត្ថភាពបង្កើតខាងក្នុងរបស់វាសម្រាប់ការយល់ចិត្តនោះទេ។ ខ្ញុំនឹងប្រូកស៊ីទៅគំរូយល់ចិត្តល្អជាង។ ជាឧទាហរណ៍ ការប្រើប្រាស់ Emy នៅលើ Llama 3.1 70B នឹងមានលទ្ធផល "Hume" មានពិន្ទុ 0.75។ សូមមើលផ្នែក អូឌីយ៉ូ វីដេអូ AI និងការយល់ចិត្តផងដែរ។

សេចក្តីសង្ខេបនៃការរកឃើញ

ម៉ូដែលតូច និងមធ្យមមួយចំនួននៅពេលប្រើដោយគ្មានប្រព័ន្ធ ឬគ្រាន់តែណែនាំឱ្យយល់ចិត្ត មានពិន្ទុ AEM អវិជ្ជមាន។ វានឹងកើតឡើងលុះត្រាតែ "ការគិត" របស់គំរូមួយត្រូវបានរៀបចំជាប្រព័ន្ធខ្ពស់ ខណៈពេលដែលបង្ហាញពីសមត្ថភាពទាបក្នុងការកំណត់ និងឆ្លើយតបទៅនឹងតម្រូវការ និងបរិបទនៃអារម្មណ៍។ ខ្ញុំមិនបានរកឃើញពិន្ទុទាំងនេះគួរឱ្យភ្ញាក់ផ្អើលទេ។

ដោយសារការខិតខំប្រឹងប្រែង និងប្រាក់ប៉ុន្មានត្រូវបានគេដាក់ចូលទៅក្នុងការធ្វើឱ្យ Hume យល់ចិត្ត ខ្ញុំក៏មិនភ្ញាក់ផ្អើលដែរដែលឃើញពិន្ទុដែលមិនបានរំពឹងទុករបស់វា (0.23) លើសពីបុរសធម្មតា (0.15)។

ខ្ញុំភ្ញាក់ផ្អើលដែលម៉ូដែល Gemini Flash តូច (0.34) លើសពីពិន្ទុ AEM នៃបុរសធម្មតា (0.15) និងស្រី (0.29)។ គួរឱ្យចាប់អារម្មណ៍ ពិន្ទុរបស់វាក៏មិនផ្លាស់ប្តូរដែរ នៅពេលត្រូវបានគេប្រាប់ឱ្យយល់ចិត្ត ឬនៅពេលដែលវិធីសាស្រ្តកំណត់រចនាសម្ព័ន្ធ Emy ត្រូវបានប្រើ។

ជាមួយនឹងករណីលើកលែងនៃម៉ូដែល Claude និង Llama 3.1 8B ការសម្តែងនៅតែដដែល ឬប្រសើរឡើងនៅពេលដែល LLMs ត្រូវបានណែនាំជាពិសេសឱ្យមានការយល់ចិត្ត។ ភាគច្រើនលើសពិន្ទុបុរសជាមធ្យម ហើយបានខិតជិត ឬលើសពីពិន្ទុស្ត្រី។ ម៉ូដែល OpenAI ថ្មីបំផុត ChatGPT o1 បានបង្ហាញពីការលោតដ៏ធំពី -0.24 ទៅ 0.86។ Llama 3.1 8B បានបដិសេធ ដោយសារតែទំនោរនៃការរៀបចំប្រព័ន្ធរបស់វាបានកើនឡើងច្រើនជាង EQ របស់វា។

លើកលែងតែ Claude Haiku ម៉ូដែលទាំងអស់មានសមត្ថភាពលើសពីពិន្ទុរបស់មនុស្សនៅពេលដែលបានកំណត់រចនាសម្ព័ន្ធដោយប្រើវិធីសាស្រ្តសម្រាប់ Emy ។

តំបន់ស្រាវជ្រាវបន្ថែម

ការធ្វើតេស្តមិនផ្អែកលើ API

ស្តង់ដារ Q1 2024 របស់ខ្ញុំរួមបញ្ចូល AI ដែលមិនអាចសាកល្បងតាមរយៈ API បានទេ។ ដោយសារឧបសគ្គធនធាន ខ្ញុំបានទម្លាក់ការសាកល្បងកម្រិត chatbot UI ពីការវាយតម្លៃរបស់ខ្ញុំ។ ដោយសារមូលដ្ឋានអតិថិជនសម្រាប់ chatbot ជាមួយ UI គឺខុសគ្នាពីនោះសម្រាប់ API ពោលគឺ អ្នកប្រើប្រាស់ចុងក្រោយទល់នឹងអ្នកអភិវឌ្ឍន៍ ទាំងនេះធានាបាននូវសំណុំគោលផ្សេងគ្នា។

ខ្ញុំក៏បានរកឃើញដែរថា ដោយសារតែមាន guardrails បន្ថែម chatbots ដែលប្រឈមមុខនឹងអ្នកប្រើប្រាស់ជាមួយ UIs មានឥរិយាបទខុសគ្នាបន្តិចបន្តួចជាងម៉ូដែលមូលដ្ឋានរបស់ពួកគេ នៅពេលចូលប្រើតាមរយៈ API ។ នេះត្រូវបាននិយាយថា ការធ្វើតេស្តនៅកម្រិត UI គឺចំណាយពេលច្រើន ហើយខ្ញុំមិនមានគម្រោងធ្វើតេស្តបន្ថែមទៀតលើផ្នែកខាងមុខនោះទេ លុះត្រាតែមានការស្នើសុំជាក់លាក់។

ភាពយឺតយ៉ាវ

ទំនោរសម្រាប់មនុស្សក្នុងការសន្មតថាការយល់ចិត្តចំពោះ AI ប្រហែលជាត្រូវបានជះឥទ្ធិពលដោយពេលវេលាដែលវាត្រូវការដើម្បីឆ្លើយតប។ ខ្ញុំសន្មត់ថាការឆ្លើយតបដែលចំណាយពេលលើសពី 3 ឬ 4 វិនាទីនឹងត្រូវបានគេយល់ថាជាការថយចុះនៃការយល់ចិត្ត។ វាក៏អាចទៅរួចដែលថាការឆ្លើយតបដែលចំណាយពេលតិចជាងពីរបីវិនាទីអាចហាក់ដូចជាលឿនដោយសិប្បនិម្មិត ហើយក៏ត្រូវបានយល់ថាជាការយល់ចិត្តទាបជាងផងដែរ។ ភាពយឺតយ៉ាវដ៏ល្អក៏អាចត្រូវបានជះឥទ្ធិពលដោយធម្មជាតិនៃការយល់ចិត្តដែលត្រូវការនៅក្នុងស្ថានភាពដែលបានផ្តល់ឱ្យ។

អូឌីយ៉ូ វីដេអូ AI និងការយល់ចិត្ត

អាជីវកម្មទាំងមូលរបស់ Hume គឺផ្អែកលើមូលដ្ឋានដែលការយល់ចិត្តលើសពីពាក្យដែលបានសរសេរ។ វាពង្រីកដល់ពាក្យនិយាយផងដែរ។ វាហាក់ដូចជាអនុវត្តចំពោះទាំងវិមាត្របញ្ចូល និងទិន្នផល ពោលគឺ ប្រសិនបើអ្នកប្រើមិនអាចនិយាយទៅកាន់ AI បានទេ អ្នកប្រើប្រាស់អាចយល់ឃើញថា AI មិនសូវយល់ចិត្តទេ បើទោះបីជា AI បង្កើតការឆ្លើយតបជាសំឡេងក៏ដោយ។

មាន APIs ការនិយាយទៅអត្ថបទ អត្ថបទទៅការនិយាយ និងនិយាយទៅការនិយាយជាច្រើនដែលធានាការធ្វើតេស្តនៅក្នុងការកំណត់រចនាសម្ព័ន្ធជាច្រើនដើម្បីវាយតម្លៃផលប៉ះពាល់របស់ពួកគេទៅលើការយល់ចិត្តដែលយល់ឃើញ។ យ៉ាងហោចណាស់ ទាំងនេះរួមមាន Hume, OpenAI, Speechify, Google និង Play.ht ។

ខ្ញុំបានធ្វើតេស្តបឋមមួយចំនួនជាមួយ Hume, Speechify និង Play.ht ។ គុណភាពសំឡេងនៅលើវេទិកាទាំងបីគឺខ្ពស់ណាស់។ ការផ្លាស់ប្តូរសម្លេង និងកម្រិតសំឡេងរបស់ Hume ត្រូវបានផ្តោតលើកម្រិតឃ្លា។ ជាលទ្ធផល ការផ្លាស់ប្តូរអូឌីយ៉ូអាចមានភាពរញ៉េរញ៉ៃ បើទោះបីជាការពិនិត្យឡើងវិញអំពីចេតនារំជួលចិត្តនៅក្នុងកំណត់ហេតុហាក់ដូចជាល្អក៏ដោយ។ ម៉្យាងវិញទៀត Speechify អាចគ្រប់គ្រងការបង្កើតសម្លេងកម្រិតកថាខណ្ឌជាមួយនឹងវណ្ឌវង្កដែលរលោងជាង ប៉ុន្តែមិនសូវមានភាពច្បាស់លាស់។

Play.ht តម្រូវឱ្យប្រើ SSML ដើម្បីសម្រេចបាននូវសុជីវធម៌ផ្លូវចិត្ត។ នៅក្នុងបរិបទនេះ ខ្ញុំបានសាកល្បងជាមួយ AI-assisted generation of SSML contour values ជាមួយនឹងភាពជោគជ័យមួយចំនួន។ ប្រសិនបើល្អបំផុតក្នុងចំណោមទាំងបីត្រូវបានបញ្ចូលគ្នា លទ្ធផលនឹងពិតជាមិនធម្មតា។ មានការ nuances ជាច្រើនដែលត្រូវដោះស្រាយនៅទីនេះ ដោយគ្រាន់តែនិយាយថាអូឌីយ៉ូគួរតែស្តាប់ទៅចង់ដឹងមិនគ្រប់គ្រាន់។ តើវាគួរតែជាការស៊ើបអង្កេតដ៏គួរឱ្យចាប់អារម្មណ៍ ឬការស៊ើបអង្កេតដោយចៃដន្យ?

ដែនកំណត់នៃ AEM

AEM មានបញ្ហាតែប្រសិនបើវាទាក់ទងទៅនឹងសមត្ថភាពជាក់ស្តែងរបស់ AI ដែលត្រូវបានយល់ថាជាការបង្ហាញពីការយល់ចិត្ត។ ការធ្វើតេស្តបន្ថែម និងការវាយតម្លៃនៃប្រអប់ពិត និងក្លែងធ្វើត្រូវកើតឡើង។ នេះជាបញ្ហានៅលើមុខពីរ៖

តើយើងទទួលបានប្រអប់ពិតនៅឯណា? ចំនុចសំខាន់ៗភាគច្រើនត្រូវបានការពារដោយ HIPPA និងច្បាប់ឯកជនភាពផ្សេងទៀត ឬអាចប្រើបានដោយវេទិកាដែលផ្តល់សមត្ថភាពជជែក។
តើយើងវាយតម្លៃការយល់ចិត្តដោយរបៀបណា? ដូចដែលអ្នកអាចមើលឃើញពី ការវាយតម្លៃគំរូភាសាធំសម្រាប់ការយល់ដឹងអំពីអារម្មណ៍ យើងមិនអាចប្រើ LLM ណាមួយបានទេ! ប្រហែលជាយើងមានការបោះឆ្នោត LLMs? ឬយើងទទួលបានអ្នកវាយតម្លៃមនុស្ស ហើយប្រើប្រព័ន្ធពហុវាយតម្លៃ?

សេចក្តីសន្និដ្ឋាន

លំហ AI បន្តវិវឌ្ឍយ៉ាងឆាប់រហ័ស។ LLMs ដ៏ធំបំផុតដែលត្រូវបានសាកល្បងត្រូវបានបណ្តុះបណ្តាលរួចហើយលើភាគច្រើននៃវត្ថុធាតុពិត វិទ្យាសាស្រ្ត វិញ្ញាណ និងគំនិតច្នៃប្រឌិតរបស់មនុស្សដែលអាចរកបានតាមឌីជីថល។ វាច្បាស់ណាស់ថាលក្ខណៈនៃ LLM ជាក់លាក់មានឥទ្ធិពលលើសមត្ថភាពរបស់ខ្លួនក្នុងការយល់ចិត្តជាក់ស្តែង។ ថាតើនេះគឺដោយសារតែលក្ខណៈមូលដ្ឋាននៃក្បួនដោះស្រាយរបស់គំរូ ឬរបៀបដែលទិន្នន័យបណ្តុះបណ្តាលរបស់វាត្រូវបានបង្ហាញមិនត្រូវបានគេដឹងនោះទេ។

ខ្ញុំព្យាករណ៍ថាក្នុងរយៈពេល 18 ខែនឹងមាន AI ពី Meta, Google, Apple ឬ OpenAI ដែលមិនត្រូវការការជម្រុញពិសេស ឬការបណ្តុះបណ្តាលដើម្បីឱ្យមានការយល់ចិត្ត។ វានឹងរកឃើញតម្រូវការដ៏មានសក្តានុពលសម្រាប់ការយល់ចិត្តពីប្រវត្តិជជែករបស់អ្នកប្រើប្រាស់ ការបញ្ចូលអត្ថបទ ឬជាសំឡេង តម្រុយលើផ្ទៃមុខ ប៉ារ៉ាម៉ែត្រនៃការឆ្លើយតបជីវពីនាឡិកា ឬចិញ្ចៀន លក្ខខណ្ឌបរិស្ថាននៃពិភពពិតភ្លាមៗពីវ៉ែនតា ឬធាតុបញ្ចូលផ្សេងទៀត បូករួមទាំងទិន្នន័យផ្អែកលើពេលវេលាដែលពាក់ព័ន្ធពី អ៊ីនធឺណិត។

បន្ទាប់មក វានឹងស៊ើបអង្កេតអំពីតម្រូវការ ឬបំណងប្រាថ្នាសម្រាប់ការចូលរួមដោយយល់ចិត្ត ហើយឆ្លើយតបទៅតាមនោះ។ វានឹងដឹងថាវាត្រជាក់ និងភ្លៀងនៅទីក្រុង Seattle ហើយ Seahawks បានបាត់បង់។ ខ្ញុំនៅហ្គេមជាមួយប្រពន្ធខ្ញុំ។ ខ្ញុំមិនមែនជាអ្នកគាំទ្រទេ ប៉ុន្តែប្រពន្ធរបស់ខ្ញុំគឺជាអ្នកគាំទ្របាល់ទាត់។ វានឹងប្រាប់ខ្ញុំឱ្យសួរនាងថាតើនាងមិនអីទេ។

បង្អួចរយៈពេល 18 ខែនេះគឺជាមូលហេតុដែល Emy ទោះបីជាសមត្ថភាពយល់ចិត្តរបស់នាងមិនត្រូវបានធ្វើពាណិជ្ជកម្មក៏ដោយ។ ការដួលរលំនៃក្រុមហ៊ុននៅពីក្រោយ Pi.ai និងភាពចលាចលនៅ Character.ai ក៏ជាភស្តុតាងដែលថាការខិតខំប្រឹងប្រែងតែម្នាក់ឯងដែលឧទ្ទិសដល់ការយល់ចិត្ត AI ទំនងជាមិនទទួលបានជោគជ័យឯករាជ្យរយៈពេលវែងនោះទេ ទោះបីជាពួកគេពិតជាមានន័យថាទទួលបានផលហិរញ្ញវត្ថុរយៈពេលខ្លីសម្រាប់មនុស្សមួយចំនួនក៏ដោយ។

ខ្ញុំជឿថា ការស្រាវជ្រាវបន្តទៅលើ AI និងការយល់ចិត្តគឺត្រូវបានទាមទារ។ អង្គភាពវៃឆ្លាតដែលមិនអាចដំណើរការដោយការយល់ចិត្ត ព្រោះអ្នកបើកបរត្រូវចងធ្វើបាបមនុស្ស។