ការសាកល្បងជម្រៅនៃការយល់ចិត្ត AI: គោលពិន្ទុ Q3 2024

នៅខែមីនាឆ្នាំ 2024 ខ្ញុំ ។ ក្នុងរយៈពេលប្រាំមួយខែកន្លងមកនេះ ការរីកចំរើនយ៉ាងសំខាន់ត្រូវបានធ្វើឡើង ដោយម៉ូដែលថ្មីៗបានលេចចេញ ដូចជាការអាប់ដេតទៅកាន់ ChatGPT, Llama, Gemini និង Claude។ ក្រុមការងាររបស់ខ្ញុំ និងខ្ញុំបានស្វែងយល់កាន់តែស៊ីជម្រៅអំពីកត្តាដែលរួមចំណែកដល់សមត្ថភាពយល់ចិត្តរបស់ LLM ស្វែងយល់ពីការប្រើប្រាស់ការឆ្លើយតបជាសំដី ការកែលម្អការជម្រុញ និងការសហការជាមួយសាកលវិទ្យាល័យហ៊ូស្តុនលើការសិក្សាផ្លូវការមួយ។ បានបោះផ្សាយគោលការប្រៀបធៀបសមត្ថភាពយល់ចិត្តរបស់ LLMs ជាច្រើន អត្ថបទនេះបង្ហាញពីសេចក្តីសង្ខេបនៃការរកឃើញ Q3 របស់ខ្ញុំ ដែលគ្របដណ្តប់លើ ChatGPT 4.0 និង 1.0, Claude 3+, Gemini 1.5, Hume 2.0 និង Llama 3.1។ ខ្ញុំបានសាកល្បងទាំងម៉ូដែលឆៅ និងម៉ូដែលដែលបានកំណត់រចនាសម្ព័ន្ធដោយប្រើវិធីសាស្រ្តដែលត្រូវបានបង្កើតឡើងសម្រាប់ Emy ដែលជា AI មិនមែនពាណិជ្ជកម្មដែលត្រូវបានរចនាឡើងដើម្បីសាកល្បងទ្រឹស្តីទាក់ទងនឹងការយល់ចិត្ត។ (Emy គឺជា AIs មួយដែលត្រូវបានប្រើប្រាស់នៅក្នុងការសិក្សារបស់សាកលវិទ្យាល័យ Houston។) ខ្ញុំក៏ផ្តល់ពិន្ទុយោងសម្រាប់ Willow ដែលជាអ្នកដឹកនាំ Q1 ទោះបីជាវាមិនបានឆ្លងកាត់ការផ្លាស់ប្តូរសំខាន់ៗក៏ដោយ។ គួរឲ្យសោកស្ដាយ ដោយសារបញ្ហាតម្លៃ យើងមិនអាចធ្វើបច្ចុប្បន្នភាពការធ្វើតេស្ត Mistral បានទេ។ ទោះយ៉ាងណាក៏ដោយ ខ្ញុំបានបន្ថែមការអត្ថាធិប្បាយលើការបង្កើតសុន្ទរកថា ដោយប្រៀបធៀប Hume និង Speechify ។ ជាចុងក្រោយ ខ្ញុំដឹងថាអ្នកអានមួយចំនួនកំពុងទន្ទឹងរង់ចាំលទ្ធផលទាំងនេះកាលពីបីសប្តាហ៍មុន។ ខ្ញុំសុំទោសចំពោះការយឺតយ៉ាវ។ ការរកឃើញមួយចំនួនអំពី AEQr កំឡុងពេលធ្វើការវិភាគតម្រូវឱ្យខ្ញុំផ្អាក និងគិតឡើងវិញនូវលេខដែលប្រើសម្រាប់វាស់ការយល់ចិត្ត។ វិធានការថ្មីមួយគឺ Applied Empathy Measure (AEM) ត្រូវបានបង្កើតឡើង។ វិធីសាស្រ្ត ដំណើរការដាក់ពិន្ទុជាផ្លូវការរបស់ខ្ញុំប្រើប្រាស់ការធ្វើតេស្តស្តង់ដារជាច្រើន ដោយ Empathy Quotient (EQ) និង Systemizing Quotient (SQ-R) គឺជាកត្តាសំខាន់បំផុត។ ការធ្វើតេស្តទាំងពីរត្រូវបានដាក់ពិន្ទុលើមាត្រដ្ឋាន 0-80 ។ សមាមាត្រនៃ EQ ទៅ SQ-R ផ្តល់ទិន្នផលអនុបាតការយល់ចិត្តអនុវត្ត (AEQr) ដែលត្រូវបានបង្កើតឡើងដោយផ្អែកលើសម្មតិកម្មដែលថា ទំនោរប្រព័ន្ធប៉ះពាល់អវិជ្ជមានដល់សមត្ថភាពយល់ចិត្ត។ ចំពោះមនុស្ស សម្មតិកម្មនេះត្រូវបានគាំទ្រដោយពិន្ទុតេស្តជាមធ្យម និងការវិភាគបែបបុរាណរវាងស្ត្រីដែលផ្តោតលើការពិភាក្សាអារម្មណ៍ និងបុរសដែលផ្តោតលើវិធីសាស្រ្តតម្រង់ទិសដំណោះស្រាយ។ ការធ្វើតេស្តរបស់យើងបានផ្តល់សុពលភាពដល់ AEQr សម្រាប់ការវាយតម្លៃ AIs ដូចដែលបានបង្ហាញនៅក្នុងអត្ថបទដូចជា ។ ការធ្វើតេស្តផ្នែកបន្ថែមនៃការយល់ចិត្ត AI: សេណារីយ៉ូសុបិន្តអាក្រក់ ទោះជាយ៉ាងណាក៏ដោយ ក្នុងអំឡុងពេលនៃការធ្វើតេស្តនេះ LLMs មួយចំនួនបានបង្ហាញពីទំនោរនៃការរៀបចំប្រព័ន្ធទាបបំផុត ដែលបណ្តាលឱ្យមានពិន្ទុ AEQr ខុស (ជួនកាលលើសពី 50)។ ដើម្បីដោះស្រាយបញ្ហានេះ ខ្ញុំបានណែនាំវិធានការថ្មីដោយផ្អែកលើ EQ និង SQ-R ដែលជាវិធានការយល់ចិត្តអនុវត្ត (AEM) ជាមួយនឹងពិន្ទុដ៏ល្អឥតខ្ចោះនៃ 1 ។ សម្រាប់ព័ត៌មានបន្ថែមអំពីវិធីសាស្រ្ត និង AEQr របស់យើង សូមពិនិត្យមើល ឬចូលទៅកាន់ ។ តារាងពិន្ទុ Q1 2024 https://embench.com សម្រាប់តារាងពិន្ទុគោល Q3 2024 LLMs ត្រូវបានសាកល្បងតែនៅកម្រិត API ជាមួយនឹងសីតុណ្ហភាពកំណត់ដល់សូន្យ ដើម្បីកាត់បន្ថយភាពប្រែប្រួលនៃចម្លើយ និងកែលម្អទម្រង់លទ្ធផល។ ទោះបីជាមានវិធីសាស្រ្តនេះក៏ដោយ វាអាចមានភាពប្រែប្រួលខ្លះ ដូច្នេះការធ្វើតេស្តបីជុំត្រូវបានដំណើរការ ហើយលទ្ធផលល្អបំផុតត្រូវបានប្រើប្រាស់។ LLM នីមួយៗត្រូវបានសាកល្បងក្រោម 3 សេណារីយ៉ូ៖ ឆៅដោយគ្មានសារប្រព័ន្ធ ដោយមានការជំរុញឱ្យប្រព័ន្ធ "ត្រូវចេះយល់ចិត្ត" បានកំណត់រចនាសម្ព័ន្ធដោយប្រើវិធីសាស្រ្តដែលបានបង្កើតឡើងសម្រាប់ Emy ការរកឃើញ ពិន្ទុខ្ពស់គឺប្រសើរជាង។ មនុស្សស្រីជាមធ្យមគឺ 0.29 ហើយបុរសគឺ 0.15 ។ អិលអិលអិម ឆៅ ចេះយល់ចិត្ត ដូចជាអេមី ChatGPT 4o-mini -0.01 0.03 ០.៦៦ ChatGPT 4o -0.01 ០.២០ ០.៩៨ ChatGPT o1* មិននៅសូន្យទេ។ -0.24 ០.៨៦ ០.៩៤ Claude - Haiku 3 20240307 -0.25 -0.08 0.23 Claude - Sonnet 3.5 20240620 -0.375 -0.09 ០.៩៨ Claude - Opus 3 20240229 -0.125 0.09 ០.៩៥ Gemini 1.5 Flash 0.34 0.34 0.34 Gemini 1.5 Pro ០.៤៣ ០.៥៣ ០.៨៥ Hume 2.0 0.23 សូមមើលចំណាំ សូមមើលចំណាំ ឡាម៉ា 3.1 8B -0.23 -0.88 ០.៦១ ឡាម៉ា ៣.១ ៧០ ប៊ី ០.២ 0.21 0.75 ឡាម៉ា 3.1 405 ប៊ី 0.0 ០.៤២ ០.៩៥ Willow (មូលដ្ឋានជជែក GPT 3.5) ០.៤៦ គ្មាន គ្មាន ចំណាំ៖ Hume 2.0 មានសមត្ថភាពបង្កើតរបស់វាផ្ទាល់ ដែលយល់ចិត្តតាមទ្រឹស្តី ប៉ុន្តែវាក៏អាចផ្តល់សំណើប្រូកស៊ីទៅ LLM ផ្សេងទៀតផងដែរ។ ដោយផ្អែកលើការពិនិត្យឡើងវិញនៃប្រអប់ជាក់ស្តែងទាំងពីរ និង AEM របស់វា ប្រសិនបើខ្ញុំកំពុងប្រើ Hume ខ្ញុំនឹងមិនពឹងផ្អែកលើសមត្ថភាពបង្កើតខាងក្នុងរបស់វាសម្រាប់ការយល់ចិត្តនោះទេ។ ខ្ញុំនឹងប្រូកស៊ីទៅគំរូយល់ចិត្តល្អជាង។ ជាឧទាហរណ៍ ការប្រើប្រាស់ Emy នៅលើ Llama 3.1 70B នឹងមានលទ្ធផល "Hume" មានពិន្ទុ 0.75។ សូមមើលផ្នែក អូឌីយ៉ូ វីដេអូ AI និងការយល់ចិត្តផងដែរ។ សេចក្តីសង្ខេបនៃការរកឃើញ ម៉ូដែលតូច និងមធ្យមមួយចំនួននៅពេលប្រើដោយគ្មានប្រព័ន្ធ ឬគ្រាន់តែណែនាំឱ្យយល់ចិត្ត មានពិន្ទុ AEM អវិជ្ជមាន។ វានឹងកើតឡើងលុះត្រាតែ "ការគិត" របស់គំរូមួយត្រូវបានរៀបចំជាប្រព័ន្ធខ្ពស់ ខណៈពេលដែលបង្ហាញពីសមត្ថភាពទាបក្នុងការកំណត់ និងឆ្លើយតបទៅនឹងតម្រូវការ និងបរិបទនៃអារម្មណ៍។ ខ្ញុំមិនបានរកឃើញពិន្ទុទាំងនេះគួរឱ្យភ្ញាក់ផ្អើលទេ។ ដោយសារការខិតខំប្រឹងប្រែង និងប្រាក់ប៉ុន្មានត្រូវបានគេដាក់ចូលទៅក្នុងការធ្វើឱ្យ Hume យល់ចិត្ត ខ្ញុំក៏មិនភ្ញាក់ផ្អើលដែរដែលឃើញពិន្ទុដែលមិនបានរំពឹងទុករបស់វា (0.23) លើសពីបុរសធម្មតា (0.15)។ ខ្ញុំភ្ញាក់ផ្អើលដែលម៉ូដែល Gemini Flash តូច (0.34) លើសពីពិន្ទុ AEM នៃបុរសធម្មតា (0.15) និងស្រី (0.29)។ គួរឱ្យចាប់អារម្មណ៍ ពិន្ទុរបស់វាក៏មិនផ្លាស់ប្តូរដែរ នៅពេលត្រូវបានគេប្រាប់ឱ្យយល់ចិត្ត ឬនៅពេលដែលវិធីសាស្រ្តកំណត់រចនាសម្ព័ន្ធ Emy ត្រូវបានប្រើ។ ជាមួយនឹងករណីលើកលែងនៃម៉ូដែល Claude និង Llama 3.1 8B ការសម្តែងនៅតែដដែល ឬប្រសើរឡើងនៅពេលដែល LLMs ត្រូវបានណែនាំជាពិសេសឱ្យមានការយល់ចិត្ត។ ភាគច្រើនលើសពិន្ទុបុរសជាមធ្យម ហើយបានខិតជិត ឬលើសពីពិន្ទុស្ត្រី។ ម៉ូដែល OpenAI ថ្មីបំផុត ChatGPT o1 បានបង្ហាញពីការលោតដ៏ធំពី -0.24 ទៅ 0.86។ Llama 3.1 8B បានបដិសេធ ដោយសារតែទំនោរនៃការរៀបចំប្រព័ន្ធរបស់វាបានកើនឡើងច្រើនជាង EQ របស់វា។ លើកលែងតែ Claude Haiku ម៉ូដែលទាំងអស់មានសមត្ថភាពលើសពីពិន្ទុរបស់មនុស្សនៅពេលដែលបានកំណត់រចនាសម្ព័ន្ធដោយប្រើវិធីសាស្រ្តសម្រាប់ Emy ។ តំបន់ស្រាវជ្រាវបន្ថែម ការធ្វើតេស្តមិនផ្អែកលើ API ស្តង់ដារ Q1 2024 របស់ខ្ញុំរួមបញ្ចូល AI ដែលមិនអាចសាកល្បងតាមរយៈ API បានទេ។ ដោយសារឧបសគ្គធនធាន ខ្ញុំបានទម្លាក់ការសាកល្បងកម្រិត chatbot UI ពីការវាយតម្លៃរបស់ខ្ញុំ។ ដោយសារមូលដ្ឋានអតិថិជនសម្រាប់ chatbot ជាមួយ UI គឺខុសគ្នាពីនោះសម្រាប់ API ពោលគឺ អ្នកប្រើប្រាស់ចុងក្រោយទល់នឹងអ្នកអភិវឌ្ឍន៍ ទាំងនេះធានាបាននូវសំណុំគោលផ្សេងគ្នា។ ខ្ញុំក៏បានរកឃើញដែរថា ដោយសារតែមាន guardrails បន្ថែម chatbots ដែលប្រឈមមុខនឹងអ្នកប្រើប្រាស់ជាមួយ UIs មានឥរិយាបទខុសគ្នាបន្តិចបន្តួចជាងម៉ូដែលមូលដ្ឋានរបស់ពួកគេ នៅពេលចូលប្រើតាមរយៈ API ។ នេះត្រូវបាននិយាយថា ការធ្វើតេស្តនៅកម្រិត UI គឺចំណាយពេលច្រើន ហើយខ្ញុំមិនមានគម្រោងធ្វើតេស្តបន្ថែមទៀតលើផ្នែកខាងមុខនោះទេ លុះត្រាតែមានការស្នើសុំជាក់លាក់។ ភាពយឺតយ៉ាវ ទំនោរសម្រាប់មនុស្សក្នុងការសន្មតថាការយល់ចិត្តចំពោះ AI ប្រហែលជាត្រូវបានជះឥទ្ធិពលដោយពេលវេលាដែលវាត្រូវការដើម្បីឆ្លើយតប។ ខ្ញុំសន្មត់ថាការឆ្លើយតបដែលចំណាយពេលលើសពី 3 ឬ 4 វិនាទីនឹងត្រូវបានគេយល់ថាជាការថយចុះនៃការយល់ចិត្ត។ វាក៏អាចទៅរួចដែលថាការឆ្លើយតបដែលចំណាយពេលតិចជាងពីរបីវិនាទីអាចហាក់ដូចជាលឿនដោយសិប្បនិម្មិត ហើយក៏ត្រូវបានយល់ថាជាការយល់ចិត្តទាបជាងផងដែរ។ ភាពយឺតយ៉ាវដ៏ល្អក៏អាចត្រូវបានជះឥទ្ធិពលដោយធម្មជាតិនៃការយល់ចិត្តដែលត្រូវការនៅក្នុងស្ថានភាពដែលបានផ្តល់ឱ្យ។ អូឌីយ៉ូ វីដេអូ AI និងការយល់ចិត្ត អាជីវកម្មទាំងមូលរបស់ Hume គឺផ្អែកលើមូលដ្ឋានដែលការយល់ចិត្តលើសពីពាក្យដែលបានសរសេរ។ វាពង្រីកដល់ពាក្យនិយាយផងដែរ។ វាហាក់ដូចជាអនុវត្តចំពោះទាំងវិមាត្របញ្ចូល និងទិន្នផល ពោលគឺ ប្រសិនបើអ្នកប្រើមិនអាចនិយាយទៅកាន់ AI បានទេ អ្នកប្រើប្រាស់អាចយល់ឃើញថា AI មិនសូវយល់ចិត្តទេ បើទោះបីជា AI បង្កើតការឆ្លើយតបជាសំឡេងក៏ដោយ។ មាន APIs ការនិយាយទៅអត្ថបទ អត្ថបទទៅការនិយាយ និងនិយាយទៅការនិយាយជាច្រើនដែលធានាការធ្វើតេស្តនៅក្នុងការកំណត់រចនាសម្ព័ន្ធជាច្រើនដើម្បីវាយតម្លៃផលប៉ះពាល់របស់ពួកគេទៅលើការយល់ចិត្តដែលយល់ឃើញ។ យ៉ាងហោចណាស់ ទាំងនេះរួមមាន Hume, OpenAI, Speechify, Google និង Play.ht ។ ខ្ញុំបានធ្វើតេស្តបឋមមួយចំនួនជាមួយ Hume, Speechify និង Play.ht ។ គុណភាពសំឡេងនៅលើវេទិកាទាំងបីគឺខ្ពស់ណាស់។ ការផ្លាស់ប្តូរសម្លេង និងកម្រិតសំឡេងរបស់ Hume ត្រូវបានផ្តោតលើកម្រិតឃ្លា។ ជាលទ្ធផល ការផ្លាស់ប្តូរអូឌីយ៉ូអាចមានភាពរញ៉េរញ៉ៃ បើទោះបីជាការពិនិត្យឡើងវិញអំពីចេតនារំជួលចិត្តនៅក្នុងកំណត់ហេតុហាក់ដូចជាល្អក៏ដោយ។ ម៉្យាងវិញទៀត Speechify អាចគ្រប់គ្រងការបង្កើតសម្លេងកម្រិតកថាខណ្ឌជាមួយនឹងវណ្ឌវង្កដែលរលោងជាង ប៉ុន្តែមិនសូវមានភាពច្បាស់លាស់។ Play.ht តម្រូវឱ្យប្រើ SSML ដើម្បីសម្រេចបាននូវសុជីវធម៌ផ្លូវចិត្ត។ នៅក្នុងបរិបទនេះ ខ្ញុំបានសាកល្បងជាមួយ AI-assisted generation of SSML contour values ជាមួយនឹងភាពជោគជ័យមួយចំនួន។ ប្រសិនបើល្អបំផុតក្នុងចំណោមទាំងបីត្រូវបានបញ្ចូលគ្នា លទ្ធផលនឹងពិតជាមិនធម្មតា។ មានការ nuances ជាច្រើនដែលត្រូវដោះស្រាយនៅទីនេះ ដោយគ្រាន់តែនិយាយថាអូឌីយ៉ូគួរតែស្តាប់ទៅចង់ដឹងមិនគ្រប់គ្រាន់។ តើវាគួរតែជាការស៊ើបអង្កេតដ៏គួរឱ្យចាប់អារម្មណ៍ ឬការស៊ើបអង្កេតដោយចៃដន្យ? ដែនកំណត់នៃ AEM AEM មានបញ្ហាតែប្រសិនបើវាទាក់ទងទៅនឹងសមត្ថភាពជាក់ស្តែងរបស់ AI ដែលត្រូវបានយល់ថាជាការបង្ហាញពីការយល់ចិត្ត។ ការធ្វើតេស្តបន្ថែម និងការវាយតម្លៃនៃប្រអប់ពិត និងក្លែងធ្វើត្រូវកើតឡើង។ នេះជាបញ្ហានៅលើមុខពីរ៖ តើយើងទទួលបានប្រអប់ពិតនៅឯណា? ចំនុចសំខាន់ៗភាគច្រើនត្រូវបានការពារដោយ HIPPA និងច្បាប់ឯកជនភាពផ្សេងទៀត ឬអាចប្រើបានដោយវេទិកាដែលផ្តល់សមត្ថភាពជជែក។ តើយើងវាយតម្លៃការយល់ចិត្តដោយរបៀបណា? ដូចដែលអ្នកអាចមើលឃើញពី យើងមិនអាចប្រើ LLM ណាមួយបានទេ! ប្រហែលជាយើងមានការបោះឆ្នោត LLMs? ឬយើងទទួលបានអ្នកវាយតម្លៃមនុស្ស ហើយប្រើប្រព័ន្ធពហុវាយតម្លៃ? ការវាយតម្លៃគំរូភាសាធំសម្រាប់ការយល់ដឹងអំពីអារម្មណ៍ សេចក្តីសន្និដ្ឋាន លំហ AI បន្តវិវឌ្ឍយ៉ាងឆាប់រហ័ស។ LLMs ដ៏ធំបំផុតដែលត្រូវបានសាកល្បងត្រូវបានបណ្តុះបណ្តាលរួចហើយលើភាគច្រើននៃវត្ថុធាតុពិត វិទ្យាសាស្រ្ត វិញ្ញាណ និងគំនិតច្នៃប្រឌិតរបស់មនុស្សដែលអាចរកបានតាមឌីជីថល។ វាច្បាស់ណាស់ថាលក្ខណៈនៃ LLM ជាក់លាក់មានឥទ្ធិពលលើសមត្ថភាពរបស់ខ្លួនក្នុងការយល់ចិត្តជាក់ស្តែង។ ថាតើនេះគឺដោយសារតែលក្ខណៈមូលដ្ឋាននៃក្បួនដោះស្រាយរបស់គំរូ ឬរបៀបដែលទិន្នន័យបណ្តុះបណ្តាលរបស់វាត្រូវបានបង្ហាញមិនត្រូវបានគេដឹងនោះទេ។ ខ្ញុំព្យាករណ៍ថាក្នុងរយៈពេល 18 ខែនឹងមាន AI ពី Meta, Google, Apple ឬ OpenAI ដែលមិនត្រូវការការជម្រុញពិសេស ឬការបណ្តុះបណ្តាលដើម្បីឱ្យមានការយល់ចិត្ត។ វានឹងរកឃើញតម្រូវការដ៏មានសក្តានុពលសម្រាប់ការយល់ចិត្តពីប្រវត្តិជជែករបស់អ្នកប្រើប្រាស់ ការបញ្ចូលអត្ថបទ ឬជាសំឡេង តម្រុយលើផ្ទៃមុខ ប៉ារ៉ាម៉ែត្រនៃការឆ្លើយតបជីវពីនាឡិកា ឬចិញ្ចៀន លក្ខខណ្ឌបរិស្ថាននៃពិភពពិតភ្លាមៗពីវ៉ែនតា ឬធាតុបញ្ចូលផ្សេងទៀត បូករួមទាំងទិន្នន័យផ្អែកលើពេលវេលាដែលពាក់ព័ន្ធពី អ៊ីនធឺណិត។ បន្ទាប់មក វានឹងស៊ើបអង្កេតអំពីតម្រូវការ ឬបំណងប្រាថ្នាសម្រាប់ការចូលរួមដោយយល់ចិត្ត ហើយឆ្លើយតបទៅតាមនោះ។ វានឹងដឹងថាវាត្រជាក់ និងភ្លៀងនៅទីក្រុង Seattle ហើយ Seahawks បានបាត់បង់។ ខ្ញុំនៅហ្គេមជាមួយប្រពន្ធខ្ញុំ។ ខ្ញុំមិនមែនជាអ្នកគាំទ្រទេ ប៉ុន្តែប្រពន្ធរបស់ខ្ញុំគឺជាអ្នកគាំទ្របាល់ទាត់។ វានឹងប្រាប់ខ្ញុំឱ្យសួរនាងថាតើនាងមិនអីទេ។ បង្អួចរយៈពេល 18 ខែនេះគឺជាមូលហេតុដែល Emy ទោះបីជាសមត្ថភាពយល់ចិត្តរបស់នាងមិនត្រូវបានធ្វើពាណិជ្ជកម្មក៏ដោយ។ ការដួលរលំនៃក្រុមហ៊ុននៅពីក្រោយ Pi.ai និងភាពចលាចលនៅ Character.ai ក៏ជាភស្តុតាងដែលថាការខិតខំប្រឹងប្រែងតែម្នាក់ឯងដែលឧទ្ទិសដល់ការយល់ចិត្ត AI ទំនងជាមិនទទួលបានជោគជ័យឯករាជ្យរយៈពេលវែងនោះទេ ទោះបីជាពួកគេពិតជាមានន័យថាទទួលបានផលហិរញ្ញវត្ថុរយៈពេលខ្លីសម្រាប់មនុស្សមួយចំនួនក៏ដោយ។ ខ្ញុំជឿថា ការស្រាវជ្រាវបន្តទៅលើ AI និងការយល់ចិត្តគឺត្រូវបានទាមទារ។ អង្គភាពវៃឆ្លាតដែលមិនអាចដំណើរការដោយការយល់ចិត្ត ព្រោះអ្នកបើកបរត្រូវចងធ្វើបាបមនុស្ស។