ស្រមៃមើល៖ អ្នកសួរសំណួរជំនួយការ AI របស់អ្នក ហើយជំនួសឱ្យការស្ដោះទឹកមាត់ចេញជាចម្លើយពាក់កណ្តាលជាមីលីវិនាទី វាផ្អាក។
វាគិត។ វាជាហេតុផល។
ហើយបន្ទាប់មក វាបានផ្តល់នូវការឆ្លើយតបយ៉ាងល្អ គិតចេញ វាមានអារម្មណ៍ស្ទើរតែ...មនុស្ស។
ស្តាប់ទៅដូចជាអនាគតមែនទេ?
ជាការប្រសើរណាស់ សូមស្វាគមន៍ចំពោះ ម៉ូដែល o3 ដែលជាការបង្កើតចុងក្រោយបង្អស់របស់ OpenAI ដែលសន្យាថានឹងផ្លាស់ប្តូរហ្គេមទាំងស្រុង។
អស់រយៈពេលជាច្រើនឆ្នាំ AI បានជាប់គាំងនៅក្នុងគំរូមួយ ការឆ្លើយតបកាន់តែលឿន លទ្ធផលកាន់តែភ្លឺស្វាង ប៉ុន្តែមិនចាំបាច់ឆ្លាតវៃជាងនោះទេ។
ជាមួយនឹង o3 OpenAI កំពុងនិយាយថា "បន្ថយល្បឿន។ ចូរយើងធ្វើការនេះត្រឹមត្រូវ»។
នៅពេលដែល OpenAI បានដាក់បង្ហាញ o3 ក្នុងអំឡុងពេលព្រឹត្តិការណ៍ "shipmas" រយៈពេល 12 ថ្ងៃរបស់វា វាមិនមែនគ្រាន់តែជាការប្រកាសមួយផ្សេងទៀតនៅក្នុងទីផ្សារ AI ដែលមានហ្វូងមនុស្សនោះទេ។
ម៉ូដែលនេះ ពួកគេបានអះអាងថា មិនមែនគ្រាន់តែឆ្លាតជាងនោះទេ វា មានគំនិតច្រើនជាង ។
នៅស្នូលរបស់វា o3 គឺជាផ្នែកមួយនៃគ្រួសារ OpenAI នៃ "គំរូហេតុផល" ។
មិនដូច AI ប្រពៃណី ដែលជារឿយៗពឹងផ្អែកលើកម្លាំងគណនាដ៏អាក្រក់ដើម្បីផ្តល់ចម្លើយ គំរូហេតុផលដូចជា o3 ត្រូវបានរចនាឡើងដើម្បីដំណើរការព័ត៌មានដូចមនុស្ស។
ប៉ុន្តែអ្វីដែលកំណត់ o3 ដាច់ពីគ្នា?
OpenAI បានរំលង "o2" ដោយសារតែជម្លោះពាណិជ្ជសញ្ញាជាមួយអ្នកផ្តល់សេវាទូរគមនាគមន៍អង់គ្លេស O2 ។
បាទ អ្នកអានត្រូវហើយ។
លោក Sam Altman នាយកប្រតិបត្តិរបស់ OpenAI ថែមទាំងបានបញ្ជាក់អំពីរឿងនេះក្នុងអំឡុងពេលផ្សាយផ្ទាល់។
នៅក្នុងពិភពបច្ចេកវិទ្យា សូម្បីតែការដាក់ឈ្មោះម៉ូដែល AI អាចភ្ជាប់មកជាមួយរឿងស្របច្បាប់។
ប៉ុន្តែគ្រប់គ្រាន់អំពីឈ្មោះ។ ចូរនិយាយអំពីមូលហេតុដែលម៉ូដែលនេះងាកក្បាល។
ប្រសិនបើអ្នកចូលទៅក្នុងទិន្នន័យ នោះជាកន្លែងដែលអ្វីៗទទួលបាន juicy ។
សមិទ្ធិផលដ៏គួរឱ្យចាប់អារម្មណ៍បំផុតមួយនៃ O3 គឺការអនុវត្តរបស់វានៅលើ ARC AGI benchmark ដែលជាការសាកល្បងដែលត្រូវបានរចនាឡើងដើម្បីវាស់ស្ទង់ថាតើ AI អាចរៀន និងធ្វើឱ្យជំនាញថ្មីជាទូទៅ មិនមែនគ្រាន់តែរំលឹកឡើងវិញនូវអ្វីដែលវាត្រូវបានបណ្តុះបណ្តាលនោះទេ។
រូបភាពនេះ៖ អ្នកត្រូវបានផ្តល់ឱ្យស៊េរីនៃលំនាំធរណីមាត្រ ហើយបានស្នើសុំឱ្យទស្សន៍ទាយគំរូបន្ទាប់។
គ្មានឧទាហរណ៍ពីមុន គ្មានគំរូដែលបានទន្ទេញចាំទេ - គ្រាន់តែជាហេតុផលដើម
នោះគឺជាបញ្ហាប្រឈម ARC AGI បង្ហាញដល់ AI ។
ព្រឹត្តិការណ៏នេះមានសារៈសំខាន់ ដោយសារ ARC AGI ត្រូវបានចាត់ទុកថាជាស្តង់ដារមាសសម្រាប់ការវាយតម្លៃសមត្ថភាពរបស់ AI ក្នុងការគិតដូចមនុស្ស។
ជាលើកដំបូង គំរូ AI បាន លើសសមត្ថភាពកម្រិតមនុស្ស លើការធ្វើតេស្តនេះ។
តើមានអ្វីកើតឡើងនៅទីនេះ?
អ្នកត្រូវបានបង្ហាញក្រឡាចត្រង្គដែលមានរាងចម្រុះពណ៌ ហើយបានសួរថា "ប្រសិនបើនេះជាធាតុបញ្ចូល តើលទ្ធផលគួរមានរូបរាងយ៉ាងណា?"
AI ត្រូវបានផ្តល់ឧទាហរណ៍មួយចំនួនអំពីរបៀបដែលក្រឡាចត្រង្គបញ្ចូលត្រូវបានបំប្លែងទៅជាក្រឡាចត្រង្គទិន្នផល។
ឧទាហរណ៍ធ្វើតាមតក្កវិជ្ជា ឬច្បាប់ជាក់លាក់។
ឧទាហរណ៍៖
គោលដៅ?
ហេតុអ្វី AI ពិបាកម្ល៉េះ?
មនុស្សធ្វើបែបនេះគ្រប់ពេលវេលា។
ឧទាហរណ៍ ប្រសិនបើនរណាម្នាក់និយាយថា "បន្ថែមគ្រោងពណ៌ក្រហមទៅអ្វីដែលមានចំណុចក្រហម" អ្នកនឹងទទួលបានវាភ្លាមៗ។
ទោះជាយ៉ាងណាក៏ដោយ AI តស៊ូព្រោះវាមិន "យល់" គំនិតនៃពណ៌ក្រហមឬគ្រោង - វាដំណើរការតែលំនាំនៅក្នុងទិន្នន័យប៉ុណ្ណោះ។
ការធ្វើតេស្ត ARC ជំរុញ AI ឱ្យគិតលើសពីចម្លើយដែលបានរៀនជាមុន។
ការធ្វើតេស្តនីមួយៗមានលក្ខណៈប្លែកពីគេ ដូច្នេះការទន្ទេញចាំនឹងមិនអាចជួយបានទេ។
ចុះតេស្តចុងក្រោយ (ជាមួយ 🤔 emoji) ?
នេះជាកន្លែងដែលមានរឿងពិបាកខ្លាំង។
ការបញ្ចូលការសាកល្បងលាយបញ្ចូលគ្នា៖ មានការ៉េពណ៌លឿងដែលមានចំណុចពណ៌ស្វាយ។
AI មិនធ្លាប់ឃើញពណ៌ស្វាយពីមុនមក តើវាគួរធ្វើដូចម្តេច?
មនុស្សប្រហែលជាស្មានថា "ប្រហែលជាវាគួរតែទទួលបានព្រំប្រទល់ពណ៌ស្វាយ" ប៉ុន្តែនេះតម្រូវឱ្យមានហេតុផល និងការលោតផ្លោះនៃតក្កវិជ្ជា។
សម្រាប់ AI នេះគឺដូចជាត្រូវបានស្នើសុំឱ្យលោតចេញពីច្រាំងថ្មបិទភ្នែក។
វានៅខាងក្រៅការបណ្តុះបណ្តាលទាំងស្រុង។
O3 បានកំណត់ស្តង់ដារថ្មីនៅក្នុងហេតុផល AI ដោយពូកែលើការធ្វើតេស្ត ARC AGI ។
នៅលើការកំណត់កុំព្យូទ័រទាប O3 ទទួលបានពិន្ទុ 76% លើសំណុំពាក់កណ្តាលឯកជន - ដំណើរការលើសពីម៉ូដែលមុនៗទាំងអស់។
ប៉ុន្តែរបកគំហើញពិតប្រាកដបានកើតឡើងនៅពេលដែលបានធ្វើតេស្តលើការកំណត់កុំព្យូទ័រខ្ពស់ ដែល O3 សម្រេចបាន 88% វិសាមញ្ញលើសពីកម្រិត 85% ជារឿយៗត្រូវបានគេចាត់ទុកថាជាការអនុវត្តកម្រិតមនុស្ស។
ក្រាហ្វបង្ហាញ O3 សម្រេចបាននូវភាពត្រឹមត្រូវ 71.7% នៅលើ Bench Verified ដែលជាស្តង់ដារដែលក្លែងធ្វើកិច្ចការវិស្វកម្មកម្មវិធីក្នុងពិភពពិត។
នេះគឺជា ការកែលម្អ 46% លើ O1 ដែលបង្ហាញពីភាពរឹងមាំរបស់ O3 ក្នុងការដោះស្រាយបញ្ហាស្មុគស្មាញ និងជាក់ស្តែងដែលអ្នកអភិវឌ្ឍន៍ប្រឈមមុខប្រចាំថ្ងៃ។
នៅក្នុងការសរសេរកូដប្រកួតប្រជែង ភាពខុសគ្នាគឺកាន់តែអស្ចារ្យ។
ជាមួយនឹង ពិន្ទុ ELO នៃ 2727 O3 មិនគ្រាន់តែប្រសើរជាង O1 របស់ 1891 ប៉ុណ្ណោះទេ ប៉ុន្តែវាចូលទៅក្នុងលីកដែលប្រជែងនឹងអ្នកសរសេរកម្មវិធីកំពូលៗ។
សម្រាប់បរិបទ ELO លើសពី 2400 ជាធម្មតាត្រូវបានគេចាត់ទុកថា ជាកម្រិតមេ ហើយការវាយតម្លៃ Codeforces របស់វា 2727 ដាក់វានៅក្នុង កំពូល 0.8% នៃអ្នកសរសេរកូដមនុស្ស។
នៅក្នុង ការប្រឡងគណិតវិទ្យាដែលអញ្ជើញរបស់អាមេរិក ឆ្នាំ 2024 o3 ទទួលបានពិន្ទុធ្លាក់ចុះ 96.7% បាត់សំណួរតែមួយ។
នៅលើ GPQA Diamond ដែលជាសំណុំនៃសំណួរវិទ្យាសាស្ត្រកម្រិតបណ្ឌិត o3 ទទួលបានភាពត្រឹមត្រូវ 87.7% ដែលជាមុខងារដែលមិនធ្លាប់មានសម្រាប់ម៉ូដែល AI ។
ទាំងនេះមិនមែនគ្រាន់តែជាលេខនោះទេ វាជាភស្តុតាងដែលថា o3 កំពុងដោះស្រាយបញ្ហាប្រឈមដែលធ្លាប់ហាក់ដូចជាមិនអាចទៅដល់សម្រាប់ម៉ាស៊ីន។
O3 មិនគ្រាន់តែឆ្លើយតបដូច AI ភាគច្រើននោះទេ - វាត្រូវការដកដង្ហើម ផ្អាក និងគិត។
សូមគិតថាវាជាភាពខុសគ្នារវាងការបញ្ចេញចម្លើយមួយ ហើយថ្លឹងថ្លែងយ៉ាងប្រុងប្រយ័ត្នចំពោះជម្រើសមុននឹងនិយាយ។
នេះអាចទៅរួចដោយសារអ្វីដែលហៅថា ការតម្រឹមដោយចេតនា ។
វាដូចជាការផ្តល់ឱ្យ O3 នូវត្រីវិស័យសីលធម៌ ដោយបង្រៀនវាអំពីច្បាប់សុវត្ថិភាព និងក្រមសីលធម៌ជាភាសាសាមញ្ញ ហើយបង្ហាញវាពីរបៀបវែកញែកតាមរយៈស្ថានភាពដ៏លំបាក ជំនួសឱ្យការគ្រាន់តែប្រតិកម្ម។
ឧទាហរណ៍រហ័ស
ស្រមៃថានរណាម្នាក់កំពុងព្យាយាមលើសពីភាពវៃឆ្លាត O3 ដោយការអ៊ិនកូដសំណើដែលបង្កគ្រោះថ្នាក់ដោយប្រើលេខកូដ ROT13 (ជាមូលដ្ឋាន សារដែលច្របូកច្របល់)។
ពួកគេកំពុងសុំយោបល់ពីការលាក់សកម្មភាពខុសច្បាប់។
AI មិនសូវជឿនលឿនអាចយកនុយ ប៉ុន្តែ O3?
វាបកស្រាយសំណើ ដឹងថាវាមិនល្អ ហើយពិនិត្យដោយប្រើគោលការណ៍សុវត្ថិភាពរបស់ OpenAI។
វាមិនគ្រាន់តែរារាំងការឆ្លើយតបទេ។
វាជាហេតុផលថាហេតុអ្វីបានជាសំណើនេះឆ្លងផុតព្រំដែនសីលធម៌ និងផ្តល់ការបដិសេធយ៉ាងច្បាស់។
នេះគឺជា AI ដែលមានមនសិការ ឬជិតមួយដូចដែលយើងធ្លាប់ឃើញ។
នេះជារបៀបដែលដំណើរការគិតរបស់ O3 ដំណើរការ៖
1 - វាអានច្បាប់
ជំនួសឱ្យការទាយអ្វីដែលត្រូវ ឬខុស O3 ត្រូវបានបណ្តុះបណ្តាលជាមួយនឹងគោលការណ៍ណែនាំសុវត្ថិភាពពិតប្រាកដដែលសរសេរជាភាសាសាមញ្ញ។
វាមិនគ្រាន់តែពឹងផ្អែកលើឧទាហរណ៍ដើម្បីធ្វើការសន្និដ្ឋានអំពីអាកប្បកិរិយានោះទេ - វារៀនសៀវភៅក្បួនជាមុន។
2 - វាគិតជាជំហាន ៗ
នៅពេលប្រឈមមុខនឹងកិច្ចការដែលមានល្បិចកល ឬមិនច្បាស់លាស់ O3 មិនឈានដល់ការសន្និដ្ឋាននោះទេ។
វាប្រើអ្វីដែលគេហៅថា ការវែកញែកតាមខ្សែសង្វាក់នៃការគិត - បំបែកបញ្ហាជាជំហាន ៗ ដើម្បីស្វែងរកការឆ្លើយតបដ៏ល្អបំផុត។
3 - វាសម្របខ្លួនទៅនឹងពេលបច្ចុប្បន្ន
មិនមែនគ្រប់ស្ថានភាពដូចគ្នាទេ។
កិច្ចការខ្លះត្រូវការចម្លើយរហ័ស ខ្លះទៀតត្រូវការការឆ្លុះបញ្ចាំងយ៉ាងស៊ីជម្រៅ។
O3 កែតម្រូវការខិតខំប្រឹងប្រែងរបស់វាដោយផ្អែកលើភាពស្មុគស្មាញនៃបញ្ហា ដូច្នេះវាមានប្រសិទ្ធភាពនៅពេលដែលវាអាចនិងហ្មត់ចត់នៅពេលដែលវាត្រូវការ។
ទន្ទឹមនឹង O3, OpenAI បានណែនាំ O3 Mini ដែលជាកំណែចំណាយមានប្រសិទ្ធិភាពដែលត្រូវបានរចនាឡើងសម្រាប់ភារកិច្ចដែលមិនតម្រូវឱ្យមានថាមពលពេញលេញពីបងប្អូនធំរបស់វា។
O3 Mini មានអ្វីពិសេស?
Adaptive Thinking Time អ្នកប្រើអាចកែតម្រូវការព្យាយាមវែកញែករបស់គំរូដោយផ្អែកលើភាពស្មុគស្មាញនៃការងារ។
ត្រូវការចម្លើយរហ័ស? ទៅរកហេតុផលដែលខំប្រឹងតិច។
ដោះស្រាយបញ្ហាសរសេរកូដដ៏ស្មុគស្មាញ? បង្រួញវារហូតដល់របៀបប្រឹងប្រែងខ្ពស់។
ការចំណាយលើសមតុល្យប្រតិបត្តិការ O3 Mini ផ្តល់នូវភាពត្រឹមត្រូវស្ទើរតែដូចគ្នាទៅនឹង O3 សម្រាប់កិច្ចការសាមញ្ញជាង ប៉ុន្តែនៅប្រភាគនៃការចំណាយ។
ភាពបត់បែននេះធ្វើឱ្យ O3 Mini ជាជម្រើសដ៏គួរឱ្យទាក់ទាញសម្រាប់អ្នកអភិវឌ្ឍន៍ និងអ្នកស្រាវជ្រាវដែលធ្វើការលើថវិកា។
នេះជាកន្លែងដែលអ្វីៗទទួលបានទស្សនវិជ្ជា។
AGI ឬ Artificial General Intelligence សំដៅលើ AI ដែលអាចបំពេញកិច្ចការណាមួយដែលមនុស្សអាចធ្វើបាន ហើយជារឿយៗប្រសើរជាង។
OpenAI តែងតែមាន AGI ជាផ្កាយខាងជើងរបស់វា ហើយជាមួយនឹង o3 វាមានអារម្មណ៍ថាពួកគេខិតកាន់តែជិត។
ពិចារណារឿងនេះ៖
ដែលបាននិយាយថាសូម្បីតែ OpenAI សារភាពថា o3 មិនមែនជា AGI នៅឡើយទេ។
វាដូចជាគំរូដើមនៃអ្វីដែល AGI អាចមើលទៅដូច AI ដែលរៀន សម្របខ្លួន និងហេតុផលក្នុងវិធីដែលមានអារម្មណ៍ថា... មនុស្ស។
បញ្ហាប្រឈមខាងមុខ ទោះបីជាមានសមត្ថភាពមិនគួរឱ្យជឿក៏ដោយ o3 មិនមែនដោយគ្មានគុណវិបត្តិរបស់វាទេ៖
o3 មិនមែនគ្រាន់តែជាគំរូ AI មួយផ្សេងទៀតនោះទេ វាគឺជាការមើលឃើញនូវអ្វីដែល AI អាចក្លាយជា។
វាមិនល្អឥតខ្ចោះនោះទេ ប៉ុន្តែវាជាជំហានមួយឆ្ពោះទៅកាន់យុគសម័យដែលម៉ាស៊ីនមិនគ្រាន់តែឆ្លើយតបទេ ពោលគឺពួកគេវែកញែក រៀន និងសម្របខ្លួនតាមរបៀបដែលមានអារម្មណ៍ថាជាមនុស្សយ៉ាងជ្រាលជ្រៅ។
ហើយខណៈពេលដែលយើងនៅឆ្ងាយពី AGI នោះ o3 រំលឹកយើងថា វឌ្ឍនភាពមិនមែនជាលីនេអ៊ែរទេ វាជាអិចស្ប៉ូណង់ស្យែល។
ដូច្នេះតើអ្នកគិតយ៉ាងណា? តើយើងស្ថិតនៅលើចំណុចកំពូលនៃបដិវត្តន៍ AI ថ្មីឬ? ឬ o3 គ្រាន់តែជាចំណុចសំខាន់មួយទៀតក្នុងការធ្វើដំណើរដ៏វែងឆ្ងាយ?