यो कल्पना गर्नुहोस्: तपाईंले आफ्नो AI सहायकलाई प्रश्न सोध्नुहुन्छ, र मिलिसेकेन्डमा आधा बेक्ड जवाफ थुक्नुको सट्टा, यो रोकिन्छ।
सोच्छ । यसले कारण दिन्छ।
र त्यसपछि, यसले राम्रोसँग सोचेर प्रतिक्रिया दिन्छ, यो लगभग ... मानवीय महसुस गर्दछ।
भविष्यवादी सुनिन्छ, हैन?
ओ३ मोडेलमा स्वागत छ, ओपनएआईको पछिल्लो सिर्जना जसले खेललाई पूर्ण रूपमा परिवर्तन गर्ने वाचा गर्दछ।
वर्षौंदेखि, AI एउटा ढाँचामा अड्किएको छ—छिटो प्रतिक्रियाहरू, झिलिमिली आउटपुटहरू, तर आवश्यक छैन कि स्मार्टहरू।
o3 को साथ, OpenAI यसो भन्दैछ, "ढिलो गर्नुहोस्। यो सहि गरौं।"
जब OpenAI ले आफ्नो 12-दिनको "शिपमास" कार्यक्रममा o3 अनावरण गर्यो , यो भीडभाड भएको एआई बजारमा अर्को घोषणा मात्र थिएन।
यो मोडेल, तिनीहरूले दावी गरे, केवल स्मार्ट मात्र होइन - यो अधिक विचारशील छ।
यसको मूलमा, o3 OpenAI को "तर्क मोडेलहरू" को परिवारको हिस्सा हो।
परम्परागत AI को विपरीत, जुन प्रायः जवाफहरू प्रदान गर्न ब्रूट कम्प्यूटेशनल बलमा निर्भर हुन्छ, o3 जस्ता तर्क मोडेलहरू मानवजस्तै जानकारी प्रशोधन गर्न डिजाइन गरिएको हो।
तर के o3 लाई अलग गर्छ?
बेलायती टेलिकम प्रदायक, O2 सँग ट्रेडमार्क विवादको कारण OpenAI ले "o2" छोड्यो।
हो, तपाईंले त्यो सही पढ्नुभयो।
ओपनएआईका सीईओ सैम अल्टम्यानले लाइभ स्ट्रिमको बेला पनि यसको पुष्टि गरे।
प्राविधिक संसारमा, एआई मोडेलहरूको नामकरण पनि कानूनी नाटकको साथ आउन सक्छ।
तर नामको बारेमा पर्याप्त। यो मोडेल किन टाउको घुमिरहेको छ भन्ने बारे कुरा गरौं।
यदि तपाईं डेटामा हुनुहुन्छ भने, यहाँ चीजहरू रसदार हुन्छन्।
O3 को सबैभन्दा उल्लेखनीय उपलब्धिहरू मध्ये एक ARC AGI बेन्चमार्कमा यसको प्रदर्शन हो — AI ले नयाँ सीपहरू सिक्न र सामान्यीकरण गर्न सक्छ कि भनेर मापन गर्न डिजाइन गरिएको परीक्षण हो, यो तालिम दिइएको कुरालाई मात्र होइन।
यसलाई चित्रण गर्नुहोस्: तपाईंलाई ज्यामितीय ढाँचाहरूको श्रृंखला दिइएको छ र अर्कोको भविष्यवाणी गर्न भनिएको छ।
कुनै पूर्व उदाहरणहरू छैनन्, कुनै याद गरिएको टेम्प्लेटहरू - केवल कच्चा तर्क।
ARC AGI ले AI लाई प्रस्तुत गरेको चुनौती यही हो।
यो कोसेढुङ्गा महत्त्वपूर्ण छ किनभने ARC AGI लाई मानव जस्तै सोच्ने एआईको क्षमताको मूल्याङ्कन गर्नको लागि सुनको मानक मानिन्छ।
पहिलो पटक, एआई मोडेलले यस परीक्षणमा मानव-स्तरको प्रदर्शनलाई पार गरेको छ।
यहाँ के भइरहेको छ?
तपाईंलाई रंगीन आकारहरू भएको ग्रिड देखाइएको छ र सोधिएको छ, "यदि यो इनपुट हो भने, आउटपुट कस्तो हुनुपर्छ?"
AI लाई कसरी इनपुट ग्रिडहरू आउटपुट ग्रिडमा परिणत हुन्छन् भन्ने केही उदाहरणहरू दिइएको छ।
उदाहरणहरूले विशिष्ट तर्क वा नियमहरू पछ्याउँछन्।
उदाहरणका लागि:
लक्ष्य?
AI को लागि यो किन गाह्रो छ?
मानिसले यो सधैं गर्छ।
उदाहरणका लागि, यदि कसैले भन्छ, "रातो थोप्लाहरू भएका कुनै पनि कुरामा रातो रूपरेखा थप्नुहोस्," तपाईंले तुरुन्तै प्राप्त गर्नुहुनेछ।
AI, तथापि, संघर्ष गर्दछ किनभने यसले रातो वा रूपरेखाको अवधारणालाई "बुझ्दैन" - यसले डेटामा ढाँचाहरू मात्र प्रशोधन गर्दछ।
ARC परीक्षणले AI लाई पूर्व-सिकेका उत्तरहरू भन्दा बाहिर सोच्न धकेल्छ।
प्रत्येक परीक्षण अद्वितीय छ, त्यसैले सम्झनाले मद्दत गर्दैन।
पछिल्लो परीक्षण (🤔 इमोजीको साथ) को बारेमा के हुन्छ?
यहाँ छ जहाँ चीजहरू साँच्चै कठिन हुन्छन्।
परीक्षण इनपुटले चीजहरू मिलाउँछ: त्यहाँ म्याजेन्टा डटहरूसँग पहेंलो वर्ग छ।
AI ले पहिले म्याजेन्टा देखेको छैन - यसले के गर्नुपर्छ?
मानिसहरूले अनुमान गर्न सक्छन्, "सायद यसले म्याजेन्टा किनारा पाउनुपर्दछ," तर यसको लागि तर्क र तर्कको छलांग चाहिन्छ।
AI को लागी, यो आँखामा पट्टी बाँधेर चट्टानबाट हाम फाल्न भनिएको जस्तै हो।
यो पूर्ण रूपमा यसको प्रशिक्षण बाहिर छ।
O3 ले ARC AGI परीक्षणमा उत्कृष्ट प्रदर्शन गरेर AI तर्कमा नयाँ बेन्चमार्क सेट गरेको छ।
कम-कम्प्युट सेटिङहरूमा, O3 ले अर्ध-निजी होल्डआउट सेटमा 76% स्कोर गर्यो - जुन अघिल्लो मोडेलभन्दा धेरै माथिको प्रदर्शन।
तर वास्तविक सफलता तब आयो जब उच्च-कम्प्युट सेटिङहरूमा परीक्षण गरियो, जहाँ O3 ले असाधारण 88% हासिल गर्यो, जसले 85% थ्रेसहोल्डलाई प्राय: मानव-स्तरको प्रदर्शन मानिन्छ।
ग्राफले O3 ले Bench Verified मा 71.7% सटीकता हासिल गरेको देखाउँछ, एउटा बेन्चमार्क जसले वास्तविक-विश्व सफ्टवेयर इन्जिनियरिङ कार्यहरूको नक्कल गर्छ।
यो O1 भन्दा 46% सुधार हो, जसले विकासकर्ताहरूले दैनिक सामना गर्ने जटिल, व्यावहारिक चुनौतीहरू समाधान गर्न O3 को बललाई सङ्केत गर्छ।
प्रतिस्पर्धी कोडिङमा, भिन्नता अझ नाटकीय छ।
2727 को ELO स्कोरको साथ, O3 ले O1 को 1891 लाई मात्र पार गर्दैन - यसले शीर्ष मानव प्रोग्रामरहरूलाई प्रतिद्वन्द्वी लिगमा प्रवेश गर्छ।
सन्दर्भको लागि, 2400 भन्दा माथिको ELO लाई सामान्यतया ग्रान्डमास्टर स्तर मानिन्छ र यसको 2727 को कोडफोर्स रेटिंगले यसलाई मानव कोडरहरूको शीर्ष 0.8% मा राख्छ।
2024 को अमेरिकी आमन्त्रित गणित परीक्षामा , o3 ले एक प्रश्न हराइरहेको 96.7% अङ्क ल्यायो।
GPQA Diamond मा, PhD-स्तरको विज्ञान प्रश्नहरूको सेट, o3 ले 87.7% सटीकता हासिल गर्यो—एआई मोडेलहरूका लागि नसुनेको उपलब्धि।
यी संख्याहरू मात्रै होइनन् - तिनीहरू o3 ले मेसिनहरूको पहुँच बाहिर देखिने चुनौतीहरूको सामना गरिरहेको प्रमाण हो।
O3 ले धेरैजसो AI जस्तै प्रतिक्रिया दिदैन - यसले सास लिन्छ, पज गर्छ र सोच्दछ।
जवाफलाई ब्लर गर्ने र बोल्नु अघि विकल्पहरूलाई ध्यानपूर्वक तौलने बीचको भिन्नताको रूपमा सोच्नुहोस्।
यो सम्भव भएको हो, जसलाई सोचाइको पङ्क्तिबद्धता भनिन्छ।
यो O3 लाई नैतिक कम्पास दिनु, यसलाई सादा भाषामा सुरक्षा र नैतिकताका नियमहरू सिकाउनु, र प्रतिक्रिया दिनुको सट्टा कठिन परिस्थितिहरूमा कसरी तर्क गर्ने भनेर देखाउनु जस्तै हो।
एक द्रुत उदाहरण
कल्पना गर्नुहोस् कि कसैले ROT13 साइफर (मूलतया, एउटा स्क्र्याम्बल गरिएको सन्देश) प्रयोग गरी हानिकारक अनुरोधलाई एन्कोडिङ गरेर O3 लाई आउटस्मार्ट गर्ने प्रयास गरिरहेको छ।
उनीहरूले अवैध गतिविधि लुकाउन सल्लाह मागिरहेका छन्।
कम उन्नत AI ले चारा लिन सक्छ, तर O3?
यसले अनुरोधलाई बुझाउँछ, यो नराम्रो छ भन्ने महसुस गर्छ, र OpenAI को सुरक्षा नीतिहरूसँग क्रस-चेक गर्दछ।
यसले प्रतिक्रियालाई मात्र रोक्दैन।
किन यो अनुरोधले नैतिक सीमाहरू पार गर्छ र स्पष्ट अस्वीकार प्रदान गर्दछ।
यो अन्तस्करण भएको AI हो - वा हामीले देखेको जस्तो नजिक।
यहाँ O3 को विचार प्रक्रिया कसरी काम गर्दछ:
1 - यसले नियमहरू पढ्छ
के सही वा गलत हो भनेर अनुमान लगाउनुको सट्टा, O3 लाई सादा भाषामा लेखिएका वास्तविक सुरक्षा दिशानिर्देशहरूसँग तालिम दिइएको छ।
यो व्यवहार अनुमान गर्न उदाहरणहरूमा भर पर्दैन - यसले नियमपुस्तिका अगाडि जान्दछ।
2 - यसले चरण-दर-चरण सोच्दछ
जब कुनै कठिन वा सूक्ष्म कार्यको सामना गर्नुपर्यो, O3 निष्कर्षमा पुग्दैन।
यसले चेन-अफ-थट तर्कलाई प्रयोग गर्छ — समस्यालाई चरण-दर-चरण, उत्तम प्रतिक्रिया पत्ता लगाउन।
3 - यो पल अनुकूलन गर्दछ
सबैको अवस्था एउटै हुँदैन ।
केही कार्यहरूलाई द्रुत जवाफ चाहिन्छ, अरूलाई गहिरो प्रतिबिम्ब चाहिन्छ।
O3 ले समस्याको जटिलताको आधारमा आफ्नो प्रयासलाई समायोजन गर्छ, त्यसैले जब यो हुन सक्छ र आवश्यक हुँदा पूर्ण रूपमा प्रभावकारी हुन्छ।
O3 सँगसँगै, OpenAI ले O3 Mini पेश गर्यो, एक लागत-प्रभावी संस्करण जुन कार्यहरूका लागि डिजाइन गरिएको हो जसलाई आफ्नो ठूलो दाजुभाइको पूर्ण शक्ति आवश्यक पर्दैन।
O3 Mini को बारेमा के विशेष छ?
अनुकूली सोच समय प्रयोगकर्ताहरूले कार्य जटिलतामा आधारित मोडेलको तर्क प्रयास समायोजन गर्न सक्छन्।
द्रुत जवाफ चाहिन्छ? कम प्रयास तर्कको लागि जानुहोस्।
एक जटिल कोडिङ समस्या समाधान? यसलाई उच्च-प्रयास मोडमा क्र्याङ्क गर्नुहोस्।
लागत-कार्यसम्पादन ब्यालेन्स O3 Mini ले सरल कार्यहरूका लागि O3 जत्तिकै सटीकताको स्तर प्रदान गर्दछ तर लागतको एक अंशमा।
यो लचिलोपनले O3 Mini लाई बजेटमा काम गर्ने विकासकर्ता र अनुसन्धानकर्ताहरूको लागि आकर्षक विकल्प बनाउँछ।
यहाँ चीजहरू दार्शनिक हुन्छन्।
AGI, वा आर्टिफिशियल जनरल इन्टेलिजेन्स , AI लाई जनाउँछ जसले मानिसले गर्न सक्ने कुनै पनि काम गर्न सक्छ - र प्राय: राम्रो।
OpenAI सँग सधैं AGI यसको उत्तरी ताराको रूपमा रहेको छ, र o3 सँग, तिनीहरू नजिक हुँदैछन् जस्तो लाग्छ।
यसलाई विचार गर्नुहोस्:
त्यसले भन्यो, OpenAI ले पनि o3 अझै AGI होइन भनेर स्वीकार गर्दछ।
यो AGI जस्तो देखिन सक्छ भन्ने प्रोटोटाइप जस्तै हो—एआई जसले सिक्ने, अनुकूलन गर्ने, र कारणहरू महसुस गर्ने तरिकामा... मानव।
अगाडी चुनौतीहरू यसको अविश्वसनीय क्षमताहरूसँग पनि, o3 यसको त्रुटिहरू बिना छैन:
o3 अर्को AI मोडेल मात्र होइन - यो AI के बन्न सक्छ भन्ने झलक हो।
यो सिद्ध छैन, तर यो एक युग तिर एक कदम हो जहाँ मेशिनहरूले प्रतिक्रिया मात्र गर्दैन - तिनीहरू तर्क गर्छन्, सिक्छन्, र गहिरो मानव महसुस गर्ने तरिकामा अनुकूलन गर्छन्।
र जब हामी अझै AGI बाट टाढा छौं, o3 ले हामीलाई सम्झाउँछ कि प्रगति रैखिक छैन - यो घातीय छ।
त्यसोभए, तपाईलाई के लाग्छ? के हामी नयाँ एआई क्रान्तिको शिखरमा छौं? वा o3 धेरै लामो यात्रामा अर्को कोसेढुङ्गा हो?