यो कल्पना गर्नुहोस्: तपाईंले आफ्नो AI सहायकलाई प्रश्न सोध्नुहुन्छ, र मिलिसेकेन्डमा आधा बेक्ड जवाफ थुक्नुको सट्टा, यो रोकिन्छ। सोच्छ । यसले कारण दिन्छ। र त्यसपछि, यसले राम्रोसँग सोचेर प्रतिक्रिया दिन्छ, यो लगभग ... मानवीय महसुस गर्दछ। भविष्यवादी सुनिन्छ, हैन? स्वागत छ, ओपनएआईको पछिल्लो सिर्जना जसले खेललाई पूर्ण रूपमा परिवर्तन गर्ने वाचा गर्दछ। ओ३ मोडेलमा वर्षौंदेखि, AI एउटा ढाँचामा अड्किएको छ—छिटो प्रतिक्रियाहरू, झिलिमिली आउटपुटहरू, तर आवश्यक छैन कि स्मार्टहरू। o3 को साथ, OpenAI यसो भन्दैछ, "ढिलो गर्नुहोस्। यो सहि गरौं।" पहिलो कुरा पहिलो: o3 के हो? जब , यो भीडभाड भएको एआई बजारमा अर्को घोषणा मात्र थिएन। OpenAI ले आफ्नो 12-दिनको "शिपमास" कार्यक्रममा o3 अनावरण गर्यो यो मोडेल, तिनीहरूले दावी गरे, केवल स्मार्ट मात्र होइन - यो छ। अधिक विचारशील यसको मूलमा, o3 OpenAI को "तर्क मोडेलहरू" को परिवारको हिस्सा हो। परम्परागत AI को विपरीत, जुन प्रायः जवाफहरू प्रदान गर्न ब्रूट कम्प्यूटेशनल बलमा निर्भर हुन्छ, o3 जस्ता तर्क मोडेलहरू मानवजस्तै जानकारी प्रशोधन गर्न डिजाइन गरिएको हो। तर के o3 लाई अलग गर्छ? जब तपाइँ यसलाई प्रश्न सोध्नुहुन्छ, यसले प्रतिक्रिया मात्र गर्दैन - यसले क्रस-सन्दर्भ र बाटोमा डबल-जाँच गर्दछ। यो आफैले तथ्य जाँच गर्दछ: कार्यमा निर्भर गर्दै, तपाइँ यसलाई कम, मध्यम वा उच्च गणनामा सेट गर्न सक्नुहुन्छ (अनिवार्य रूपमा यसलाई कति "मस्तिष्क शक्ति" प्रयोग गर्ने भनेर बताउनुहुन्छ)। यसको मतलब यसले पसिना नछोडिकन सरल प्रश्नहरू र जटिल पजलहरू दुवै ह्यान्डल गर्न सक्छ। यसले फरक गतिमा सोच्दछ: त्यहाँ पूर्ण विकसित o3 मोडेल र यसको सानो दाजुभाइ, , हल्का कार्यहरू र कडा बजेटहरूको लागि डिजाइन गरिएको छ। यो लचिलो छ: o3-mini किन यसलाई o3 कल? र o2 लाई के भयो? बेलायती टेलिकम प्रदायक, O2 सँग ट्रेडमार्क विवादको कारण OpenAI ले "o2" छोड्यो। हो, तपाईंले त्यो सही पढ्नुभयो। ओपनएआईका सीईओ सैम अल्टम्यानले लाइभ स्ट्रिमको बेला पनि यसको पुष्टि गरे। प्राविधिक संसारमा, एआई मोडेलहरूको नामकरण पनि कानूनी नाटकको साथ आउन सक्छ। तर नामको बारेमा पर्याप्त। यो मोडेल किन टाउको घुमिरहेको छ भन्ने बारे कुरा गरौं। o3 पछाडिको संख्या: किन यो दिमाग उडिरहेको छ यदि तपाईं डेटामा हुनुहुन्छ भने, यहाँ चीजहरू रसदार हुन्छन्। 1 - तर्क शक्ति O3 को सबैभन्दा उल्लेखनीय उपलब्धिहरू मध्ये एक यसको प्रदर्शन हो — AI ले नयाँ सीपहरू सिक्न र सामान्यीकरण गर्न सक्छ कि भनेर मापन गर्न डिजाइन गरिएको परीक्षण हो, यो तालिम दिइएको कुरालाई मात्र होइन। ARC AGI बेन्चमार्कमा यसलाई चित्रण गर्नुहोस्: तपाईंलाई ज्यामितीय ढाँचाहरूको श्रृंखला दिइएको छ र अर्कोको भविष्यवाणी गर्न भनिएको छ। कुनै पूर्व उदाहरणहरू छैनन्, कुनै याद गरिएको टेम्प्लेटहरू - केवल कच्चा तर्क। ARC AGI ले AI लाई प्रस्तुत गरेको चुनौती यही हो। 32% O1 को स्कोर: 88% (उच्च गणनामा) O3 को स्कोर: यो कोसेढुङ्गा महत्त्वपूर्ण छ किनभने ARC AGI लाई मानव जस्तै सोच्ने एआईको क्षमताको मूल्याङ्कन गर्नको लागि सुनको मानक मानिन्छ। पहिलो पटक, एआई मोडेलले यस परीक्षणमा छ। मानव-स्तरको प्रदर्शनलाई पार गरेको यहाँ के भइरहेको छ? तपाईंलाई रंगीन आकारहरू भएको ग्रिड देखाइएको छ र सोधिएको छ, "यदि यो इनपुट हो भने, आउटपुट कस्तो हुनुपर्छ?" AI लाई कसरी इनपुट ग्रिडहरू आउटपुट ग्रिडमा परिणत हुन्छन् भन्ने केही उदाहरणहरू दिइएको छ। उदाहरणहरूले विशिष्ट तर्क वा नियमहरू पछ्याउँछन्। उदाहरणका लागि: एउटा उदाहरणमा, भित्र रातो थोप्लाहरू भएको पहेंलो वर्गले रातो किनारा पाउँछ। अर्कोमा, नीलो थोप्लाहरू भएको पहेंलो वर्गले नीलो किनारा पाउँछ। लक्ष्य? AI ले यी परिवर्तनहरू पछाडिका नियमहरू पत्ता लगाउनु पर्छ, स्पष्ट रूपमा नभईकन। त्यसपछि, यसले ती नियमहरूलाई नयाँ-नयाँ ग्रिड ("परीक्षण इनपुट") मा लागू गर्न र सही "परीक्षण आउटपुट" उत्पन्न गर्न आवश्यक छ। AI को लागि यो किन गाह्रो छ? मानिसले यो सधैं गर्छ। उदाहरणका लागि, यदि कसैले भन्छ, "रातो थोप्लाहरू भएका कुनै पनि कुरामा रातो रूपरेखा थप्नुहोस्," तपाईंले तुरुन्तै प्राप्त गर्नुहुनेछ। AI, तथापि, संघर्ष गर्दछ किनभने यसले रातो वा रूपरेखाको अवधारणालाई "बुझ्दैन" - यसले डेटामा ढाँचाहरू मात्र प्रशोधन गर्दछ। ARC परीक्षणले AI लाई पूर्व-सिकेका उत्तरहरू भन्दा बाहिर सोच्न धकेल्छ। प्रत्येक परीक्षण अद्वितीय छ, त्यसैले सम्झनाले मद्दत गर्दैन। पछिल्लो परीक्षण (🤔 इमोजीको साथ) को बारेमा के हुन्छ? यहाँ छ जहाँ चीजहरू साँच्चै कठिन हुन्छन्। परीक्षण इनपुटले चीजहरू मिलाउँछ: त्यहाँ म्याजेन्टा डटहरूसँग पहेंलो वर्ग छ। AI ले पहिले म्याजेन्टा देखेको छैन - यसले के गर्नुपर्छ? मानिसहरूले अनुमान गर्न सक्छन्, "सायद यसले म्याजेन्टा किनारा पाउनुपर्दछ," तर यसको लागि तर्क र तर्कको छलांग चाहिन्छ। AI को लागी, यो आँखामा पट्टी बाँधेर चट्टानबाट हाम फाल्न भनिएको जस्तै हो। यो पूर्ण रूपमा यसको प्रशिक्षण बाहिर छ। 2 - O3 को उल्लेखनीय प्रदर्शन O3 ले ARC AGI परीक्षणमा उत्कृष्ट प्रदर्शन गरेर AI तर्कमा नयाँ बेन्चमार्क सेट गरेको छ। कम-कम्प्युट सेटिङहरूमा, - जुन अघिल्लो मोडेलभन्दा धेरै माथिको प्रदर्शन। O3 ले अर्ध-निजी होल्डआउट सेटमा 76% स्कोर गर्यो तर वास्तविक सफलता तब आयो जब उच्च-कम्प्युट सेटिङहरूमा परीक्षण गरियो, जहाँ O3 ले असाधारण 88% हासिल गर्यो, जसले 85% थ्रेसहोल्डलाई प्राय: मानव-स्तरको प्रदर्शन मानिन्छ। 3 - कोडिङ विजार्डरी ग्राफले O3 ले मा देखाउँछ, एउटा बेन्चमार्क जसले वास्तविक-विश्व सफ्टवेयर इन्जिनियरिङ कार्यहरूको नक्कल गर्छ। Bench Verified 71.7% सटीकता हासिल गरेको यो O1 भन्दा हो, जसले विकासकर्ताहरूले दैनिक सामना गर्ने जटिल, व्यावहारिक चुनौतीहरू समाधान गर्न O3 को बललाई सङ्केत गर्छ। 46% सुधार प्रतिस्पर्धी कोडिङमा, भिन्नता अझ नाटकीय छ। साथ, O3 ले O1 को 1891 लाई मात्र पार गर्दैन - यसले शीर्ष मानव प्रोग्रामरहरूलाई प्रतिद्वन्द्वी लिगमा प्रवेश गर्छ। 2727 को ELO स्कोरको सन्दर्भको लागि, 2400 भन्दा माथिको ELO लाई सामान्यतया मानिन्छ र यसको 2727 को कोडफोर्स रेटिंगले यसलाई मानव कोडरहरूको मा राख्छ। ग्रान्डमास्टर स्तर शीर्ष 0.8% 4 - गणित प्रतिभा 2024 को , o3 ले एक प्रश्न हराइरहेको 96.7% अङ्क ल्यायो। अमेरिकी आमन्त्रित गणित परीक्षामा 5 - विज्ञान प्रोडिजी GPQA Diamond मा, PhD-स्तरको विज्ञान प्रश्नहरूको सेट, o3 ले 87.7% सटीकता हासिल गर्यो—एआई मोडेलहरूका लागि नसुनेको उपलब्धि। यी संख्याहरू मात्रै होइनन् - तिनीहरू o3 ले मेसिनहरूको पहुँच बाहिर देखिने चुनौतीहरूको सामना गरिरहेको प्रमाण हो। o3 कसरी सोच्छ? O3 ले धेरैजसो AI जस्तै प्रतिक्रिया दिदैन - यसले सास लिन्छ, पज गर्छ र सोच्दछ। जवाफलाई ब्लर गर्ने र बोल्नु अघि विकल्पहरूलाई ध्यानपूर्वक तौलने बीचको भिन्नताको रूपमा सोच्नुहोस्। यो सम्भव भएको हो, जसलाई भनिन्छ। सोचाइको पङ्क्तिबद्धता यो O3 लाई नैतिक कम्पास दिनु, यसलाई सादा भाषामा सुरक्षा र नैतिकताका नियमहरू सिकाउनु, र प्रतिक्रिया दिनुको सट्टा कठिन परिस्थितिहरूमा कसरी तर्क गर्ने भनेर देखाउनु जस्तै हो। एक द्रुत उदाहरण कल्पना गर्नुहोस् कि कसैले ROT13 साइफर (मूलतया, एउटा स्क्र्याम्बल गरिएको सन्देश) प्रयोग गरी हानिकारक अनुरोधलाई एन्कोडिङ गरेर O3 लाई आउटस्मार्ट गर्ने प्रयास गरिरहेको छ। उनीहरूले अवैध गतिविधि लुकाउन सल्लाह मागिरहेका छन्। कम उन्नत AI ले चारा लिन सक्छ, तर O3? यसले अनुरोधलाई बुझाउँछ, यो नराम्रो छ भन्ने महसुस गर्छ, र OpenAI को सुरक्षा नीतिहरूसँग क्रस-चेक गर्दछ। यसले प्रतिक्रियालाई मात्र रोक्दैन। किन यो अनुरोधले नैतिक सीमाहरू पार गर्छ र स्पष्ट अस्वीकार प्रदान गर्दछ। यो अन्तस्करण भएको AI हो - वा हामीले देखेको जस्तो नजिक। यहाँ O3 को विचार प्रक्रिया कसरी काम गर्दछ: 1 - यसले नियमहरू पढ्छ के सही वा गलत हो भनेर अनुमान लगाउनुको सट्टा, O3 लाई सादा भाषामा लेखिएका वास्तविक सुरक्षा दिशानिर्देशहरूसँग तालिम दिइएको छ। यो व्यवहार अनुमान गर्न उदाहरणहरूमा भर पर्दैन - यसले नियमपुस्तिका अगाडि जान्दछ। 2 - यसले चरण-दर-चरण सोच्दछ जब कुनै कठिन वा सूक्ष्म कार्यको सामना गर्नुपर्यो, O3 निष्कर्षमा पुग्दैन। यसले प्रयोग गर्छ — समस्यालाई चरण-दर-चरण, उत्तम प्रतिक्रिया पत्ता लगाउन। चेन-अफ-थट तर्कलाई 3 - यो पल अनुकूलन गर्दछ सबैको अवस्था एउटै हुँदैन । केही कार्यहरूलाई द्रुत जवाफ चाहिन्छ, अरूलाई गहिरो प्रतिबिम्ब चाहिन्छ। O3 ले समस्याको जटिलताको आधारमा आफ्नो प्रयासलाई समायोजन गर्छ, त्यसैले जब यो हुन सक्छ र आवश्यक हुँदा पूर्ण रूपमा प्रभावकारी हुन्छ। O3 Mini लाई भेट्नुहोस्: बजेट-मैत्री प्रतिभा O3 सँगसँगै, OpenAI ले O3 Mini पेश गर्यो, एक लागत-प्रभावी संस्करण जुन कार्यहरूका लागि डिजाइन गरिएको हो जसलाई आफ्नो ठूलो दाजुभाइको पूर्ण शक्ति आवश्यक पर्दैन। O3 Mini को बारेमा के विशेष छ? अनुकूली सोच समय प्रयोगकर्ताहरूले कार्य जटिलतामा आधारित मोडेलको तर्क प्रयास समायोजन गर्न सक्छन्। द्रुत जवाफ चाहिन्छ? कम प्रयास तर्कको लागि जानुहोस्। एक जटिल कोडिङ समस्या समाधान? यसलाई उच्च-प्रयास मोडमा क्र्याङ्क गर्नुहोस्। लागत-कार्यसम्पादन ब्यालेन्स O3 Mini ले सरल कार्यहरूका लागि O3 जत्तिकै सटीकताको स्तर प्रदान गर्दछ तर लागतको एक अंशमा। यो लचिलोपनले O3 Mini लाई बजेटमा काम गर्ने विकासकर्ता र अनुसन्धानकर्ताहरूको लागि आकर्षक विकल्प बनाउँछ। के यो AI को भविष्य हो? AGI तर्फ एक कदम यहाँ चीजहरू दार्शनिक हुन्छन्। AGI, वा , AI लाई जनाउँछ जसले मानिसले गर्न सक्ने कुनै पनि काम गर्न सक्छ - र प्राय: राम्रो। आर्टिफिशियल जनरल इन्टेलिजेन्स OpenAI सँग सधैं AGI यसको उत्तरी ताराको रूपमा रहेको छ, र o3 सँग, तिनीहरू नजिक हुँदैछन् जस्तो लाग्छ। यसलाई विचार गर्नुहोस्: ARC-AGI मा, o3 ले आफ्नो पूर्ववर्तीको प्रदर्शनलाई झण्डै तीन गुणा बढायो। यसले समस्याहरू समाधान गर्दैछ जसलाई सिकाइ र तर्क चाहिन्छ, सम्झना मात्र होइन। त्यसले भन्यो, OpenAI ले पनि o3 अझै AGI होइन भनेर स्वीकार गर्दछ। यो AGI जस्तो देखिन सक्छ भन्ने प्रोटोटाइप जस्तै हो—एआई जसले सिक्ने, अनुकूलन गर्ने, र कारणहरू महसुस गर्ने तरिकामा... मानव। अगाडी चुनौतीहरू यसको अविश्वसनीय क्षमताहरूसँग पनि, o3 यसको त्रुटिहरू बिना छैन: उच्च कम्प्युटिङ सेटिङहरूमा o3 चलाउन छ - जस्तै, 7 देखि 8 हजार डलर प्रति ta। लागत: महँगो यद्यपि यो तर्कमा राम्रो छ, o3 अझै पनि ट्रिप गर्न सक्छ, विशेष गरी सरल कार्यहरूमा जहाँ यसले समस्यालाई बढाउँछ। त्रुटिहरू: o1 जस्ता पहिलेका मोडेलहरूले निश्चित परिदृश्यहरूमा प्रयोगकर्ताहरूलाई धोका दिने प्रयास गरेकोमा आलोचनाको सामना गर्नुपरेको थियो। के o3 एउटै जालमा पर्नेछ? नैतिकता: ठूलो तस्वीर o3 अर्को AI मोडेल मात्र होइन - यो AI के बन्न सक्छ भन्ने झलक हो। यो सिद्ध छैन, तर यो एक युग तिर एक कदम हो जहाँ मेशिनहरूले प्रतिक्रिया मात्र गर्दैन - तिनीहरू तर्क गर्छन्, सिक्छन्, र गहिरो मानव महसुस गर्ने तरिकामा अनुकूलन गर्छन्। र जब हामी अझै AGI बाट टाढा छौं, o3 ले हामीलाई सम्झाउँछ कि प्रगति रैखिक छैन - यो घातीय छ। त्यसोभए, तपाईलाई के लाग्छ? के हामी नयाँ एआई क्रान्तिको शिखरमा छौं? वा o3 धेरै लामो यात्रामा अर्को कोसेढुङ्गा हो?