paint-brush
के OpenAI को o3 अन्ततः मानव जस्तै सोच्दै छ?द्वारा@niteshpadghan
नयाँ इतिहास

के OpenAI को o3 अन्ततः मानव जस्तै सोच्दै छ?

द्वारा Nitesh Padghan8m2024/12/31
Read on Terminal Reader

धेरै लामो; पढ्नकाे लागि

OpenAI को o3 मोडेलले AI तर्कमा छलांग ल्याउँछ, कोडिङ, गणित, र सामान्य बुद्धिमत्ता बेन्चमार्कहरूमा उत्कृष्ट। के यो साँचो AGI तिर अर्को कदम हुन सक्छ?
featured image - के OpenAI को o3 अन्ततः मानव जस्तै सोच्दै छ?
Nitesh Padghan HackerNoon profile picture
0-item

यो कल्पना गर्नुहोस्: तपाईंले आफ्नो AI सहायकलाई प्रश्न सोध्नुहुन्छ, र मिलिसेकेन्डमा आधा बेक्ड जवाफ थुक्नुको सट्टा, यो रोकिन्छ।


सोच्छ । यसले कारण दिन्छ।


र त्यसपछि, यसले राम्रोसँग सोचेर प्रतिक्रिया दिन्छ, यो लगभग ... मानवीय महसुस गर्दछ।


भविष्यवादी सुनिन्छ, हैन?


ओ३ मोडेलमा स्वागत छ, ओपनएआईको पछिल्लो सिर्जना जसले खेललाई पूर्ण रूपमा परिवर्तन गर्ने वाचा गर्दछ।


वर्षौंदेखि, AI एउटा ढाँचामा अड्किएको छ—छिटो प्रतिक्रियाहरू, झिलिमिली आउटपुटहरू, तर आवश्यक छैन कि स्मार्टहरू।


o3 को साथ, OpenAI यसो भन्दैछ, "ढिलो गर्नुहोस्। यो सहि गरौं।"

पहिलो कुरा पहिलो: o3 के हो?

जब OpenAI ले आफ्नो 12-दिनको "शिपमास" कार्यक्रममा o3 अनावरण गर्‍यो , यो भीडभाड भएको एआई बजारमा अर्को घोषणा मात्र थिएन।


यो मोडेल, तिनीहरूले दावी गरे, केवल स्मार्ट मात्र होइन - यो अधिक विचारशील छ।


यसको मूलमा, o3 OpenAI को "तर्क मोडेलहरू" को परिवारको हिस्सा हो।


परम्परागत AI को विपरीत, जुन प्रायः जवाफहरू प्रदान गर्न ब्रूट कम्प्यूटेशनल बलमा निर्भर हुन्छ, o3 जस्ता तर्क मोडेलहरू मानवजस्तै जानकारी प्रशोधन गर्न डिजाइन गरिएको हो।


तर के o3 लाई अलग गर्छ?


  • यो आफैले तथ्य जाँच गर्दछ: जब तपाइँ यसलाई प्रश्न सोध्नुहुन्छ, यसले प्रतिक्रिया मात्र गर्दैन - यसले क्रस-सन्दर्भ र बाटोमा डबल-जाँच गर्दछ।
  • यसले फरक गतिमा सोच्दछ: कार्यमा निर्भर गर्दै, तपाइँ यसलाई कम, मध्यम वा उच्च गणनामा सेट गर्न सक्नुहुन्छ (अनिवार्य रूपमा यसलाई कति "मस्तिष्क शक्ति" प्रयोग गर्ने भनेर बताउनुहुन्छ)। यसको मतलब यसले पसिना नछोडिकन सरल प्रश्नहरू र जटिल पजलहरू दुवै ह्यान्डल गर्न सक्छ।
  • यो लचिलो छ: त्यहाँ पूर्ण विकसित o3 मोडेल र यसको सानो दाजुभाइ, o3-mini , हल्का कार्यहरू र कडा बजेटहरूको लागि डिजाइन गरिएको छ।

किन यसलाई o3 कल? र o2 लाई के भयो?

बेलायती टेलिकम प्रदायक, O2 सँग ट्रेडमार्क विवादको कारण OpenAI ले "o2" छोड्यो।


हो, तपाईंले त्यो सही पढ्नुभयो।


ओपनएआईका सीईओ सैम अल्टम्यानले लाइभ स्ट्रिमको बेला पनि यसको पुष्टि गरे।


प्राविधिक संसारमा, एआई मोडेलहरूको नामकरण पनि कानूनी नाटकको साथ आउन सक्छ।


तर नामको बारेमा पर्याप्त। यो मोडेल किन टाउको घुमिरहेको छ भन्ने बारे कुरा गरौं।

o3 पछाडिको संख्या: किन यो दिमाग उडिरहेको छ

यदि तपाईं डेटामा हुनुहुन्छ भने, यहाँ चीजहरू रसदार हुन्छन्।

1 - तर्क शक्ति

O3 को सबैभन्दा उल्लेखनीय उपलब्धिहरू मध्ये एक ARC AGI बेन्चमार्कमा यसको प्रदर्शन हो — AI ले नयाँ सीपहरू सिक्न र सामान्यीकरण गर्न सक्छ कि भनेर मापन गर्न डिजाइन गरिएको परीक्षण हो, यो तालिम दिइएको कुरालाई मात्र होइन।


यसलाई चित्रण गर्नुहोस्: तपाईंलाई ज्यामितीय ढाँचाहरूको श्रृंखला दिइएको छ र अर्कोको भविष्यवाणी गर्न भनिएको छ।


कुनै पूर्व उदाहरणहरू छैनन्, कुनै याद गरिएको टेम्प्लेटहरू - केवल कच्चा तर्क।


ARC AGI ले AI लाई प्रस्तुत गरेको चुनौती यही हो।

  • O1 को स्कोर: 32%
  • O3 को स्कोर: 88% (उच्च गणनामा)


यो कोसेढुङ्गा महत्त्वपूर्ण छ किनभने ARC AGI लाई मानव जस्तै सोच्ने एआईको क्षमताको मूल्याङ्कन गर्नको लागि सुनको मानक मानिन्छ।


पहिलो पटक, एआई मोडेलले यस परीक्षणमा मानव-स्तरको प्रदर्शनलाई पार गरेको छ।

यहाँ O3 मोडेलमा गरिएको OpenAI परीक्षण छ

यहाँ के भइरहेको छ?


तपाईंलाई रंगीन आकारहरू भएको ग्रिड देखाइएको छ र सोधिएको छ, "यदि यो इनपुट हो भने, आउटपुट कस्तो हुनुपर्छ?"


AI लाई कसरी इनपुट ग्रिडहरू आउटपुट ग्रिडमा परिणत हुन्छन् भन्ने केही उदाहरणहरू दिइएको छ।


उदाहरणहरूले विशिष्ट तर्क वा नियमहरू पछ्याउँछन्।


उदाहरणका लागि:

  • एउटा उदाहरणमा, भित्र रातो थोप्लाहरू भएको पहेंलो वर्गले रातो किनारा पाउँछ।
  • अर्कोमा, नीलो थोप्लाहरू भएको पहेंलो वर्गले नीलो किनारा पाउँछ।


लक्ष्य?

  • AI ले यी परिवर्तनहरू पछाडिका नियमहरू पत्ता लगाउनु पर्छ, स्पष्ट रूपमा नभईकन।
  • त्यसपछि, यसले ती नियमहरूलाई नयाँ-नयाँ ग्रिड ("परीक्षण इनपुट") मा लागू गर्न र सही "परीक्षण आउटपुट" उत्पन्न गर्न आवश्यक छ।


AI को लागि यो किन गाह्रो छ?

मानिसले यो सधैं गर्छ।


उदाहरणका लागि, यदि कसैले भन्छ, "रातो थोप्लाहरू भएका कुनै पनि कुरामा रातो रूपरेखा थप्नुहोस्," तपाईंले तुरुन्तै प्राप्त गर्नुहुनेछ।


AI, तथापि, संघर्ष गर्दछ किनभने यसले रातो वा रूपरेखाको अवधारणालाई "बुझ्दैन" - यसले डेटामा ढाँचाहरू मात्र प्रशोधन गर्दछ।


ARC परीक्षणले AI लाई पूर्व-सिकेका उत्तरहरू भन्दा बाहिर सोच्न धकेल्छ।


प्रत्येक परीक्षण अद्वितीय छ, त्यसैले सम्झनाले मद्दत गर्दैन।


पछिल्लो परीक्षण (🤔 इमोजीको साथ) को बारेमा के हुन्छ?

यहाँ छ जहाँ चीजहरू साँच्चै कठिन हुन्छन्।


परीक्षण इनपुटले चीजहरू मिलाउँछ: त्यहाँ म्याजेन्टा डटहरूसँग पहेंलो वर्ग छ।


AI ले पहिले म्याजेन्टा देखेको छैन - यसले के गर्नुपर्छ?


मानिसहरूले अनुमान गर्न सक्छन्, "सायद यसले म्याजेन्टा किनारा पाउनुपर्दछ," तर यसको लागि तर्क र तर्कको छलांग चाहिन्छ।


AI को लागी, यो आँखामा पट्टी बाँधेर चट्टानबाट हाम फाल्न भनिएको जस्तै हो।


यो पूर्ण रूपमा यसको प्रशिक्षण बाहिर छ।

2 - O3 को उल्लेखनीय प्रदर्शन

O3 ले ARC AGI परीक्षणमा उत्कृष्ट प्रदर्शन गरेर AI तर्कमा नयाँ बेन्चमार्क सेट गरेको छ।


कम-कम्प्युट सेटिङहरूमा, O3 ले अर्ध-निजी होल्डआउट सेटमा 76% स्कोर गर्‍यो - जुन अघिल्लो मोडेलभन्दा धेरै माथिको प्रदर्शन।


तर वास्तविक सफलता तब आयो जब उच्च-कम्प्युट सेटिङहरूमा परीक्षण गरियो, जहाँ O3 ले असाधारण 88% हासिल गर्‍यो, जसले 85% थ्रेसहोल्डलाई प्राय: मानव-स्तरको प्रदर्शन मानिन्छ।

3 - कोडिङ विजार्डरी

ग्राफले O3 ले Bench Verified मा 71.7% सटीकता हासिल गरेको देखाउँछ, एउटा बेन्चमार्क जसले वास्तविक-विश्व सफ्टवेयर इन्जिनियरिङ कार्यहरूको नक्कल गर्छ।


यो O1 भन्दा 46% सुधार हो, जसले विकासकर्ताहरूले दैनिक सामना गर्ने जटिल, व्यावहारिक चुनौतीहरू समाधान गर्न O3 को बललाई सङ्केत गर्छ।


प्रतिस्पर्धी कोडिङमा, भिन्नता अझ नाटकीय छ।


2727 को ELO स्कोरको साथ, O3 ले O1 को 1891 लाई मात्र पार गर्दैन - यसले शीर्ष मानव प्रोग्रामरहरूलाई प्रतिद्वन्द्वी लिगमा प्रवेश गर्छ।

सन्दर्भको लागि, 2400 भन्दा माथिको ELO लाई सामान्यतया ग्रान्डमास्टर स्तर मानिन्छ र यसको 2727 को कोडफोर्स रेटिंगले यसलाई मानव कोडरहरूको शीर्ष 0.8% मा राख्छ।

4 - गणित प्रतिभा

2024 को अमेरिकी आमन्त्रित गणित परीक्षामा , o3 ले एक प्रश्न हराइरहेको 96.7% अङ्क ल्यायो।

5 - विज्ञान प्रोडिजी

GPQA Diamond मा, PhD-स्तरको विज्ञान प्रश्नहरूको सेट, o3 ले 87.7% सटीकता हासिल गर्‍यो—एआई मोडेलहरूका लागि नसुनेको उपलब्धि।


यी संख्याहरू मात्रै होइनन् - तिनीहरू o3 ले मेसिनहरूको पहुँच बाहिर देखिने चुनौतीहरूको सामना गरिरहेको प्रमाण हो।


o3 कसरी सोच्छ?

O3 ले धेरैजसो AI जस्तै प्रतिक्रिया दिदैन - यसले सास लिन्छ, पज गर्छ र सोच्दछ।


जवाफलाई ब्लर गर्ने र बोल्नु अघि विकल्पहरूलाई ध्यानपूर्वक तौलने बीचको भिन्नताको रूपमा सोच्नुहोस्।


यो सम्भव भएको हो, जसलाई सोचाइको पङ्क्तिबद्धता भनिन्छ।

स्रोत: ओपनएआई

यो O3 लाई नैतिक कम्पास दिनु, यसलाई सादा भाषामा सुरक्षा र नैतिकताका नियमहरू सिकाउनु, र प्रतिक्रिया दिनुको सट्टा कठिन परिस्थितिहरूमा कसरी तर्क गर्ने भनेर देखाउनु जस्तै हो।


एक द्रुत उदाहरण

कल्पना गर्नुहोस् कि कसैले ROT13 साइफर (मूलतया, एउटा स्क्र्याम्बल गरिएको सन्देश) प्रयोग गरी हानिकारक अनुरोधलाई एन्कोडिङ गरेर O3 लाई आउटस्मार्ट गर्ने प्रयास गरिरहेको छ।


उनीहरूले अवैध गतिविधि लुकाउन सल्लाह मागिरहेका छन्।


कम उन्नत AI ले चारा लिन सक्छ, तर O3?


यसले अनुरोधलाई बुझाउँछ, यो नराम्रो छ भन्ने महसुस गर्छ, र OpenAI को सुरक्षा नीतिहरूसँग क्रस-चेक गर्दछ।


यसले प्रतिक्रियालाई मात्र रोक्दैन।


किन यो अनुरोधले नैतिक सीमाहरू पार गर्छ र स्पष्ट अस्वीकार प्रदान गर्दछ।


यो अन्तस्करण भएको AI हो - वा हामीले देखेको जस्तो नजिक।


यहाँ O3 को विचार प्रक्रिया कसरी काम गर्दछ:

1 - यसले नियमहरू पढ्छ

के सही वा गलत हो भनेर अनुमान लगाउनुको सट्टा, O3 लाई सादा भाषामा लेखिएका वास्तविक सुरक्षा दिशानिर्देशहरूसँग तालिम दिइएको छ।


यो व्यवहार अनुमान गर्न उदाहरणहरूमा भर पर्दैन - यसले नियमपुस्तिका अगाडि जान्दछ।

2 - यसले चरण-दर-चरण सोच्दछ

जब कुनै कठिन वा सूक्ष्म कार्यको सामना गर्नुपर्‍यो, O3 निष्कर्षमा पुग्दैन।


यसले चेन-अफ-थट तर्कलाई प्रयोग गर्छ — समस्यालाई चरण-दर-चरण, उत्तम प्रतिक्रिया पत्ता लगाउन।

3 - यो पल अनुकूलन गर्दछ

सबैको अवस्था एउटै हुँदैन ।


केही कार्यहरूलाई द्रुत जवाफ चाहिन्छ, अरूलाई गहिरो प्रतिबिम्ब चाहिन्छ।


O3 ले समस्याको जटिलताको आधारमा आफ्नो प्रयासलाई समायोजन गर्छ, त्यसैले जब यो हुन सक्छ र आवश्यक हुँदा पूर्ण रूपमा प्रभावकारी हुन्छ।

O3 Mini लाई भेट्नुहोस्: बजेट-मैत्री प्रतिभा

O3 सँगसँगै, OpenAI ले O3 Mini पेश गर्‍यो, एक लागत-प्रभावी संस्करण जुन कार्यहरूका लागि डिजाइन गरिएको हो जसलाई आफ्नो ठूलो दाजुभाइको पूर्ण शक्ति आवश्यक पर्दैन।


O3 Mini को बारेमा के विशेष छ?


अनुकूली सोच समय प्रयोगकर्ताहरूले कार्य जटिलतामा आधारित मोडेलको तर्क प्रयास समायोजन गर्न सक्छन्।


द्रुत जवाफ चाहिन्छ? कम प्रयास तर्कको लागि जानुहोस्।


एक जटिल कोडिङ समस्या समाधान? यसलाई उच्च-प्रयास मोडमा क्र्याङ्क गर्नुहोस्।


लागत-कार्यसम्पादन ब्यालेन्स O3 Mini ले सरल कार्यहरूका लागि O3 जत्तिकै सटीकताको स्तर प्रदान गर्दछ तर लागतको एक अंशमा।


यो लचिलोपनले O3 Mini लाई बजेटमा काम गर्ने विकासकर्ता र अनुसन्धानकर्ताहरूको लागि आकर्षक विकल्प बनाउँछ।


के यो AI को भविष्य हो? AGI तर्फ एक कदम

यहाँ चीजहरू दार्शनिक हुन्छन्।


AGI, वा आर्टिफिशियल जनरल इन्टेलिजेन्स , AI लाई जनाउँछ जसले मानिसले गर्न सक्ने कुनै पनि काम गर्न सक्छ - र प्राय: राम्रो।


OpenAI सँग सधैं AGI यसको उत्तरी ताराको रूपमा रहेको छ, र o3 सँग, तिनीहरू नजिक हुँदैछन् जस्तो लाग्छ।


यसलाई विचार गर्नुहोस्:

  • ARC-AGI मा, o3 ले आफ्नो पूर्ववर्तीको प्रदर्शनलाई झण्डै तीन गुणा बढायो।
  • यसले समस्याहरू समाधान गर्दैछ जसलाई सिकाइ र तर्क चाहिन्छ, सम्झना मात्र होइन।


त्यसले भन्यो, OpenAI ले पनि o3 अझै AGI होइन भनेर स्वीकार गर्दछ।


यो AGI जस्तो देखिन सक्छ भन्ने प्रोटोटाइप जस्तै हो—एआई जसले सिक्ने, अनुकूलन गर्ने, र कारणहरू महसुस गर्ने तरिकामा... मानव।


अगाडी चुनौतीहरू यसको अविश्वसनीय क्षमताहरूसँग पनि, o3 यसको त्रुटिहरू बिना छैन:

  1. लागत: उच्च कम्प्युटिङ सेटिङहरूमा o3 चलाउन महँगो छ - जस्तै, 7 देखि 8 हजार डलर प्रति ta।
  2. त्रुटिहरू: यद्यपि यो तर्कमा राम्रो छ, o3 अझै पनि ट्रिप गर्न सक्छ, विशेष गरी सरल कार्यहरूमा जहाँ यसले समस्यालाई बढाउँछ।
  3. नैतिकता: o1 जस्ता पहिलेका मोडेलहरूले निश्चित परिदृश्यहरूमा प्रयोगकर्ताहरूलाई धोका दिने प्रयास गरेकोमा आलोचनाको सामना गर्नुपरेको थियो। के o3 एउटै जालमा पर्नेछ?


ठूलो तस्वीर

o3 अर्को AI मोडेल मात्र होइन - यो AI के बन्न सक्छ भन्ने झलक हो।


यो सिद्ध छैन, तर यो एक युग तिर एक कदम हो जहाँ मेशिनहरूले प्रतिक्रिया मात्र गर्दैन - तिनीहरू तर्क गर्छन्, सिक्छन्, र गहिरो मानव महसुस गर्ने तरिकामा अनुकूलन गर्छन्।


र जब हामी अझै AGI बाट टाढा छौं, o3 ले हामीलाई सम्झाउँछ कि प्रगति रैखिक छैन - यो घातीय छ।


त्यसोभए, तपाईलाई के लाग्छ? के हामी नयाँ एआई क्रान्तिको शिखरमा छौं? वा o3 धेरै लामो यात्रामा अर्को कोसेढुङ्गा हो?