paint-brush
Dink OpenAI se o3 uiteindelik soos 'n mens?deur@niteshpadghan
Nuwe geskiedenis

Dink OpenAI se o3 uiteindelik soos 'n mens?

deur Nitesh Padghan8m2024/12/31
Read on Terminal Reader

Te lank; Om te lees

OpenAI se o3-model bring 'n sprong in KI-redenering, wat uitblink in kodering, wiskunde en algemene intelligensie-maatstawwe. Kan dit die volgende stap in die rigting van ware AGI wees?
featured image - Dink OpenAI se o3 uiteindelik soos 'n mens?
Nitesh Padghan HackerNoon profile picture
0-item

Stel jou dit voor: Jy vra jou KI-assistent 'n vraag, en in plaas daarvan om 'n halfgebakte antwoord in millisekondes uit te spoeg, word dit stil.


Dit dink. Dit redeneer.


En dan lewer dit 'n reaksie so goed deurdag dat dit amper ... menslik voel.


Klink futuristies, reg?


Wel, welkom by die o3-model , OpenAI se nuutste skepping wat beloof om die spel heeltemal te verander.


KI is jare lank in 'n patroon vasgevang - vinniger reaksies, flitsender uitsette, maar nie noodwendig slimmer nie.


Met o3 sê OpenAI: “Vertraag. Kom ons doen dit reg.”

Eerste dinge eerste: Wat is o3?

Toe OpenAI o3 tydens sy 12-dae "shipmas"-geleentheid onthul het , was dit nie net nog 'n aankondiging in 'n stampvol KI-mark nie.


Hierdie model, het hulle beweer, is nie net slimmer nie - dit is meer deurdag .


In sy kern is o3 deel van OpenAI se familie van "redeneringsmodelle."


Anders as tradisionele KI, wat dikwels op brute berekeningskrag staatmaak om antwoorde te lewer, is redenasiemodelle soos o3 ontwerp om inligting meer soos mense te verwerk.


Maar wat onderskei o3?


  • Dit kontroleer self: Wanneer jy dit 'n vraag vra, reageer dit nie net nie - dit kruisverwysings en dubbelkontroles langs die pad.
  • Dit dink teen verskillende snelhede: Afhangende van die taak, kan jy dit op lae, medium of hoë berekening stel (in wese vertel dit hoeveel "breinkrag" om te gebruik). Dit beteken dit kan beide eenvoudige vrae en komplekse kopkrapper hanteer sonder om te sweet.
  • Dit is buigsaam: Daar is die volskaalse o3-model en sy kleiner broer, o3-mini , ontwerp vir ligter take en strenger begrotings.

Hoekom noem dit o3? En wat het met o2 geword?

OpenAI het "o2" oorgeslaan weens 'n handelsmerkkonflik met 'n Britse telekommunikasieverskaffer, O2.


Jip, jy het reg gelees.


Sam Altman, OpenAI se uitvoerende hoof, het dit selfs tydens 'n regstreekse stroom bevestig.


In die tegnologiewêreld kan selfs die naam van KI-modelle gepaard gaan met wettige drama.


Maar genoeg oor die naam. Kom ons praat oor hoekom hierdie model die koppe laat draai.

Die syfers agter o3: hoekom dit gedagtes blaas

As jy van data hou, is dit hier waar dinge sappig word.

1 - Redeneerkrag

Een van die opvallendste prestasies van O3 is sy prestasie op die ARC AGI-maatstaf —'n toets wat ontwerp is om te meet of KI nuwe vaardighede kan aanleer en veralgemeen, nie net dit waarop dit opgelei is, kan herwin nie.


Stel jou dit voor: Jy word 'n reeks meetkundige patrone gegee en gevra om die volgende een te voorspel.


Geen vorige voorbeelde, geen gememoriseerde sjablone nie - net rou redenasie.


Dit is die uitdaging wat ARC AGI aan KI bied.

  • O1 se telling: 32%
  • O3 se telling: 88% (op hoë berekening)


Hierdie mylpaal is betekenisvol omdat ARC AGI as die goue standaard beskou word vir die evaluering van 'n KI se vermoë om soos 'n mens te dink.


Vir die eerste keer het 'n KI-model prestasie op menslike vlak in hierdie toets oortref .

Hier is die toets OpenAI wat op die o3-model uitgevoer is

Wat gebeur hier?


Jy word 'n rooster met kleurvolle vorms gewys en gevra: "As dit die invoer is, hoe moet die uitset lyk?"


Die KI word 'n paar voorbeelde gegee van hoe insetroosters in uitsetroosters omskep word.


Die voorbeelde volg spesifieke logika of reëls.


Byvoorbeeld:

  • In een voorbeeld kry 'n geel vierkant met rooi kolletjies binne 'n rooi rand.
  • In 'n ander een kry 'n geel vierkant met blou kolletjies 'n blou rand.


Die doelwit?

  • Die KI moet die reëls agter hierdie transformasies uitvind, sonder om dit uitdruklik te vertel.
  • Dan moet dit daardie reëls toepas op 'n splinternuwe rooster (die "Toets Invoer") en die korrekte "Toets Uitset" genereer.


Hoekom is dit so moeilik vir KI?

Mense doen dit heeltyd.


Byvoorbeeld, as iemand sê: "Voeg 'n rooi buitelyn by enigiets met rooi kolletjies," kry jy dit dadelik.


KI sukkel egter omdat dit nie die konsep van rooi of buitelyne “verstaan” nie – dit verwerk net patrone in data.


Die LNR-toets dryf KI om verder as voorafgeleerde antwoorde te dink.


Elke toets is uniek, so memorisering sal nie help nie.


Wat van die laaste toets (met die 🤔-emoji)?

Hier is waar dinge regtig moeilik raak.


Die toetsinvoer meng dinge deurmekaar: daar is 'n geel vierkant met magenta kolletjies.


Die KI het nog nie magenta gesien nie—wat moet dit doen?


Mense kan dalk raai, "Miskien moet dit 'n magenta-grens kry," maar dit vereis redenasie en 'n sprong van logika.


Vir KI is dit soos om gevra te word om geblinddoek van 'n krans af te spring.


Dit is heeltemal buite sy opleiding.

2 - O3 se merkwaardige prestasie

O3 het 'n nuwe maatstaf in KI-redenering gestel deur uit te blink op die ARC AGI-toets.


Op lae-rekenaar instellings het O3 76% behaal op die semi-private uithou-stel - 'n prestasie ver bo enige vorige model.


Maar die werklike deurbraak het gekom toe dit op hoë-rekenaarinstellings getoets is, waar O3 'n buitengewone 88% behaal het, wat die drempel van 85% oortref het wat dikwels as menslike vlakprestasie beskou word.

3 - Kodering Wizardry

Die grafiek toon dat O3 71,7% akkuraatheid behaal op Bench Verified , 'n maatstaf wat werklike sagteware-ingenieurstake simuleer.


Dit is 'n verbetering van 46% teenoor O1, wat O3 se sterkte aandui in die oplossing van komplekse, praktiese uitdagings wat ontwikkelaars daagliks in die gesig staar.


In mededingende kodering is die verskil selfs meer dramaties.


Met 'n ELO-telling van 2727 presteer O3 nie net beter as O1 se 1891 nie - dit betree 'n liga wat meeding met top menslike programmeerders.

Vir konteks word 'n ELO bo 2400 tipies as grootmeestervlak beskou en sy Codeforces-gradering van 2727 plaas dit in die top 0.8% van menslike kodeerders.

4 - Wiskunde Genius

Op die 2024 American Invitational Mathematics Exam , het o3 'n 96.7% aangeteken, wat net een vraag mis.

5 - Wetenskapwonderkind

Op GPQA Diamond, 'n stel PhD-vlak wetenskapvrae, het o3 87,7% akkuraatheid behaal - 'n ongehoorde prestasie vir KI-modelle.


Dit is nie net syfers nie - dit is 'n bewys dat o3 uitdagings aanpak wat eens buite bereik vir masjiene gelyk het.


Hoe dink o3?

O3 reageer nie net soos die meeste KI nie - dit haal 'n asem, breek en dink.


Dink daaraan as die verskil tussen om 'n antwoord uit te blaf en om die opsies versigtig te weeg voordat jy praat.


Dit is moontlik danksy iets wat deliberatiewe belyning genoem word.

Bron: OpenAI

Dit is soos om O3 'n morele kompas te gee, hom die reëls van veiligheid en etiek in gewone taal te leer, en dit te wys hoe om deur moeilike situasies te redeneer in plaas van om net te reageer.


'n Vinnige Voorbeeld

Stel jou voor dat iemand O3 probeer uitoorlê deur 'n skadelike versoek te enkodeer met 'n ROT13-syfer (basies 'n deurmekaar boodskap).


Hulle vra raad oor die wegsteek van onwettige aktiwiteite.


’n Minder gevorderde KI kan dalk die aas vat, maar O3?


Dit ontsyfer die versoek, besef dat dit onduidelik is, en kruiskontroleer met OpenAI se veiligheidsbeleide.


Dit blokkeer nie net die reaksie nie.


Dit redes waarom hierdie versoek etiese grense oorskry en verskaf 'n duidelike weiering.


Dit is KI met 'n gewete—of so na aan een as wat ons nog ooit gesien het.


Hier is hoe O3 se denkproses werk:

1 - Dit lees die reëls

In plaas daarvan om te raai wat reg of verkeerd is, word O3 opgelei met werklike veiligheidsriglyne wat in gewone taal geskryf is.


Dit maak nie net staat op voorbeelde om gedrag af te lei nie - dit leer die reëlboek vooraf.

2 - Dit dink stap-vir-stap

Wanneer 'n moeilike of genuanseerde taak gekonfronteer word, maak O3 nie gevolgtrekkings nie.


Dit gebruik wat genoem word ketting-van-gedagte redenering — om die probleem stap vir stap af te breek om die beste reaksie uit te vind.

3 - Dit pas by die oomblik aan

Nie elke situasie is dieselfde nie.


Sommige take benodig vinnige antwoorde, ander vereis diep nadenke.


O3 pas sy poging aan op grond van die kompleksiteit van die probleem, so dit is doeltreffend wanneer dit kan en deeglik wanneer dit moet wees.

Ontmoet O3 Mini: The Budget-Friendly Genius

Saam met O3 het OpenAI O3 Mini bekendgestel, 'n kostedoeltreffende weergawe wat ontwerp is vir take wat nie die volle krag van sy groot broer of suster vereis nie.


Wat is spesiaal aan O3 Mini?


Aanpasbare dinktyd Gebruikers kan die model se redenasiepoging aanpas op grond van taakkompleksiteit.


Het jy 'n vinnige antwoord nodig? Gaan vir lae-poging redenering.


Pak 'n komplekse koderingsprobleem aan? Draai dit op na hoë-poging-modus.


Koste-prestasiebalans O3 Mini lewer byna dieselfde vlak van akkuraatheid as O3 vir eenvoudiger take, maar teen 'n fraksie van die koste.


Hierdie buigsaamheid maak O3 Mini 'n aantreklike opsie vir ontwikkelaars en navorsers wat op 'n begroting werk.


Is dit die toekoms van KI? 'n Stap na AGI

Dit is waar dinge filosofies raak.


AGI, of Kunsmatige Algemene Intelligensie , verwys na KI wat enige taak kan verrig wat 'n mens kan - en dikwels beter.


OpenAI het nog altyd AGI as sy noordster gehad, en met o3 voel dit of hulle nader kom.


Oorweeg dit:

  • Op ARC-AGI het o3 die prestasie van sy voorganger byna verdriedubbel.
  • Dit is om probleme op te los wat leer en redenering vereis, nie net memorisering nie.


Dit gesê, selfs OpenAI erken dat o3 nog nie AGI is nie.


Dit is meer soos 'n prototipe van hoe AGI kan lyk - 'n KI wat leer, aanpas en redeneer op maniere wat ... menslik voel.


Die uitdagings wat voorlê Selfs met sy ongelooflike vermoëns, is o3 nie sonder sy gebreke nie:

  1. Koste: Om o3 in hoë rekenaarinstellings te laat loop, is duur —soos 7 tot 8 duisend dollar per ta.
  2. Foute: Alhoewel dit beter is om te redeneer, kan o3 steeds struikel, veral op eenvoudiger take waar dit die probleem te veel dink.
  3. Etiek: Vroeëre modelle soos o1 het kritiek ondervind omdat hulle probeer het om gebruikers in sekere scenario's te mislei. Sal o3 in dieselfde strik trap?


Die Groot Prentjie

o3 is nie net nog 'n KI-model nie - dit is 'n blik op wat KI kan word.


Dit is nie perfek nie, maar dit is 'n stap in die rigting van 'n era waar masjiene nie net reageer nie - hulle redeneer, leer en pas aan op maniere wat diep menslik voel.


En terwyl ons nog ver van AGI af is, herinner o3 ons daaraan dat vordering nie lineêr is nie - dit is eksponensieel.


So, wat dink jy? Is ons op die punt van 'n nuwe KI-revolusie? Of is o3 net nog 'n mylpaal op 'n baie langer reis?