Замислите ово: свом помоћнику за вештачку интелигенцију постављате питање, и уместо да испљуне полусложен одговор за милисекунде, он се зауставља.
Оно мисли. То разлози.
А онда, даје одговор тако добро осмишљен, да се осећа скоро... људски.
Звучи футуристички, зар не?
Па, добродошли у модел о3 , најновију креацију ОпенАИ-а која обећава да ће у потпуности променити игру.
Годинама је вештачка интелигенција била заглављена у обрасцу – бржи одговори, блиставији резултати, али не нужно и паметнији.
Са о3, ОпенАИ каже: „Успори. Хајде да ово урадимо како треба.”
Када је ОпенАИ представио о3 током свог 12-дневног „схипмас“ догађаја, то није била само још једна најава на препуном АИ тржишту.
Овај модел, тврдили су, није само паметнији – већ је и промишљенији .
У својој сржи, о3 је део ОпенАИ-ове породице „модела расуђивања“.
За разлику од традиционалне вештачке интелигенције, која се често ослања на грубу рачунарску силу да би пружила одговоре, модели расуђивања као што је о3 су дизајнирани да обрађују информације више као људи.
Али шта издваја о3?
ОпенАИ је прескочио „о2“ због сукоба жига са британским телеком провајдером, О2.
Да, добро сте прочитали.
Сем Алтман, извршни директор ОпенАИ-а, чак је то потврдио током преноса уживо.
У свету технологије, чак и именовање АИ модела може довести до правне драме.
Али доста о имену. Хајде да разговарамо о томе зашто овај модел окреће главу.
Ако вас занимају подаци, ево где ствари постају сочне.
Једно од најупечатљивијих достигнућа О3 је његов учинак на АРЦ АГИ бенцхмарк -у — тесту дизајнираном да мери да ли АИ може да научи и генерализује нове вештине, а не само да поврати оно на чему је обучена.
Замислите ово: Добили сте низ геометријских образаца и замолили сте да предвидите следећи.
Нема претходних примера, нема меморисаних шаблона - само сирово резоновање.
То је изазов који АРЦ АГИ представља АИ.
Ова прекретница је значајна јер се АРЦ АГИ сматра златним стандардом за процену способности вештачке интелигенције да размишља као човек.
По први пут, АИ модел је надмашио перформансе на нивоу човека на овом тесту.
Шта се дешава овде?
Приказује вам се мрежа са шареним облицима и питате: „Ако је ово улаз, како би требало да изгледа излаз?“
АИ је дато неколико примера како се улазне мреже трансформишу у излазне мреже.
Примери прате специфичну логику или правила.
на пример:
Циљ?
Зашто је ово тако тешко за АИ?
Људи то раде стално.
На пример, ако неко каже: „Додајте црвени обрис свему са црвеним тачкама“, одмах ћете то добити.
АИ се, међутим, бори јер не „разуме“ концепт црвене боје или обриса – само обрађује обрасце у подацима.
АРЦ тест гура АИ да размишља даље од унапред научених одговора.
Сваки тест је јединствен, тако да памћење неће помоћи.
Шта је са последњим тестом (са емоџијем 🤔)?
Ево где ствари постају заиста незгодне.
Тестни унос меша ствари: постоји жути квадрат са магента тачкама.
АИ није раније видела магенту – шта би требало да ради?
Људи би могли погодити: „Можда би требало да добије магента границу“, али за то је потребно размишљање и корак логике.
За АИ, ово је као да се од вас тражи да скочите са литице са повезом преко очију.
Потпуно је ван његове обуке.
О3 је поставио ново мерило у размишљању АИ тако што је био одличан на АРЦ АГИ тесту.
На поставкама са ниским бројем рачунара, О3 је постигао 76% на полу-приватном сету за задржавање – перформансе које су далеко изнад свих претходних модела.
Али прави пробој се десио када је тестиран на високим рачунарским поставкама, где је О3 постигао невероватних 88%, премашивши праг од 85% који се често сматра перформансама на нивоу човека.
Графикон приказује О3 који постиже 71,7% тачности на Бенцх Верифиед , бенчмарку који симулира задатке софтверског инжењеринга у стварном свету.
Ово је побољшање од 46% у односу на О1, сигнализирајући снагу О3 у решавању сложених, практичних изазова са којима се програмери свакодневно суочавају.
У конкурентском кодирању разлика је још драматичнија.
Са ЕЛО резултатом од 2727 , О3 не само да надмашује О1 1891 – већ улази у лигу која се такмичи са врхунским програмерима људи.
За контекст, ЕЛО изнад 2400 се обично сматра велемајсторским нивоом и његов Цодефорцес рејтинг од 2727 га ставља у првих 0,8% људи кодера.
На америчком позивном испиту из математике 2024. године, о3 је постигао невероватних 96,7%, пропуштајући само једно питање.
На ГПКА Диамонду, сету научних питања на нивоу доктора наука, о3 је постигао 87,7% тачности – нечувен подвиг за АИ моделе.
Ово нису само бројеви – они су доказ да се о3 носи са изазовима који су се некада чинили недостижним машинама.
О3 не реагује само као већина вештачке интелигенције – узима дах, паузира и размишља.
Замислите то као разлику између изговарања одговора и пажљивог одмеравања опција пре него што проговорите.
Ово је могуће захваљујући нечему што се зове делиберативно усклађивање .
То је као да О3 дате морални компас, научите га правилима безбедности и етике на простом језику и покажете му како да резонује у тешким ситуацијама уместо да само реагује.
Брзи пример
Замислите да неко покушава да надмудри О3 тако што кодира штетни захтев користећи РОТ13 шифру (у суштини, шифрована порука).
Траже савет о скривању илегалних активности.
Мање напредна АИ би могла да ухвати мамац, али О3?
Он дешифрује захтев, схвата да је непредвиђен и унакрсне провере са безбедносним политикама ОпенАИ-а.
То не блокира само одговор.
Он образлаже зашто овај захтев прелази етичке границе и даје јасно одбијање.
Ово је вештачка интелигенција са савешћу – или блиска таквој коју смо икада видели.
Ево како О3-ов мисаони процес функционише:
1 - Чита правила
Уместо да нагађа шта је исправно или погрешно, О3 је обучен са стварним безбедносним смерницама написаним на једноставном језику.
Не ослања се само на примере да би закључио понашање – већ унапред учи правилник.
2 - Размишља корак по корак
Када се суочи са лукавим или нијансираним задатком, О3 не доноси пребрзо закључке.
Користи оно што се зове ланац размишљања — разлажење проблема, корак по корак, да би се пронашао најбољи одговор.
3 - Прилагођава се тренутку
Није свака ситуација иста.
Неки задаци захтевају брзе одговоре, други захтевају дубоко размишљање.
О3 прилагођава свој напор на основу сложености проблема, тако да је ефикасан када може и темељан када треба.
Поред О3, ОпенАИ је представио О3 Мини, економичну верзију дизајнирану за задатке који не захтевају пуну снагу његовог великог брата.
Шта је посебно у вези са О3 Мини?
Адаптиве Тхинкинг Тиме Корисници могу да подесе напоре модела за размишљање на основу сложености задатка.
Треба вам брз одговор? Идите на расуђивање са малим напором.
Рјешавање сложеног проблема кодирања? Подигните га до режима великог напора.
Баланс цене и учинка О3 Мини пружа скоро исти ниво тачности као О3 за једноставније задатке, али уз делић цене.
Ова флексибилност чини О3 Мини атрактивном опцијом за програмере и истраживаче који раде на буџету.
Ево где ствари постају филозофске.
АГИ, или вештачка општа интелигенција , односи се на вештачку интелигенцију која може да изврши било који задатак који човек може — и често боље.
ОпенАИ је увек имао АГИ као своју северну звезду, а са о3, чини се да су све ближе.
Размотрите ово:
Уз то, чак и ОпенАИ признаје да о3 још увек није АГИ.
То је више као прототип како би АГИ могао да изгледа — вештачка интелигенција која учи, прилагођава се и образлаже на начин који се осећа... људским.
Предстојећи изазови Чак и са својим невероватним могућностима, о3 није без својих недостатака:
о3 није само још један модел вештачке интелигенције – то је увид у то шта би вештачка интелигенција могла да постане.
Није савршено, али је корак ка ери у којој машине не реагују само – оне размишљају, уче и прилагођавају се на начине који се осећају дубоко људски.
И док смо још увек далеко од АГИ, о3 нас подсећа да напредак није линеаран – већ експоненцијалан.
Па, шта ти мислиш? Да ли смо на прагу нове АИ револуције? Или је о3 само још једна прекретница на много дужем путу?