paint-brush
Да ли ОпенАИ-ов о3 коначно размишља као човек?од стране@niteshpadghan
Нова историја

Да ли ОпенАИ-ов о3 коначно размишља као човек?

од стране Nitesh Padghan8m2024/12/31
Read on Terminal Reader

Предуго; Читати

ОпенАИ-ов о3 модел доноси искорак у АИ закључивању, истичући се у кодирању, математици и општим мерилима интелигенције. Може ли ово бити следећи корак ка правом АГИ?
featured image - Да ли ОпенАИ-ов о3 коначно размишља као човек?
Nitesh Padghan HackerNoon profile picture
0-item

Замислите ово: свом помоћнику за вештачку интелигенцију постављате питање, и уместо да испљуне полусложен одговор за милисекунде, он се зауставља.


Оно мисли. То разлози.


А онда, даје одговор тако добро осмишљен, да се осећа скоро... људски.


Звучи футуристички, зар не?


Па, добродошли у модел о3 , најновију креацију ОпенАИ-а која обећава да ће у потпуности променити игру.


Годинама је вештачка интелигенција била заглављена у обрасцу – бржи одговори, блиставији резултати, али не нужно и паметнији.


Са о3, ОпенАИ каже: „Успори. Хајде да ово урадимо како треба.”

Прва ствар: Шта је о3?

Када је ОпенАИ представио о3 током свог 12-дневног „схипмас“ догађаја, то није била само још једна најава на препуном АИ тржишту.


Овај модел, тврдили су, није само паметнији – већ је и промишљенији .


У својој сржи, о3 је део ОпенАИ-ове породице „модела расуђивања“.


За разлику од традиционалне вештачке интелигенције, која се често ослања на грубу рачунарску силу да би пружила одговоре, модели расуђивања као што је о3 су дизајнирани да обрађују информације више као људи.


Али шта издваја о3?


  • Проверава се чињеницама: Када му поставите питање, он не само да одговара – већ успут упућује и два пута проверава.
  • Размишља различитим брзинама: У зависности од задатка, можете га подесити на ниско, средње или високо израчунавање (у суштини говорећи му колико „мождане снаге“ треба да користи). То значи да може да се носи и са једноставним питањима и са сложеним загонеткама без знојења.
  • Флексибилан је: ту је комплетан модел о3 и његов мањи брат, о3-мини , дизајниран за лакше задатке и мањи буџет.

Зашто га назвати о3? И шта се догодило са о2?

ОпенАИ је прескочио „о2“ због сукоба жига са британским телеком провајдером, О2.


Да, добро сте прочитали.


Сем Алтман, извршни директор ОпенАИ-а, чак је то потврдио током преноса уживо.


У свету технологије, чак и именовање АИ модела може довести до правне драме.


Али доста о имену. Хајде да разговарамо о томе зашто овај модел окреће главу.

Бројеви иза о3: Зашто је невероватно

Ако вас занимају подаци, ево где ствари постају сочне.

1 - Реасонинг Повер

Једно од најупечатљивијих достигнућа О3 је његов учинак на АРЦ АГИ бенцхмарк -у — тесту дизајнираном да мери да ли АИ може да научи и генерализује нове вештине, а не само да поврати оно на чему је обучена.


Замислите ово: Добили сте низ геометријских образаца и замолили сте да предвидите следећи.


Нема претходних примера, нема меморисаних шаблона - само сирово резоновање.


То је изазов који АРЦ АГИ представља АИ.

  • О1 резултат: 32%
  • О3 резултат: 88% (на високом рачунару)


Ова прекретница је значајна јер се АРЦ АГИ сматра златним стандардом за процену способности вештачке интелигенције да размишља као човек.


По први пут, АИ модел је надмашио перформансе на нивоу човека на овом тесту.

Ево теста ОпенАИ који је изведен на о3 моделу

Шта се дешава овде?


Приказује вам се мрежа са шареним облицима и питате: „Ако је ово улаз, како би требало да изгледа излаз?“


АИ је дато неколико примера како се улазне мреже трансформишу у излазне мреже.


Примери прате специфичну логику или правила.


на пример:

  • У једном примеру, жути квадрат са црвеним тачкама изнутра добија црвену ивицу.
  • У другом, жути квадрат са плавим тачкама добија плаву ивицу.


Циљ?

  • АИ мора да схвати правила која стоје иза ових трансформација, а да јој то није експлицитно речено.
  • Затим, треба да примени та правила на потпуно нову мрежу („Тест Инпут“) и генерише исправан „Тест Оутпут“.


Зашто је ово тако тешко за АИ?

Људи то раде стално.


На пример, ако неко каже: „Додајте црвени обрис свему са црвеним тачкама“, одмах ћете то добити.


АИ се, међутим, бори јер не „разуме“ концепт црвене боје или обриса – само обрађује обрасце у подацима.


АРЦ тест гура АИ да размишља даље од унапред научених одговора.


Сваки тест је јединствен, тако да памћење неће помоћи.


Шта је са последњим тестом (са емоџијем 🤔)?

Ево где ствари постају заиста незгодне.


Тестни унос меша ствари: постоји жути квадрат са магента тачкама.


АИ није раније видела магенту – шта би требало да ради?


Људи би могли погодити: „Можда би требало да добије магента границу“, али за то је потребно размишљање и корак логике.


За АИ, ово је као да се од вас тражи да скочите са литице са повезом преко очију.


Потпуно је ван његове обуке.

2 - Изванредне перформансе О3

О3 је поставио ново мерило у размишљању АИ тако што је био одличан на АРЦ АГИ тесту.


На поставкама са ниским бројем рачунара, О3 је постигао 76% на полу-приватном сету за задржавање – перформансе које су далеко изнад свих претходних модела.


Али прави пробој се десио када је тестиран на високим рачунарским поставкама, где је О3 постигао невероватних 88%, премашивши праг од 85% који се често сматра перформансама на нивоу човека.

3 - Чаробњаци кодирања

Графикон приказује О3 који постиже 71,7% тачности на Бенцх Верифиед , бенчмарку који симулира задатке софтверског инжењеринга у стварном свету.


Ово је побољшање од 46% у односу на О1, сигнализирајући снагу О3 у решавању сложених, практичних изазова са којима се програмери свакодневно суочавају.


У конкурентском кодирању разлика је још драматичнија.


Са ЕЛО резултатом од 2727 , О3 не само да надмашује О1 1891 – већ улази у лигу која се такмичи са врхунским програмерима људи.

За контекст, ЕЛО изнад 2400 се обично сматра велемајсторским нивоом и његов Цодефорцес рејтинг од 2727 га ставља у првих 0,8% људи кодера.

4 - Математички геније

На америчком позивном испиту из математике 2024. године, о3 је постигао невероватних 96,7%, пропуштајући само једно питање.

5 - Сциенце Продиги

На ГПКА Диамонду, сету научних питања на нивоу доктора наука, о3 је постигао 87,7% тачности – нечувен подвиг за АИ моделе.


Ово нису само бројеви – они су доказ да се о3 носи са изазовима који су се некада чинили недостижним машинама.


Како о3 размишља?

О3 не реагује само као већина вештачке интелигенције – узима дах, паузира и размишља.


Замислите то као разлику између изговарања одговора и пажљивог одмеравања опција пре него што проговорите.


Ово је могуће захваљујући нечему што се зове делиберативно усклађивање .

Извор: ОпенАИ

То је као да О3 дате морални компас, научите га правилима безбедности и етике на простом језику и покажете му како да резонује у тешким ситуацијама уместо да само реагује.


Брзи пример

Замислите да неко покушава да надмудри О3 тако што кодира штетни захтев користећи РОТ13 шифру (у суштини, шифрована порука).


Траже савет о скривању илегалних активности.


Мање напредна АИ би могла да ухвати мамац, али О3?


Он дешифрује захтев, схвата да је непредвиђен и унакрсне провере са безбедносним политикама ОпенАИ-а.


То не блокира само одговор.


Он образлаже зашто овај захтев прелази етичке границе и даје јасно одбијање.


Ово је вештачка интелигенција са савешћу – или блиска таквој коју смо икада видели.


Ево како О3-ов мисаони процес функционише:

1 - Чита правила

Уместо да нагађа шта је исправно или погрешно, О3 је обучен са стварним безбедносним смерницама написаним на једноставном језику.


Не ослања се само на примере да би закључио понашање – већ унапред учи правилник.

2 - Размишља корак по корак

Када се суочи са лукавим или нијансираним задатком, О3 не доноси пребрзо закључке.


Користи оно што се зове ланац размишљања — разлажење проблема, корак по корак, да би се пронашао најбољи одговор.

3 - Прилагођава се тренутку

Није свака ситуација иста.


Неки задаци захтевају брзе одговоре, други захтевају дубоко размишљање.


О3 прилагођава свој напор на основу сложености проблема, тако да је ефикасан када може и темељан када треба.

Упознајте О3 Мини: Генија по повољним ценама

Поред О3, ОпенАИ је представио О3 Мини, економичну верзију дизајнирану за задатке који не захтевају пуну снагу његовог великог брата.


Шта је посебно у вези са О3 Мини?


Адаптиве Тхинкинг Тиме Корисници могу да подесе напоре модела за размишљање на основу сложености задатка.


Треба вам брз одговор? Идите на расуђивање са малим напором.


Рјешавање сложеног проблема кодирања? Подигните га до режима великог напора.


Баланс цене и учинка О3 Мини пружа скоро исти ниво тачности као О3 за једноставније задатке, али уз делић цене.


Ова флексибилност чини О3 Мини атрактивном опцијом за програмере и истраживаче који раде на буџету.


Да ли је ово будућност вештачке интелигенције? Корак ка АГИ

Ево где ствари постају филозофске.


АГИ, или вештачка општа интелигенција , односи се на вештачку интелигенцију која може да изврши било који задатак који човек може — и често боље.


ОпенАИ је увек имао АГИ као своју северну звезду, а са о3, чини се да су све ближе.


Размотрите ово:

  • На АРЦ-АГИ, о3 је скоро утростручио перформансе свог претходника.
  • То је решавање проблема који захтевају учење и резоновање, а не само памћење.


Уз то, чак и ОпенАИ признаје да о3 још увек није АГИ.


То је више као прототип како би АГИ могао да изгледа — вештачка интелигенција која учи, прилагођава се и образлаже на начин који се осећа... људским.


Предстојећи изазови Чак и са својим невероватним могућностима, о3 није без својих недостатака:

  1. Цена: Покретање о3 у високим рачунарским поставкама је скупо — на пример, 7 до 8 хиљада долара по та.
  2. Грешке: Иако је бољи у расуђивању, о3 и даље може да се саплете, посебно на једноставнијим задацима где превише размишља о проблему.
  3. Етика: Ранији модели попут о1 суочени су са критикама због покушаја да обману кориснике у одређеним сценаријима. Хоће ли о3 пасти у исту замку?


Велика слика

о3 није само још један модел вештачке интелигенције – то је увид у то шта би вештачка интелигенција могла да постане.


Није савршено, али је корак ка ери у којој машине не реагују само – оне размишљају, уче и прилагођавају се на начине који се осећају дубоко људски.


И док смо још увек далеко од АГИ, о3 нас подсећа да напредак није линеаран – већ експоненцијалан.


Па, шта ти мислиш? Да ли смо на прагу нове АИ револуције? Или је о3 само још једна прекретница на много дужем путу?

L O A D I N G
. . . comments & more!

About Author

Nitesh Padghan HackerNoon profile picture
Nitesh Padghan@niteshpadghan
Linkedin Top Voice | Ghostwriting for Web3 Founders | Stories That Get You Seen, Shared, and Trusted

ХАНГ ТАГС

ОВАЈ ЧЛАНАК ЈЕ ПРЕДСТАВЉЕН У...