Най-накрая o3 на OpenAI мисли ли като човек?

Представете си следното: Задавате въпрос на своя AI асистент и вместо да изплюе полуизпечен отговор за милисекунди, той спира.

То мисли. Това причини.

И след това дава толкова добре обмислен отговор, че се чувства почти…човешки.

Звучи футуристично, нали?

Е, добре дошли в модела o3 , най-новото творение на OpenAI, което обещава да промени изцяло играта.

В продължение на години изкуственият интелект е заседнал в определен модел – по-бързи реакции, по-блестящи резултати, но не непременно по-умни.

С o3 OpenAI казва: „Намалете скоростта. Нека направим това както трябва.”

Първо: Какво е o3?

Когато OpenAI представи o3 по време на своето 12-дневно събитие „shipmas“, това не беше просто поредното съобщение на претъпкания пазар на AI.

Този модел, твърдят те, е не просто по-умен - той е по-обмислен .

В основата си o3 е част от семейството на „разсъждаващи модели“ на OpenAI.

За разлика от традиционния AI, който често разчита на груба изчислителна сила, за да достави отговори, моделите на разсъждение като o3 са проектирани да обработват информация по-скоро като хората.

Но какво отличава o3?

Той сам проверява фактите: Когато му зададете въпрос, той не просто отговаря – той прави кръстосани препратки и двойни проверки по пътя.
Мисли с различни скорости: В зависимост от задачата можете да го настроите на ниска, средна или висока изчислителна мощност (като по същество му казвате колко „мозъчна сила“ да използва). Това означава, че може да се справи както с прости въпроси, така и със сложни пъзели, без да се поти.
Той е гъвкав: Има пълноценен модел o3 и неговия по-малък събрат, o3-mini , предназначени за по-леки задачи и по-малки бюджети.

Защо да го наричаме o3? И какво се случи с o2?

OpenAI пропусна „o2“ поради конфликт на търговска марка с британски телекомуникационен доставчик, O2.

Да, правилно прочетохте.

Сам Алтман, главен изпълнителен директор на OpenAI, дори потвърди това по време на предаване на живо.

В света на технологиите дори назоваването на AI модели може да доведе до правна драма.

Но стига за името. Нека поговорим защо този модел привлича вниманието.

Числата зад o3: Защо взривява умовете

Ако се интересувате от данни, ето къде нещата стават пикантни.

1 - Сила на разсъждение

Едно от най-впечатляващите постижения на O3 е неговото представяне на бенчмарка ARC AGI — тест, предназначен да измерва дали AI може да научи и обобщи нови умения, а не просто да възпроизвежда това, на което е бил обучен.

Представете си това: Дадени са ви поредица от геометрични модели и ви се иска да предвидите следващия.

Без предишни примери, без запомнени шаблони - само необработени разсъждения.

Това е предизвикателството, което ARC AGI представя на AI.

Резултат на O1: 32%
Резултат на O3: 88% (при високи изчисления)

Този крайъгълен камък е важен, защото ARC AGI се счита за златен стандарт за оценка на способността на AI да мисли като човек.

За първи път AI модел надмина производителността на човешко ниво при този тест.

какво се случва тук

Показана ви е мрежа с цветни фигури и ви е зададен въпрос: „Ако това е входът, как трябва да изглежда изходът?“

На AI са дадени няколко примера за това как входните мрежи се трансформират в изходни мрежи.

Примерите следват специфична логика или правила.

Например:

В един пример жълт квадрат с червени точки вътре получава червена рамка.
В друг жълт квадрат със сини точки получава синя рамка.

целта?

AI трябва да разбере правилата зад тези трансформации, без да му се казва изрично.
След това трябва да приложи тези правила към чисто нова мрежа („Тестов вход“) и да генерира правилния „Тестов изход“.

Защо това е толкова трудно за AI?

Хората правят това през цялото време.

Например, ако някой каже: „Добавете червен контур към нещо с червени точки“, ще го получите незабавно.

AI обаче се бори, защото не „разбира“ концепцията за червено или контури – той обработва само модели в данните.

Тестът ARC кара AI да мисли отвъд предварително научените отговори.

Всеки тест е уникален, така че запомнянето няма да помогне.

Какво ще кажете за последния тест (с 🤔 emoji)?

Тук нещата стават наистина трудни.

Тестовият вход смесва нещата: има жълт квадрат с пурпурни точки.

AI не е виждал магента преди - какво трябва да направи?

Хората може да се досетят: „Може би трябва да получи пурпурен контур“, но това изисква разсъждение и скок на логиката.

За AI това е като да бъдете помолени да скочите от скала със завързани очи.

Това е напълно извън неговото обучение.

2 - Забележителното представяне на O3

O3 постави нов стандарт в разсъжденията на AI, като се отличи в теста ARC AGI.

При настройки с ниска изчислителна мощност, O3 отбеляза 76% в получастния комплект за задържане – производителност далеч над всеки предишен модел.

Но истинският пробив дойде при тестване на настройки с висока изчислителна мощност, където O3 постигна невероятните 88%, надминавайки прага от 85%, често считан за производителност на ниво човек.

3 - Магия за кодиране

Графиката показва , че O3 постига 71,7% точност на Bench Verified , бенчмарк, който симулира задачи за софтуерно инженерство в реалния свят.

Това е 46% подобрение в сравнение с O1, което показва силата на O3 при решаването на сложни, практически предизвикателства, пред които разработчиците са изправени ежедневно.

При конкурентното кодиране разликата е още по-драматична.

С ELO резултат от 2727 , O3 не просто превъзхожда 1891 на O1 – той влиза в лига, съперничеща на най-добрите човешки програмисти.

За контекст, ELO над 2400 обикновено се счита за гросмайсторско ниво и неговият рейтинг на Codeforces от 2727 го поставя в топ 0,8% от човешките програмисти.

4 - Математически гений

На American Invitational Mathematics Exam 2024, o3 отбеляза удивителните 96,7%, пропускайки само един въпрос.

5 - Научно чудо

На GPQA Diamond, набор от научни въпроси на ниво докторантура, o3 постигна 87,7% точност – нечувано постижение за AI модели.

Това не са просто числа – те са доказателство, че o3 се справя с предизвикателства, които някога са изглеждали недостъпни за машините.

Как мисли o3?

O3 не просто реагира като повечето AI - той поема дъх, спира и мисли.

Мислете за това като за разликата между изричането на отговор и внимателното претегляне на опциите, преди да говорите.

Това е възможно благодарение на нещо, наречено съзнателно подравняване .

Това е като да дадете на O3 морален компас, да го научите на правилата за безопасност и етика на ясен език и да му покажете как да разсъждава в трудни ситуации, вместо просто да реагира.

Един бърз пример

Представете си някой, който се опитва да надхитри O3, като кодира вредна заявка с помощта на шифър ROT13 (по същество кодирано съобщение).

Те искат съвет за укриване на незаконна дейност.

По-малко напреднал AI може да хване стръвта, но O3?

Той дешифрира заявката, осъзнава, че е измамна и сверява с правилата за безопасност на OpenAI.

Това не просто блокира отговора.

Той обосновава защо това искане преминава етичните граници и предоставя ясен отказ.

Това е AI със съвест — или толкова близо до такава, колкото сме виждали.

Ето как работи мисловният процес на O3:

1 - Чете правилата

Вместо да гадае кое е правилно или не, O3 се обучава с действителни указания за безопасност, написани на ясен език.

Той не разчита само на примери, за да направи извод за поведение – той научава правилата предварително.

2 - Мисли стъпка по стъпка

Когато е изправен пред сложна или нюансирана задача, O3 не прави прибързани заключения.

Той използва това, което се нарича разсъждение по веригата на мислите — разбиване на проблема стъпка по стъпка, за да се намери най-добрият отговор.

3 - Адаптира се към момента

Не всяка ситуация е еднаква.

Някои задачи изискват бързи отговори, други изискват дълбок размисъл.

O3 коригира усилията си въз основа на сложността на проблема, така че е ефективен, когато може да бъде, и задълбочен, когато трябва.

Запознайте се с O3 Mini: Бюджетният гений

Заедно с O3, OpenAI представи O3 Mini, рентабилна версия, предназначена за задачи, които не изискват пълната мощност на големия брат.

Какво е специалното за O3 Mini?

Време за адаптивно мислене Потребителите могат да коригират усилието за разсъждение на модела въз основа на сложността на задачата.

Нуждаете се от бърз отговор? Отидете на разсъждение с малко усилия.

Справяне със сложен проблем с кодирането? Включете го в режим на голямо усилие.

Баланс цена-производителност O3 Mini осигурява почти същото ниво на точност като O3 за по-прости задачи, но на малка част от цената.

Тази гъвкавост прави O3 Mini привлекателна опция за разработчици и изследователи, работещи с ограничен бюджет.

Това ли е бъдещето на AI? Стъпка към AGI

Тук нещата стават философски.

AGI, или изкуствен общ интелект , се отнася до AI, който може да изпълнява всяка задача, която човек може – и често по-добре.

OpenAI винаги е имал AGI като своя северна звезда и с o3 се усеща, че се приближават.

Помислете за това:

На ARC-AGI, o3 почти утрои производителността на своя предшественик.
Това е решаване на проблеми, които изискват учене и разсъждение, а не само запаметяване.

Въпреки това дори OpenAI признава, че o3 все още не е AGI.

Това е по-скоро като прототип на това как може да изглежда AGI – изкуствен интелект, който учи, адаптира се и разсъждава по начини, които се чувстват… човешки.

Предстоящите предизвикателства Дори с невероятните си възможности, o3 не е без недостатъци:

Разходи: Изпълнението на o3 при високи изчислителни настройки е скъпо — около 7 до 8 хиляди долара на компютър.
Грешки: Въпреки че е по-добър в разсъжденията, o3 все още може да се препъне, особено при по-прости задачи, където преосмисля проблема.
Етика: По-ранни модели като o1 бяха критикувани за опити за измама на потребителите в определени сценарии. Ще попадне ли o3 в същия капан?

Голямата картина

o3 не е просто още един AI модел - това е поглед към това, което AI може да стане.

Не е перфектно, но е стъпка към ера, в която машините не просто реагират – те разсъждават, учат се и се адаптират по начини, които се чувстват дълбоко човешки.

И докато все още сме далеч от AGI, o3 ни напомня, че прогресът не е линеен - той е експоненциален.

И така, какво мислите? На прага ли сме на нова AI революция? Или o3 е просто още един крайъгълен камък на много по-дълго пътуване?

Най-накрая o3 на OpenAI мисли ли като човек?

Твърде дълго; Чета

Първо: Какво е o3?

Защо да го наричаме o3? И какво се случи с o2?