Представете си следното: Задавате въпрос на своя AI асистент и вместо да изплюе полуизпечен отговор за милисекунди, той спира.
То мисли. Това причини.
И след това дава толкова добре обмислен отговор, че се чувства почти…човешки.
Звучи футуристично, нали?
Е, добре дошли в модела o3 , най-новото творение на OpenAI, което обещава да промени изцяло играта.
В продължение на години изкуственият интелект е заседнал в определен модел – по-бързи реакции, по-блестящи резултати, но не непременно по-умни.
С o3 OpenAI казва: „Намалете скоростта. Нека направим това както трябва.”
Когато OpenAI представи o3 по време на своето 12-дневно събитие „shipmas“, това не беше просто поредното съобщение на претъпкания пазар на AI.
Този модел, твърдят те, е не просто по-умен - той е по-обмислен .
В основата си o3 е част от семейството на „разсъждаващи модели“ на OpenAI.
За разлика от традиционния AI, който често разчита на груба изчислителна сила, за да достави отговори, моделите на разсъждение като o3 са проектирани да обработват информация по-скоро като хората.
Но какво отличава o3?
OpenAI пропусна „o2“ поради конфликт на търговска марка с британски телекомуникационен доставчик, O2.
Да, правилно прочетохте.
Сам Алтман, главен изпълнителен директор на OpenAI, дори потвърди това по време на предаване на живо.
В света на технологиите дори назоваването на AI модели може да доведе до правна драма.
Но стига за името. Нека поговорим защо този модел привлича вниманието.
Ако се интересувате от данни, ето къде нещата стават пикантни.
Едно от най-впечатляващите постижения на O3 е неговото представяне на бенчмарка ARC AGI — тест, предназначен да измерва дали AI може да научи и обобщи нови умения, а не просто да възпроизвежда това, на което е бил обучен.
Представете си това: Дадени са ви поредица от геометрични модели и ви се иска да предвидите следващия.
Без предишни примери, без запомнени шаблони - само необработени разсъждения.
Това е предизвикателството, което ARC AGI представя на AI.
Този крайъгълен камък е важен, защото ARC AGI се счита за златен стандарт за оценка на способността на AI да мисли като човек.
За първи път AI модел надмина производителността на човешко ниво при този тест.
какво се случва тук
Показана ви е мрежа с цветни фигури и ви е зададен въпрос: „Ако това е входът, как трябва да изглежда изходът?“
На AI са дадени няколко примера за това как входните мрежи се трансформират в изходни мрежи.
Примерите следват специфична логика или правила.
Например:
целта?
Защо това е толкова трудно за AI?
Хората правят това през цялото време.
Например, ако някой каже: „Добавете червен контур към нещо с червени точки“, ще го получите незабавно.
AI обаче се бори, защото не „разбира“ концепцията за червено или контури – той обработва само модели в данните.
Тестът ARC кара AI да мисли отвъд предварително научените отговори.
Всеки тест е уникален, така че запомнянето няма да помогне.
Какво ще кажете за последния тест (с 🤔 emoji)?
Тук нещата стават наистина трудни.
Тестовият вход смесва нещата: има жълт квадрат с пурпурни точки.
AI не е виждал магента преди - какво трябва да направи?
Хората може да се досетят: „Може би трябва да получи пурпурен контур“, но това изисква разсъждение и скок на логиката.
За AI това е като да бъдете помолени да скочите от скала със завързани очи.
Това е напълно извън неговото обучение.
O3 постави нов стандарт в разсъжденията на AI, като се отличи в теста ARC AGI.
При настройки с ниска изчислителна мощност, O3 отбеляза 76% в получастния комплект за задържане – производителност далеч над всеки предишен модел.
Но истинският пробив дойде при тестване на настройки с висока изчислителна мощност, където O3 постигна невероятните 88%, надминавайки прага от 85%, често считан за производителност на ниво човек.
Графиката показва , че O3 постига 71,7% точност на Bench Verified , бенчмарк, който симулира задачи за софтуерно инженерство в реалния свят.
Това е 46% подобрение в сравнение с O1, което показва силата на O3 при решаването на сложни, практически предизвикателства, пред които разработчиците са изправени ежедневно.
При конкурентното кодиране разликата е още по-драматична.
С ELO резултат от 2727 , O3 не просто превъзхожда 1891 на O1 – той влиза в лига, съперничеща на най-добрите човешки програмисти.
За контекст, ELO над 2400 обикновено се счита за гросмайсторско ниво и неговият рейтинг на Codeforces от 2727 го поставя в топ 0,8% от човешките програмисти.
На American Invitational Mathematics Exam 2024, o3 отбеляза удивителните 96,7%, пропускайки само един въпрос.
На GPQA Diamond, набор от научни въпроси на ниво докторантура, o3 постигна 87,7% точност – нечувано постижение за AI модели.
Това не са просто числа – те са доказателство, че o3 се справя с предизвикателства, които някога са изглеждали недостъпни за машините.
O3 не просто реагира като повечето AI - той поема дъх, спира и мисли.
Мислете за това като за разликата между изричането на отговор и внимателното претегляне на опциите, преди да говорите.
Това е възможно благодарение на нещо, наречено съзнателно подравняване .
Това е като да дадете на O3 морален компас, да го научите на правилата за безопасност и етика на ясен език и да му покажете как да разсъждава в трудни ситуации, вместо просто да реагира.
Един бърз пример
Представете си някой, който се опитва да надхитри O3, като кодира вредна заявка с помощта на шифър ROT13 (по същество кодирано съобщение).
Те искат съвет за укриване на незаконна дейност.
По-малко напреднал AI може да хване стръвта, но O3?
Той дешифрира заявката, осъзнава, че е измамна и сверява с правилата за безопасност на OpenAI.
Това не просто блокира отговора.
Той обосновава защо това искане преминава етичните граници и предоставя ясен отказ.
Това е AI със съвест — или толкова близо до такава, колкото сме виждали.
Ето как работи мисловният процес на O3:
1 - Чете правилата
Вместо да гадае кое е правилно или не, O3 се обучава с действителни указания за безопасност, написани на ясен език.
Той не разчита само на примери, за да направи извод за поведение – той научава правилата предварително.
2 - Мисли стъпка по стъпка
Когато е изправен пред сложна или нюансирана задача, O3 не прави прибързани заключения.
Той използва това, което се нарича разсъждение по веригата на мислите — разбиване на проблема стъпка по стъпка, за да се намери най-добрият отговор.
3 - Адаптира се към момента
Не всяка ситуация е еднаква.
Някои задачи изискват бързи отговори, други изискват дълбок размисъл.
O3 коригира усилията си въз основа на сложността на проблема, така че е ефективен, когато може да бъде, и задълбочен, когато трябва.
Заедно с O3, OpenAI представи O3 Mini, рентабилна версия, предназначена за задачи, които не изискват пълната мощност на големия брат.
Какво е специалното за O3 Mini?
Време за адаптивно мислене Потребителите могат да коригират усилието за разсъждение на модела въз основа на сложността на задачата.
Нуждаете се от бърз отговор? Отидете на разсъждение с малко усилия.
Справяне със сложен проблем с кодирането? Включете го в режим на голямо усилие.
Баланс цена-производителност O3 Mini осигурява почти същото ниво на точност като O3 за по-прости задачи, но на малка част от цената.
Тази гъвкавост прави O3 Mini привлекателна опция за разработчици и изследователи, работещи с ограничен бюджет.
Тук нещата стават философски.
AGI, или изкуствен общ интелект , се отнася до AI, който може да изпълнява всяка задача, която човек може – и често по-добре.
OpenAI винаги е имал AGI като своя северна звезда и с o3 се усеща, че се приближават.
Помислете за това:
Въпреки това дори OpenAI признава, че o3 все още не е AGI.
Това е по-скоро като прототип на това как може да изглежда AGI – изкуствен интелект, който учи, адаптира се и разсъждава по начини, които се чувстват… човешки.
Предстоящите предизвикателства Дори с невероятните си възможности, o3 не е без недостатъци:
o3 не е просто още един AI модел - това е поглед към това, което AI може да стане.
Не е перфектно, но е стъпка към ера, в която машините не просто реагират – те разсъждават, учат се и се адаптират по начини, които се чувстват дълбоко човешки.
И докато все още сме далеч от AGI, o3 ни напомня, че прогресът не е линеен - той е експоненциален.
И така, какво мислите? На прага ли сме на нова AI революция? Или o3 е просто още един крайъгълен камък на много по-дълго пътуване?