Представьте себе: вы задаете своему помощнику на основе искусственного интеллекта вопрос, и вместо того, чтобы за миллисекунды выдать непродуманный ответ, он делает паузу.
Он думает. Он рассуждает.
А затем он дает настолько продуманный ответ, что он кажется почти... человеческим.
Звучит футуристично, не правда ли?
Что ж, добро пожаловать в модель o3 , последнее творение OpenAI, которое обещает полностью изменить правила игры.
В течение многих лет ИИ придерживался одной и той же модели: более быстрые ответы, более яркие результаты, но не обязательно более умные.
С помощью o3 OpenAI говорит: «Притормози. Давайте сделаем это правильно».
Когда OpenAI представила o3 во время своего 12-дневного мероприятия «shipmas», это было не просто очередное объявление на переполненном рынке ИИ.
По их словам, эта модель не просто умнее — она более продуманная .
По своей сути o3 является частью семейства «моделей рассуждений» OpenAI.
В отличие от традиционного ИИ, который часто полагается на грубую вычислительную силу для выдачи ответов, модели рассуждений, такие как o3, предназначены для обработки информации скорее как люди.
Но что отличает o3?
OpenAI пропустил «o2» из-за конфликта товарных знаков с британским телекоммуникационным провайдером O2.
Да, вы правильно прочитали.
Сэм Альтман, генеральный директор OpenAI, даже подтвердил это во время прямой трансляции.
В мире технологий даже присвоение имен моделям ИИ может повлечь за собой юридические проблемы.
Но хватит о названии. Давайте поговорим о том, почему эта модель привлекает внимание.
Если вы увлекаетесь данными, то вот тут-то все и начинается самое интересное.
Одним из самых ярких достижений O3 является его эффективность в тесте ARC AGI — тесте, призванном оценить, может ли ИИ обучаться и обобщать новые навыки, а не просто воспроизводить то, чему его обучили.
Представьте себе: вам дали ряд геометрических узоров и попросили предсказать следующий.
Никаких предыдущих примеров, никаких заученных шаблонов — только голые рассуждения.
Именно эту задачу ARC AGI ставит перед ИИ.
Это важное достижение, поскольку ARC AGI считается золотым стандартом для оценки способности ИИ мыслить как человек.
Впервые модель искусственного интеллекта превзошла результаты человека в этом тесте.
Что здесь происходит?
Вам показывают сетку с разноцветными фигурами и спрашивают: «Если это входные данные, как должны выглядеть выходные данные?»
ИИ приводит несколько примеров того, как входные сетки преобразуются в выходные сетки.
Примеры следуют определенной логике или правилам.
Например:
Цель?
Почему это так сложно для ИИ?
Люди делают это постоянно.
Например, если кто-то говорит: «Добавьте красный контур ко всему, что имеет красные точки», вы сразу это понимаете.
Однако ИИ испытывает трудности, поскольку не «понимает» концепцию красного цвета или контуров — он только обрабатывает закономерности в данных.
Тест ARC заставляет ИИ мыслить не только в рамках заранее заученных ответов.
Каждый тест уникален, поэтому заучивание не поможет.
А что насчет последнего теста (с эмодзи 🤔)?
Вот тут все становится действительно сложно.
Тестовые входные данные все перепутали: есть желтый квадрат с пурпурными точками.
ИИ раньше не видел пурпурного цвета — что ему делать?
Люди могут предположить: «Может быть, ему следует придать пурпурную рамку», но это требует рассуждений и логического подхода.
Для ИИ это все равно, что попросить его спрыгнуть со скалы с завязанными глазами.
Это полностью выходит за рамки его подготовки.
Компания O3 установила новый стандарт в области ИИ-рассуждений, преуспев в тесте ARC AGI.
При низкопроизводительных вычислениях O3 набрал 76% в полуприватном контрольном наборе — производительность, значительно превышающая показатели любой предыдущей модели.
Однако настоящий прорыв произошел при тестировании на высокопроизводительных вычислительных установках, где O3 достиг невероятных 88%, превзойдя порог в 85%, который часто считается производительностью человеческого уровня.
На графике показано, что O3 достигает точности 71,7% на Bench Verified — тесте, имитирующем реальные задачи по разработке программного обеспечения.
Это на 46% больше , чем у O1, что свидетельствует о силе O3 в решении сложных практических задач, с которыми ежедневно сталкиваются разработчики.
В конкурентном кодировании разница еще более существенна.
С показателем ELO 2727 O3 не просто превосходит O1 с его 1891 баллом — он входит в лигу, соперничающую с лучшими программистами-людьми.
Для контекста, ELO выше 2400 обычно считается уровнем гроссмейстера , а рейтинг Codeforces 2727 помещает его в 0,8% лучших программистов-людей.
На Американском пригласительном экзамене по математике 2024 года o3 набрал потрясающие 96,7%, пропустив всего один вопрос.
В GPQA Diamond, наборе научных вопросов уровня доктора наук, o3 достиг точности 87,7% — неслыханный подвиг для моделей ИИ.
Это не просто цифры — это доказательство того, что o3 решает задачи, которые когда-то казались недостижимыми для машин.
O3 не просто реагирует, как большинство ИИ, — он делает вдох, делает паузу и думает.
Подумайте об этом как о разнице между быстрым ответом и тщательным взвешиванием вариантов перед высказыванием.
Это возможно благодаря так называемому сознательному выравниванию .
Это все равно, что дать O3 моральный компас, научить его правилам безопасности и этики на понятном языке и показать ему, как рассуждать в сложных ситуациях, а не просто реагировать.
Быстрый пример
Представьте себе, что кто-то пытается перехитрить O3, зашифровав вредоносный запрос с помощью шифра ROT13 (по сути, зашифрованного сообщения).
Они просят совета, как скрыть незаконную деятельность.
Менее продвинутый ИИ, возможно, клюнет на эту наживку, но O3?
Он расшифровывает запрос, понимает, что он сомнителен, и сверяется с политиками безопасности OpenAI.
Он не просто блокирует ответ.
В нем обосновывается, почему данная просьба выходит за рамки этических норм, и дается однозначный отказ.
Это искусственный интеллект, обладающий совестью, или настолько близкий к ней, насколько мы когда-либо видели.
Вот как работает мыслительный процесс O3:
1 - Он читает правила
Вместо того чтобы гадать, что правильно, а что нет, сотрудники O3 обучаются по реальным инструкциям по безопасности, написанным понятным языком.
Он не просто полагается на примеры, чтобы сделать вывод о поведении, он заранее изучает свод правил.
2 - Он думает шаг за шагом
Столкнувшись со сложной или многогранной задачей, O3 не делает поспешных выводов.
Он использует так называемую цепочку рассуждений — пошаговое разбиение проблемы на части для нахождения наилучшего ответа.
3 - Он адаптируется к моменту
Не все ситуации одинаковы.
Некоторые задачи требуют быстрых ответов, другие — глубоких размышлений.
Компания O3 корректирует свои усилия в зависимости от сложности проблемы, чтобы действовать эффективно, когда это возможно, и тщательно, когда это необходимо.
Наряду с O3 компания OpenAI представила O3 Mini — экономичную версию, предназначенную для задач, не требующих полной мощности старшего брата.
Что особенного в O3 Mini?
Адаптивное время мышления Пользователи могут корректировать усилия модели на основе сложности задачи.
Нужен быстрый ответ? Прибегните к рассуждениям, не требующим больших усилий.
Решаете сложную задачу по кодированию? Включите режим высокой сложности.
Баланс «цена-качество» O3 Mini обеспечивает почти такой же уровень точности, как O3, для более простых задач, но за гораздо меньшую стоимость.
Такая гибкость делает O3 Mini привлекательным вариантом для разработчиков и исследователей, работающих с ограниченным бюджетом.
Вот тут-то и начинается философия.
ОИИ ( искусственный общий интеллект ) — это ИИ, способный выполнять любую задачу, которую может выполнить человек, а зачастую и лучше.
Для OpenAI AGI всегда была путеводной звездой, и с появлением o3 создается ощущение, что они стали к этому ближе.
Подумайте об этом:
Тем не менее, даже OpenAI признает, что o3 пока не является AGI.
Это больше похоже на прототип того, как мог бы выглядеть ИИ — искусственный интеллект, который учится, адаптируется и рассуждает способами, которые кажутся… человеческими.
Предстоящие задачи Несмотря на свои невероятные возможности, o3 не лишен недостатков:
o3 — это не просто еще одна модель ИИ, это взгляд на то, каким может стать ИИ.
Это не идеально, но это шаг к эпохе, когда машины не просто реагируют — они рассуждают, учатся и адаптируются способами, которые кажутся глубоко человечными.
И хотя мы все еще далеки от AGI, o3 напоминает нам, что прогресс не линейный, а экспоненциальный.
Итак, что вы думаете? Мы на пороге новой революции ИИ? Или o3 — это просто еще одна веха на гораздо более долгом пути?