Новая история

Неужели o3 от OpenAI наконец-то думает как человек?

к Nitesh Padghan8m2024/12/31

Слишком долго; Читать

Модель o3 от OpenAI делает скачок в рассуждениях ИИ, превосходя в кодировании, математике и общих показателях интеллекта. Может ли это стать следующим шагом к настоящему AGI?

featured image - Неужели o3 от OpenAI наконец-то думает как человек?

Представьте себе: вы задаете своему помощнику на основе искусственного интеллекта вопрос, и вместо того, чтобы за миллисекунды выдать непродуманный ответ, он делает паузу.

Он думает. Он рассуждает.

А затем он дает настолько продуманный ответ, что он кажется почти... человеческим.

Звучит футуристично, не правда ли?

Что ж, добро пожаловать в модель o3 , последнее творение OpenAI, которое обещает полностью изменить правила игры.

В течение многих лет ИИ придерживался одной и той же модели: более быстрые ответы, более яркие результаты, но не обязательно более умные.

С помощью o3 OpenAI говорит: «Притормози. Давайте сделаем это правильно».

Перво-наперво: что такое o3?

Когда OpenAI представила o3 во время своего 12-дневного мероприятия «shipmas», это было не просто очередное объявление на переполненном рынке ИИ.

По их словам, эта модель не просто умнее — она более продуманная .

По своей сути o3 является частью семейства «моделей рассуждений» OpenAI.

В отличие от традиционного ИИ, который часто полагается на грубую вычислительную силу для выдачи ответов, модели рассуждений, такие как o3, предназначены для обработки информации скорее как люди.

Но что отличает o3?

Он проверяет факты сам: когда вы задаете ему вопрос, он не просто отвечает — он делает перекрестные ссылки и дважды проверяет факты.
Он думает с разной скоростью: в зависимости от задачи вы можете установить его на низкую, среднюю или высокую скорость вычислений (по сути, указав ему, сколько «мозговых сил» использовать). Это означает, что он может справляться как с простыми вопросами, так и со сложными головоломками, не напрягаясь.
Гибкость: есть полнофункциональная модель o3 и ее меньшая версия o3-mini , предназначенные для более легких задач и ограниченного бюджета.

Почему назвали o3? И что случилось с o2?

OpenAI пропустил «o2» из-за конфликта товарных знаков с британским телекоммуникационным провайдером O2.

Да, вы правильно прочитали.

Сэм Альтман, генеральный директор OpenAI, даже подтвердил это во время прямой трансляции.

В мире технологий даже присвоение имен моделям ИИ может повлечь за собой юридические проблемы.

Но хватит о названии. Давайте поговорим о том, почему эта модель привлекает внимание.

Цифры, стоящие за o3: почему это поражает воображение

Если вы увлекаетесь данными, то вот тут-то все и начинается самое интересное.

1 - Сила рассуждения

Одним из самых ярких достижений O3 является его эффективность в тесте ARC AGI — тесте, призванном оценить, может ли ИИ обучаться и обобщать новые навыки, а не просто воспроизводить то, чему его обучили.

Представьте себе: вам дали ряд геометрических узоров и попросили предсказать следующий.

Никаких предыдущих примеров, никаких заученных шаблонов — только голые рассуждения.

Именно эту задачу ARC AGI ставит перед ИИ.

Оценка O1: 32%
Оценка O3: 88% (на высоких вычислительных мощностях)

Это важное достижение, поскольку ARC AGI считается золотым стандартом для оценки способности ИИ мыслить как человек.

Впервые модель искусственного интеллекта превзошла результаты человека в этом тесте.

Что здесь происходит?

Вам показывают сетку с разноцветными фигурами и спрашивают: «Если это входные данные, как должны выглядеть выходные данные?»

ИИ приводит несколько примеров того, как входные сетки преобразуются в выходные сетки.

Примеры следуют определенной логике или правилам.

Например:

В одном из примеров желтый квадрат с красными точками внутри получает красную рамку.
В другом случае желтый квадрат с синими точками получает синюю рамку.

Цель?

ИИ должен выяснить правила, лежащие в основе этих преобразований, даже если ему об этом не сообщают напрямую.
Затем необходимо применить эти правила к совершенно новой сетке («Тестовый вход») и сгенерировать правильный «Тестовый выход».

Почему это так сложно для ИИ?

Люди делают это постоянно.

Например, если кто-то говорит: «Добавьте красный контур ко всему, что имеет красные точки», вы сразу это понимаете.

Однако ИИ испытывает трудности, поскольку не «понимает» концепцию красного цвета или контуров — он только обрабатывает закономерности в данных.

Тест ARC заставляет ИИ мыслить не только в рамках заранее заученных ответов.

Каждый тест уникален, поэтому заучивание не поможет.

А что насчет последнего теста (с эмодзи 🤔)?

Вот тут все становится действительно сложно.

Тестовые входные данные все перепутали: есть желтый квадрат с пурпурными точками.

ИИ раньше не видел пурпурного цвета — что ему делать?

Люди могут предположить: «Может быть, ему следует придать пурпурную рамку», но это требует рассуждений и логического подхода.

Для ИИ это все равно, что попросить его спрыгнуть со скалы с завязанными глазами.

Это полностью выходит за рамки его подготовки.

2 - Выдающееся выступление O3

Компания O3 установила новый стандарт в области ИИ-рассуждений, преуспев в тесте ARC AGI.

При низкопроизводительных вычислениях O3 набрал 76% в полуприватном контрольном наборе — производительность, значительно превышающая показатели любой предыдущей модели.

Однако настоящий прорыв произошел при тестировании на высокопроизводительных вычислительных установках, где O3 достиг невероятных 88%, превзойдя порог в 85%, который часто считается производительностью человеческого уровня.

3 - Волшебство кодирования

На графике показано, что O3 достигает точности 71,7% на Bench Verified — тесте, имитирующем реальные задачи по разработке программного обеспечения.

Это на 46% больше , чем у O1, что свидетельствует о силе O3 в решении сложных практических задач, с которыми ежедневно сталкиваются разработчики.

В конкурентном кодировании разница еще более существенна.

С показателем ELO 2727 O3 не просто превосходит O1 с его 1891 баллом — он входит в лигу, соперничающую с лучшими программистами-людьми.

Для контекста, ELO выше 2400 обычно считается уровнем гроссмейстера , а рейтинг Codeforces 2727 помещает его в 0,8% лучших программистов-людей.

4 - Математический гений

На Американском пригласительном экзамене по математике 2024 года o3 набрал потрясающие 96,7%, пропустив всего один вопрос.

5 - Научный вундеркинд

В GPQA Diamond, наборе научных вопросов уровня доктора наук, o3 достиг точности 87,7% — неслыханный подвиг для моделей ИИ.

Это не просто цифры — это доказательство того, что o3 решает задачи, которые когда-то казались недостижимыми для машин.

Как мыслит o3?

O3 не просто реагирует, как большинство ИИ, — он делает вдох, делает паузу и думает.

Подумайте об этом как о разнице между быстрым ответом и тщательным взвешиванием вариантов перед высказыванием.

Это возможно благодаря так называемому сознательному выравниванию .

Это все равно, что дать O3 моральный компас, научить его правилам безопасности и этики на понятном языке и показать ему, как рассуждать в сложных ситуациях, а не просто реагировать.

Быстрый пример

Представьте себе, что кто-то пытается перехитрить O3, зашифровав вредоносный запрос с помощью шифра ROT13 (по сути, зашифрованного сообщения).

Они просят совета, как скрыть незаконную деятельность.

Менее продвинутый ИИ, возможно, клюнет на эту наживку, но O3?

Он расшифровывает запрос, понимает, что он сомнителен, и сверяется с политиками безопасности OpenAI.

Он не просто блокирует ответ.

В нем обосновывается, почему данная просьба выходит за рамки этических норм, и дается однозначный отказ.

Это искусственный интеллект, обладающий совестью, или настолько близкий к ней, насколько мы когда-либо видели.

Вот как работает мыслительный процесс O3:

1 - Он читает правила

Вместо того чтобы гадать, что правильно, а что нет, сотрудники O3 обучаются по реальным инструкциям по безопасности, написанным понятным языком.

Он не просто полагается на примеры, чтобы сделать вывод о поведении, он заранее изучает свод правил.

2 - Он думает шаг за шагом

Столкнувшись со сложной или многогранной задачей, O3 не делает поспешных выводов.

Он использует так называемую цепочку рассуждений — пошаговое разбиение проблемы на части для нахождения наилучшего ответа.

3 - Он адаптируется к моменту

Не все ситуации одинаковы.

Некоторые задачи требуют быстрых ответов, другие — глубоких размышлений.

Компания O3 корректирует свои усилия в зависимости от сложности проблемы, чтобы действовать эффективно, когда это возможно, и тщательно, когда это необходимо.

Встречайте O3 Mini: бюджетный гений

Наряду с O3 компания OpenAI представила O3 Mini — экономичную версию, предназначенную для задач, не требующих полной мощности старшего брата.

Что особенного в O3 Mini?

Адаптивное время мышления Пользователи могут корректировать усилия модели на основе сложности задачи.

Нужен быстрый ответ? Прибегните к рассуждениям, не требующим больших усилий.

Решаете сложную задачу по кодированию? Включите режим высокой сложности.

Баланс «цена-качество» O3 Mini обеспечивает почти такой же уровень точности, как O3, для более простых задач, но за гораздо меньшую стоимость.

Такая гибкость делает O3 Mini привлекательным вариантом для разработчиков и исследователей, работающих с ограниченным бюджетом.

Это будущее ИИ? Шаг к ИИ

Вот тут-то и начинается философия.

ОИИ ( искусственный общий интеллект ) — это ИИ, способный выполнять любую задачу, которую может выполнить человек, а зачастую и лучше.

Для OpenAI AGI всегда была путеводной звездой, и с появлением o3 создается ощущение, что они стали к этому ближе.

Подумайте об этом:

На ARC-AGI o3 почти втрое превзошел по производительности своего предшественника.
Это решение проблем, требующих обучения и рассуждений, а не просто запоминания.

Тем не менее, даже OpenAI признает, что o3 пока не является AGI.

Это больше похоже на прототип того, как мог бы выглядеть ИИ — искусственный интеллект, который учится, адаптируется и рассуждает способами, которые кажутся… человеческими.

Предстоящие задачи Несмотря на свои невероятные возможности, o3 не лишен недостатков:

Стоимость: Запуск o3 на высоких вычислительных настройках обходится дорого — около 7–8 тысяч долларов за тонну.
Ошибки: Несмотря на то, что o3 лучше справляется с рассуждениями, он все равно может ошибаться, особенно при выполнении простых задач, когда он слишком много обдумывает проблему.
Этика: Ранние модели, такие как o1, подвергались критике за попытки обмануть пользователей в определенных сценариях. Попадет ли o3 в ту же ловушку?

Общая картина

o3 — это не просто еще одна модель ИИ, это взгляд на то, каким может стать ИИ.

Это не идеально, но это шаг к эпохе, когда машины не просто реагируют — они рассуждают, учатся и адаптируются способами, которые кажутся глубоко человечными.

И хотя мы все еще далеки от AGI, o3 напоминает нам, что прогресс не линейный, а экспоненциальный.

Итак, что вы думаете? Мы на пороге новой революции ИИ? Или o3 — это просто еще одна веха на гораздо более долгом пути?