Будьте готовы к землетрясению ИИ! Команда исследователей Калифорнийского университета в Лос-Анджелесе ( @zxche n, @Yihe__Deng , @HuizhuoY , @Kaixuan_Ji_19, @QuanquanGu ) раскрыла некоторые важные ключи к AGI. Это не только код серьезно похожего на человека искусственного интеллекта, но они также сделали все это открытым исходным кодом.
Теперь вы можете разрабатывать более качественные LLM без необходимости загружать в него тонны новых данных, аннотированных человеком.
Во-первых, давайте сосредоточимся на том, что меняет правила игры: языковой модели самообучения.
Этот метод позволяет языковой модели самообучаться, становясь все лучше и лучше без огромных объемов новых данных, полученных извне.
Я прошел режим полного погружения — прочитал их статью (« Точная настройка самостоятельной игры преобразует слабые языковые модели в сильные языковые модели »), изучил информацию на таких форумах, как HackerNews , X и Reddit , с помощью Google Gemini Ultra и GPT-4. Турбо – и основная концепция SPIN сбила с толку моих метафорических носителей, любящих технологии:
Представьте себе, что вы начинаете с языковой модели, которая освоила базовые навыки (скажем, разговорный этикет). С помощью SPIN модель генерирует внутренние «разговоры», создавая набор данных из того, что ей уже известно.
Мгновенное расширение знаний!
Второй шаг предполагает внедрение новой модели и постановку перед ней одной задачи: определить разницу между машинными чатами и настоящим человеческим общением. Это заставляет исходную модель совершенствовать свою игру, становясь все более и более похожей на человека с каждым ответом, чтобы избежать обнаружения.
Вот здесь все становится интереснее. Они начали с zephyr-7b-sft-full (уже настроенного с помощью корпуса UltraChat ). SPIN запустил итеративную систему обучения на основе этой базовой модели, улучшая ее экспоненциально, не полагаясь на тонны новых внешних данных.
Обычно мы думаем, что машинное обучение, особенно для этих огромных языковых моделей, требует огромного количества тщательно отобранных и размеченных данных. Методы прямой оптимизации предпочтений (DPO) предполагают, что люди тщательно оценивают ответы ИИ друг против друга для обучения. Это не только трудоемко, но и увеличивает затраты по мере роста набора данных.
Прямая оптимизация предпочтений (DTO) — это метод обучения, при котором модель настраивается с использованием набора данных предпочтений, часто с участием человеческих суждений, которые решают, какой из ответов, сгенерированных моделью, является предпочтительным. Этот метод требует сбора новых данных, где каждая часть маркируется на основе этих предпочтений, что может быть ресурсоемким.
В отличие от этого, SPIN использует итеративную самостоятельную игру , что значительно снижает потребность в новых данных.
К первой итерации производительность SPIN уже в большинстве случаев превосходит производительность DPO , что подчеркивает его эффективность и результативность в использовании существующих данных для повышения производительности модели.
SPIN демонстрирует свою силу, достигая производительности, сравнимой с моделями, обученными на более обширных наборах данных . Процесс итеративного обучения методично повышает производительность модели за несколько итераций, демонстрируя существенные улучшения , особенно в таких сложных тестах, как TruthfulQA и GSM8k.
Таким образом, SPIN превосходит традиционные методы обучения, включая DPO, за счет эффективного использования синтетических наборов данных, созданных в ходе самостоятельной игры, без необходимости использования дополнительных данных, аннотированных человеком.
SPIN бросает вызов своей динамике самостоятельной игры.
Думайте об этом как о языковой модели, сражающейся сама с собой на лингвистическом боксерском ринге, где каждый раунд обучает ее новым приемам.
Эффективность данных SPIN позволяет избежать необходимости в новых наборах данных, аннотированных человеком.
Но что еще более важно, это ускоряет цикл усовершенствований , делая модель более подходящей для генерации текста, похожего на человеческий .
Мало того, что SPIN, кажется, соответствует моделям, обученным на более крупных внешних наборах данных, но его итеративная мощность означает стабильный выигрыш, поскольку он, по сути, изучает свои собственные результаты.
Умопомрачительно, правда?
Сооснователь Nous Research @Teknium1 прав. Эти большие старые языковые модели не становятся умнее бесплатно. Итеративное переобучение с помощью SPIN каждый раз включает в себя дорогостоящий процесс контролируемой точной настройки (SFT).
Однако он также упоминает: «Я думаю, оно того стоит!». Кроме того, долгосрочные выгоды от более быстрого развития и потенциально меньшей зависимости от данных, аннотированных человеком, перевешивают первоначальные инвестиции? Это волнующий вопрос!
Буквально вчера Цюаньцюань Гу , доцент кафедры информатики Калифорнийского университета в Лос-Анджелесе и директор по исследованиям искусственного интеллекта в ByteDance, объявил, что теперь каждый может использовать модель и набор данных SPIN . Речь идет не только о коде и наборах данных, но и о предварительно обученных моделях, которые помогут начать ваши собственные исследования в области искусственного интеллекта.
СПИН отражает мыслительные процессы человека.
Создавая текст, который кажется человеческим, SPIN намекает на фундаментальные элементы рассуждений, которые сможет реализовать ИИ будущего. Вы знаете, что некоторые результаты LLM кажутся роботизированными, верно? Ну, SPIN — это другое. На самом деле это отражает образ мышления людей. То, как он пишет, кажется настолько естественным, что это похоже на взгляд на то, как будущий ИИ сможет рассуждать самостоятельно.
Речь идет не только о том, чтобы чат-боты звучали лучше.
Речь идет о создании своего рода цифрового мышления, которое работает так же, как наше. Такой ИИ был бы гораздо более гибким и способным к реальному пониманию.
Хотя SPIN — это большой шаг вперед в том, чтобы сделать языковые модели более естественными, легко увлечься и переоценить его значение .
Текст, который он выдает, впечатляет (вы можете просмотреть базу данных), но важно помнить, что ИИ еще не обладает способностью к истинно независимому рассуждению.
Хотя SPIN не является настоящим AGI , то, как он имитирует человеческое письмо, демонстрирует впечатляющие достижения в том, как ИИ сможет обрабатывать и использовать язык в будущем.
Тем не менее, это предлагает удивительные возможности развития ИИ и языка в будущем (если вы помните, что мы находимся в начале хоккейной клюшки, будущее недалеко от сегодняшнего дня...)
Волновой эффект будет огромным, и вот ваш пропуск:
Подводя итог, можно сказать, что его итеративная, самосовершенствующаяся методология является значительным шагом вперед на пути к созданию LLM, который может участвовать в действительно человечном общении.
Первоначально опубликовано в моем аккаунте X.