Будьте готовы к землетрясению ИИ! Команда исследователей Калифорнийского университета в Лос-Анджелесе ( n, , , ) раскрыла некоторые важные ключи к AGI. Это не только код серьезно похожего на человека искусственного интеллекта, но они также сделали все это открытым исходным кодом. @zxche @Yihe__Deng @HuizhuoY @Kaixuan_Ji_19, @QuanquanGu Теперь вы можете разрабатывать более качественные LLM без необходимости загружать в него тонны новых данных, аннотированных человеком. Во-первых, давайте сосредоточимся на том, что меняет правила игры: языковой модели самообучения. Этот метод позволяет языковой модели становясь все лучше и лучше без огромных объемов новых данных, полученных извне. самообучаться, Представляем SPIN: точная настройка для самостоятельной игры преобразует слабые языковые модели в сильные языковые модели Я прошел режим полного погружения — прочитал их статью (« »), изучил информацию на таких форумах, как , и , с помощью Google Gemini Ultra и GPT-4. Турбо – и основная концепция SPIN сбила с толку моих метафорических носителей, любящих технологии: Точная настройка самостоятельной игры преобразует слабые языковые модели в сильные языковые модели HackerNews X Reddit Уловка «Партнер по разговору» Представьте себе, что вы начинаете с языковой модели, которая освоила базовые навыки (скажем, разговорный этикет). С помощью SPIN модель создавая набор данных из того, что ей уже известно. генерирует внутренние «разговоры», Мгновенное расширение знаний! Второй шаг предполагает внедрение новой модели и постановку перед ней одной задачи: определить разницу между и настоящим человеческим общением. Это заставляет исходную модель совершенствовать свою игру, становясь все более и более с каждым ответом, чтобы избежать обнаружения. машинными чатами похожей на человека Вот здесь все становится интереснее. Они начали с (уже настроенного с помощью ). SPIN запустил итеративную систему обучения на основе этой базовой модели, улучшая ее экспоненциально, не полагаясь на тонны новых внешних данных. zephyr-7b-sft-full корпуса UltraChat SPIN против традиционного обучения искусственному интеллекту (DPO): новый чемпион? Обычно мы думаем, что машинное обучение, особенно для этих огромных языковых моделей, требует огромного количества тщательно отобранных и размеченных данных. Методы предполагают, что люди тщательно оценивают ответы ИИ друг против друга для обучения. Это не только трудоемко, но и увеличивает затраты по мере роста набора данных. прямой оптимизации предпочтений (DPO) Прямая оптимизация предпочтений (DTO) — это метод обучения, при котором модель настраивается с использованием набора данных предпочтений, часто с участием человеческих суждений, которые решают, какой из ответов, сгенерированных моделью, является предпочтительным. Этот метод требует сбора новых данных, где каждая часть маркируется на основе этих предпочтений, что может быть ресурсоемким. В отличие от этого, SPIN использует , что значительно снижает потребность в новых данных. итеративную самостоятельную игру К первой итерации , что подчеркивает его эффективность и результативность в использовании существующих данных для повышения производительности модели. производительность SPIN уже в большинстве случаев превосходит производительность DPO SPIN демонстрирует свою силу, . Процесс методично повышает производительность модели за несколько итераций, , особенно в таких сложных тестах, как TruthfulQA и GSM8k. достигая производительности, сравнимой с моделями, обученными на более обширных наборах данных итеративного обучения демонстрируя существенные улучшения Таким образом, SPIN превосходит традиционные методы обучения, включая DPO, за счет эффективного использования синтетических наборов данных, созданных в ходе самостоятельной игры, без необходимости использования дополнительных данных, аннотированных человеком. Каковы сильные стороны и издержки SPIN? SPIN бросает вызов своей динамике самостоятельной игры. Думайте об этом как о языковой модели, сражающейся сама с собой на лингвистическом боксерском ринге, где каждый раунд обучает ее новым приемам. Эффективность данных SPIN позволяет избежать необходимости в новых наборах данных, аннотированных человеком. Но что еще более важно, это , . ускоряет цикл усовершенствований делая модель более подходящей для генерации текста, похожего на человеческий Мало того, что SPIN, кажется, соответствует моделям, обученным на более крупных внешних наборах данных, но его итеративная мощность означает стабильный выигрыш, поскольку он, по сути, изучает свои собственные результаты. Умопомрачительно, правда? Хорошо, давайте поговорим о слоне в комнате – СТОИМОСТЬ Сооснователь Nous Research прав. Эти большие старые языковые модели не становятся умнее бесплатно. Итеративное переобучение с помощью SPIN каждый раз включает в себя дорогостоящий процесс контролируемой точной настройки (SFT). @Teknium1 Однако он также упоминает: «Я думаю, оно того стоит!». Кроме того, долгосрочные выгоды от более быстрого развития и потенциально меньшей зависимости от данных, аннотированных человеком, перевешивают первоначальные инвестиции? Это волнующий вопрос! БУМ! Пришло время искусственного интеллекта с открытым исходным кодом Буквально вчера , доцент кафедры информатики Калифорнийского университета в Лос-Анджелесе и директор по исследованиям искусственного интеллекта в ByteDance, объявил, что . Речь идет не только о коде и наборах данных, но и о предварительно обученных моделях, которые помогут начать ваши собственные исследования в области искусственного интеллекта. Цюаньцюань Гу теперь каждый может использовать модель и набор данных SPIN СПИН отражает мыслительные процессы человека. Создавая текст, который кажется человеческим, SPIN намекает на фундаментальные элементы рассуждений, которые сможет реализовать ИИ будущего. Вы знаете, что некоторые результаты LLM кажутся роботизированными, верно? Ну, SPIN — это другое. На самом деле это отражает образ мышления людей. То, как он пишет, кажется настолько естественным, что это похоже на взгляд на то, как будущий ИИ сможет рассуждать самостоятельно. Речь идет не только о том, чтобы чат-боты звучали лучше. Речь идет о создании своего рода цифрового мышления, которое работает так же, как наше. Такой ИИ был бы гораздо более гибким и способным к реальному пониманию. Хотя SPIN — это большой шаг вперед в том, чтобы сделать языковые модели более естественными, . легко увлечься и переоценить его значение Текст, который он выдает, впечатляет (вы можете просмотреть базу данных), но важно помнить, что ИИ еще не обладает способностью к истинно независимому рассуждению. Хотя SPIN не является настоящим , то, как он имитирует человеческое письмо, демонстрирует впечатляющие достижения в том, как ИИ сможет обрабатывать и использовать язык в будущем. AGI Тем не менее, это предлагает удивительные возможности развития ИИ и языка в будущем (если вы помните, что мы находимся в начале хоккейной клюшки, будущее недалеко от сегодняшнего дня...) Волновой эффект будет огромным, и вот ваш пропуск: Код: доступен на : . GitHub https://github.com/uclaml/SPIN Данные: набор данных размещен на и легко доступен для тех, кто хочет применять методологии SPIN: Hugging Face https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a… Модели: также доступны предварительно обученные модели, дающие преимущество для экспериментов с языковыми моделями, расширенными SPIN: https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40… Страница проекта: страница проекта является бесценным ресурсом для получения подробной информации и дополнительной информации: https://uclaml.github.io/SPIN/ Подводя итог, можно сказать, что его итеративная, самосовершенствующаяся методология является значительным шагом вперед на пути к созданию LLM, который может участвовать в действительно человечном общении. Первоначально опубликовано в моем аккаунте X.