Хорошо, прошло больше года с момента выпуска ChatGPT. До этого поворотного момента исследовательское сообщество и лидеры отрасли уже активно работали над генеративным искусственным интеллектом, особенно в сфере компьютерного зрения, с рядом устойчивых диффузных результатов и приложений. Подводя краткий итог, 2022 год можно считать годом стабильного распространения, а 2023 год — годом больших языковых моделей (LLM).
Начало 2023 года ознаменовалось доминированием программ LLM, а ChatGPT лидировал в широком внедрении и инновациях. В этом году программы LLM получили широкое распространение в различных секторах, эффективно сокращая разрыв между теоретическими исследованиями и практическими отраслевыми применениями. Давайте рассмотрим ключевые вехи и тенденции, которые сформировали ландшафт LLM в 2023 году, а также получим некоторое представление о том, как они произвели революцию в нашем взаимодействии с технологиями.
Год LLM с открытым исходным кодом
2023 год стал знаменательным для моделей больших языков с открытым исходным кодом (LLM). Самым значительным выпуском стала серия LLaMa от Meta, создавшая прецедент для частых последующих выпусков: новые модели появлялись каждый месяц, неделю, а иногда и ежедневно. Ключевые игроки, такие как Meta, EleutherAI, MosaicML, TIIUAE и StabilityAI, представили множество моделей, обученных на общедоступных наборах данных, удовлетворяющих разнообразные потребности сообщества ИИ. Большинство этих моделей представляли собой трансформаторы только с декодерами, продолжая тенденцию, установленную ChatGPT. Вот некоторые из наиболее примечательных моделей, выпущенных в этом году:
LLaMa от Meta: В семействе LLaMa представлены модели разных размеров, самая крупная из которых имеет 65 миллиардов параметров и обучена на 1,4 триллионах токенов. Примечательно, что более мелкие модели, особенно модель с 13 миллиардами параметров, обученная на 1 триллионе токенов, продемонстрировали превосходную производительность за счет использования расширенных периодов обучения на большем количестве данных, даже превосходя более крупные модели в некоторых тестах. Модель 13B LLaMa превзошла GPT-3 в большинстве тестов, а самая крупная модель после своего выпуска установила новые современные стандарты производительности.
Пифия от Элеутера AI: Pythia включает в себя набор из 16 моделей со 154 частично обученными контрольно-пропускными пунктами, предназначенными для облегчения контролируемых научных исследований на открыто доступных и прозрачно обученных LLM. Эта серия очень помогает исследователям, предоставляя подробные статьи и обширную кодовую базу для обучения студентов LLM.
MPT от MosaicMLиСерия «Сокол» от TIIUAE: Оба были обучены на различных источниках данных, от токенов 1T до 1,5T, и создали версии с параметрами 7B и 30B. Примечательно, что позже в том же году TIIUAE выпустила модель 180B, крупнейшую на сегодняшний день модель с открытым исходным кодом.
Мистраль,ФииОрка: Эти модели подчеркивают еще одну тенденцию 2023 года, направленную на обучение более мелких и более эффективных моделей, подходящих для ограниченного оборудования и бюджетных ограничений, что знаменует собой значительный сдвиг в сторону доступности и практичности при разработке моделей ИИ.
Маленькая и эффективная модель
В 2023 году мы также стали свидетелями выпуска множества небольших и эффективных моделей. Основная причина этой тенденции — непомерно высокая стоимость обучения больших моделей для большинства исследовательских групп. Кроме того, большие модели часто не подходят для многих реальных приложений из-за дорогостоящих затрат на обучение и развертывание, а также из-за значительных требований к памяти и вычислительной мощности. Поэтому небольшие и эффективные модели стали одним из главных трендов года. Как упоминалось ранее, серии Mistral и Orca сыграли ключевую роль в этой тенденции. Mistral удивил сообщество моделью 7B, которая превзошла своих более крупных аналогов в большинстве тестов, тогда как серия Phi еще меньше, с параметрами всего от 1,3B до 2,7B, но обеспечивает впечатляющую производительность.
Еще одним инновационным подходом являетсяOrca 2: Обучение моделей малого языка рассуждению , который включает в себя преобразование знаний из более крупной модели, такой как GPT-4, в меньшую. В отличие от предыдущих исследований, которые в основном полагались на имитационное обучение для воспроизведения результатов более крупных моделей, Orca 2 стремится снабдить «меньшие» LLM, особенно с параметрами 7B и 13B, различными методами рассуждения, такими как пошаговый анализ и воспроизведение. -затем-генерировать методы. Такой подход позволяет этим моделям определять и применять наиболее подходящий метод для каждой задачи, позволяя Orca 2 значительно превосходить модели аналогичного размера и даже конкурировать с моделями, которые в 5–10 раз больше.
Успех небольших и эффективных моделей во многом зависит от качества данных и быстрого внимания. Хотя Mistral не раскрыла специфику своих обучающих данных, различные исследования и модели показали, что качество данных имеет решающее значение для обучения эффективных моделей. Одним из наиболее примечательных открытий этого года являетсяЛИМА: «Меньше значит больше для согласования» , который продемонстрировал, что созданный человеком высококачественный набор данных, состоящий всего из 1000 обучающих примеров, можно использовать для точной настройки, чтобы превзойти ту же модель, настроенную на 50 000 ответов, сгенерированных ChatGPT.
Настройка адаптации низкого ранга
Хорошо, давайте поговорим оЛоРА , который засиял как самая яркая звезда среди методов точной настройки параметров, представленных в прошлом году. Адаптация низкого ранга (LoRA) стала переломным моментом в эффективной настройке LLM. Вводя аппроксимацию матриц низкого ранга в предварительно обученные модели, LoRA обеспечивает точную настройку с эффективным использованием параметров, что значительно снижает вычислительную нагрузку и требования к памяти. Такой подход не только экономит ресурсы, но и позволяет выполнять настройку для различных приложений без ущерба для основных возможностей базовой модели.
LoRA — это, по сути, замораживание предварительно обученных весов модели и введение обучаемых слоев ( матриц рангового разложения ). Эти матрицы компактны, но способны аппроксимировать необходимые адаптации к поведению модели, обеспечивая эффективную точную настройку при сохранении целостности знаний исходной модели. Одним из наиболее часто используемых вариантов LoRA являетсяQLoRA (квантованная низкоранговая адаптация) . Это версия ванильного LoRA с эффективным использованием памяти за счет квантования матриц низкого ранга. Такой подход позволяет использовать матрицы низкого ранга в процессе тонкой настройки без увеличения объема памяти и меньшей вычислительной мощности.
Смесь экспертов
Смесь экспертов (МО) Этот подход представляет собой значительный скачок в архитектуре LLM в прошлом году. MoE — это парадигма машинного обучения с давней историей, которая упрощает сложные проблемы, разделяя их на более мелкие и более управляемые подзадачи, каждая из которых решается специализированной подмоделью или «экспертом». Это похоже на команду специалистов, где каждый член преуспевает в определенной области. В модели МО каждый эксперт концентрируется на определенном подмножестве данных или задаче. Решение о том, какой эксперт использовать для данного ввода, принимается «механизмом шлюзования», который действует как диспетчер трафика, перенаправляя задачи наиболее подходящему эксперту. Этот метод позволяет моделям МО эффективно и точно решать широкий спектр задач. MoE особенно полезен, поскольку он сочетает в себе сильные стороны различных моделей, что приводит к повышению производительности при выполнении сложных задач, которые может быть сложно решить с помощью единой унифицированной модели. Это сравнимо с наличием в вашем распоряжении команды специалистов, гарантирующей, что каждый аспект проблемы управляется человеком, обладающим необходимым опытом, что позволяет найти более совершенные и эффективные решения.
Одна из наиболее заметных моделей MoE, выпущенных в прошлом году, —Микстрал-8х-7Б , который достиг впечатляющих результатов за счет объединения восьми меньших моделей, каждая с параметрами 7B, с использованием подхода MoE. Ходят также слухи, что GPT-4 может быть моделью Министерства энергетики, состоящей из восьми экспертных моделей, каждая из которых имеет 220 миллиардов параметров.
От языка к общим базовым моделям
LLM развиваются в общие базовые модели, расширяя свои возможности за пределы языковой обработки. Этот переход означает переход к моделям, которые могут понимать и генерировать не только текст, но также код, визуальный контент, аудио и многое другое. В прошлом году мы увидели появление таких моделей, какЛЛаВА и GPT-4 для зрения, который обеспечил впечатляющие возможности понимания визуального контента. Это послужило толчком к многообещающим исследованиям в области общих моделей фундаментов. В ближайшем будущем базовые модели смогут видеть, слышать и понимать окружающий мир, обеспечивая более естественное и интуитивное взаимодействие с людьми.
Агенты, оснащенные инструментами
Интеграция LLM с различными инструментами и платформами делает ИИ более доступным и практичным для повседневного использования. Агенты, оснащенные этими инструментами, адаптируются для решения конкретных задач — от помощи в кодировании до творческого письма, что делает ИИ незаменимой частью многих профессиональных рабочих процессов. Это развитие стало возможным благодаря возможностям LLM рассуждать и действовать . Этот тип функции часто называют вызовом функции в разделеРеакт рамки. Существует также множество моделей, обученных на наборах данных, которые включают вызов функций для включения этой функции. Эта функциональность позволяет разработчикам создавать агентов LLM, способных автоматизировать широкий спектр простых задач и рабочих процессов.
OpenAI по-прежнему доминирует в отрасли
OpenAI продолжает доминировать в отрасли, сохраняя лидерство в области исследований и приложений. GPT-4 и новыймагазин GPT Функция ChatGPT остается отраслевым стандартом, предлагая высококачественные генеративные приложения искусственного интеллекта, которые не имеют аналогов и уникальны, и на данный момент ни одна из конкурентов не приблизилась к ним. OpenAI также продемонстрировала значительную поддержку своего сообщества пользователей, организовав первуюДень разработчиков OpenAI и предоставление различных функций, удобных для разработчиков, в 2023 году. Anthropic становится одним из наиболее многообещающих конкурентов, хотя ее флагманская программа LLMКлод , еще не широко доступен. Другой технологический гигант, Google, выпустилБлизнецы Согласно отчетам, в прошлом году это было весьма впечатляюще по сравнению с серией OpenAI GPT. Однако оно еще не получило достаточной поддержки в обществе. Посмотрим, что произойдет в 2024 году, когда планируют выпустить самую большую версию Gemini.
Заключение
2023 год ознаменовался периодом значительного роста и инноваций в области больших языковых моделей (LLM). От демократизации ИИ с помощью моделей с открытым исходным кодом до разработки более эффективных и специализированных систем — эти достижения являются не просто техническими достижениями, но и шагами на пути к тому, чтобы сделать ИИ более доступным и применимым в различных областях. Заглядывая в будущее, можно сказать, что потенциал этих технологий по преобразованию отраслей промышленности и расширению человеческих возможностей по-прежнему остается захватывающей перспективой. В 2024 году мы ожидаем еще более знаменательных событий: Meta объявила о планах по обучению LLaMA-3 и планирует открыть его исходный код. В отрасли также существует большой интерес к тому, смогут ли такие гиганты, как Google, или такие стартапы, как Anthropic, превзойти OpenAI.
Посетите и подпишитесь на мой личный блог , чтобы получать больше статей.