paint-brush
Революционный потенциал однобитных языковых моделей (LLM)к@thebojda
6,811 чтения
6,811 чтения

Революционный потенциал однобитных языковых моделей (LLM)

к Laszlo Fazekas4m2024/03/03
Read on Terminal Reader

Слишком долго; Читать

1-битные LLM — это потенциальный способ создания гораздо более эффективных нейронных сетей, которые более биологически правдоподобны и более эффективно работают на специализированном оборудовании. Исследование того, насколько эффективно можно обучать 1-битные сети с помощью безградиентных методов, может стать очень интересной темой исследования.
featured image - Революционный потенциал однобитных языковых моделей (LLM)
Laszlo Fazekas HackerNoon profile picture
0-item
1-item

Любой, кто интересуется эволюцией технологии искусственного интеллекта, знает, что сегодняшние решения основаны на моделях большого языка (LLM) и преобразователях . Короче говоря, LLM — это нейронные сети, которые могут предсказывать следующий токен на основе входных токенов. Обычно эти токены представляют собой слова (это не совсем точно, но так легче представить концепцию), и выходные данные сети также представляют собой слова. Вот как работает ChatGPT. Вы вводите вопрос, и сеть генерирует слово. Затем вопрос и слово вместе становятся входными данными сети, генерируя еще одно слово и так далее, пока не будет сформирован полный ответ.


Однако токены могут быть больше, чем просто слова. Продвинутые языковые модели, такие как GPT-4 или Gemini, теперь являются мультимодальными, то есть их входные данные могут включать изображения и слова. Точно так же, как предложение можно разбить на слова, изображение можно разделить на небольшие фрагменты, и оттуда их может обрабатывать одна и та же архитектура преобразователя. Например, мультимодальную сеть можно попросить описать то, что находится на изображении, или закодировать пользовательский интерфейс, видимый на изображении.

источник: https://production-media.paperswithcode.com/methods/Screen_Shot_2021-01-26_at_9.43.31_PM_uI4jjMq.png



Эта архитектура еще более общая. Система Gato компании DeepMind является ярким примером, когда одна сеть трансформаторов может одновременно отвечать на вопросы, играть в видеоигры или управлять роботом, а управление роботами даже осуществляется с помощью ChatGPT . Поскольку LLM работает с токенами и любую задачу можно токенизировать, LLM обеспечивает универсальное решение для любой задачи.


источник: https://deepmind.google/discover/blog/a-generalist-agent/



Одна из самых разрекламированных технологических новостей в последнее время касалась компании Groq , разрабатывающей ASIC (интегральную схему специального назначения) , которая может запускать LLM гораздо эффективнее и с меньшими затратами энергии, чем традиционные графические процессоры. Это ясно показывает, что архитектура LLM стала настолько фундаментальной, что теперь имеет смысл создавать для нее специализированное оборудование.


Также недавно появилась публикация под названием « Эра 1-битных LLM: все большие языковые модели имеют размер 1,58 бита ». Квантование нейронных сетей — распространенный метод уменьшения размера и вычислительных затрат. Суть решения заключается в том, чтобы выполнить обучение на больших кластерах GPU с использованием чисел с плавающей запятой, а затем преобразовать веса готовой сети в менее точный формат, что позволяет процессорам пользовательских устройств работать более эффективно. Например, обучение проводится с 16- или 32-битными числами с плавающей запятой, которые затем преобразуются в 8- или 4-битные числа с фиксированной запятой для быстрых операций на стороне клиента. Таким образом, модель может хорошо работать даже на мобильных устройствах или устройствах IoT. Крайняя форма этого квантования — когда веса преобразуются в 1-битные числа. Это может быть полное двоичное преобразование или, как предполагает публикация, использование значений {-1,0,1} (отсюда и 1,58 бита). Можно подумать, что такое экстремальное квантование сделает сеть совершенно непригодной для использования, но на самом деле верно обратное; эти 1-битные сети работают исключительно хорошо.


Почему это так важно?

Если этих трех значений достаточно для представления весов, то умножение, которое в настоящее время является наиболее часто используемой операцией в нейронных сетях, больше не требуется. Вот почему кластеры графических процессоров используются для нейронных сетей, поскольку графические процессоры могут очень эффективно выполнять умножение. Без необходимости умножения нет необходимости в графических процессорах, и модели можно эффективно запускать даже на центральных процессорах, или можно создать специализированное оборудование (ASIC), которое может (даже аналоговым способом) запускать эти 1-битные сети.


В настоящее время квантование является операцией после обучения. Таким образом, использование однобитных сетей не ускоряет процесс обучения. Тем не менее, они по-прежнему полезны, поскольку обучение — это одноразовая операция, а затем нейронная сеть запускается бесчисленное количество раз. Следовательно, эксплуатация сетей требует значительно большего энергопотребления, чем обучение. Поэтому мы можем извлечь выгоду из этой технологии даже в контексте обучения.


Поскольку обучение на основе градиента не работает с 1-битными или бинаризованными сетями, становятся актуальными технологии, не основанные на градиенте (проверьте Nevergrad и PyGAD ), такие как генетические алгоритмы или другие безградиентные технологии. Хотя в большинстве случаев обратное распространение ошибки гораздо более эффективно, чем решения без градиента, однобитные сети могут работать гораздо эффективнее, чем их аналоги с плавающей запятой. Таким образом, возможно, что с помощью обратного распространения ошибки мы найдем оптимальную сеть в 10 раз быстрее, используя числа с плавающей запятой, чем, скажем, с помощью генетических алгоритмов. Но если 1-битная сеть работает в 20 раз быстрее, то обучение всё равно будет в два раза быстрее с использованием генетических алгоритмов. Исследование того, насколько эффективно можно обучать 1-битные сети с помощью безградиентных методов, может стать очень интересной темой исследования.


Другая причина, почему эта тема так интересна, заключается в том, что эти сети больше напоминают нейронные сети, обнаруженные в естественном мозге (что биологически правдоподобно). Поэтому я считаю, что, выбрав хороший алгоритм безградиентного обучения и применив эти 1-битные сети, мы сможем построить системы, гораздо более похожие на человеческий мозг. Более того, это открывает возможность для технологических решений помимо ASIC, которые ранее были невозможны, таких как аналоговые, световые или даже биологические процессоры.


Вполне возможно, что это направление в долгосрочной перспективе может оказаться тупиковым, но на данный момент его революционный потенциал очевиден, что делает его очень многообещающим направлением исследований для всех, кто занимается искусственным интеллектом.