paint-brush
ChipNeMo: Адаптированные к предметной области программы LLM для проектирования микросхем: сопутствующие работык@textmodels

ChipNeMo: Адаптированные к предметной области программы LLM для проектирования микросхем: сопутствующие работы

Слишком долго; Читать

Исследователи представляют ChipNeMo, использующую адаптацию предметной области для улучшения LLM при проектировании микросхем, достигая пятикратного уменьшения размера модели и повышения производительности.
featured image - ChipNeMo: Адаптированные к предметной области программы LLM для проектирования микросхем: сопутствующие работы
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Авторы:

(1) Минцзе Лю, NVIDIA {Равный вклад};

(2) Теодор-Думитру Эне, NVIDIA {Равный вклад};

(3) Роберт Кирби, NVIDIA {Равный вклад};

(4) Крис Ченг, NVIDIA {Равный вклад};

(5) Натаниэль Пинкни, NVIDIA {Равный вклад};

(6) Жунцзянь Лян, NVIDIA {Равный вклад};

(7) Джона Албен, NVIDIA;

(8) Химьяншу Ананд, NVIDIA;

(9) Санмитра Банерджи, NVIDIA;

(10) Исмет Байрактароглу, NVIDIA;

(11) Бонита Бхаскаран, NVIDIA;

(12) Брайан Катандзаро, NVIDIA;

(13) Арджун Чаудхури, NVIDIA;

(14) Шэрон Клэй, NVIDIA;

(15) Билл Далли, NVIDIA;

(16) Лаура Данг, NVIDIA;

(17) Парикшит Дешпанде, NVIDIA;

(18) Сиддхант Дходхи, NVIDIA;

(19) Самир Халепет, NVIDIA;

(20) Эрик Хилл, NVIDIA;

(21) Цзяшан Ху, NVIDIA;

(22) Сумит Джайн, NVIDIA;

(23) Брюсек Хайлани, NVIDIA;

(24) Джордж Кокаи, NVIDIA;

(25) Кишор Кунал, NVIDIA;

(26) Сяовэй Ли, NVIDIA;

(27) Чарли Линд, NVIDIA;

(28) Хао Лю, NVIDIA;

(29) Стюарт Оберман, NVIDIA;

(30) Суджит Омар, NVIDIA;

(31) Сридхар Пратти, NVIDIA;

(23) Джонатан Райман, NVIDIA;

(33) Амбар Саркар, NVIDIA;

(34) Чжэнцзян Шао, NVIDIA;

(35) Ханфэй Сан, NVIDIA;

(36) Пратик П. Сутар, NVIDIA;

(37) Варун Тедж, NVIDIA;

(38) Уокер Тернер, NVIDIA;

(39) Кайжэ Сюй, NVIDIA;

(40) Хаосин Рен, NVIDIA.

Таблица ссылок

VII. СОПУТСТВУЮЩИЕ РАБОТЫ

Многие домены содержат значительный объем собственных данных, которые можно использовать для обучения LLM для конкретной предметной области. Один из подходов заключается в обучении с нуля фундаментальной модели для конкретной предметной области, например, BloombergGPT [10] для финансов, BioMedLLM [11] для биомедицины и Galactica [38] для науки. Эти модели обычно обучались на более чем 100 миллиардах токенов необработанных данных домена. Второй подход — это предварительное обучение с адаптацией к предметной области (DAPT) [14], который продолжает обучать предварительно обученную базовую модель на дополнительных необработанных данных предметной области. Он демонстрирует небольшой прирост производительности при выполнении предметных задач в таких областях, как биомедицина, публикации в области информатики, новости и обзоры. В одном примере [39] продолжил предварительное обучение базовой модели на наборах данных технического содержания и достиг высочайшего уровня производительности во многих задачах количественного рассуждения.


Поисковая дополненная генерация (RAG) помогает LLM генерировать точную информацию и извлекать актуальную информацию для улучшения наукоемких задач НЛП [40]. Замечено, что меньшие модели с RAG могут превосходить более крупные модели без RAG [41]. Методы поиска включают в себя методы разреженного поиска, такие как TF-IDF или BM25 [42], которые анализируют статистическую информацию по словам и находят совпадающие документы с многомерным разреженным вектором. Методы плотного поиска, такие как [43] [44], находят совпадающие документы в пространстве встраивания, сгенерированном поисковой моделью, предварительно обученной на большом корпусе с точной настройкой набора поисковых данных или без нее. Поисковую модель можно обучать автономно [43] [44] [45] или совместно с языковыми моделями [46] [41]. Кроме того, было показано, что готовые ретриверы общего назначения могут значительно улучшить базовую языковую модель без дальнейшей тонкой настройки [47]. RAG также предлагается для выполнения задач генерации кода [48] путем извлечения из кодирующих документов.


Базовые модели — это завершенные модели, которые имеют ограниченные возможности общения и выполнения инструкций. Поэтому к базовым моделям применяется процесс выравнивания моделей для обучения соответствующей модели чата. Точная настройка инструкций [20] и обучение с подкреплением на основе обратной связи с человеком (RLHF) [36] являются двумя распространенными методами согласования моделей. Точная настройка инструкций дополнительно обучает базовую модель с использованием наборов данных инструкций. RLHF использует отзывы людей для маркировки набора данных для обучения модели вознаграждения и применяет обучение с подкреплением для дальнейшего улучшения моделей с учетом обученной модели вознаграждения. RLHF обычно более сложен и ресурсоемок, чем точная настройка инструкций. Поэтому недавние исследования также предлагают уменьшить эти накладные расходы с помощью более простых методов, таких как DPO [49] и SteerLM [50].


Исследователи начали применять LLM для решения проблем проектирования микросхем. Ранние работы, такие как Дэйв [51], впервые исследовали возможность генерации Verilog из английского языка с помощью языковой модели (GPT-2). После этой работы [6] было показано, что точно настроенные LLM с открытым исходным кодом (CodeGen) на наборах данных Verilog, собранных из GitHub и учебников Verilog, превзошли современные модели OpenAI, такие как code-davinci-002, по 17 вопросам Verilog. [12] предложили тест с более чем 150 проблемами и продемонстрировали, что способность Verilog генерировать код предварительно обученных языковых моделей может быть улучшена с помощью контролируемой тонкой настройки путем начальной загрузки с помощью LLM, сгенерированных синтетическими парами проблем-кодов. Chip-Chat [7] экспериментировал с диалоговыми потоками для разработки и проверки 8-битного микропроцессора на базе аккумулятора с GPT-4 и GPT-3.5. Их результаты показали, что, хотя GPT-4 создает относительно высококачественные коды, он все еще недостаточно хорошо справляется с пониманием и исправлением ошибок. ChipEDA [8] предложил использовать LLM для создания сценариев инструментов EDA. Также было продемонстрировано, что доработанная модель LLaMA2 70B превосходит модель GPT-4 в этой задаче.


Этот документ доступен на arxiv под лицензией CC 4.0.