ChipNeMo: Адаптированные к предметной области программы магистратуры по проектированию микросхем: благодарности, вклад и ссылки

к Writings, Papers and Blogs on Text Models7m2024/06/06

Слишком долго; Читать

Исследователи представляют ChipNeMo, использующую адаптацию предметной области для улучшения LLM при проектировании микросхем, достигая пятикратного уменьшения размера модели и повышения производительности.

featured image - ChipNeMo: Адаптированные к предметной области программы магистратуры по проектированию микросхем: благодарности, вклад и ссылки

Авторы:

(1) Минцзе Лю, NVIDIA {Равный вклад};

(2) Теодор-Думитру Эне, NVIDIA {Равный вклад};

(3) Роберт Кирби, NVIDIA {Равный вклад};

(4) Крис Ченг, NVIDIA {Равный вклад};

(5) Натаниэль Пинкни, NVIDIA {Равный вклад};

(6) Жунцзянь Лян, NVIDIA {Равный вклад};

(7) Джона Албен, NVIDIA;

(8) Химьяншу Ананд, NVIDIA;

(9) Санмитра Банерджи, NVIDIA;

(10) Исмет Байрактароглу, NVIDIA;

(11) Бонита Бхаскаран, NVIDIA;

(12) Брайан Катандзаро, NVIDIA;

(13) Арджун Чаудхури, NVIDIA;

(14) Шэрон Клэй, NVIDIA;

(15) Билл Далли, NVIDIA;

(16) Лаура Данг, NVIDIA;

(17) Парикшит Дешпанде, NVIDIA;

(18) Сиддхант Дходхи, NVIDIA;

(19) Самир Халепет, NVIDIA;

(20) Эрик Хилл, NVIDIA;

(21) Цзяшан Ху, NVIDIA;

(22) Сумит Джайн, NVIDIA;

(23) Брюсек Хайлани, NVIDIA;

(24) Джордж Кокаи, NVIDIA;

(25) Кишор Кунал, NVIDIA;

(26) Сяовэй Ли, NVIDIA;

(27) Чарли Линд, NVIDIA;

(28) Хао Лю, NVIDIA;

(29) Стюарт Оберман, NVIDIA;

(30) Суджит Омар, NVIDIA;

(31) Сридхар Пратти, NVIDIA;

(23) Джонатан Райман, NVIDIA;

(33) Амбар Саркар, NVIDIA;

(34) Чжэнцзян Шао, NVIDIA;

(35) Ханфэй Сан, NVIDIA;

(36) Пратик П. Сутар, NVIDIA;

(37) Варун Тедж, NVIDIA;

(38) Уокер Тернер, NVIDIA;

(39) Кайжэ Сюй, NVIDIA;

(40) Хаосин Рен, NVIDIA.

Таблица ссылок

IX. БЛАГОДАРНОСТИ

Авторы хотели бы поблагодарить: ИТ-команду NVIDIA за поддержку интеграции NVBugs; команде NVIDIA Hardware Security за поддержку по вопросам безопасности; Командам NVIDIA NeMo за поддержку и рекомендации по обучению и выводам моделей ChipNeMo; Командам NVIDIA Infrastructure за поддержку ресурсов по обучению графических процессоров и выводам для проекта; Командам разработчиков оборудования NVIDIA за поддержку и знания.

X. ВЗНОСЫ

Минцзе Лю провел обучение моделям DAPT и SFT.

Теодор-Думитру Эне и Роберт Кирби разработали инфраструктуру вывода и оценки приложений.

Крис Ченг разработал структуру RAG.

Натаниэль Пинкни собрал и подготовил наборы данных для обучения.

Жунцзянь Лян разработал собственные токенизаторы.

Уокер Тернер, Чарли Линд и Джордж Кокаи разработали общий тест на знание схемотехники.

Сиддхант Дходхи, Исмет Байрактароглу, Химьяншу Ананд и Эрик Хилл разработали чат-бота-помощника инженера, предоставили наборы данных с инструкциями по предметной области, тесты для оценки и провели оценку.

Парикшит Дешпанде, Чжэнцзян Шао, Кайчжэ Сюй, Цзяшан Ху, Лаура Данг, Сяовэй Ли, Хао Лю, Амбар Саркар разработали приложение-чат-бот для помощника инженера.

Сридхар Пратти, Кишор Кунал, Варун Тедж, Сумит Джайн, Суджит Омар, Пратик П Сутар, Ханфэй Сан разработали приложение для генерации сценариев EDA, предоставили наборы данных инструкций предметной области и тесты оценки.

Бонита Бхаскаран, Арджун Чаудхури и Санмитра Банерджи разработали приложение для обобщения и анализа ошибок, предоставили наборы данных инструкций по предметной области и тесты для оценки.

Брюсек Хайлани, Стюарт Оберман, Шэрон Клэй, Самир Халепет, Джонатан Рейман, Брайан Катандзаро, Джона Албен, Билл Далли консультировали по вопросам исследований ИИ и разработки аппаратного обеспечения.

Хаосин Жэнь спроектировал и возглавил исследование.

ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРА

[1] Б. Хайлани и др., «Ускорение проектирования микросхем с помощью машинного обучения», IEEE Micro, vol. 40, нет. 6, стр. 23–32, 2020.

[2] Х. Рен и М. Фойтик, «Invited-nvcell: Стандартная компоновка ячеек в передовых технологических узлах с подкреплением обучения», 58-я конференция по автоматизации проектирования ACM/IEEE (DAC), 2021 г.

[3] Р. Рой и др., «PrefixRL: Оптимизация параллельных префиксных схем с использованием глубокого обучения с подкреплением», 58-я конференция по автоматизации проектирования ACM/IEEE (DAC), 2021 г.

[4] В.-Л. Чан и др., «Викуна: чат-бот с открытым исходным кодом, впечатляющий gpt-4 с качеством чата gpt 90%*», март 2023 г. [Онлайн]. Доступно: https://lmsys.org/blog/2023-03-30-vicuna/.

[5] Х. Туврон и др., «Лама 2: Открытая основа и точно настроенные модели чата», 2023 г.

[6] С. Тхакур и др., «Сравнительный анализ больших языковых моделей для автоматизированной генерации кода verilog rtl», на конференции и выставке Design, Automation & Test in Europe (DATE), 2023 г., стр. 1–6.

[7] Дж. Блоклав и др., «Чип-чат: проблемы и возможности в разработке диалогового оборудования», 2023.

[8] З. Хе и др., «Chateda: автономный агент для eda на основе большой языковой модели», 2023 г.

[9] С. Бубек и др., «Искры общего искусственного интеллекта: ранние эксперименты с gpt-4», 2023 г.

[10] С. Ву и др., «Bloomberggpt: Большая языковая модель для финансов», 2023 г.

[11] ООО «М.». (2022) Биомедицина: предметно-ориентированная модель большого языка для биомедицинского текста. [В сети]. Доступно: https://www.mosaicml.com/blog/introducing-pubmed-gpt.

[12] М. Лю и др., «VerilogEval: оценка больших языковых моделей для генерации кода Verilog», Международная конференция IEEE/ACM по компьютерному проектированию (ICCAD), 2023 г.

[13] Э. Нейкамп и др., «Codegen: модель открытого большого языка для кода с многоэтапным синтезом программ», ICLR, 2023.

[14] С. Гуруранган и др., «Не прекращайте предварительное обучение: адаптируйте языковые модели к областям и задачам», 2020.

[15] П. Льюис и др., «Поколение с расширенным поиском для наукоемких задач НЛП», 2021.

[16] Э.Дж. Ху и др., «Лора: Низкоранговая адаптация больших языковых моделей», CoRR, vol. абс/2106.09685, 2021. [Онлайн]. Доступно: https://arxiv.org/abs/2106.09685.

[17] Л. Гао и др., «Куча: набор данных разного текста объемом 800 ГБ для языкового моделирования».

[18] Коцетков Д. и др., «Стек: 3 ТБ исходного кода с разрешительной лицензией», 2022.

[19] А. Копф ¨ и др., «Открытые беседы с помощниками – демократизация согласования большой языковой модели», 2023.

[20] Дж. Вэй и др., «Точно настроенные языковые модели — это «нулевые ученики», 2022 г.

[21] В. Сан и др., «Многозадачное обучение позволяет безошибочно обобщать задачи», 2022.

[22] Д. Хендрикс и др., «Измерение понимания языка в условиях многозадачности», 2021 г.

[23] М. Чен и др., «Оценка больших языковых моделей, обученных на коде», 2021 г.

[24] Ф. Кото, Дж. Х. Лау и Т. Болдуин, «IndoBERTweet: предварительно обученная языковая модель для индонезийского Twitter с эффективной инициализацией словаря, специфичного для предметной области», в материалах конференции 2021 года по эмпирическим методам обработки естественного языка, ноябрь 2021 г. 2021, стр. 10 660–10 668.

[25] Кучаев О. и др., «Nemo: набор инструментов для создания ИИ-приложений с использованием нейронных модулей», 2019.

[26] М. Шойби и др., «Мегатрон-lm: обучение языковых моделей с несколькими миллиардами параметров с использованием параллелизма моделей», препринт arXiv arXiv:1909.08053, 2019.

[27] Т. Дао и др., «FlashAttention: быстрое и эффективное использование памяти, точное внимание с учетом ввода-вывода», в журнале «Достижения в области нейронных систем обработки информации», 2022 г. [28] А. Чоудхери и др., «Palm: масштабирование». моделирование языка с помощью путей», 2022 г.

[29] З. Джи и др., «Обзор галлюцинаций при генерации естественного языка», ACM Comput. Surv., вып. 55, нет. 12 марта 2023 г. [Онлайн]. Доступно: https://doi.org/10.1145/3571730.

[30] Л. Ван и др., «Встраивание текста с помощью контрастного предварительного обучения со слабым контролем», препринт arXiv arXiv:2212.03533, 2022.

[31] Л. Гао и др., «Теватрон: эффективный и гибкий набор инструментов для плотного поиска», 2022 г.

[32] Б. Розьер и др., «Code llama: модели открытого фундамента для кода», 2023.

[33] Н. Реймерс и И. Гуревич, «Sentence-bert: вложения предложений с использованием сиамских берт-сетей», в материалах конференции 2019 года по эмпирическим методам обработки естественного языка. Ассоциация компьютерной лингвистики, 11 2019 г. [Онлайн]. Доступно: http://arxiv.org/abs/1908.10084.

[34] Р. Поуп и др., «Эффективное масштабирование трансформаторного вывода», 2022 г.

[35] Р.Ю. Аминабади и др., «Глубокий вывод: обеспечение эффективного вывода моделей трансформаторов в беспрецедентном масштабе», 2022.

[36] Л. Оуян и др., «Обучение языковых моделей следованию инструкциям с обратной связью от человека», 2022 г.

[37] В. Сюн и др., «Эффективное масштабирование фундаментальных моделей в длительном контексте», 2023 г.

[38] Р. Тейлор и др., «Галактика: большая языковая модель для науки», 2022.

[39] А. Левкович и др., «Решение задач количественного рассуждения с помощью языковых моделей», 2022.

[40] П. Льюис и др., «Поколение с расширенным поиском для наукоемких задач НЛП», 2021.

[41] С. Боржо и др., «Улучшение языковых моделей путем извлечения из триллионов токенов», 2022.

[42] С. Робертсон и Х. Сарагоса, «Вероятностная структура релевантности: Bm25 и далее», Found. Тенденции Инф. Ретр., том. 3, нет. 4, с. 333–389, апрель 2009 г. [Онлайн]. Доступно: https://doi.org/10.1561/1500000019.

[43] Карпухин В. и др., «Плотный поиск проходов для ответа на открытые вопросы», 2020.

[44] Г. Изакард и др., «Неконтролируемый плотный поиск информации с контрастным обучением», 2022.

[45] В. Ши и др., «Replug: языковые модели черного ящика с расширенным поиском», 2023.

[46] Г. Изакард и др., «Немногократное обучение с использованием поисковых расширенных языковых моделей», 2022. [Онлайн]. Доступно: http://arxiv.org/abs/2208.03299.

[47] О. Рам и др., «Языковые модели с расширенным поиском в контексте», 2023.

[48] С. Чжоу и др., «Подсказка документации: генерация кода путем получения документов», 2023 г.

[49] Р. Рафаилов и др., «Прямая оптимизация предпочтений: ваша языковая модель тайно является моделью вознаграждения», 2023.

[50] Ю. Донг и др., «Steerlm: sft, обусловленный атрибутами, как (управляемая пользователем) альтернатива rlhf», 2023.

[51] Х. Пирс, Б. Тан и Р. Карри, «Дэйв: автоматическое получение verilog из английского», в материалах семинара ACM/IEEE 2020 года по машинному обучению для САПР, сер. МЛКАД '20. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники, 2020, стр. 27–32. [В сети]. Доступно: https://doi.org/10.1145/3380446.3430634.

[52] «Beautiful Soup», https://www.crummy.com/software/BeautifulSoup/, доступ: 10 октября 2023 г.

[53] К. Сакагути и др., «Виногранде: масштабная проблема состязательной схемы Винограда», препринт arXiv arXiv:1907.10641, 2019.

[54] Р. Зеллерс и др., «Хелласваг: Может ли машина действительно закончить ваше предложение?» в материалах 57-го ежегодного собрания Ассоциации компьютерной лингвистики, 2019 г.

[55] П. Кларк и др.: «Думаете, вы решили вопрос-ответ? попробуйте arc, задачу рассуждения ai2», 2018 г.

[56] Г. Лай и др., «Раса: крупномасштабный набор данных о понимании прочитанного на экзаменах», 2017.