Авторы:
(1) Минцзе Лю, NVIDIA {Равный вклад};
(2) Теодор-Думитру Эне, NVIDIA {Равный вклад};
(3) Роберт Кирби, NVIDIA {Равный вклад};
(4) Крис Ченг, NVIDIA {Равный вклад};
(5) Натаниэль Пинкни, NVIDIA {Равный вклад};
(6) Жунцзянь Лян, NVIDIA {Равный вклад};
(7) Джона Албен, NVIDIA;
(8) Химьяншу Ананд, NVIDIA;
(9) Санмитра Банерджи, NVIDIA;
(10) Исмет Байрактароглу, NVIDIA;
(11) Бонита Бхаскаран, NVIDIA;
(12) Брайан Катандзаро, NVIDIA;
(13) Арджун Чаудхури, NVIDIA;
(14) Шэрон Клэй, NVIDIA;
(15) Билл Далли, NVIDIA;
(16) Лаура Данг, NVIDIA;
(17) Парикшит Дешпанде, NVIDIA;
(18) Сиддхант Дходхи, NVIDIA;
(19) Самир Халепет, NVIDIA;
(20) Эрик Хилл, NVIDIA;
(21) Цзяшан Ху, NVIDIA;
(22) Сумит Джайн, NVIDIA;
(23) Брюсек Хайлани, NVIDIA;
(24) Джордж Кокаи, NVIDIA;
(25) Кишор Кунал, NVIDIA;
(26) Сяовэй Ли, NVIDIA;
(27) Чарли Линд, NVIDIA;
(28) Хао Лю, NVIDIA;
(29) Стюарт Оберман, NVIDIA;
(30) Суджит Омар, NVIDIA;
(31) Сридхар Пратти, NVIDIA;
(23) Джонатан Райман, NVIDIA;
(33) Амбар Саркар, NVIDIA;
(34) Чжэнцзян Шао, NVIDIA;
(35) Ханфэй Сан, NVIDIA;
(36) Пратик П. Сутар, NVIDIA;
(37) Варун Тедж, NVIDIA;
(38) Уокер Тернер, NVIDIA;
(39) Кайжэ Сюй, NVIDIA;
(40) Хаосин Рен, NVIDIA.
Авторы хотели бы поблагодарить: ИТ-команду NVIDIA за поддержку интеграции NVBugs; команде NVIDIA Hardware Security за поддержку по вопросам безопасности; Командам NVIDIA NeMo за поддержку и рекомендации по обучению и выводам моделей ChipNeMo; Командам NVIDIA Infrastructure за поддержку ресурсов по обучению графических процессоров и выводам для проекта; Командам разработчиков оборудования NVIDIA за поддержку и знания.
Минцзе Лю провел обучение моделям DAPT и SFT.
Теодор-Думитру Эне и Роберт Кирби разработали инфраструктуру вывода и оценки приложений.
Крис Ченг разработал структуру RAG.
Натаниэль Пинкни собрал и подготовил наборы данных для обучения.
Жунцзянь Лян разработал собственные токенизаторы.
Уокер Тернер, Чарли Линд и Джордж Кокаи разработали общий тест на знание схемотехники.
Сиддхант Дходхи, Исмет Байрактароглу, Химьяншу Ананд и Эрик Хилл разработали чат-бота-помощника инженера, предоставили наборы данных с инструкциями по предметной области, тесты для оценки и провели оценку.
Парикшит Дешпанде, Чжэнцзян Шао, Кайчжэ Сюй, Цзяшан Ху, Лаура Данг, Сяовэй Ли, Хао Лю, Амбар Саркар разработали приложение-чат-бот для помощника инженера.
Сридхар Пратти, Кишор Кунал, Варун Тедж, Сумит Джайн, Суджит Омар, Пратик П Сутар, Ханфэй Сан разработали приложение для генерации сценариев EDA, предоставили наборы данных инструкций предметной области и тесты оценки.
Бонита Бхаскаран, Арджун Чаудхури и Санмитра Банерджи разработали приложение для обобщения и анализа ошибок, предоставили наборы данных инструкций по предметной области и тесты для оценки.
Брюсек Хайлани, Стюарт Оберман, Шэрон Клэй, Самир Халепет, Джонатан Рейман, Брайан Катандзаро, Джона Албен, Билл Далли консультировали по вопросам исследований ИИ и разработки аппаратного обеспечения.
Хаосин Жэнь спроектировал и возглавил исследование.
[1] Б. Хайлани и др., «Ускорение проектирования микросхем с помощью машинного обучения», IEEE Micro, vol. 40, нет. 6, стр. 23–32, 2020.
[2] Х. Рен и М. Фойтик, «Invited-nvcell: Стандартная компоновка ячеек в передовых технологических узлах с подкреплением обучения», 58-я конференция по автоматизации проектирования ACM/IEEE (DAC), 2021 г.
[3] Р. Рой и др., «PrefixRL: Оптимизация параллельных префиксных схем с использованием глубокого обучения с подкреплением», 58-я конференция по автоматизации проектирования ACM/IEEE (DAC), 2021 г.
[4] В.-Л. Чан и др., «Викуна: чат-бот с открытым исходным кодом, впечатляющий gpt-4 с качеством чата gpt 90%*», март 2023 г. [Онлайн]. Доступно: https://lmsys.org/blog/2023-03-30-vicuna/.
[5] Х. Туврон и др., «Лама 2: Открытая основа и точно настроенные модели чата», 2023 г.
[6] С. Тхакур и др., «Сравнительный анализ больших языковых моделей для автоматизированной генерации кода verilog rtl», на конференции и выставке Design, Automation & Test in Europe (DATE), 2023 г., стр. 1–6.
[7] Дж. Блоклав и др., «Чип-чат: проблемы и возможности в разработке диалогового оборудования», 2023.
[8] З. Хе и др., «Chateda: автономный агент для eda на основе большой языковой модели», 2023 г.
[9] С. Бубек и др., «Искры общего искусственного интеллекта: ранние эксперименты с gpt-4», 2023 г.
[10] С. Ву и др., «Bloomberggpt: Большая языковая модель для финансов», 2023 г.
[11] ООО «М.». (2022) Биомедицина: предметно-ориентированная модель большого языка для биомедицинского текста. [В сети]. Доступно: https://www.mosaicml.com/blog/introducing-pubmed-gpt.
[12] М. Лю и др., «VerilogEval: оценка больших языковых моделей для генерации кода Verilog», Международная конференция IEEE/ACM по компьютерному проектированию (ICCAD), 2023 г.
[13] Э. Нейкамп и др., «Codegen: модель открытого большого языка для кода с многоэтапным синтезом программ», ICLR, 2023.
[14] С. Гуруранган и др., «Не прекращайте предварительное обучение: адаптируйте языковые модели к областям и задачам», 2020.
[15] П. Льюис и др., «Поколение с расширенным поиском для наукоемких задач НЛП», 2021.
[16] Э.Дж. Ху и др., «Лора: Низкоранговая адаптация больших языковых моделей», CoRR, vol. абс/2106.09685, 2021. [Онлайн]. Доступно: https://arxiv.org/abs/2106.09685.
[17] Л. Гао и др., «Куча: набор данных разного текста объемом 800 ГБ для языкового моделирования».
[18] Коцетков Д. и др., «Стек: 3 ТБ исходного кода с разрешительной лицензией», 2022.
[19] А. Копф ¨ и др., «Открытые беседы с помощниками – демократизация согласования большой языковой модели», 2023.
[20] Дж. Вэй и др., «Точно настроенные языковые модели — это «нулевые ученики», 2022 г.
[21] В. Сан и др., «Многозадачное обучение позволяет безошибочно обобщать задачи», 2022.
[22] Д. Хендрикс и др., «Измерение понимания языка в условиях многозадачности», 2021 г.
[23] М. Чен и др., «Оценка больших языковых моделей, обученных на коде», 2021 г.
[24] Ф. Кото, Дж. Х. Лау и Т. Болдуин, «IndoBERTweet: предварительно обученная языковая модель для индонезийского Twitter с эффективной инициализацией словаря, специфичного для предметной области», в материалах конференции 2021 года по эмпирическим методам обработки естественного языка, ноябрь 2021 г. 2021, стр. 10 660–10 668.
[25] Кучаев О. и др., «Nemo: набор инструментов для создания ИИ-приложений с использованием нейронных модулей», 2019.
[26] М. Шойби и др., «Мегатрон-lm: обучение языковых моделей с несколькими миллиардами параметров с использованием параллелизма моделей», препринт arXiv arXiv:1909.08053, 2019.
[27] Т. Дао и др., «FlashAttention: быстрое и эффективное использование памяти, точное внимание с учетом ввода-вывода», в журнале «Достижения в области нейронных систем обработки информации», 2022 г. [28] А. Чоудхери и др., «Palm: масштабирование». моделирование языка с помощью путей», 2022 г.
[29] З. Джи и др., «Обзор галлюцинаций при генерации естественного языка», ACM Comput. Surv., вып. 55, нет. 12 марта 2023 г. [Онлайн]. Доступно: https://doi.org/10.1145/3571730.
[30] Л. Ван и др., «Встраивание текста с помощью контрастного предварительного обучения со слабым контролем», препринт arXiv arXiv:2212.03533, 2022.
[31] Л. Гао и др., «Теватрон: эффективный и гибкий набор инструментов для плотного поиска», 2022 г.
[32] Б. Розьер и др., «Code llama: модели открытого фундамента для кода», 2023.
[33] Н. Реймерс и И. Гуревич, «Sentence-bert: вложения предложений с использованием сиамских берт-сетей», в материалах конференции 2019 года по эмпирическим методам обработки естественного языка. Ассоциация компьютерной лингвистики, 11 2019 г. [Онлайн]. Доступно: http://arxiv.org/abs/1908.10084.
[34] Р. Поуп и др., «Эффективное масштабирование трансформаторного вывода», 2022 г.
[35] Р.Ю. Аминабади и др., «Глубокий вывод: обеспечение эффективного вывода моделей трансформаторов в беспрецедентном масштабе», 2022.
[36] Л. Оуян и др., «Обучение языковых моделей следованию инструкциям с обратной связью от человека», 2022 г.
[37] В. Сюн и др., «Эффективное масштабирование фундаментальных моделей в длительном контексте», 2023 г.
[38] Р. Тейлор и др., «Галактика: большая языковая модель для науки», 2022.
[39] А. Левкович и др., «Решение задач количественного рассуждения с помощью языковых моделей», 2022.
[40] П. Льюис и др., «Поколение с расширенным поиском для наукоемких задач НЛП», 2021.
[41] С. Боржо и др., «Улучшение языковых моделей путем извлечения из триллионов токенов», 2022.
[42] С. Робертсон и Х. Сарагоса, «Вероятностная структура релевантности: Bm25 и далее», Found. Тенденции Инф. Ретр., том. 3, нет. 4, с. 333–389, апрель 2009 г. [Онлайн]. Доступно: https://doi.org/10.1561/1500000019.
[43] Карпухин В. и др., «Плотный поиск проходов для ответа на открытые вопросы», 2020.
[44] Г. Изакард и др., «Неконтролируемый плотный поиск информации с контрастным обучением», 2022.
[45] В. Ши и др., «Replug: языковые модели черного ящика с расширенным поиском», 2023.
[46] Г. Изакард и др., «Немногократное обучение с использованием поисковых расширенных языковых моделей», 2022. [Онлайн]. Доступно: http://arxiv.org/abs/2208.03299.
[47] О. Рам и др., «Языковые модели с расширенным поиском в контексте», 2023.
[48] С. Чжоу и др., «Подсказка документации: генерация кода путем получения документов», 2023 г.
[49] Р. Рафаилов и др., «Прямая оптимизация предпочтений: ваша языковая модель тайно является моделью вознаграждения», 2023.
[50] Ю. Донг и др., «Steerlm: sft, обусловленный атрибутами, как (управляемая пользователем) альтернатива rlhf», 2023.
[51] Х. Пирс, Б. Тан и Р. Карри, «Дэйв: автоматическое получение verilog из английского», в материалах семинара ACM/IEEE 2020 года по машинному обучению для САПР, сер. МЛКАД '20. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники, 2020, стр. 27–32. [В сети]. Доступно: https://doi.org/10.1145/3380446.3430634.
[52] «Beautiful Soup», https://www.crummy.com/software/BeautifulSoup/, доступ: 10 октября 2023 г.
[53] К. Сакагути и др., «Виногранде: масштабная проблема состязательной схемы Винограда», препринт arXiv arXiv:1907.10641, 2019.
[54] Р. Зеллерс и др., «Хелласваг: Может ли машина действительно закончить ваше предложение?» в материалах 57-го ежегодного собрания Ассоциации компьютерной лингвистики, 2019 г.
[55] П. Кларк и др.: «Думаете, вы решили вопрос-ответ? попробуйте arc, задачу рассуждения ai2», 2018 г.
[56] Г. Лай и др., «Раса: крупномасштабный набор данных о понимании прочитанного на экзаменах», 2017.
Этот документ доступен на arxiv под лицензией CC 4.0.