Авторы:
(1) Минцзе Лю, NVIDIA {Равный вклад};
(2) Теодор-Думитру Эне, NVIDIA {Равный вклад};
(3) Роберт Кирби, NVIDIA {Равный вклад};
(4) Крис Ченг, NVIDIA {Равный вклад};
(5) Натаниэль Пинкни, NVIDIA {Равный вклад};
(6) Жунцзянь Лян, NVIDIA {Равный вклад};
(7) Джона Албен, NVIDIA;
(8) Химьяншу Ананд, NVIDIA;
(9) Санмитра Банерджи, NVIDIA;
(10) Исмет Байрактароглу, NVIDIA;
(11) Бонита Бхаскаран, NVIDIA;
(12) Брайан Катандзаро, NVIDIA;
(13) Арджун Чаудхури, NVIDIA;
(14) Шэрон Клэй, NVIDIA;
(15) Билл Далли, NVIDIA;
(16) Лаура Данг, NVIDIA;
(17) Парикшит Дешпанде, NVIDIA;
(18) Сиддхант Дходхи, NVIDIA;
(19) Самир Халепет, NVIDIA;
(20) Эрик Хилл, NVIDIA;
(21) Цзяшан Ху, NVIDIA;
(22) Сумит Джайн, NVIDIA;
(23) Брюсек Хайлани, NVIDIA;
(24) Джордж Кокаи, NVIDIA;
(25) Кишор Кунал, NVIDIA;
(26) Сяовэй Ли, NVIDIA;
(27) Чарли Линд, NVIDIA;
(28) Хао Лю, NVIDIA;
(29) Стюарт Оберман, NVIDIA;
(30) Суджит Омар, NVIDIA;
(31) Сридхар Пратти, NVIDIA;
(23) Джонатан Райман, NVIDIA;
(33) Амбар Саркар, NVIDIA;
(34) Чжэнцзян Шао, NVIDIA;
(35) Ханфэй Сан, NVIDIA;
(36) Пратик П. Сутар, NVIDIA;
(37) Варун Тедж, NVIDIA;
(38) Уокер Тернер, NVIDIA;
(39) Кайжэ Сюй, NVIDIA;
(40) Хаосин Рен, NVIDIA.
A. Рекомендации по адаптации предметной области
Хотя модели ChipNeMo, адаптированные к предметной области, достигают значительных улучшений по сравнению с соответствующими базовыми моделями, мы также наблюдаем, что более крупный LLaMA2 70B иногда может достигать такой же точности, что и ChipNeMo, как показано на рисунках 8, 9 и 10. Недавние работы использовали эти мощные модели для выполнять задачи по проектированию чипов.
Однако важно учитывать преимущества экономической эффективности, получаемые от использования модели меньшего размера. Поуп и др. продемонстрировали, что затраты на вывод в модели 8B в 8–12 раз ниже, чем в модели 62B для одинаковых целей задержки [34]. Более того, уменьшение размера модели может привести к резкому увеличению скорости вывода, позволяя модели поместиться в один графический процессор или узел, где иначе это было бы невозможно [35]. Наша модель ChipNeMo 13B может быть загружена в память одного графического процессора A100 без какого-либо квантования, в отличие от модели LLaMA2 70B. Это приводит к значительному увеличению скорости вывода при нормальной работе графического процессора, что можно обменять на значительное снижение затрат на вывод, если графический процессор будет разогнан.
Таким образом, при выборе между использованием более крупной модели общего назначения и меньшей специализированной модели в производственной среде необходимо учитывать следующие критерии:
• Компромисс между обучением и выводами: модели, адаптированные к меньшей предметной области, могут соответствовать точности более крупных моделей общего назначения. Хотя адаптация предметной области требует дополнительных первоначальных затрат, использование моделей меньшего размера приводит к значительному снижению эксплуатационных расходов.
• Уникальность варианта использования. Как видно на рисунках 6, 9 и 10, модели, адаптированные к предметной области, демонстрируют наибольшее улучшение в задачах, которые редко присутствуют в открытом доступе, таких как написание кода на собственных языках или в библиотеках. Действительно, наши данные показывают, что даже когда им предоставляются тщательно подобранные контексты, большие модели общего назначения с трудом соответствуют точности адаптированных к предметной области моделей в таких сценариях.
• Доступность данных предметной области. Адаптация предметной области работает лучше всего при наличии большого объема обучающих данных, т. е. миллиардов обучающих токенов. Это часто справедливо для крупных корпораций и проектов, накопивших большое количество внутренних документов и кода, но не обязательно справедливо для небольших предприятий или проектов.
• Разнообразие вариантов конечного использования. Можно точно настроить модель общего назначения для конкретной задачи, но модели, адаптированные к предметной области, подходят для разнообразного набора задач в предметной области. Хотя в этой работе мы демонстрируем только три варианта использования моделей ChipNeMo, их можно легко повторно использовать для других случаев при наличии достаточных данных SFT.
Б. Разрыв в производительности
Хотя ChipNeMo достигает впечатляющих результатов в выбранных нами приложениях, как показано в Приложении E, результаты оценки всех приложений по-прежнему показывают значительный разрыв с производительностью экспертов. Мы рассматриваем следующие подходы для устранения этого разрыва в производительности:
1) Сбор данных. Мы можем расширить набор данных DAPT, включив в него больше внутренних данных. Кроме того, мы планируем добавить больше наборов инструкций для конкретных задач для SFT, поскольку доказательства показывают, что SFT для конкретных задач значительно улучшает результаты оценки.
2) Базовая модель: мы ожидаем, что лучшие и более крупные базовые модели, такие как LLaMA2 70B, могут улучшить производительность. Мы также можем изучить применение DAPT к базовым моделям, специфичным для кода, таким как Code LLaMA [32] для задач генерации кода.
3) Обучение. Мы также планируем провести обучение с подкреплением на основе обратной связи между людьми (RLHF) [36] в рамках модели чата ChipNeMo, чтобы сделать ее более универсальной. Мы планируем использовать предварительно обученные модели вознаграждения, обученные на наборах данных общего назначения. Мы также планируем провести обучение на длинном контексте [37], чтобы решить проблему, когда необходим длинный контекст, например, в приложении для суммирования ошибок. В целом, более длительная поддержка контекста поможет улучшить методы поиска для помощи в чате, а также для генерации кода.
4) Извлечение: мы будем продолжать исследовать более эффективные методы RAG как для чат-бота-помощника инженера, так и для создания сценариев EDA. Для чат-бота-помощника инженера мы можем создавать разные хранилища данных для разных областей применения. Мы также можем интегрировать корпоративные поисковые системы с RAG, чтобы находить соответствующий контекст для широкого круга проблем. Для генерации кода мы можем исследовать автоматическое извлечение контекста из существующего кода и документации.
C. Методологии агентного проектирования
Сценарии использования, которые мы экспериментировали в этой работе, представляют собой прямое применение возможностей LLM по оперативному реагированию. Агенты подразумевают использование LLM для выбора последовательности действий, при этом LLM действует как механизм рассуждения для управления внешними инструментами. Процессы проектирования микросхем включают в себя множество существующих инструментов и методологий EDA. Мы считаем, что некоторые из этих методологий могут управляться агентами, работающими на основе адаптированных к предметной области LLM, таких как модели ChipNeMo. В будущем мы планируем работать над методологиями агентного проектирования для проверки и оптимизации.
Этот документ доступен на arxiv под лицензией CC 4.0.