저자:
(1) Mingjie Liu, NVIDIA {동등 기여};
(2) Teodor-Dumitru Ene, NVIDIA {동등 기여};
(3) Robert Kirby, NVIDIA {동등 기여};
(4) Chris Cheng, NVIDIA {동등 기여};
(5) Nathaniel Pinckney, NVIDIA {동등 기여};
(6) Rongjian Liang, NVIDIA {동등 기여};
(7) 조나 앨벤(NVIDIA);
(8) 히미안슈 아난드, 엔비디아;
(9) 산미트라 바네르지(NVIDIA);
(10) 이스멧 베이락타로글루(Ismet Bayraktaroglu), NVIDIA;
(11) 보니타 바스카란(NVIDIA);
(12) 브라이언 카탄자로(NVIDIA);
(13) 아르준 차우두리(Arjun Chaudhuri), 엔비디아;
(14) 샤론 클레이, 엔비디아;
(15) 빌 댈리(Bill Dally), 엔비디아;
(16) 로라 당(NVIDIA);
(17) Parikshit Deshpande, NVIDIA;
(18) 싯단스 도디(Siddanth Dhodhi), 엔비디아;
(19) 사미르 할레페테(NVIDIA);
(20) 에릭 힐, 엔비디아;
(21) 후자상(Jiashang Hu), 엔비디아;
(22) 수미트 자인(NVIDIA);
(23) 브루섹 카일라니(NVIDIA);
(24) 조지 코카이(George Kokai), 엔비디아;
(25) 키쇼르 쿠날(Kishor Kunal), 엔비디아;
(26) 샤오웨이 리, 엔비디아;
(27) 찰리 린드, 엔비디아;
(28) 하오 리우, 엔비디아;
(29) 스튜어트 오버만(NVIDIA);
(30) 수지트 오마르(NVIDIA);
(31) 스리다르 프래티(NVIDIA);
(23) 조나단 레이먼(NVIDIA);
(33) 암바르 사르카르(Ambar Sarkar), 엔비디아;
(34) 정장샤오(Zhengjiang Shao), 엔비디아;
(35) 한페이 선(Hanfei Sun), 엔비디아;
(36) Pratik P Suthar, NVIDIA;
(37) 바룬 테지(Varun Tej), 엔비디아;
(38) 워커 터너, 엔비디아;
(39) 카이제 쉬(Kaizhe Xu), 엔비디아;
(40) 하오싱 렌(Haoxing Ren), 엔비디아.
A. 영역 적응에 대한 고려사항
도메인 적응 ChipNeMo 모델은 해당 기초 모델에 비해 상당한 개선을 이루었지만 그림 8, 9 및 10에서 볼 수 있듯이 더 큰 LLaMA2 70B가 때때로 ChipNeMo와 유사한 정확도를 달성할 수 있다는 것도 관찰했습니다. 최근 연구에서는 이러한 강력한 모델을 활용하여 다음을 수행했습니다. 칩 설계 작업을 수행합니다.
그러나 더 작은 모델을 사용함으로써 얻을 수 있는 비용 효율성 이점을 고려하는 것이 중요합니다. Popeet al. 8B 모델의 추론 비용이 동일한 대기 시간 목표에 대해 62B 모델보다 8~12배 낮다는 것을 입증합니다[34]. 또한 모델 크기를 줄이면 모델이 단일 GPU나 노드에 적합할 수 있도록 함으로써 추론 속도가 크게 향상될 수 있습니다[35]. ChipNeMo 13B 모델은 LLaMA2 70B 모델과 달리 양자화 없이 단일 A100 GPU의 메모리 내에 로드될 수 있습니다. 이로 인해 일반적인 GPU 작동 시 추론 속도가 크게 향상되며, GPU가 언더클럭될 경우 추론 비용이 크게 절감됩니다.
따라서 프로덕션 환경에서 더 큰 범용 모델과 더 작은 특수 모델을 사용할지 결정할 때 다음 기준을 고려해야 합니다.
• 훈련 및 추론 절충: 더 작은 도메인 적응 모델은 더 큰 범용 모델의 정확도와 일치할 수 있습니다. 도메인 적응에는 추가 초기 비용이 발생하지만 더 작은 모델을 사용하면 운영 비용이 크게 절감됩니다.
• 사용 사례의 고유성: 그림 6, 9, 10에서 볼 수 있듯이 도메인 적응 모델은 독점 언어 또는 라이브러리로 코드를 작성하는 것과 같이 공개 도메인에서는 거의 존재하지 않는 작업에서 가장 큰 개선을 보여줍니다. 실제로, 우리의 데이터에 따르면 엄선된 컨텍스트가 제공되더라도 대규모 범용 모델은 그러한 시나리오에서 도메인 적응 모델의 정확도를 일치시키는 데 어려움을 겪습니다.
• 도메인 데이터의 가용성: 도메인 적응은 훈련 데이터의 양이 많을 때, 즉 수십억 개의 훈련 토큰이 있을 때 가장 잘 작동합니다. 이는 많은 양의 내부 문서와 코드가 축적된 대기업 및 프로젝트의 경우에 해당되는 경우가 많지만 소규모 기업이나 프로젝트의 경우 반드시 그런 것은 아닙니다.
• 최종 사용 사례 다양성: 특정 작업을 위해 범용 모델을 미세 조정하는 것이 가능하지만 도메인 적응 모델은 도메인의 다양한 작업 세트에 적합합니다. 이 작업에서는 ChipNeMo 모델에 대한 세 가지 사용 사례만 시연하지만 충분한 SFT 데이터가 있는 다른 사용 사례에 쉽게 재사용할 수 있습니다.
B. 성과 격차
ChipNeMo는 부록 E에 표시된 것처럼 선택한 응용 프로그램에서 인상적인 결과를 달성했지만 모든 응용 프로그램에 대한 평가 결과는 여전히 인간 전문가 성능과 상당한 격차를 보여줍니다. 우리는 이러한 성능 격차를 해소하기 위해 다음과 같은 접근 방식을 고려하고 있습니다.
1) 데이터 수집: 더 많은 내부 독점 데이터를 포함하도록 DAPT 데이터 세트를 확장할 수 있습니다. 또한 작업별 SFT가 평가 결과를 의미있게 향상한다는 증거가 있으므로 SFT에 대한 작업별 지침 세트를 더 많이 추가할 계획입니다.
2) 기본 모델: LLaMA2 70B와 같이 더 좋고 더 큰 기본 모델이 성능을 향상시킬 수 있을 것으로 기대합니다. 또한 코드 생성 작업을 위해 Code LLaMA [32]와 같은 코드별 기본 모델에 DAPT를 적용하는 방법을 탐색할 수도 있습니다.
3) 훈련: 우리는 또한 ChipNeMo 채팅 모델을 통해 인간 피드백(RLHF)[36]으로부터 강화 학습을 수행하여 이를 더욱 다양하게 만들 계획입니다. 우리는 범용 데이터 세트에 대해 훈련된 사전 훈련된 보상 모델을 활용할 계획입니다. 우리는 또한 버그 요약 애플리케이션과 같이 긴 컨텍스트가 필요한 문제를 극복하기 위해 긴 컨텍스트 교육[37]을 수행할 계획입니다. 일반적으로 더 긴 컨텍스트 지원은 코드 생성은 물론 채팅 지원을 위한 검색 기반 방법을 개선하는 데 도움이 됩니다.
4) 검색: 엔지니어링 보조 챗봇과 EDA 스크립트 생성 모두에 대해 더 나은 RAG 방법을 추가로 조사할 것입니다. 엔지니어링 보조 챗봇의 경우 다양한 응용 분야에 대해 다양한 데이터 저장소를 만들 수 있습니다. 또한 기업 검색 엔진을 RAG와 통합하여 다양한 문제에 대한 관련 컨텍스트를 찾을 수도 있습니다. 코드 생성을 위해 기존 코드 및 문서에서 자동으로 컨텍스트 검색을 조사할 수 있습니다.
C. 에이전트 기반 설계 방법론
이 작업에서 실험한 사용 사례는 LLM의 프롬프트 및 응답 기능을 직접적으로 적용한 것입니다. 에이전트는 LLM을 사용하여 수행할 일련의 작업을 선택하는 것을 의미합니다. 여기서 LLM은 외부 도구를 구동하는 추론 엔진 역할을 합니다. 칩 설계 프로세스에는 기존의 많은 EDA 도구와 방법론이 포함됩니다. 우리는 이러한 방법론 중 일부가 ChipNeMo 모델과 같은 도메인 적응 LLM으로 구동되는 에이전트에 의해 구동될 수 있다고 믿습니다. 향후 검증 및 최적화를 위한 에이전트 기반 설계 방법론을 연구할 계획입니다.
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.