paint-brush
LLM 구축 또는 미세 조정에 대한 과제, 비용 및 고려 사항~에 의해@edouarddarchimbaud
11,366 판독값
11,366 판독값

LLM 구축 또는 미세 조정에 대한 과제, 비용 및 고려 사항

~에 의해 Edouard d'Archimbaud18m2023/09/01
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

회사를 위해 LLM을 구축하거나 세부 조정하는 과정은 복잡할 수 있습니다. 팀을 시작하려면 가이드가 필요합니다.

People Mentioned

Mention Thumbnail
featured image - LLM 구축 또는 미세 조정에 대한 과제, 비용 및 고려 사항
Edouard d'Archimbaud HackerNoon profile picture
0-item

LLM이 변화했고 업계 전반에 걸쳐 AI와 비즈니스의 판도를 계속해서 변화시킬 것이라는 사실은 더 이상 뉴스가 아닙니다. IBM의 연구에 따르면 CEO들은 생산성을 향상하고 경쟁 우위를 확보하기 위해 점점 더 생성적 AI를 수용하고 있는 것으로 나타났습니다. 전 세계 3,000명의 CEO를 대상으로 설문조사를 실시한 이 연구에서는 CEO의 75%가 가장 발전된 생성 AI를 갖춘 조직이 경쟁 우위를 가질 것이라고 믿고 있는 것으로 나타났습니다.


LLM을 사용하는 가장 좋은 방법과 구축 또는 미세 조정 여부에 대해 궁금하신 경우 LLM을 효과적이고 효율적으로 사용하기 위해 알아야 할 사항에 대한 이 가이드를 공유하고 싶습니다.


먼저 LLM이 어떻게 적용되고 어떤 산업에 가장 큰 영향을 미칠 수 있는지 살펴보고 LLM을 통해 무엇을 달성할 수 있는지 더 잘 이해할 수 있습니다. 그런 다음 LLM을 구축하거나 미세 조정하는 이유에 대해 이야기하겠습니다. 마지막으로 중요한 고려 사항, 전략, 모범 사례를 공유하여 결정한 후 팀이 더 명확한 전망을 가질 수 있도록 돕습니다.


이제 LLM이 산업과 비즈니스를 어떻게 변화시킬 것으로 예상되는지 자세히 살펴보겠습니다.

LLM이 산업을 어떻게 변화시키고 있습니까?

정보산업

OpenAI, Open Research 및 University of Pennsylvania 연구원의 최근 연구 보고서 에 따르면 LLM은 일반적으로 여러 미국 시장에 영향을 미칠 수 있으며 정보 산업은 다음으로 인해 가장 큰 영향을 받을 가능성이 높습니다.

  • 정보 산업은 글쓰기, 데이터 분석, 정보 검색 및 콘텐츠 생성과 같은 LLM의 핵심 기능에 크게 의존합니다. 이는 생성 AI 모델의 강점과 밀접하게 일치합니다.
  • 기사, 보고서 및 기타 콘텐츠 초안 작성과 같은 작업에서는 LLM이 자동으로 초안 및 수정본을 생성함으로써 생산성이 크게 향상될 수 있습니다.
  • 검색, 데이터 처리, 콘텐츠 태깅/메타데이터 생성, 고객 지원과 같은 기타 일상적인 정보 산업 작업도 LLM의 도움을 받을 수 있습니다.
  • 정보 기업은 특정 사용 사례에 매우 효과적이도록 LLM을 교육하고 미세 조정하는 데 사용할 수 있는 대량의 텍스트 데이터를 보유하고 있는 경우가 많습니다.
  • 이 산업에서는 작업의 물리적 특성이 낮기 때문에 소프트웨어를 통한 자동화가 매우 용이합니다.

은행 산업

한편, McKinsey의 연구에서는 은행업을 LLM 덕분에 가장 큰 영향을 미칠 수 있는 산업 중 하나로 꼽았습니다. 사용 사례가 완전히 구현되면 이 기술이 연간 2,000억~3,400억 달러의 추가 가치를 제공할 것으로 예상합니다.

  • LLM은 고객 문의에 대한 응답을 자동화하고 인적 서비스 문의량을 줄여 고객 서비스를 개선할 수 있습니다.
  • 또한 대량의 데이터를 분석하여 잠재적인 위험을 나타낼 수 있는 패턴과 추세를 식별함으로써 위험 평가를 지원할 수도 있습니다.
  • 또한 LLM은 규제 변경 사항을 추적하고 그에 따라 규정 준수 절차를 자동으로 업데이트함으로써 은행이 규제 요구 사항을 준수하도록 도울 수 있습니다.

제약 및 의료 제품 산업

흥미롭게도 McKinsey의 동일한 연구에서는 기초 모델과 생성 AI 덕분에 의약품과 의료 제품이 향상될 수 있다고 주장합니다. 연구에 따르면 그 영향은 연간 600억 달러에서 1,100억 달러에 달할 수 있습니다. 특히 그들은 약물 발견의 잠재력을 보고 있습니다. 방법은 다음과 같습니다.

  • 예비 약물 개발에서 기초 모델은 잠재적인 화학물질 선택을 자동화하여 세포 배양의 수동 검사를 대체합니다. 기초 모델은 유사한 실험 이미지를 정확하게 클러스터링하여 추가 분석을 위해 유망한 화학 물질을 선택하는 데 도움을 줍니다.
  • 적응증 발굴에서는 환자군의 임상 이력과 진료기록을 토대로 잠재적인 약물 적응증을 파악한다. 이러한 모델은 임상 사건을 정량화하고, 관계를 확립하고, 환자 코호트와 증거 기반 적응증 간의 유사성을 측정하는 데 도움이 됩니다. 그 결과, 정확한 환자군 매칭으로 임상시험 성공 확률이 더 높은 적응증 목록이 탄생했다.
  • 이 접근 방식을 사용하는 기업은 높은 시험 성공률을 보였으며 3상 시험으로의 진행 속도가 빨라졌습니다.

LLM의 과제와 한계

그러나 기초 모델과 LLM에 대한 과대광고가 마법 같은 해결책에 대한 아이디어를 불러일으킬 수 있지만 현실은 LLM이며 기초 모델은 완벽하지 않습니다. ChatGPT 또는 시장의 다른 LLM을 광범위하게 사용해 본 사람이라면 특히 도메인별 작업의 경우 즉시 LLM을 사용하는 것이 실패할 수 있다는 것을 알았습니다. LLM의 몇 가지 과제와 한계는 다음과 같습니다.

환각

아마도 우리가 직면하는 가장 일반적인 문제는 환각일 것입니다. 환각은 LLM이 그럴듯해 보이는 잘못된 진술을 반환할 수 있는 현상입니다. 환각에는 내재적 환각과 외재적 환각의 두 가지 유형이 있습니다. 내적 환각은 모델이 사용자 입력에 어긋나는 결함 있는 논리를 사용할 때 발생하고, 외적 환각은 모델이 사용자 질문의 맥락을 오해할 때 발생합니다.

메모리 제한

GPT와 같은 기초 모델은 작은 컨텍스트 창을 가지며 제한된 수의 문자만 입력으로 사용할 수 있으므로 특정 애플리케이션에는 적합하지 않을 수 있습니다. 인간과 마찬가지로 입력 길이가 길어질수록 모델이 이를 정확하게 처리하기가 어려워집니다.

치명적인 망각

치명적인 망각은 인공 신경망이 여러 작업을 순차적으로 학습할 때 발생하는 현상으로, 작업 A에 대한 네트워크의 중요한 가중치가 작업 B의 목표에 맞게 수정됩니다. 이로 인해 네트워크가 작업 A를 잊어버릴 수 있습니다. 이전에는 잘 수행할 수 있었지만.

데이터 품질 문제

레이블이 지정되지 않은 데이터에 대해 주로 교육을 받는 LLM은 교육 과정에 사용되는 데이터가 실제 데이터 분포를 정확하게 표현하지 않을 수 있기 때문에 편향되기 쉽습니다. 훈련에 사용된 편향된 데이터가 모델의 출력에 반영될 수 있기 때문입니다.

이러한 제한으로 인해 회사와 기업은 LLM과 협력하는 방법에 대해 전략적으로 생각하게 됩니다. 실제로 LLM은 회사의 업무 방식을 변화시켜 더 많은 가치를 제공할 수 있는 엄청난 잠재력을 가지고 있지만 이러한 과제는 반드시 해결되어야 합니다. 여기에서 기존 LLM을 구축하거나 미세 조정하는 문제가 발생할 수 있습니다.

언제 기존 LLM을 구축하거나 미세 조정해야 합니까?

처음부터 LLM(대형 언어 모델) 구축

처음부터 LLM을 구축하는 것이 언제 의미가 있습니까? 기존 일반 LLM이 제공할 수 없는 매우 독특한 사용 사례가 있거나 LLM이 회사의 핵심 제품 또는 주요 비즈니스 동인이 되는 경우 자신만의 LLM을 만드는 것이 가장 적합합니다. 또한 대량의 귀중한 독점 데이터에 액세스할 수 있는 경우 LLM을 구축하여 데이터 개인 정보 보호 및 보안을 유지하면서 이를 활용하는 것도 합리적입니다.

LLM 미세 조정

LLM을 미세 조정할 때 기존 오픈 소스 LLM을 사용하거나 상용 LLM의 API를 사용하는 두 가지 선택 사항이 있습니다. 팀의 기술 전문 지식이 부족한 경우 상용 LLM이 더 적합할 수 있지만 오픈 소스 모델은 더 많은 제어권을 제공합니다. 즉, LLM을 미세 조정하는 것과 관련된 위험이 있습니다. 잠재적인 편견, 독성 및 데이터 보안 노출을 주의 깊게 관찰해야 합니다. 또한 상용 API는 모델 및 교육 데이터의 사용자 정의 가능성과 제품 자체의 제어를 제한할 수 있습니다.

기존 LLM 구축 또는 미세 조정 시 주요 고려 사항

자원 할당

미세 조정을 하든 처음부터 LLM을 구축하기로 선택하든 상관없이 목표를 달성하려면 상당한 리소스를 기꺼이 할당해야 한다는 점을 알아두세요. LLM을 처음부터 구축하려면 시간과 재정을 투자하는 것 외에도 적절한 전문 지식을 찾는 것 외에도 막대한 계산 능력이 필요합니다.


예를 들어 약 1,750억 개의 매개변수를 갖춘 대규모 언어 모델인 OpenAI의 GPT-3 추정 비용은 460만 달러가 넘습니다 . OpenAI는 또한 285,000개 이상의 CPU 코어와 10,000개 이상의 GPU를 갖춘 Microsoft의 슈퍼컴퓨터 에도 투자했습니다. 500억 개의 매개변수를 갖춘 Bloomberg의 소형 BloombergGPT 모델을 구축하는 데 약 270만 달러가 소요될 것으로 추산됩니다. 이러한 추정에는 이러한 LLM을 구축하고 효과적인지 확인하는 데 필요한 모델 반복이 포함되지 않습니다.


대규모 LLM을 효과적으로 처리하려면 데이터를 적절하게 정리하고, 레이블을 지정하고, 정리하고, 효율적으로 저장해야 합니다. 특히 필요한 인프라, 도구, 데이터 엔지니어를 고려하면 데이터를 관리하고 처리하는 데 비용이 많이 들 수 있다는 점을 기억하세요.


물론 LLM을 미세 조정하는 것은 조직 자체를 구축하는 것보다 비용이 저렴하므로 더 실용적일 수 있습니다. LLM 미세 조정 비용은 모델 크기, 미세 조정에 사용되는 데이터 양, 사용되는 컴퓨팅 리소스 등 여러 요소에 따라 달라집니다.


LLM 미세 조정 비용은 사용된 특정 미세 조정 알고리즘에 의해 영향을 받을 수도 있으며 일부 알고리즘은 다른 알고리즘보다 계산 비용이 더 많이 듭니다. OpenAI의 미세 조정 모델 비용은 토큰 1,000개당 $0.0004 ~ $0.0300이며 훈련에 사용할 모델 유형에 따라 달라집니다. 그 이후에는 토큰 1,000개당 약 $0.0016~$0.1200의 추가 사용 비용이 발생합니다.


즉, 다양한 미세 조정 기술의 발전으로 인해 재정 및 계산 비용을 줄일 수 있게 되었습니다. 한 가지 예는 Hugging Face가 GPT-3를 미세 조정하기 위해 공정성 및 투명성 접근 방식과 함께 정책 평가를 사용하는 것 입니다. Hugging Face는 이 방법과 비트샌드바이트 라이브러리를 활용하여 사용 가능한 GPU 메모리보다 훨씬 더 큰 LLM을 미세 조정할 수 있음을 보여주었습니다. 이 기사에서는 몇 가지 방법을 더 논의하겠습니다.

기술적 전문성

LLM을 구축하고 미세 조정하려면 고급 기술 전문 지식이 필요하다는 것은 놀라운 일이 아닙니다. 수석 기계 학습 엔지니어는 LLM을 미세 조정하는 데 필요한 지식을 갖추고 있습니다. 그러나 처음부터 자신만의 LLM을 제대로 이끌고 구축하려면 진정으로 뛰어난 기계 학습 엔지니어로 구성된 팀이 필요합니다. OpenAI, Meta, Google AI와 같은 AI 회사의 선도적인 과학자, 연구자 및 설계자의 프로필을 살펴보고 조직의 자체 LLM을 구축하기 위해 팀에 필요한 엔지니어 유형에 대해 더 잘 알아보세요. 할퀴다. 또한 이러한 연구자들이 귀하의 산업 및 비즈니스에 대한 강력한 도메인 지식을 갖고 있는지 확인해야 합니다.

데이터 크기, 품질 및 윤리적 고려 사항

쓰레기 속의 쓰레기 배출


자신만의 LLM을 처음부터 구축하려면 많은 양의 데이터가 필요하다는 것은 잘 알려져 있습니다. 예를 들어 LLaMA는 4.6테라바이트에 달하는 1조 4천억 개의 토큰이 포함된 교육 데이터 세트를 사용했습니다. LLaMA의 더 작은 버전은 1조 개의 토큰으로 훈련되었습니다. GPT의 경우 1조 5천억 개의 토큰이 사용되었습니다.


LLM을 미세 조정하려면 방법과 리소스에 따라 더 적은 비용이 필요합니다. PaLM LLM에서 미세 조정된 Google의 Med-PaLM 2를 예로 들 수 있습니다. 논문 에 따르면 AI 팀은 지침 미세 조정을 사용했으며 대략 1,900만 ~ 3,900만 개의 토큰에 해당하는 193,000개의 예시가 필요했습니다. Med-PaLM 2는 Med-PaLM과 PaLM의 성능을 측정하기 위해 활용한 MedQA 데이터세트에서 86.5%의 점수를 획득해 전작 대비 새로운 최첨단 기술을 세웠다.


그러나 데이터 크기 이상으로 기업은 적절한 데이터 품질 조치를 취했는지 확인해야 합니다. "가비지 인, 쓰레기 아웃"은 엄청난 양의 교육 데이터를 사용하는 대규모 언어 모델에도 여전히 적용되기 때문입니다.


독점 데이터를 사용할 때 조직은 보다 효과적인 모델을 위해 품질과 윤리가 높은 표준을 유지하도록 보장하기 위해 다음 작업을 파악해야 합니다.


  1. 데이터 중복 제거 및 정리: 이 프로세스에는 데이터 세트의 중복 항목을 식별하고 제거하여 데이터가 정확하고 신뢰할 수 있는지 확인하는 작업이 포함됩니다. 또한 누락된 값이나 잘못된 형식과 같은 데이터의 오류, 불일치 및 부정확성을 수정하는 것도 포함됩니다. 이 단계는 모델 성능이 저하될 수 있는 부정확하거나 중복된 데이터에 대한 모델 교육을 방지하는 데 중요합니다.
  2. 데이터 조정: 조직은 모델 교육에 사용되는 데이터를 조정하는 프로세스를 확립해야 합니다. 여기에는 부적절하거나 유해한 콘텐츠를 필터링하기 위해 수동으로 데이터를 검토하거나, 자동화된 도구를 사용하거나, 이상적으로는 두 가지를 모두 사용하는 작업이 포함될 수 있습니다. 효과적인 데이터 조정은 모델이 그러한 콘텐츠 자체를 생성하는 방법을 학습하지 않도록 하는 데 도움이 됩니다.
  3. 데이터 개인정보 보호: 조직은 데이터가 개인 정보 보호 표준을 존중하고 GDPR 또는 CCPA와 같은 관련 규정을 준수하는지 확인해야 합니다. 여기에는 개인 데이터 익명화, 데이터 사용에 필요한 권한 획득, 안전한 데이터 저장 및 처리 관행 구현이 포함될 수 있습니다. 이는 윤리적인 이유뿐만 아니라 법적 문제를 피하기 위해서도 중요합니다.
  4. 데이터 편향: 모델 학습에 사용되는 데이터에는 종종 편향이 포함될 수 있으며, 이러한 편향은 모델이 학습하고 지속될 수 있습니다. 조직은 데이터에서 이러한 편견을 식별하고 완화하기 위한 프로세스를 구현해야 합니다. 여기에는 다양한 데이터 수집 전략, 편견 감사 도구, 데이터 편향성을 제거하는 접근 방식이 포함될 수 있습니다. 데이터 편향을 해결하는 것은 공정한 구축 모델에 필수적이며 다양한 인구 집단에 걸쳐 신뢰할 수 있는 결과를 생성합니다.

모델 성능

조직의 목표에 따라 LLM을 미세 조정하는 것만으로도 충분할 수 있습니다. 조직의 요구 사항에 맞게 LLM을 조정하고 성과를 향상시키는 다양한 방법이 있습니다. 그러나 최적의 접근 방식을 결정하려면 역방향 방법을 따르는 것이 좋습니다. 이 방법은 또한 LLM 미세 조정 비용을 줄이는 데 도움이 됩니다. 이러한 단계에서 "뒤로" 이동할수록 기술 비용이 더 많이 들 수 있기 때문입니다.


이것을 가장 간단한 방법으로 분해해 보겠습니다.


일반적으로 기초 모델 또는 LLM 교육은 기계 학습 엔지니어가 비지도 교육을 거친 다음 지도 교육을 통해 LLM을 미세 조정하고 마지막으로 필요한 결과를 얻기 위해 프롬프트 및 즉각적인 조정을 수행하는 것으로 시작됩니다. 물론 그 사이에는 여러 단계가 있지만 우리는 이 세 단계를 고수하겠습니다.

LLM 미세 조정


LLM을 미세 조정하기 위해 권장되는 경로는 뒤로 가는 것입니다. 여기서 먼저 프롬프트 엔지니어링 및 프롬프트 디버깅을 포함하는 프롬프트 조정을 시작합니다. 이렇게 하면 최소한의 리소스가 사용됩니다. 그러나 LLM이 정체되어 있거나 원하는 대로 수행되지 않는다고 가정해 보십시오. 이 경우 RLHF, 검색 증강 생성 또는 전이 학습과 같은 방법을 포함할 수 있는 감독/명령 미세 조정으로 이동합니다.


예를 들어, 우리는 200개의 레이블이 지정된 예제만 사용하여 전이 학습을 통해 특정 결함 감지 분류 사용 사례에서 DinoV2의 정확도를 83%에서 95%로 높였습니다 .


마지막으로, 모든 것이 실패할 경우 다음 단계는 비지도 방법을 사용하여 모델 사전 학습에 적합한 데이터 세트를 확보하는 것입니다.

유지 관리 및 업데이트

동적 환경에 배포된 대부분의 모델과 마찬가지로 구축 여부에 관계없이 LLM은 최신 데이터로 효율성을 유지하기 위해 반복이 필요합니다. 반복은 새로운 데이터나 새로워진 목표에 맞게 모델을 다시 맞추는 것입니다. 기업은 구축/미세 조정, 테스트 및 프로덕션에 배포를 포함하여 일반적으로 반복적인 새로운 데이터 세트를 사용하여 모델을 정기적으로 반복하기 위한 강력한 프로세스를 만들어야 합니다.


OpenAI와 같이 성공적인 LLM을 구축한 회사는 GPT-3의 새로운 버전을 지속적으로 출시합니다. ChatGPT의 훈련 데이터 마감일은 2021년 9월이지만 OpenAI는 사용자 행동의 최신 데이터를 사용하여 모델의 예측 능력을 향상시키고 편견을 줄이며 피해를 줄입니다.

사업 전략 정렬

귀하의 비즈니스 목표는 LLM을 구축하거나 미세 조정하는 것이 합당한지 여부를 결정하는 중요한 요소이기도 합니다. LLM의 역량이 회사의 더 넓은 전략적 비전과 어떻게 연관되는지 생각해 보세요. 이렇게 하면 핵심 비즈니스 목표에 계속 집중하면서 이러한 강력한 도구의 잠재력을 최대한 활용할 수 있습니다. 이 기사의 상단에 언급된 업계에서 몇 가지 예가 인용되었지만 이제 LLM이 탁월한 업무 중 일부와 다양한 업계에 대한 전략적 의미에 대해 논의해 보겠습니다.


  1. 요약: LLM은 긴 문서나 보고서에서 핵심 사항과 요약을 추출할 수 있습니다. 이는 대량의 텍스트 데이터를 처리하는 산업에서 엄청난 가치를 가질 수 있습니다. 예를 들어, 광범위한 보고서를 생성하고 분석하는 시장 조사 회사는 LLM을 사용하여 간결한 요약을 생성하여 보다 쉽게 통찰력을 추출하고 고객과 결과를 공유할 수 있습니다.
  2. 텍스트 완성: LLM은 주어진 프롬프트를 기반으로 텍스트를 예측하고 생성할 수 있으며, 이는 콘텐츠 작성을 지원하는 데 사용할 수 있습니다. 콘텐츠 제작이나 커뮤니케이션 서비스에 종사하는 산업에서는 이를 활용하여 생산성과 창의성을 높일 수 있습니다.
  3. 질문 및 답변(Q&A): LLM은 제공된 컨텍스트를 기반으로 쿼리에 답변할 수 있으므로 다양한 산업 분야의 고객 서비스에 유용합니다. 예를 들어, 은행은 LLM 기반 챗봇을 사용하여 24시간 내내 고객 문의를 처리하고 고객에게 빠르고 정확한 정보를 제공하며 고객 서비스 직원의 업무량을 줄일 수 있습니다.
  4. 챗봇: Q&A 외에도 LLM은 상황을 이해하고 여러 차례에 걸쳐 대화를 유지할 수 있는 대화형 대화형 챗봇을 강화할 수 있습니다. 이를 통해 소비자 상호 작용이 중요한 소매, 통신, 숙박업과 같은 산업에서 고객 경험을 향상할 수 있습니다.
  5. 번역: LLM은 또한 서로 다른 언어 간에 텍스트를 번역하여 잠재적으로 글로벌 비즈니스의 의사소통 장벽을 허물 수 있습니다. 이 기능은 관광, 국제 무역, 다양한 언어 지역에서 운영되는 글로벌 기술 기업과 같은 산업에 도움이 될 수 있습니다.

대규모 언어 모델 평가

LLM을 구축하거나 미세 조정하는 경우 올바른 LLM을 선택하는 것이 첫 번째 단계인 경우가 많습니다. 예, LLM을 구축하는 경우에도 기존 모델의 아키텍처를 살펴보고 거기에서 시작하는 것이 일반적입니다. 무엇을 선택하든 팀은 최상의 출발점을 찾기 위해 여러 모델을 실험하고 평가해야 합니다.


LLM 평가에는 고유한 과제도 따릅니다. 결국 이는 여전히 진행 중인 연구 분야이므로 이러한 모델을 평가하는 엄격한 표준화나 체계화가 없습니다.


물론 HuggingFace와 같은 커뮤니티에서 설정한 순위표가 있는데, 이를 통해 모델이 얼마나 잘 수행될지에 대한 일반적인 아이디어를 얻을 수 있습니다. 그러나 리더보드에서 좋은 성과를 낼 수 있는 내용이 특정 사용 사례에 쉽게 적용되지 않을 수도 있습니다. LLM은 종종 벤치마크 데이터세트로 평가되지만 성능은 훨씬 더 다양하고 예측 불가능할 수 있는 실제 시나리오에서 수행되는 방식을 정확하게 반영하지 못할 수 있습니다.


대규모 언어 모델을 평가하는 방법에는 정량적 접근 방식과 정성적 접근 방식이라는 두 가지 접근 방식이 있습니다. 둘 다 경고가 있습니다.

정량적 평가

정량적 평가에는 혼란, BLEU, 교차 엔트로피 손실 등과 같은 기계 학습 측정항목이 포함되는 경우가 많습니다. OpenAI 평가 라이브러리, EleutherAI의 lm-eval python 패키지, HELM(Holistic Evaluation of Language Models)과 같은 도구를 사용하면 사용자가 수많은 벤치마크를 정량적으로 모델화합니다.


정량적 평가는 간단하지만 이러한 측정항목은 사용자가 특정 작업에 적합한 모델을 선택하는 데 반드시 도움이 되는 것은 아닙니다. 사용자는 가장 높은 정확도로 다음 토큰을 예측할 수 있는 모델보다는 법률 문서 초안 작성이나 회사의 재무 보고서 분석과 같은 특정 작업에 탁월한 모델이 필요한 경우가 많습니다.

정성적 평가

정성적 평가에는 일관성, 편견, 창의성 및 신뢰성과 같은 기준을 사용하여 특정 작업을 기반으로 LLM을 평가하는 것이 포함됩니다. 이 수동 평가는 인간 평가자의 속도와 가용성으로 인해 병목 현상이 발생할 수 있으므로 상대적으로 느립니다. 그러나 데이터 라벨링에 동일한 자동화 기술(능동 학습, 프로그래밍 방식 QA, 자동 QA 등)을 적용하면 프로세스를 최적화할 수 있습니다.


미세 조정하거나 기반으로 삼을 최고의 LLM을 찾으려면 회사의 특정 데이터 세트를 사용한 정량적 평가와 정성적 평가를 결합하는 것이 좋습니다.

모범 사례

확장 법칙 이해

기계 학습의 확장 법칙은 컴퓨팅 예산이 확대됨에 따라 데이터 세트 크기에 비해 모델 크기를 늘리는 데 중점을 두었습니다. 이는 데이터 양이 일정하게 유지되더라도 더 큰 모델이 더 많은 통찰력을 추출하고 더 나은 성능을 발휘할 수 있다는 가정하에 이루어졌습니다.


그러나 2022년에 DeepMind는 이 접근 방식에 도전하여 모델이 일반적으로 충분히 훈련되지 않았으므로 데이터 세트의 크기도 모델 크기와 함께 커져야 한다고 제안했습니다. DeepMind의 조사 결과에 따르면 모델 및 데이터 세트 크기는 컴퓨팅 성능이 10배 증가할 때마다 약 3배 증가해야 합니다. 이는 현재 모델이 최적의 데이터/계산 곡선 아래에 있다는 것을 의미하며, 단순히 모델을 더 크게 만드는 것은 그에 따른 데이터 증가 없이는 더 나은 결과를 얻을 수 없다는 것을 의미합니다.


이러한 새로운 확장법에서는 사용 가능한 정보를 기반으로 최대 고품질 데이터 세트 크기를 먼저 결정할 것을 권장합니다. 그런 다음 DeepMind의 데이터 최적 확장 법칙을 사용하여 사용 가능한 컴퓨팅을 기반으로 해당 데이터 세트에 대한 최적의 모델 크기를 선택할 수 있습니다. 모델을 임의로 크게 만드는 것이 아니라 데이터를 바탕으로 적절한 균형을 찾는 것이 중요합니다. 더욱이 대규모 데이터 세트에는 수집을 위한 전문 지식과 일반화를 개선하기 위한 다양성이 필요하므로 프로세스에 또 다른 복잡성이 추가됩니다.

데이터 품질

데이터 품질에 영향을 미치는 요소


미세 조정을 하든 LLM을 구축하든 관계없이 모델은 제공되는 데이터만큼만 우수합니다. 따라서 데이터는 대표성이 있어야 하며 광범위하게 전처리되어야 합니다. 데이터 소스의 다양성은 도메인별 LLM에도 유용합니다.


예를 들어 Google의 Med-PaLM 2에서는 모델을 적절하게 미세 조정하기 위해 여러 건강 및 의료 QA 데이터세트의 수백에서 수천 개의 예시가 필요했습니다. 그리고 BloombergGPT를 구축하기 위해 사용된 데이터 세트 혼합은 주제별 다양성을 위해 재무 데이터 51%와 일반 도메인 데이터 49%였습니다 . 두 경우 모두, 연구자들은 고품질의 관련 데이터가 효과적인 모델을 구축하는 데 사용되도록 광범위한 데이터 큐레이션을 수행했습니다.

점진적인 단계의 사전 학습 및 실험

LLM을 구축하거나 미세 조정하는 데 직접적인 경로는 없습니다. 대부분의 기계 학습이나 AI 노력과 마찬가지로 항상 소규모로 시작하는 것이 좋은 방법 입니다. 더 작은 데이터 세트에서 더 작은 모델로 시작하면 실험이 더 쉬워집니다. 너비, 깊이, 희소성 등과 같은 모델 아키텍처에 대한 점진적인 변경 사항을 반복하고 도입하면 팀이 해당 영향을 더 쉽게 평가할 수 있습니다. 기존의 기존 모델로 시작하여 필요에 맞게 조정하고 거기서부터 시작할 수 있습니다. 작은 모델이 제대로 작동하면 모델과 데이터세트 크기를 점차적으로 늘릴 수 있습니다.


대체가 필요한 경우를 대비하여 모델의 스냅샷을 백업으로 저장하는 것을 잊지 마세요. 구축을 하든 미세 조정을 하든 차질은 불가피하므로 문제를 예측하는 것이 중요합니다.

불안정성 완화

이는 불안정성을 완화하는 중요한 시간 절약 방법으로 이어집니다. 모델이 클수록 유지 관리가 더 어려워집니다. 과적합 및 과소적합 외에도 모델은 기울기 소멸 또는 폭발, 모드 붕괴, 손실 스파이크, 치명적인 망각, 하드웨어 제약과 같은 문제를 겪을 수 있습니다.


우리는 이미 새로운 유형의 작업을 도입한 후 모델이 이전 작업을 제대로 수행하지 못할 때 발생하는 치명적인 망각에 대해 논의했습니다. 기울기가 사라지거나 폭발하는 것은 심층 신경망을 훈련할 때 흔히 발생하는 문제입니다. 기울기가 너무 작거나 커지면 학습 과정이 느려지거나 불안정해집니다. 모드 붕괴는 생성 모델에서 발생하며 모델이 입력이 다름에도 불구하고 동일한 출력을 생성할 때 발생합니다. 손실 급증은 모델의 예측이 점점 더 좋지 않음을 나타냅니다. 마지막으로 LLM 작업은 하드웨어에 어려울 수 있으며 오류가 발생할 수 있습니다.


불안정성을 준비하거나 최소한 완화할 수 있는 방법에는 여러 가지가 있습니다. 이는 획기적인 것은 아니지만 다양한 딥 러닝 애플리케이션에서 볼 수 있는 표준 사례입니다.


배치 크기 — 일반적으로 GPU 메모리에 맞는 가장 큰 배치 크기를 사용하는 것이 좋습니다. 배치 크기가 클수록 계산 효율성, 메모리 활용도 및 잠재적으로 더 정확한 기울기 추정 측면에서 이점을 제공합니다. GPU의 병렬 처리 기능을 더 잘 활용하여 훈련 시간을 단축할 수 있습니다.


정규화 기술 사용 — 드롭아웃 및 가중치 감소와 같은 정규화 기술은 과적합 또는 모델 불안정성을 방지하는 데 도움이 됩니다.


배치 정규화 — 배치 정규화는 내부 공변량 이동을 줄이는 데 도움이 되므로 훈련 중에 더 빠르고 안정적인 수렴이 가능합니다. 또한 그래디언트가 네트워크를 통해 보다 원활하게 흐르도록 보장하여 그래디언트 소멸 문제를 완화하는 데 도움이 됩니다.


올바른 가중치 초기화 선택 — 가중치 초기화는 훈련 불안정성을 완화하고 효과적인 학습을 보장하는 데 중요한 역할을 합니다. 가중치 초기화에 대한 일반적인 접근 방식 중 하나는 작은 가우스 잡음을 사용하는 것입니다. 여기에는 평균이 0이고 표준 편차가 작은 가우스 분포에서 가중치를 무작위로 초기화하는 작업이 포함됩니다. 무작위 노이즈를 추가하면 가중치에 초기 다양성이 부여되어 모델이 훈련 중에 다양한 솔루션을 탐색할 수 있습니다.


데이터 확대 — 모델이 일반화하는 데 어려움을 겪고 과적합이 발생하기 쉬운 경우 데이터 확대는 훈련 데이터에 변형을 도입하고 모델의 견고성을 향상시켜 이를 완화하는 데 도움이 될 수 있습니다.


학습률 스케줄링 — 시간이 지남에 따라 학습률을 점차적으로 줄여 손실을 줄이고 모델 안정성을 최대한 유지합니다. 단계적 붕괴 또는 지수형 붕괴를 사용할 수 있습니다. 단계 붕괴는 일정한 간격으로 학습 속도를 한 요소씩 줄이는 반면, 지수 붕괴는 학습 속도를 기하급수적으로 감소시킵니다.

결론

기업이 LLM의 영향력을 계속 인식함에 따라 기업이 이 귀중한 도구를 사용하는 가장 좋은 방법이 무엇인지 묻기 시작하는 것이 합리적입니다. 올바른 LLM을 선택하고 회사의 요구 사항에 맞게 미세 조정하는 것이 더 간단한 옵션일 수 있습니다. 그러나 모델을 효과적이고 가장 효율적인 방법으로 미세 조정하려면 여전히 다양한 고려 사항이 필요합니다.


첫째, 팀은 다양한 LLM을 올바르게 평가하여 최상의 출발점을 선택할 수 있어야 합니다. 모델을 실험하는 데 능숙해야 합니다. 효율성을 높이려면 LLM 구축 또는 미세 조정에 관한 전략을 수립할 때 고품질 데이터와 모범 사례를 염두에 두어야 합니다.


어느 쪽을 선택하든 이는 복잡하고 야심찬 프로젝트이지만 이미 살펴보았듯이 LLM은 가치를 창출할 수 있는 인상적인 잠재력을 가지고 있습니다.

참고자료:

[1] IBM, 생산성이 최우선 과제로 떠오르면서 생성 AI를 채택한 CEO(2023), IBM 뉴스룸

[2] T. Eloundou, S. Manning, P. Mishkin, D. Rock, GPT는 GPT입니다: 대규모 언어 모델의 노동 시장 영향 잠재력에 대한 초기 검토(2023), arXiv:2303.10130v4 [econ.GN]

[3] McKinsey & Company, 생성 AI의 경제적 잠재력: 차세대 생산성 프론티어(2023), McKinsey Digital Insights

[4] C. Li, Demystifying GPT-3(2023), Lambda Labs 블로그

[5] J. Langston, Microsoft가 새로운 슈퍼컴퓨터 발표, 미래 AI 작업에 대한 비전 제시(2020), Microsoft 뉴스 소스 기능 혁신

[6] J. Sheikh, 금융의 ChatGPT가 여기에 있습니다: Bloomberg는 AI와 Fintech를 결합하고 있습니다(2023), Forbes.com

[7] E. d'Archimbaud, 특정 요구 사항에 맞게 기초 모델을 조정하는 3가지 방법(2023), Kili Technology.

[8] M. Heikkilä, OpenAI가 ChatGPT를 더 안전하고 덜 편향되게 만들기 위해 노력하는 방법(2023), MIT Technology Review.

[9] K. Singhal, T. Tu, J. Gottweis, R. Sayres, E. Wulczyn, L. Hou, K. Clark, S. Pfohl, H. Cole-Lewis, D. Neal, M. Schaekermann, A Wang, M. Amin, S. Lachgar, P. Mansfield, S. Prakash, B. Green, E. Dominowska, B. Aguera y Arcas, N. Tomasev, Y. Liu, R. Wong, C. Semturs, S Sara Mahdavi, J. Barral, D. Webster, GS Corrado, Y. Matias, S. Aziziy, A. Karthikesalingamy 및 V. Natarajany, 대규모 언어 모델을 사용한 전문가 수준 의료 질문 응답을 향하여(2023), arXiv:2305.09617 v1 [cs.CL] 2023년 5월 16일.

[10] S. Wu, O. Irsoy, S. Lu, V. Dabravolski, M. Dredze, S. Gehrmann, P. Kambadur, D. Rosenberg, G. Mann, BloombergGPT: 금융을 위한 대규모 언어 모델(2023) , arXiv:2303.17564v2 [cs.LG]

[11] J. Hoffmann, S. Borgeaud, A. Mensch, E. Buchatskaya, T. Cai, E. Rutherford, D. de Las Casas, LA Hendricks, J. Welbl, A. Clark, T. Hennigan, E. Noland, K. Millican, G. van den Driessche, B. Damoc, A. Guy, S. Osindero, K. Simonyan, E. Elsen, JW Rae, O. Vinyals, L. Sifre, 컴퓨팅 최적의 대형 언어 모델 훈련 (2023), arXiv:2203.15556v1 [cs.CL]

[12] A. Pai, 처음부터 자신만의 대규모 언어 모델을 구축하기 위한 초보자 가이드(2023), Analytics Vidhya.

[13] 가중치 및 편향, LLM을 처음부터 훈련하는 방법(2023), 가중치 및 편향 백서.