LLM이 변화했고 업계 전반에 걸쳐 AI와 비즈니스의 판도를 계속해서 변화시킬 것이라는 사실은 더 이상 뉴스가 아닙니다. IBM의 연구에 따르면 CEO들은 생산성을 향상하고 경쟁 우위를 확보하기 위해 점점 더 생성적 AI를 수용하고 있는 것으로 나타났습니다. 전 세계 3,000명의 CEO를 대상으로 설문조사를 실시한 이 연구에서는 CEO의 75%가 가장 발전된 생성 AI를 갖춘 조직이 경쟁 우위를 가질 것이라고 믿고 있는 것으로 나타났습니다.
LLM을 사용하는 가장 좋은 방법과 구축 또는 미세 조정 여부에 대해 궁금하신 경우 LLM을 효과적이고 효율적으로 사용하기 위해 알아야 할 사항에 대한 이 가이드를 공유하고 싶습니다.
먼저 LLM이 어떻게 적용되고 어떤 산업에 가장 큰 영향을 미칠 수 있는지 살펴보고 LLM을 통해 무엇을 달성할 수 있는지 더 잘 이해할 수 있습니다. 그런 다음 LLM을 구축하거나 미세 조정하는 이유에 대해 이야기하겠습니다. 마지막으로 중요한 고려 사항, 전략, 모범 사례를 공유하여 결정한 후 팀이 더 명확한 전망을 가질 수 있도록 돕습니다.
이제 LLM이 산업과 비즈니스를 어떻게 변화시킬 것으로 예상되는지 자세히 살펴보겠습니다.
OpenAI, Open Research 및 University of Pennsylvania 연구원의 최근 연구 보고서 에 따르면 LLM은 일반적으로 여러 미국 시장에 영향을 미칠 수 있으며 정보 산업은 다음으로 인해 가장 큰 영향을 받을 가능성이 높습니다.
한편, McKinsey의 연구에서는 은행업을 LLM 덕분에 가장 큰 영향을 미칠 수 있는 산업 중 하나로 꼽았습니다. 사용 사례가 완전히 구현되면 이 기술이 연간 2,000억~3,400억 달러의 추가 가치를 제공할 것으로 예상합니다.
흥미롭게도 McKinsey의 동일한 연구에서는 기초 모델과 생성 AI 덕분에 의약품과 의료 제품이 향상될 수 있다고 주장합니다. 연구에 따르면 그 영향은 연간 600억 달러에서 1,100억 달러에 달할 수 있습니다. 특히 그들은 약물 발견의 잠재력을 보고 있습니다. 방법은 다음과 같습니다.
그러나 기초 모델과 LLM에 대한 과대광고가 마법 같은 해결책에 대한 아이디어를 불러일으킬 수 있지만 현실은 LLM이며 기초 모델은 완벽하지 않습니다. ChatGPT 또는 시장의 다른 LLM을 광범위하게 사용해 본 사람이라면 특히 도메인별 작업의 경우 즉시 LLM을 사용하는 것이 실패할 수 있다는 것을 알았습니다. LLM의 몇 가지 과제와 한계는 다음과 같습니다.
아마도 우리가 직면하는 가장 일반적인 문제는 환각일 것입니다. 환각은 LLM이 그럴듯해 보이는 잘못된 진술을 반환할 수 있는 현상입니다. 환각에는 내재적 환각과 외재적 환각의 두 가지 유형이 있습니다. 내적 환각은 모델이 사용자 입력에 어긋나는 결함 있는 논리를 사용할 때 발생하고, 외적 환각은 모델이 사용자 질문의 맥락을 오해할 때 발생합니다.
GPT와 같은 기초 모델은 작은 컨텍스트 창을 가지며 제한된 수의 문자만 입력으로 사용할 수 있으므로 특정 애플리케이션에는 적합하지 않을 수 있습니다. 인간과 마찬가지로 입력 길이가 길어질수록 모델이 이를 정확하게 처리하기가 어려워집니다.
치명적인 망각은 인공 신경망이 여러 작업을 순차적으로 학습할 때 발생하는 현상으로, 작업 A에 대한 네트워크의 중요한 가중치가 작업 B의 목표에 맞게 수정됩니다. 이로 인해 네트워크가 작업 A를 잊어버릴 수 있습니다. 이전에는 잘 수행할 수 있었지만.
레이블이 지정되지 않은 데이터에 대해 주로 교육을 받는 LLM은 교육 과정에 사용되는 데이터가 실제 데이터 분포를 정확하게 표현하지 않을 수 있기 때문에 편향되기 쉽습니다. 훈련에 사용된 편향된 데이터가 모델의 출력에 반영될 수 있기 때문입니다.
이러한 제한으로 인해 회사와 기업은 LLM과 협력하는 방법에 대해 전략적으로 생각하게 됩니다. 실제로 LLM은 회사의 업무 방식을 변화시켜 더 많은 가치를 제공할 수 있는 엄청난 잠재력을 가지고 있지만 이러한 과제는 반드시 해결되어야 합니다. 여기에서 기존 LLM을 구축하거나 미세 조정하는 문제가 발생할 수 있습니다.
처음부터 LLM을 구축하는 것이 언제 의미가 있습니까? 기존 일반 LLM이 제공할 수 없는 매우 독특한 사용 사례가 있거나 LLM이 회사의 핵심 제품 또는 주요 비즈니스 동인이 되는 경우 자신만의 LLM을 만드는 것이 가장 적합합니다. 또한 대량의 귀중한 독점 데이터에 액세스할 수 있는 경우 LLM을 구축하여 데이터 개인 정보 보호 및 보안을 유지하면서 이를 활용하는 것도 합리적입니다.
LLM을 미세 조정할 때 기존 오픈 소스 LLM을 사용하거나 상용 LLM의 API를 사용하는 두 가지 선택 사항이 있습니다. 팀의 기술 전문 지식이 부족한 경우 상용 LLM이 더 적합할 수 있지만 오픈 소스 모델은 더 많은 제어권을 제공합니다. 즉, LLM을 미세 조정하는 것과 관련된 위험이 있습니다. 잠재적인 편견, 독성 및 데이터 보안 노출을 주의 깊게 관찰해야 합니다. 또한 상용 API는 모델 및 교육 데이터의 사용자 정의 가능성과 제품 자체의 제어를 제한할 수 있습니다.
미세 조정을 하든 처음부터 LLM을 구축하기로 선택하든 상관없이 목표를 달성하려면 상당한 리소스를 기꺼이 할당해야 한다는 점을 알아두세요. LLM을 처음부터 구축하려면 시간과 재정을 투자하는 것 외에도 적절한 전문 지식을 찾는 것 외에도 막대한 계산 능력이 필요합니다.
예를 들어 약 1,750억 개의 매개변수를 갖춘 대규모 언어 모델인 OpenAI의 GPT-3 추정 비용은 460만 달러가 넘습니다 . OpenAI는 또한 285,000개 이상의 CPU 코어와 10,000개 이상의 GPU를 갖춘 Microsoft의 슈퍼컴퓨터 에도 투자했습니다. 500억 개의 매개변수를 갖춘 Bloomberg의 소형 BloombergGPT 모델을 구축하는 데 약 270만 달러가 소요될 것으로 추산됩니다. 이러한 추정에는 이러한 LLM을 구축하고 효과적인지 확인하는 데 필요한 모델 반복이 포함되지 않습니다.
대규모 LLM을 효과적으로 처리하려면 데이터를 적절하게 정리하고, 레이블을 지정하고, 정리하고, 효율적으로 저장해야 합니다. 특히 필요한 인프라, 도구, 데이터 엔지니어를 고려하면 데이터를 관리하고 처리하는 데 비용이 많이 들 수 있다는 점을 기억하세요.
물론 LLM을 미세 조정하는 것은 조직 자체를 구축하는 것보다 비용이 저렴하므로 더 실용적일 수 있습니다. LLM 미세 조정 비용은 모델 크기, 미세 조정에 사용되는 데이터 양, 사용되는 컴퓨팅 리소스 등 여러 요소에 따라 달라집니다.
LLM 미세 조정 비용은 사용된 특정 미세 조정 알고리즘에 의해 영향을 받을 수도 있으며 일부 알고리즘은 다른 알고리즘보다 계산 비용이 더 많이 듭니다. OpenAI의 미세 조정 모델 비용은 토큰 1,000개당 $0.0004 ~ $0.0300이며 훈련에 사용할 모델 유형에 따라 달라집니다. 그 이후에는 토큰 1,000개당 약 $0.0016~$0.1200의 추가 사용 비용이 발생합니다.
즉, 다양한 미세 조정 기술의 발전으로 인해 재정 및 계산 비용을 줄일 수 있게 되었습니다. 한 가지 예는 Hugging Face가 GPT-3를 미세 조정하기 위해 공정성 및 투명성 접근 방식과 함께 정책 평가를 사용하는 것 입니다. Hugging Face는 이 방법과 비트샌드바이트 라이브러리를 활용하여 사용 가능한 GPU 메모리보다 훨씬 더 큰 LLM을 미세 조정할 수 있음을 보여주었습니다. 이 기사에서는 몇 가지 방법을 더 논의하겠습니다.
LLM을 구축하고 미세 조정하려면 고급 기술 전문 지식이 필요하다는 것은 놀라운 일이 아닙니다. 수석 기계 학습 엔지니어는 LLM을 미세 조정하는 데 필요한 지식을 갖추고 있습니다. 그러나 처음부터 자신만의 LLM을 제대로 이끌고 구축하려면 진정으로 뛰어난 기계 학습 엔지니어로 구성된 팀이 필요합니다. OpenAI, Meta, Google AI와 같은 AI 회사의 선도적인 과학자, 연구자 및 설계자의 프로필을 살펴보고 조직의 자체 LLM을 구축하기 위해 팀에 필요한 엔지니어 유형에 대해 더 잘 알아보세요. 할퀴다. 또한 이러한 연구자들이 귀하의 산업 및 비즈니스에 대한 강력한 도메인 지식을 갖고 있는지 확인해야 합니다.
자신만의 LLM을 처음부터 구축하려면 많은 양의 데이터가 필요하다는 것은 잘 알려져 있습니다. 예를 들어 LLaMA는 4.6테라바이트에 달하는 1조 4천억 개의 토큰이 포함된 교육 데이터 세트를 사용했습니다. LLaMA의 더 작은 버전은 1조 개의 토큰으로 훈련되었습니다. GPT의 경우 1조 5천억 개의 토큰이 사용되었습니다.
LLM을 미세 조정하려면 방법과 리소스에 따라 더 적은 비용이 필요합니다. PaLM LLM에서 미세 조정된 Google의 Med-PaLM 2를 예로 들 수 있습니다. 논문 에 따르면 AI 팀은 지침 미세 조정을 사용했으며 대략 1,900만 ~ 3,900만 개의 토큰에 해당하는 193,000개의 예시가 필요했습니다. Med-PaLM 2는 Med-PaLM과 PaLM의 성능을 측정하기 위해 활용한 MedQA 데이터세트에서 86.5%의 점수를 획득해 전작 대비 새로운 최첨단 기술을 세웠다.
그러나 데이터 크기 이상으로 기업은 적절한 데이터 품질 조치를 취했는지 확인해야 합니다. "가비지 인, 쓰레기 아웃"은 엄청난 양의 교육 데이터를 사용하는 대규모 언어 모델에도 여전히 적용되기 때문입니다.
독점 데이터를 사용할 때 조직은 보다 효과적인 모델을 위해 품질과 윤리가 높은 표준을 유지하도록 보장하기 위해 다음 작업을 파악해야 합니다.
조직의 목표에 따라 LLM을 미세 조정하는 것만으로도 충분할 수 있습니다. 조직의 요구 사항에 맞게 LLM을 조정하고 성과를 향상시키는 다양한 방법이 있습니다. 그러나 최적의 접근 방식을 결정하려면 역방향 방법을 따르는 것이 좋습니다. 이 방법은 또한 LLM 미세 조정 비용을 줄이는 데 도움이 됩니다. 이러한 단계에서 "뒤로" 이동할수록 기술 비용이 더 많이 들 수 있기 때문입니다.
이것을 가장 간단한 방법으로 분해해 보겠습니다.
일반적으로 기초 모델 또는 LLM 교육은 기계 학습 엔지니어가 비지도 교육을 거친 다음 지도 교육을 통해 LLM을 미세 조정하고 마지막으로 필요한 결과를 얻기 위해 프롬프트 및 즉각적인 조정을 수행하는 것으로 시작됩니다. 물론 그 사이에는 여러 단계가 있지만 우리는 이 세 단계를 고수하겠습니다.
LLM을 미세 조정하기 위해 권장되는 경로는 뒤로 가는 것입니다. 여기서 먼저 프롬프트 엔지니어링 및 프롬프트 디버깅을 포함하는 프롬프트 조정을 시작합니다. 이렇게 하면 최소한의 리소스가 사용됩니다. 그러나 LLM이 정체되어 있거나 원하는 대로 수행되지 않는다고 가정해 보십시오. 이 경우 RLHF, 검색 증강 생성 또는 전이 학습과 같은 방법을 포함할 수 있는 감독/명령 미세 조정으로 이동합니다.
예를 들어, 우리는 200개의 레이블이 지정된 예제만 사용하여 전이 학습을 통해 특정 결함 감지 분류 사용 사례에서 DinoV2의 정확도를 83%에서 95%로 높였습니다 .
마지막으로, 모든 것이 실패할 경우 다음 단계는 비지도 방법을 사용하여 모델 사전 학습에 적합한 데이터 세트를 확보하는 것입니다.
동적 환경에 배포된 대부분의 모델과 마찬가지로 구축 여부에 관계없이 LLM은 최신 데이터로 효율성을 유지하기 위해 반복이 필요합니다. 반복은 새로운 데이터나 새로워진 목표에 맞게 모델을 다시 맞추는 것입니다. 기업은 구축/미세 조정, 테스트 및 프로덕션에 배포를 포함하여 일반적으로 반복적인 새로운 데이터 세트를 사용하여 모델을 정기적으로 반복하기 위한 강력한 프로세스를 만들어야 합니다.
OpenAI와 같이 성공적인 LLM을 구축한 회사는 GPT-3의 새로운 버전을 지속적으로 출시합니다. ChatGPT의 훈련 데이터 마감일은 2021년 9월이지만 OpenAI는 사용자 행동의 최신 데이터를 사용하여 모델의 예측 능력을 향상시키고 편견을 줄이며 피해를 줄입니다.
귀하의 비즈니스 목표는 LLM을 구축하거나 미세 조정하는 것이 합당한지 여부를 결정하는 중요한 요소이기도 합니다. LLM의 역량이 회사의 더 넓은 전략적 비전과 어떻게 연관되는지 생각해 보세요. 이렇게 하면 핵심 비즈니스 목표에 계속 집중하면서 이러한 강력한 도구의 잠재력을 최대한 활용할 수 있습니다. 이 기사의 상단에 언급된 업계에서 몇 가지 예가 인용되었지만 이제 LLM이 탁월한 업무 중 일부와 다양한 업계에 대한 전략적 의미에 대해 논의해 보겠습니다.
LLM을 구축하거나 미세 조정하는 경우 올바른 LLM을 선택하는 것이 첫 번째 단계인 경우가 많습니다. 예, LLM을 구축하는 경우에도 기존 모델의 아키텍처를 살펴보고 거기에서 시작하는 것이 일반적입니다. 무엇을 선택하든 팀은 최상의 출발점을 찾기 위해 여러 모델을 실험하고 평가해야 합니다.
LLM 평가에는 고유한 과제도 따릅니다. 결국 이는 여전히 진행 중인 연구 분야이므로 이러한 모델을 평가하는 엄격한 표준화나 체계화가 없습니다.
물론 HuggingFace와 같은 커뮤니티에서 설정한 순위표가 있는데, 이를 통해 모델이 얼마나 잘 수행될지에 대한 일반적인 아이디어를 얻을 수 있습니다. 그러나 리더보드에서 좋은 성과를 낼 수 있는 내용이 특정 사용 사례에 쉽게 적용되지 않을 수도 있습니다. LLM은 종종 벤치마크 데이터세트로 평가되지만 성능은 훨씬 더 다양하고 예측 불가능할 수 있는 실제 시나리오에서 수행되는 방식을 정확하게 반영하지 못할 수 있습니다.
대규모 언어 모델을 평가하는 방법에는 정량적 접근 방식과 정성적 접근 방식이라는 두 가지 접근 방식이 있습니다. 둘 다 경고가 있습니다.
정량적 평가에는 혼란, BLEU, 교차 엔트로피 손실 등과 같은 기계 학습 측정항목이 포함되는 경우가 많습니다. OpenAI 평가 라이브러리, EleutherAI의 lm-eval python 패키지, HELM(Holistic Evaluation of Language Models)과 같은 도구를 사용하면 사용자가 수많은 벤치마크를 정량적으로 모델화합니다.
정량적 평가는 간단하지만 이러한 측정항목은 사용자가 특정 작업에 적합한 모델을 선택하는 데 반드시 도움이 되는 것은 아닙니다. 사용자는 가장 높은 정확도로 다음 토큰을 예측할 수 있는 모델보다는 법률 문서 초안 작성이나 회사의 재무 보고서 분석과 같은 특정 작업에 탁월한 모델이 필요한 경우가 많습니다.
정성적 평가에는 일관성, 편견, 창의성 및 신뢰성과 같은 기준을 사용하여 특정 작업을 기반으로 LLM을 평가하는 것이 포함됩니다. 이 수동 평가는 인간 평가자의 속도와 가용성으로 인해 병목 현상이 발생할 수 있으므로 상대적으로 느립니다. 그러나 데이터 라벨링에 동일한 자동화 기술(능동 학습, 프로그래밍 방식 QA, 자동 QA 등)을 적용하면 프로세스를 최적화할 수 있습니다.
미세 조정하거나 기반으로 삼을 최고의 LLM을 찾으려면 회사의 특정 데이터 세트를 사용한 정량적 평가와 정성적 평가를 결합하는 것이 좋습니다.
기계 학습의 확장 법칙은 컴퓨팅 예산이 확대됨에 따라 데이터 세트 크기에 비해 모델 크기를 늘리는 데 중점을 두었습니다. 이는 데이터 양이 일정하게 유지되더라도 더 큰 모델이 더 많은 통찰력을 추출하고 더 나은 성능을 발휘할 수 있다는 가정하에 이루어졌습니다.
그러나 2022년에 DeepMind는 이 접근 방식에 도전하여 모델이 일반적으로 충분히 훈련되지 않았으므로 데이터 세트의 크기도 모델 크기와 함께 커져야 한다고 제안했습니다. DeepMind의 조사 결과에 따르면 모델 및 데이터 세트 크기는 컴퓨팅 성능이 10배 증가할 때마다 약 3배 증가해야 합니다. 이는 현재 모델이 최적의 데이터/계산 곡선 아래에 있다는 것을 의미하며, 단순히 모델을 더 크게 만드는 것은 그에 따른 데이터 증가 없이는 더 나은 결과를 얻을 수 없다는 것을 의미합니다.
이러한 새로운 확장법에서는 사용 가능한 정보를 기반으로 최대 고품질 데이터 세트 크기를 먼저 결정할 것을 권장합니다. 그런 다음 DeepMind의 데이터 최적 확장 법칙을 사용하여 사용 가능한 컴퓨팅을 기반으로 해당 데이터 세트에 대한 최적의 모델 크기를 선택할 수 있습니다. 모델을 임의로 크게 만드는 것이 아니라 데이터를 바탕으로 적절한 균형을 찾는 것이 중요합니다. 더욱이 대규모 데이터 세트에는 수집을 위한 전문 지식과 일반화를 개선하기 위한 다양성이 필요하므로 프로세스에 또 다른 복잡성이 추가됩니다.
미세 조정을 하든 LLM을 구축하든 관계없이 모델은 제공되는 데이터만큼만 우수합니다. 따라서 데이터는 대표성이 있어야 하며 광범위하게 전처리되어야 합니다. 데이터 소스의 다양성은 도메인별 LLM에도 유용합니다.
예를 들어 Google의 Med-PaLM 2에서는 모델을 적절하게 미세 조정하기 위해 여러 건강 및 의료 QA 데이터세트의 수백에서 수천 개의 예시가 필요했습니다. 그리고 BloombergGPT를 구축하기 위해 사용된 데이터 세트 혼합은 주제별 다양성을 위해 재무 데이터 51%와 일반 도메인 데이터 49%였습니다 . 두 경우 모두, 연구자들은 고품질의 관련 데이터가 효과적인 모델을 구축하는 데 사용되도록 광범위한 데이터 큐레이션을 수행했습니다.
LLM을 구축하거나 미세 조정하는 데 직접적인 경로는 없습니다. 대부분의 기계 학습이나 AI 노력과 마찬가지로 항상 소규모로 시작하는 것이 좋은 방법 입니다. 더 작은 데이터 세트에서 더 작은 모델로 시작하면 실험이 더 쉬워집니다. 너비, 깊이, 희소성 등과 같은 모델 아키텍처에 대한 점진적인 변경 사항을 반복하고 도입하면 팀이 해당 영향을 더 쉽게 평가할 수 있습니다. 기존의 기존 모델로 시작하여 필요에 맞게 조정하고 거기서부터 시작할 수 있습니다. 작은 모델이 제대로 작동하면 모델과 데이터세트 크기를 점차적으로 늘릴 수 있습니다.
대체가 필요한 경우를 대비하여 모델의 스냅샷을 백업으로 저장하는 것을 잊지 마세요. 구축을 하든 미세 조정을 하든 차질은 불가피하므로 문제를 예측하는 것이 중요합니다.
이는 불안정성을 완화하는 중요한 시간 절약 방법으로 이어집니다. 모델이 클수록 유지 관리가 더 어려워집니다. 과적합 및 과소적합 외에도 모델은 기울기 소멸 또는 폭발, 모드 붕괴, 손실 스파이크, 치명적인 망각, 하드웨어 제약과 같은 문제를 겪을 수 있습니다.
우리는 이미 새로운 유형의 작업을 도입한 후 모델이 이전 작업을 제대로 수행하지 못할 때 발생하는 치명적인 망각에 대해 논의했습니다. 기울기가 사라지거나 폭발하는 것은 심층 신경망을 훈련할 때 흔히 발생하는 문제입니다. 기울기가 너무 작거나 커지면 학습 과정이 느려지거나 불안정해집니다. 모드 붕괴는 생성 모델에서 발생하며 모델이 입력이 다름에도 불구하고 동일한 출력을 생성할 때 발생합니다. 손실 급증은 모델의 예측이 점점 더 좋지 않음을 나타냅니다. 마지막으로 LLM 작업은 하드웨어에 어려울 수 있으며 오류가 발생할 수 있습니다.
불안정성을 준비하거나 최소한 완화할 수 있는 방법에는 여러 가지가 있습니다. 이는 획기적인 것은 아니지만 다양한 딥 러닝 애플리케이션에서 볼 수 있는 표준 사례입니다.
배치 크기 — 일반적으로 GPU 메모리에 맞는 가장 큰 배치 크기를 사용하는 것이 좋습니다. 배치 크기가 클수록 계산 효율성, 메모리 활용도 및 잠재적으로 더 정확한 기울기 추정 측면에서 이점을 제공합니다. GPU의 병렬 처리 기능을 더 잘 활용하여 훈련 시간을 단축할 수 있습니다.
정규화 기술 사용 — 드롭아웃 및 가중치 감소와 같은 정규화 기술은 과적합 또는 모델 불안정성을 방지하는 데 도움이 됩니다.
배치 정규화 — 배치 정규화는 내부 공변량 이동을 줄이는 데 도움이 되므로 훈련 중에 더 빠르고 안정적인 수렴이 가능합니다. 또한 그래디언트가 네트워크를 통해 보다 원활하게 흐르도록 보장하여 그래디언트 소멸 문제를 완화하는 데 도움이 됩니다.
올바른 가중치 초기화 선택 — 가중치 초기화는 훈련 불안정성을 완화하고 효과적인 학습을 보장하는 데 중요한 역할을 합니다. 가중치 초기화에 대한 일반적인 접근 방식 중 하나는 작은 가우스 잡음을 사용하는 것입니다. 여기에는 평균이 0이고 표준 편차가 작은 가우스 분포에서 가중치를 무작위로 초기화하는 작업이 포함됩니다. 무작위 노이즈를 추가하면 가중치에 초기 다양성이 부여되어 모델이 훈련 중에 다양한 솔루션을 탐색할 수 있습니다.
데이터 확대 — 모델이 일반화하는 데 어려움을 겪고 과적합이 발생하기 쉬운 경우 데이터 확대는 훈련 데이터에 변형을 도입하고 모델의 견고성을 향상시켜 이를 완화하는 데 도움이 될 수 있습니다.
학습률 스케줄링 — 시간이 지남에 따라 학습률을 점차적으로 줄여 손실을 줄이고 모델 안정성을 최대한 유지합니다. 단계적 붕괴 또는 지수형 붕괴를 사용할 수 있습니다. 단계 붕괴는 일정한 간격으로 학습 속도를 한 요소씩 줄이는 반면, 지수 붕괴는 학습 속도를 기하급수적으로 감소시킵니다.
기업이 LLM의 영향력을 계속 인식함에 따라 기업이 이 귀중한 도구를 사용하는 가장 좋은 방법이 무엇인지 묻기 시작하는 것이 합리적입니다. 올바른 LLM을 선택하고 회사의 요구 사항에 맞게 미세 조정하는 것이 더 간단한 옵션일 수 있습니다. 그러나 모델을 효과적이고 가장 효율적인 방법으로 미세 조정하려면 여전히 다양한 고려 사항이 필요합니다.
첫째, 팀은 다양한 LLM을 올바르게 평가하여 최상의 출발점을 선택할 수 있어야 합니다. 모델을 실험하는 데 능숙해야 합니다. 효율성을 높이려면 LLM 구축 또는 미세 조정에 관한 전략을 수립할 때 고품질 데이터와 모범 사례를 염두에 두어야 합니다.
어느 쪽을 선택하든 이는 복잡하고 야심찬 프로젝트이지만 이미 살펴보았듯이 LLM은 가치를 창출할 수 있는 인상적인 잠재력을 가지고 있습니다.
[1] IBM, 생산성이 최우선 과제로 떠오르면서 생성 AI를 채택한 CEO(2023), IBM 뉴스룸
[3] McKinsey & Company, 생성 AI의 경제적 잠재력: 차세대 생산성 프론티어(2023), McKinsey Digital Insights
[4] C. Li, Demystifying GPT-3(2023), Lambda Labs 블로그
[5] J. Langston, Microsoft가 새로운 슈퍼컴퓨터 발표, 미래 AI 작업에 대한 비전 제시(2020), Microsoft 뉴스 소스 기능 혁신
[6] J. Sheikh, 금융의 ChatGPT가 여기에 있습니다: Bloomberg는 AI와 Fintech를 결합하고 있습니다(2023), Forbes.com
[7] E. d'Archimbaud, 특정 요구 사항에 맞게 기초 모델을 조정하는 3가지 방법(2023), Kili Technology.
[8] M. Heikkilä, OpenAI가 ChatGPT를 더 안전하고 덜 편향되게 만들기 위해 노력하는 방법(2023), MIT Technology Review.
[12] A. Pai, 처음부터 자신만의 대규모 언어 모델을 구축하기 위한 초보자 가이드(2023), Analytics Vidhya.