paint-brush
2023년 LLM 현황: 최신 발전 사항에 대한 간략한 요약by@vndee
611
611

2023년 LLM 현황: 최신 발전 사항에 대한 간략한 요약

Duy Huynh8m2024/01/26
Read on Terminal Reader

2023년은 대규모 언어 모델(LLM) 분야에서 상당한 성장과 혁신이 이루어진 해였습니다.
featured image - 2023년 LLM 현황: 최신 발전 사항에 대한 간략한 요약
Duy Huynh HackerNoon profile picture
0-item

자, ChatGPT가 출시된 지 1년이 넘었습니다. 이 전환점 이전에 연구 커뮤니티와 업계 리더들은 이미 일련의 안정적인 확산 결과 및 응용 프로그램을 통해 생성 AI, 특히 컴퓨터 비전 영역에서 적극적으로 작업하고 있었습니다. 간략하게 정리하자면, 2022년은 안정적인 확산의 해, 2023년은 LLM(Large Language Models)의 해라고 할 수 있습니다.


라마 갱단이 마을에 왔습니다 - 이미지 제공: DALL-E 3.


2023년 초에는 ChatGPT가 광범위한 채택과 혁신을 주도하면서 LLM이 우세해졌습니다. 올해에는 LLM이 다양한 분야에 널리 보급되어 이론적 연구와 실제 산업 응용 사이의 격차를 효과적으로 메웠습니다. 2023년 LLM 환경을 형성한 주요 이정표와 추세를 살펴보고 이것이 기술과의 상호 작용에 어떻게 혁명을 일으켰는지에 대한 통찰력을 얻으십시오.

오픈소스 LLM의 해

2023년은 오픈소스 대형 언어 모델(LLM)에 있어 놀라운 해였습니다. 가장 중요한 릴리스는 Meta의 LLaMa 시리즈로, 이후 빈번한 릴리스의 선례를 세웠으며, 매달, 매주, 때로는 매일 새로운 모델이 등장했습니다. Meta, EleutherAI, mosaicML, TIIUAE 및 StabilityAI와 같은 주요 플레이어는 AI 커뮤니티 내의 다양한 요구 사항을 충족하기 위해 공개 데이터 세트에서 훈련된 다양한 모델을 도입했습니다. 이러한 모델의 대부분은 디코더 전용 Transformer였으며 ChatGPT가 확립한 추세를 이어갔습니다. 올해 출시된 가장 주목할만한 모델은 다음과 같습니다.

  • 메타별 LLaMa: LLaMa 계열은 다양한 크기의 모델을 특징으로 하며, 가장 큰 모델은 1조 4천억 개의 토큰으로 훈련된 650억 개의 매개변수를 자랑합니다. 특히, 작은 모델, 특히 1조 개의 토큰으로 훈련된 130억 개의 매개변수를 가진 모델은 더 많은 데이터에 대해 연장된 훈련 기간을 활용하여 일부 벤치마크에서 더 큰 모델을 능가하는 뛰어난 성능을 보여주었습니다. 13B LLaMa 모델은 대부분의 벤치마크에서 GPT-3를 능가했으며, 가장 큰 모델은 출시와 동시에 새로운 최첨단 성능 벤치마크를 설정했습니다.

  • Eleuther AI의 Pythia: Pythia는 공개적으로 접근 가능하고 투명하게 훈련된 LLM에 대한 통제된 과학 연구를 용이하게 하도록 설계된 부분적으로 훈련된 154개의 체크포인트가 있는 16개 모델 제품군으로 구성됩니다. 이 시리즈는 LLM 교육을 위한 자세한 논문과 포괄적인 코드베이스를 제공하여 연구자에게 큰 도움이 됩니다.

  • 모자이크ML의 MPT 그리고 TIIUAE의 Falcon 시리즈: 둘 다 1T에서 1.5T 토큰까지 다양한 데이터 소스에 대해 교육을 받았으며 7B 및 30B 매개변수를 사용하여 버전을 생성했습니다. 특히, 올해 말 TIIUAE는 현재까지 가장 큰 오픈 소스 모델인 180B 모델을 출시했습니다.

  • 미스트랄 , 그리고 범고래 : 이 모델은 2023년의 또 다른 추세를 강조합니다. 제한된 하드웨어 및 예산 제약에 적합한 더 작고 효율적인 모델을 훈련하는 데 중점을 두고 AI 모델 개발의 접근성과 실용성을 향한 중요한 변화를 의미합니다.


Llama 2는 공개적으로 사용 가능한 온라인 데이터를 사용하여 사전 훈련되었습니다. 그런 다음 감독된 미세 조정을 통해 Llama Chat의 초기 버전이 생성됩니다. 다음으로 Llama Chat은 거부 샘플링 및 PPO(근위 정책 최적화)가 포함된 RLHF(인간 피드백의 강화 학습)를 사용하여 반복적으로 개선됩니다. - Llama 2: 오픈 소스, 연구 및 상업적 용도로 무료

작고 효율적인 모델

2023년에도 우리는 작고 효율적인 모델들이 많이 출시되는 것을 목격했습니다. 이러한 추세의 주된 이유는 대부분의 연구 그룹에서 대규모 모델을 훈련하는 데 드는 비용이 엄청나게 높기 때문입니다. 또한 대형 모델은 값비싼 교육 및 배포 비용과 상당한 메모리 및 컴퓨팅 성능 요구 사항으로 인해 많은 실제 응용 프로그램에 적합하지 않은 경우가 많습니다. 따라서 작고 효율적인 모델이 올해의 주요 트렌드 중 하나로 등장했습니다. 앞서 언급했듯이 Mistral과 Orca 시리즈는 이러한 추세의 핵심 플레이어였습니다. Mistral은 대부분의 벤치마크에서 대형 모델보다 성능이 뛰어난 7B 모델로 커뮤니티를 놀라게 했습니다. 반면 Phi 시리즈는 매개변수가 1.3B~2.7B에 불과하여 훨씬 작지만 인상적인 성능을 제공합니다.

LLaMA 시리즈에 비해 Mistral-7b 성능 - https://mistral.ai/news/announce-mistral-7b/


또 다른 혁신적인 접근 방식은 오르카 2: 소규모 언어 모델 가르치기 추론 방법 , 이는 GPT-4와 같은 더 큰 모델의 지식을 더 작은 모델로 추출하는 것을 포함합니다. 더 큰 모델의 출력을 복제하기 위해 주로 모방 학습에 의존했던 이전 연구와 달리 Orca 2는 "더 작은" LLM, 특히 7B 및 13B 매개변수가 있는 LLM에 단계별 분석 및 리콜과 같은 다양한 추론 방법을 갖추는 것을 목표로 합니다. -그런 다음 기술을 생성합니다. 이러한 접근 방식을 통해 이러한 모델은 각 작업에 가장 적합한 방법을 식별하고 적용할 수 있으므로 Orca 2는 비슷한 크기의 모델보다 훨씬 뛰어난 성능을 발휘할 수 있으며 심지어 5~10배 더 큰 모델과도 경쟁할 수 있습니다.

언어 이해, 상식 추론, 다단계를 다루는 다양한 벤치마크(제로샷 설정)에서 Orca 2(7B 및 13B)와 LLaMA-2-Chat(13B 및 70B) 및 WizardLM(13B 및 70B)을 비교한 결과 추론, 수학 문제 해결 등 - Orca 2: 소규모 언어 모델 가르치기 추론 방법


작고 효율적인 모델의 성공은 주로 데이터 품질과 빠른 주의 요령에 달려 있습니다. Mistral은 훈련 데이터의 구체적인 내용을 공개하지 않았지만, 다양한 연구와 모델을 통해 효과적인 모델을 훈련하려면 데이터 품질이 중요하다는 사실이 밝혀졌습니다. 올해 가장 주목할만한 결과 중 하나는 LIMA: "정렬에는 적은 것이 더 좋습니다" 이는 인간이 생성한 1,000개의 훈련 예제로만 구성된 고품질 데이터 세트를 미세 조정에 사용하여 50,000개의 ChatGPT 생성 응답에 대해 미세 조정된 동일한 모델보다 뛰어난 성능을 발휘할 수 있음을 보여주었습니다.

낮은 순위 적응 조정

알았어, 얘기 좀 하자 로라 는 작년에 도입된 Parameter-Efficient Fine-tuning 방법 중 가장 빛나는 별로 빛났습니다. LoRA(Low-Rank Adaptation)는 LLM을 효율적으로 미세 조정하기 위한 게임 체인저로 등장했습니다. 사전 학습된 모델에 낮은 순위 행렬 근사치를 도입함으로써 LoRA는 매개변수 효율적인 미세 조정을 허용하여 계산 부하 및 저장 요구 사항을 크게 줄입니다. 이 접근 방식은 리소스를 절약할 뿐만 아니라 기본 모델의 핵심 기능을 손상시키지 않고 다양한 애플리케이션에 대한 사용자 정의를 가능하게 합니다.


LoRA와 일반 미세 조정의 차이점 - LoRA(Low-Rank Adaptation)를 사용한 LLM 미세 조정을 위한 실용 팁


LoRA는 기본적으로 사전 훈련된 모델 가중치를 동결하고 훈련 가능한 레이어( 순위 분해 행렬 )를 주입합니다. 이러한 행렬은 작지만 모델 동작에 필요한 적응을 근사화할 수 있으므로 원래 모델 지식의 무결성을 유지하면서 효율적인 미세 조정이 가능합니다. LoRA의 가장 자주 사용되는 변형 중 하나는 다음과 같습니다. QLoRA(양자화된 낮은 순위 적응) . 낮은 순위 행렬을 양자화하여 바닐라 LoRA의 메모리 효율적인 버전입니다. 이 접근 방식을 사용하면 메모리 공간을 늘리지 않고 계산 집약도를 낮추지 않고도 미세 조정 프로세스에서 낮은 순위 행렬을 사용할 수 있습니다.


QLORA는 변환기 모델을 4비트 정밀도로 양자화하고 페이징 최적화 프로그램을 사용하여 메모리 급증을 처리함으로써 LoRA보다 개선되었습니다. - 논문 이미지: QLoRA(Quantized Low-Rank Adaption)

전문가의 혼합

그만큼 전문가 혼합(MoE) 접근 방식은 작년 LLM 아키텍처의 중요한 도약을 나타냅니다. MoE는 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 나누어 단순화하는 오랜 역사의 기계 학습 패러다임입니다. 각 하위 문제는 전문 하위 모델 또는 "전문가"가 해결합니다. 이는 각 구성원이 특정 영역에서 탁월한 능력을 발휘하는 전문가 팀을 구성하는 것과 유사합니다. MoE 모델에서 각 전문가는 데이터 또는 작업의 특정 하위 집합에 집중합니다. 특정 입력에 사용할 전문가에 대한 결정은 트래픽 디렉터 역할을 하는 "게이팅 메커니즘"에 의해 이루어지며 작업을 가장 적합한 전문가에게 라우팅합니다. 이 방법을 사용하면 MoE 모델이 광범위한 작업을 효율적이고 정확하게 처리할 수 있습니다. MoE는 다양한 모델의 장점을 결합하여 통일된 단일 모델로는 처리하기 어려울 수 있는 복잡한 작업에 대한 성능을 향상시키기 때문에 특히 유용합니다. 이는 전문가 팀을 보유하여 필요한 전문 지식을 갖춘 사람이 문제의 모든 측면을 관리하여 보다 세련되고 효과적인 솔루션을 제공하는 것과 비슷합니다.

엄청나게 큰 신경망: 희소하게 문이 지정된 전문가 혼합 계층, 2017년 논문의 MoE 계층.


작년에 출시된 가장 주목할만한 MoE 모델 중 하나는 믹스트랄-8x-7B 는 MoE 접근 방식을 사용하여 각각 7B 매개변수를 갖는 8개의 소형 모델을 결합하여 인상적인 성능을 달성했습니다. GPT-4가 각각 2,200억 개의 매개변수를 가진 8개의 전문가 모델로 구성된 MoE 모델일 수도 있다는 소문도 있습니다.

Mixtral-8x-7b 성능 - Mixtral-8x-7B

언어에서 일반 기초 모델까지

LLM은 일반 기초 모델로 발전하여 언어 처리 이상의 기능을 확장하고 있습니다. 이러한 전환은 텍스트뿐만 아니라 코드, 시각적 콘텐츠, 오디오 등을 이해하고 생성할 수 있는 모델로의 전환을 의미합니다. 작년에 우리는 다음과 같은 모델이 출시되는 것을 보았습니다. LLaVA 시각적 콘텐츠를 이해하는 데 인상적인 기능을 제공하는 비전용 GPT-4. 이는 일반 기초 모델 분야에서 유망한 연구를 촉발시켰습니다. 가까운 미래에는 일반 기초 모델이 주변 세계를 보고 듣고 이해할 수 있게 되어 인간과 보다 자연스럽고 직관적인 상호 작용이 가능해질 것입니다.


LLaVA 프로젝트의 예입니다.

도구를 갖춘 에이전트

다양한 도구 및 플랫폼과 LLM의 통합으로 일상적인 사용에서 AI에 대한 접근성이 높아지고 실용적이게 되었습니다. 이러한 도구를 갖춘 에이전트는 코딩 지원부터 창의적인 글쓰기에 이르기까지 특정 작업에 맞게 맞춤화되어 AI가 많은 전문 워크플로우에서 없어서는 안될 부분이 되었습니다. 이러한 발전은 LLM의 추론실행 능력 덕분에 가능했습니다. 이러한 유형의 기능을 종종 함수 호출이라고 합니다. 반응하다 뼈대. 이 기능을 활성화하기 위한 함수 호출을 포함하는 데이터 세트에 대해 훈련된 모델도 많이 있습니다. 이 기능을 통해 개발자는 광범위하고 간단한 작업과 워크플로를 자동화할 수 있는 LLM 에이전트를 만들 수 있습니다.


ReAct 방법과 다른 프롬프트 기술 비교 - ReAct: Synergizing Reasoning and Acting in Language Models

OpenAI는 여전히 업계 환경을 지배하고 있습니다.

OpenAI는 연구 및 응용 측면에서 선두를 유지하면서 계속해서 업계 환경을 지배하고 있습니다. GPT-4와 새로운 GPT 매장 ChatGPT의 기능은 업계 표준으로 남아 있으며 현재로서는 경쟁자가 없는 독보적이고 독특한 고품질 생성 AI 애플리케이션을 제공합니다. OpenAI는 또한 첫 번째 조직을 구성하여 사용자 커뮤니티에 대한 상당한 지원을 보여주었습니다. OpenAI 개발자의 날 Anthropic은 가장 유망한 경쟁업체 중 하나로 부상하고 있습니다. 비록 주력 LLM이지만, 클로드 , 아직 널리 사용 가능하지 않습니다. 또 다른 기술 대기업인 Google이 출시되었습니다. 쌍둥이 자리 보고서에 따르면 작년에는 OpenAI의 GPT 시리즈에 비해 상당히 인상적이었습니다. 그러나 아직까지는 커뮤니티 내에서 충분한 관심을 얻지 못했습니다. 우리는 그들이 Gemini의 가장 큰 버전을 출시할 계획인 2024년에 무슨 일이 일어나는지 지켜볼 것입니다.


OpenAI 개발자의 날 - https://www.youtube.com/watch?v=U9mJuUkhUzk

결론

2023년은 LLM(대형 언어 모델) 분야에서 상당한 성장과 혁신이 이루어진 해였습니다. 오픈 소스 모델을 통한 AI의 민주화부터 보다 효율적이고 전문화된 시스템의 개발에 이르기까지 이러한 발전은 기술적 업적일 뿐만 아니라 AI를 다양한 영역에서 보다 쉽게 접근하고 적용할 수 있게 만드는 단계입니다. 앞으로도 이러한 기술이 산업을 변화시키고 인간의 능력을 향상시킬 수 있는 잠재력은 계속해서 흥미로운 전망이 될 것입니다. 2024년에는 Meta가 LLaMA-3 훈련 계획을 발표하고 이를 오픈 소스화할 계획을 세우는 등 훨씬 더 놀라운 이정표를 기대합니다. 업계에서도 구글 같은 거대 기업이나 앤트로픽 같은 스타트업이 오픈AI를 능가할 수 있을지 주목된다.


더 많은 기사를 보려면 내 개인 블로그를 방문하고 구독하세요.