paint-brush
AI 100일, 11일차: Gen AI 애플리케이션의 미세 조정 마법사 되기~에 의해@sindamnataraj
888 판독값
888 판독값

AI 100일, 11일차: Gen AI 애플리케이션의 미세 조정 마법사 되기

~에 의해 Nataraj4m2024/02/26
Read on Terminal Reader

너무 오래; 읽다

미세 조정을 통해 ChatGPT 또는 LLama가 응답을 제공하는 데 의존하는 기본 모델의 한계를 극복할 수 있습니다. 기본 모델을 미세 조정하는 방법은 다음과 같습니다!
featured image - AI 100일, 11일차: Gen AI 애플리케이션의 미세 조정 마법사 되기
Nataraj HackerNoon profile picture

안녕 모두들! 저는 Nataraj입니다 . 여러분과 마찬가지로 저도 최근 인공 지능의 발전에 매료되었습니다. 일어나는 모든 발전을 따라잡아야 한다는 것을 깨닫고 개인적인 학습 여정을 시작하기로 결정하여 100일의 AI가 탄생했습니다! 이 시리즈를 통해 저는 LLM에 대해 배우고 블로그 게시물을 통해 아이디어, 실험, 의견, 동향 및 학습 내용을 공유할 것입니다. HackerNoon( 여기) 또는 내 개인 웹사이트 (여기) 에서 여정을 따라가실 수 있습니다. 오늘 기사에서는 GPT-4의 도움으로 시맨틱 커널을 구축해 보겠습니다.


생성 AI 또는 LLM 분야를 팔로우하고 있다면 이미 Finetuning에 대해 들어보셨을 것입니다. 이 게시물에서는 미세 조정이 무엇인지, 그리고 Gen AI 애플리케이션 개발에서 미세 조정의 역할이 무엇인지 이해해 보겠습니다.

미세 조정이란 무엇입니까?

미세 조정은 특수한 사용 사례에 맞게 작동하도록 범용 기본 모델을 수정하는 프로세스입니다. 예를 들어 Open AI의 gpt-3 모델을 사용합니다. Gpt-3은 채팅 봇이라는 목적으로 미세 조정된 기본 모델로, 현재 사람들이 chat-gpt 애플리케이션이라고 부르는 결과를 낳았습니다. 또 다른 예는 GitHub 부조종사를 만들기 위해 수행된 코더의 부조종사가 되도록 GPT-4 모델을 수정하는 것입니다.

기본 모델을 미세 조정해야 하는 이유는 무엇입니까?

미세 조정을 통해 기본 모델의 한계를 극복할 수 있습니다. Open AI의 gpt-3 또는 Meta의 Llama와 같은 기본 모델은 일반적으로 전체 인터넷 데이터에 대해 훈련됩니다. 그러나 조직 내부의 데이터에 대한 컨텍스트는 없습니다. 그리고 프롬프트를 통해 조직 또는 독점 사용 사례와 관련된 모든 데이터를 제공하는 것은 불가능합니다. 미세 조정을 통해 신속한 엔지니어링이 허용하는 것보다 훨씬 더 많은 데이터를 적용할 수 있습니다. 또한 미세 조정을 통해 모델은 일관된 출력을 생성하고, 환각을 줄이고, 특정 사용 사례에 맞게 모델을 맞춤 설정할 수 있습니다.

미세 조정은 신속한 엔지니어링과 어떻게 다릅니까?

우리는 이전 게시물 에서 프롬프트 엔지니어링이 얼마나 강력한지 살펴보았습니다. 그렇다면 미세 조정은 어떻게 다릅니까? 미세 조정은 엔터프라이즈 애플리케이션 사용 사례에 적합한 반면 프롬프트 엔지니어링은 일반 사용 사례에 사용되며 데이터가 필요하지 않습니다. RAG를 기법으로 추가 데이터와 함께 사용할 수 있으나 기업용 유스케이스에 존재하는 대용량 데이터에는 사용할 수 없다. 미세 조정은 무제한 데이터를 허용하고 모델이 새로운 정보를 학습하도록 하며 RAG와 함께 사용할 수도 있습니다.

미세 조정과 신속한 엔지니어링

미세 조정된 응답과 미세 조정되지 않은 응답 비교

미세 조정된 모델과 미세 조정되지 않은 모델 간의 차이를 더 잘 직관할 수 있는 예를 들어 보겠습니다. 차이점을 보여주기 위해 미세 조정된 Llama 모델과 미세 조정되지 않은 Llama 모델을 모두 호출하기 위해 Lamini 의 라이브러리를 사용하고 있습니다. 이를 위해서는 Lamini의 API 키가 필요합니다. Lamini는 오픈 소스 LLM과 상호 작용할 수 있는 간단하고 쉬운 방법을 제공합니다. 더 자세히 알고 싶다면 여기에서 확인해 보세요.

Lamini 미세 조정된 응답과 미세 조정되지 않은 응답

이 예에서 나는 두 모델 모두에게 "죽음에 대해 어떻게 생각하시나요?"라는 동일한 질문을 했습니다. 답변은 다음과 같습니다.

미세 조정되지 않은 라마 모델의 응답:

미세 조정되지 않은 라마 모델의 응답

미세 조정된 Llama 모델의 응답:

미세 조정된 라마 모델의 응답


첫 번째 응답은 단지 한 줄의 반복인 반면 두 번째 응답은 훨씬 더 일관된 응답임을 알 수 있습니다. 여기서 무슨 일이 일어나고 있는지 이야기하기 전에 모델에게 "당신의 이름은 무엇입니까?"라고 묻는 또 다른 예를 들어 보겠습니다. 내가 얻은 것은 다음과 같습니다.

미세 조정되지 않은 라마 모델의 응답:

미세 조정되지 않은 라마 모델의 응답

미세 조정된 Llama 모델의 응답:

미세 조정된 라마 모델의 응답


미세 조정되지 않은 모델 응답에서는 모델이 한 가지 작업만 수행하기 때문에 응답이 이상합니다. 입력 텍스트를 기반으로 다음 가능한 텍스트를 예측하려고 시도하지만 질문을 제기했다는 사실도 인식하지 못합니다. 인터넷 데이터에 대해 훈련된 기반 모델은 텍스트 예측 기계이며 차선책 텍스트를 예측하려고 시도합니다. 미세 조정을 통해 모델은 추가 데이터를 제공하여 응답을 기반으로 훈련되고 질문에 답하기 위한 채팅 봇 역할을 하는 새로운 동작을 학습합니다. 또한 Open AI의 gpt-3 또는 gpt-4와 같은 대부분의 폐쇄형 모델은 어떤 데이터를 학습했는지 정확히 알 수 없습니다. 그러나 모델을 훈련하는 데 사용할 수 있는 멋진 공개 데이터 세트가 있습니다. 이에 대해서는 나중에 자세히 설명하겠습니다.


이것이 AI 100일의 11일차입니다.


나는 대형 기술 분야에서 일어나는 모든 일 뒤에 숨어 있는 2차 통찰력에 대해 이야기하는 Above Average라는 뉴스레터를 작성합니다. 기술 분야에 종사하고 평범해지고 싶지 않다면 구독하세요 .


AI 100일에 대한 최신 업데이트를 보려면 Twitter , LinkedIn 또는 HackerNoon 에서 저를 팔로우하세요. 기술 분야에 종사하는 분이라면 여기에서 제 기술 전문가 커뮤니티에 가입하는 데 관심이 있으실 것입니다.