2,701 판독값

AGI 청사진? UCLA 연구원 오픈 소스 SPIN - 자체 개선 언어 모델

~에 의해 Muratcan Koylan5m2024/02/12

너무 오래; 읽다

UCLA 연구원들은 인간과 같은 텍스트 생성을 통해 AI에 혁명을 일으키는 자가 학습 언어 모델인 SPIN을 소개합니다. SPIN의 오픈 소스 릴리스는 기능에 대한 전례 없는 액세스를 제공하여 자연어 처리의 발전과 진정으로 인간과 유사한 의사소통이 가능한 AI 모델 개발의 길을 열었습니다.

featured image - AGI 청사진? UCLA 연구원 오픈 소스 SPIN - 자체 개선 언어 모델

AI 지진에 대비하세요! UCLA 연구원 팀( @zxche n, @Yihe__Deng , @HuizhuoY , @Kaixuan_Ji_19, @QuanquanGu )은 AGI에 대한 몇 가지 주요 핵심을 삭제했습니다. 인간처럼 들리는 AI에 대한 코드일 뿐만 아니라 모든 것을 오픈 소스로 공개했습니다.

이제 사람이 주석을 추가한 수많은 새로운 데이터를 제공할 필요 없이 더 나은 LLM을 개발할 수 있습니다.

먼저 여기서 게임 체인저인 자가 학습 언어 모델에 초점을 맞춰 보겠습니다.

이 방법을 사용하면 언어 모델이 스스로 학습하여 외부에서 선별된 엄청난 양의 새로운 데이터 없이도 점점 더 좋아질 수 있습니다.

SPIN 소개: 자가 재생 미세 조정을 통해 약한 언어 모델을 강력한 언어 모델로 변환

저는 완전한 심층 분석 모드로 들어갔습니다. 그들의 논문(" Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models ")을 읽고 Google Gemini Ultra 및 GPT-4를 사용하여 HackerNews , X 및 Reddit 과 같은 포럼에서 통찰력을 샅샅이 조사했습니다. Turbo – 그리고 SPIN의 핵심 개념은 기술을 사랑하는 나의 은유적 양말을 깨뜨렸습니다.

'대화 파트너' 트릭

기본 기술(대화 예절)을 숙지한 언어 모델로 시작한다고 상상해 보세요. SPIN을 사용하면 모델은 내부 '대화'를 생성하여 이미 알고 있는 데이터 세트를 구축합니다.

즉각적인 지식 확장!

두 번째 단계는 새로운 모델을 출시하고 하나의 작업을 제공하는 것입니다. 즉, 기계가 생성한 채팅 과 진정한 인간 커뮤니케이션의 차이점을 찾아내는 것입니다. 이로 인해 원래 모델이 게임을 강화하고 감지를 피하기 위해 모든 반응에서 점점 더 인간과 유사 해졌습니다.

여기서 흥미로운 일이 발생합니다. 그들은 zephyr-7b-sft-full (이미 UltraChat corpus 로 미세 조정됨)로 시작했습니다. SPIN은 이 기본 모델을 통해 반복적인 훈련 시스템을 구현하여 외부에서 생성된 수많은 새로운 데이터에 의존하지 않고 기하급수적으로 개선했습니다.

SPIN 대 기존 AI 교육(DPO): 새로운 챔피언?

우리는 일반적으로 기계 학습, 특히 이러한 거대한 언어 모델의 경우 신중하게 선별되고 레이블이 지정된 데이터가 많이 필요하다고 생각합니다. DPO(직접 선호 최적화) 방법에는 인간이 훈련을 위해 AI 반응을 서로 공들여 평가하는 방법이 포함됩니다. 이는 노동 집약적일 뿐만 아니라 데이터 세트가 증가함에 따라 비용도 증가합니다.

DTO(직접 선호 최적화)는 선호 데이터 세트를 사용하여 모델을 미세 조정하는 훈련 방법으로, 종종 모델 생성 응답 중 어느 것이 선호되는지 결정하는 인간의 판단이 포함됩니다. 이 방법을 사용하려면 이러한 기본 설정에 따라 각 부분에 레이블이 지정된 새 데이터를 수집해야 하며 이는 리소스 집약적일 수 있습니다.

이와 대조적으로 SPIN은 반복적인 셀프 플레이를 활용하여 새로운 데이터의 필요성을 크게 줄입니다.

첫 번째 반복에서 SPIN의 성능은 이미 대부분의 경우 DPO의 성능을 초과하여 기존 데이터를 활용하여 모델 성능을 향상시키는 효율성과 효과를 강조합니다.

SPIN은 보다 광범위한 데이터세트에서 훈련된 모델과 동등한 성능을 달성함으로써 그 강점을 보여줍니다. 반복 훈련 프로세스는 여러 반복에 걸쳐 모델의 성능을 체계적으로 향상시켜 특히 TruthfulQA 및 GSM8k와 같은 까다로운 벤치마크에서 상당한 개선을 보여줍니다 .

따라서 SPIN은 사람이 주석을 추가한 데이터 없이 셀프 플레이를 통해 생성된 합성 데이터 세트를 효율적으로 활용함으로써 DPO를 포함한 기존 교육 방법보다 성능이 뛰어납니다.

SPIN의 강점과 비용은 무엇입니까?

SPIN은 자기 플레이 다이내믹으로 커브볼을 던집니다.

매 라운드마다 새로운 기술을 가르치는 언어 복싱 링에서 자체적으로 스파링하는 언어 모델과 같다고 생각하십시오.

SPIN의 데이터 효율성은 사람이 주석을 추가한 새로운 데이터 세트의 필요성을 우회합니다.

그러나 더 중요한 것은 개선 루프를 가속화하여 모델이 인간과 유사한 텍스트를 생성하는 데 점점 더 능숙해진다는 것입니다 .

SPIN은 더 큰 외부 데이터세트에서 훈련된 모델과 일치하는 것처럼 보일 뿐만 아니라, SPIN의 반복 능력은 본질적으로 자체 출력을 연구하므로 일관된 이득을 의미합니다.

정말 놀랍지 않나요?

좋아, 방 안의 코끼리에 대해 이야기해보자 – COST

Nous Research 공동 창립자 @Teknium1 의 주장은 일리가 있습니다. 이 거대하고 오래된 언어 모델은 무료로 더 똑똑해지지 않습니다. SPIN을 사용한 반복적인 재훈련에는 매번 SFT(Supervised Fine-Tuning)라는 값비싼 프로세스가 필요합니다.

하지만 그는 "그럴 가치가 있다고 생각한다!"고도 언급합니다. 또한 더 빠른 진화와 사람이 주석을 추가한 데이터에 대한 의존도 감소로 인한 장기적인 이점이 초기 투자보다 더 큽니다. 정말 흥미로운 질문이네요!

팔! 이제는 오픈 소스 AI 시대입니다

바로 어제 UCLA 컴퓨터 과학 부교수이자 ByteDance AI 연구 책임자인 Quanquan Gu는 이제 누구나 SPIN 모델과 데이터 세트를 사용할 수 있다고 발표했습니다. 이는 단지 코드와 데이터 세트를 의미하는 것이 아니라 AI 여정을 시작하기 위한 사전 훈련된 모델을 의미합니다.

SPIN은 인간의 사고 과정을 반영합니다.

인간처럼 느껴지는 텍스트를 생성함으로써 SPIN은 미래의 AI가 할 수 있는 추론의 기본 요소를 암시합니다. 일부 LLM 출력이 로봇처럼 느껴지는지 아시나요? 음, SPIN은 다릅니다. 실제로 인간이 생각하는 방식을 반영합니다. 글을 쓰는 방식이 너무 자연스러워서 미래의 AI가 어떻게 스스로 추론할 수 있는지 엿볼 수 있는 것 같습니다.

이것은 단지 챗봇의 소리를 더 좋게 만드는 것이 아닙니다.

그것은 우리처럼 작동하는 일종의 디지털 사고를 창조하는 것입니다. 그런 종류의 AI는 훨씬 더 유연하고 실제적인 이해가 가능합니다.

SPIN은 언어 모델을 보다 자연스럽게 들리도록 하는 데 있어서 큰 도약이지만, 그것이 의미하는 바를 흥분하고 과대평가하기 쉽습니다 .

그것이 생성하는 텍스트는 인상적이지만(데이터베이스를 살펴볼 수 있음) AI에는 아직 진정한 독립적 추론 능력이 없다는 점을 기억하는 것이 중요합니다.

SPIN은 진정한 AGI 는 아니지만 인간과 같은 글쓰기를 모방하는 방식은 AI가 미래에 언어를 처리하고 사용할 수 있는 방법에 있어 인상적인 발전을 보여줍니다.

그럼에도 불구하고 이는 미래에 AI와 언어가 어떻게 발전할 수 있을지에 대한 놀라운 가능성을 시사합니다(우리가 하키 스틱의 시작 단계에 있다는 것을 기억한다면 미래는 오늘로부터 멀지 않습니다...)

파급 효과는 엄청날 것이며 액세스 패스는 다음과 같습니다.

코드: GitHub 에서 사용 가능: https://github.com/ulaml/SPIN
데이터: Hugging Face 에 호스팅된 이 데이터 세트는 SPIN 방법론을 적용하려는 사람들이 쉽게 액세스할 수 있습니다: https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a…
모델: SPIN 강화 언어 모델 실험을 위한 사전 훈련된 모델도 제공됩니다: https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40…
프로젝트 페이지: 포괄적인 통찰력과 추가 정보를 얻으려면 프로젝트 페이지가 귀중한 리소스입니다: https://uclaml.github.io/SPIN/

요약하자면, 반복적이고 자기 개선적인 방법론은 진정으로 인간과 유사한 의사소통에 참여할 수 있는 LLM을 만드는 데 있어 중요한 발전입니다.