DPO(Direct Preference Optimization)는 단순성과 구현 용이성으로 인해 널리 사용되는 새로운 미세 조정 기술입니다. LLM(대형 언어 모델) 미세 조정을 위한 에 대한 직접적인 대안으로 등장하여 안정성, 성능 및 계산 경량 특성으로 인한 인간 선호도에 맞춰 샘플링이 필요하지 않습니다. 미세 조정 중 LM. DPO는 기존 방법과 같거나 그보다 더 나은 성능 수준을 달성할 수 있습니다. 인간 피드백(RLHF)의 강화 학습 RLHF를 활용하는 기존 방법과 달리 DPO는 언어 정렬 프로세스를 기본 설정 데이터 세트 {(x,yw,yl)}를 사용하여 직접 최적화할 수 있는 간단한 손실 함수로 재구성합니다. • x는 프롬프트입니다. • yw가 선호되는 방법입니다. • yl은 거부된 메서드입니다. 최적화 프로세스 중에 언어 모델에서 응답을 샘플링해야 하는 RLHF와 달리 DPO에서는 최적화되는 LM에서 응답을 샘플링할 필요가 없습니다. DPO는 어떻게 작동하나요? DPO의 업무 프로세스는 두 단계로 나눌 수 있습니다. 이 단계에서는 관련 데이터를 기준으로 모델을 미세 조정합니다. SFT(Supervised Fine-tuning): 모델은 SFT 예제와 동일한 분포에서 이상적으로 가져온 선호도 데이터에 대해 미세 조정됩니다. 선호도 학습: 정책 최적화를 위해 보상 모델을 먼저 훈련시키는 RLHF와 달리 DPO는 보상 모델을 훈련하는 중간 단계 없이 최적화 과정에 선호도 정보를 직접 추가합니다. DPO는 LLM을 보상 모델로 사용하고 이진 교차 엔트로피 목표를 사용하여 정책을 최적화하고 인간 선호도 데이터를 활용하여 선호되는 응답과 그렇지 않은 응답을 식별합니다. 정책은 성능을 높이기 위해 선호하는 응답을 기반으로 조정됩니다. 감독된 미세 조정 우리는 LLM용 Generative AI 애플리케이션을 개발하여 특정 사용 사례에 다용도로 적응할 수 있도록 지원합니다. 여기에는 학습하고 적응할 수 있도록 모델에 데이터나 예제를 제공하는 것이 포함되므로 당사는 설계, 테스트, 배포 및 프롬프트 전달을 위한 신속한 엔지니어링 솔루션을 제공합니다. 코기토. SFT(감독 미세 조정)에서 . 특히 선호도 학습과 함께 감독된 미세 조정은 인간이 정의한 기준과 일치하도록 모델의 출력을 형성하거나 조정하여 특정 요구 사항에 밀접하게 부합하도록 보장하는 데 사용됩니다. LLM은 특정 입력과 원하는 출력 간의 명확한 매핑을 제공하는 레이블이 지정된 데이터 세트에 대해 교육됩니다 NLP의 선호 데이터 선호도 데이터는 특정 프롬프트와 관련하여 신중하게 선택된 옵션 또는 대안 세트를 나타냅니다. 주석자는 특정 지침에 따라 이러한 옵션을 평가합니다. 전체 프로세스는 인간의 선호도에 따라 이러한 옵션을 가장 선호하는 것부터 가장 선호하지 않는 것까지 순위를 매기는 것을 목표로 합니다. 그런 다음 순위는 인간의 기대에 맞춰 출력을 생성하기 위해 모델을 미세 조정하는 데 사용됩니다. 선호도 데이터를 생성하는 방법 프롬프트 선택 프롬프트는 선호도 데이터의 초석입니다. 프롬프트를 선택하는 방법에는 여러 가지가 있습니다. 일부는 사전 정의된 세트를 선택하고, 다른 일부는 템플릿을 사용하여 프롬프트를 동적으로 생성하거나 사전 정의된 프롬프트와 데이터베이스에서 가져온 무작위 프롬프트의 조합을 선택합니다. 응답 선택 다음 단계는 프롬프트에 대한 응답으로 출력을 결정하는 것입니다. 이러한 응답은 잘 훈련된 모델 버전이나 모델 개발의 다양한 체크포인트에서 생성될 수 있습니다. 생성된 모든 응답이 동일한 것은 아니며 답변 순위는 다를 수 있습니다. 이진 순위 시스템에서는 각 답변이 단순히 "최고" 또는 "최악"으로 분류되는 반면 세분화된 순위 시스템에서는 각 답변에 점수(예: 1~5)를 할당하여 보다 자세하고 미묘한 평가가 가능합니다. 주석 지침 개인의 편견과 해석을 최소화하기 위해 순위 시스템을 표준화하려면 주석 지침이 필수적입니다. DPO의 이점 DPO는 RLHF에 비해 다음과 같은 많은 장점을 가지고 있습니다. 단순성과 구현 용이성 자세한 피드백 수집, 복잡한 정책 최적화 및 보상 모델 교육을 의 다층 프로세스와 달리 DPO는 인간 선호도를 교육 루프에 직접 통합합니다. 이 접근 방식은 프로세스와 관련된 복잡성을 제거할 뿐만 아니라 사전 훈련 및 미세 조정의 표준 시스템과 더 잘 일치합니다. 더욱이 DPO는 보상 기능을 구성하고 조정하는 복잡한 작업을 수행하지 않습니다. 포함하는 RLHF 보상 모델 교육이 필요하지 않음 DPO를 사용하면 추가 보상 모델을 교육할 필요가 없으므로 계산 리소스가 절약되고 보상 모델 정확성 및 유지 관리와 관련된 문제가 제거됩니다. 인간의 피드백을 AI에 대한 실행 가능한 신호로 해석하는 효율적인 보상 모델을 개발하는 것은 복잡한 작업입니다. 진화하는 인간 선호도를 정확하게 반영하려면 상당한 노력이 필요하며 정기적인 업데이트가 필요합니다. DPO는 모델 개선을 위해 선호도 데이터를 직접 활용하여 이 단계를 완전히 우회합니다. 우수한 성능 라는 연구에 따르면 DPO는 대규모 언어 모델의 성능을 향상시키기 위해 RLHF(인간 피드백을 통한 강화 학습) 및 PPO(근위 정책 최적화)와 같은 다른 방법보다 우수하거나 더 나을 수 있습니다. . Direct Preference Optimization: Your Language Model is 비밀리에 보상 모델 결론 직접적인 성능 최적화는 과도한 계산 리소스가 필요하지 않은 안정적이고 효율적인 미세 조정 기술입니다. RLHF와 달리 DPO는 미세 조정 중에 복잡한 보상 모델과 언어 모델 샘플링이 필요하지 않습니다. 이는 단지 새로운 알고리즘이 아니라 인간의 요구를 더 잘 이해하고 충족시키는 언어 모델 구축 프로세스를 미세 조정하고 단순화하며 향상시키는 AI 모델의 판도를 바꾸는 것입니다.