저자:  (1) Allen AI 연구소의 Nathan Lambert;  (2) Roberto Calandra, TU 드레스덴.  링크 표   개요 및 소개   관련된 일   배경   목표 불일치 이해   토론   결론   감사의 말씀 및 참고자료  추상적인  인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델(LLM)을 더 쉽게 프롬프트하고 복잡한 설정에서 더 많은 능력을 발휘할 수 있는 강력한 기술로 등장했습니다. RLHF의 핵심은 다음 토큰 예측 이외의 LLM을 최적화하기 위한 새로운 툴킷을 제공하여 질적 교육 목표의 통합을 가능하게 합니다. 학습된 보상 모델에서 발생하는 사용자 선호도와 다운스트림 성능 간의 일치 시도는 훈련 및 평가 지표가 상호 연관되어 나타날 수 있는 최적화 환경을 제공합니다. 명백한 상관관계는 예상치 못한 행동과 "너무 많은 RLHF"에 대한 이야기로 이어질 수 있습니다. RLHF에서는 보상 모델 훈련, 정책 모델 훈련 및 정책 모델 평가와 같은 하위 모듈이 서로 일관성이 없기 때문에 문제가 발생합니다. 이러한 불일치로 인해 잘못된 안전 플래그를 통해 사용자 요청을 피하거나, 의도한 특성으로 조정하기 어렵거나, 항상 특정 스타일로 응답하는 모델이 발생합니다. 채팅 모델 평가가 점점 더 미묘해짐에 따라 보상 모델 점수와 다운스트림 성과 사이의 인지된 연관성에 대한 의존도가 객관적 불일치 문제를 야기합니다. 본 논문에서는 모델 기반 강화 학습의 관련 문헌을 검토하여 이 문제의 원인을 설명하고 추가 연구를 장려하기 위한 관련 솔루션에 대해 논의합니다. RLHF의 객관적인 불일치를 해결함으로써 미래의 LLM은 안전과 유용성 모두에 대해 사용자 지침에 더욱 정확하게 맞춰질 것입니다.  1. 소개  인간 피드백을 통한 강화 학습(RLHF)은 질적 스타일과 가치를 대규모 기계 학습 모델에 통합하기 위한 강력한 도구입니다(Bai et al., 2022; Christiano et al., 2017; Ouyang et al., 2022). RLHF는 채팅 도구 정렬을 위해 인간의 가치를 대규모 언어 모델(LLM)에 통합하는 데 사용되면서 대중화되었습니다(Schulman, Zoph, Kim 등, 2022). 이를 통해 RLHF는 종종 명령 조정, 조종성, 채팅 모델 등으로 불리는 사용자 요청에 더 잘 응답하는 모델을 만드는 과정에서 중요한 기술이 되었습니다. RLHF 방법은 일반적으로 다음 두 단계 프로세스로 작동합니다. 기본 언어 모델을 훈련하려면 먼저 보상 기능으로 작동하는 인간 선호 모델을 학습하고 두 번째로 강화 학습(RL) 최적화 루프 내에서 이 모델을 사용합니다. RLHF 프로세스에서 이 두 단계는 종종 독립적으로 실행되며, 인간 선호도 데이터에 대해 정확한 보상 모델을 훈련한 다음 RL 최적화 프로그램을 사용하여 채팅 모델에 최대 정보를 추출합니다. RLHF로 훈련된 최신 LLM의 일반적인 과제는 모델에서 의도한 행동을 추출하는 데 어려움이 있다는 것입니다. 때때로 모델은 안전상의 이유로 양성 요청을 거부하고, 다른 경우에는 전체 성능을 추출하기 위해 영리하고 즉각적인 조정이 필요합니다.  이 논문에서는 현대 RLHF 학습 체계의 근본적인 과제인 객관적 불일치 문제를 자세히 설명합니다. RLHF에서는 훈련의 세 가지 중요한 부분, 즉 평가 지표 설계, 보상 모델 훈련, 생성 모델 훈련이 수치적으로 분리됩니다. 보상 모델과 RL 훈련 간의 이러한 불일치는 그림 1에 시각화되어 있지만 평가 목표와 인간 가치 시뮬레이션 사이에는 다른 링크가 존재합니다. 특히, 선호도 정량화에서 보상 모델 훈련을 문헌(Lambert, Gilbert, & Zick, 2023)에 더 잘 맞출 수 있는 방법이 많으며 RLHF 관행에서는 근본적인 최적화 문제를 해결해야 합니다(Casper et al., 2023). RLHF로 훈련된 가장 인기 있는 모델인 ChatGPT는 장황함, 자기 의심 및 질문 거부, 반복되는 문구, 헤징 등과 같은 문제를 통해 이러한 한계를 보여줍니다(Schulman, 2023). 이러한 과잉 최적화 특성은 객관적인 불일치가 연구 및 해결을 위한 프레임을 제공하는 미묘한 프록시 목표 문제의 결과입니다. 보상 모델은 안전 플래그와 같이 RL 최적화 프로그램이 활용하는 사용자 이점에 기여하지 않는 문구에 초과 가치를 부여합니다. 한편, RLHF 모델에는 여전히 "단계별 사고"(J. Wei et al., 2022) 또는 "심호흡하기"와 같은 정교한 프롬프트 기술이 필요하기 때문에 현재 훈련 설정은 평가 도구와 완전히 일치하지 않습니다. ”(Yang et al., 2023) 최대 성능에 도달합니다. 목표 불일치를 해결하면 이러한 고급 기술이 필요하지 않으며 LLM이 범위를 벗어나 거부될 가능성이 줄어듭니다.   목표 불일치라는 문구는 에이전트가 나중에 제어 작업을 해결하는 데 사용하는 역학 모델을 반복적으로 학습하는 모델 기반 강화 학습(MBRL)에서 유래합니다(Lambert, Amos, Yadan, & Calandra, 2020; R. Wei, Lambert, 맥도날드, 가르시아, 칼란드라, 2023). 이러한 맥락에서 불일치는 높은 작업 보상에 최적화된 모델이 아닌 정확한 역학 모델을 학습하는 것 사이에 있습니다. RLHF에서는 문제가 관련되어 있지만 보상 모델이 최종 사용자와 일치하지 않는 폐쇄 분포에 대한 선호도 데이터에 최적화되어 있기 때문에 복잡성이 추가됩니다. 둘째, 개방형 언어 생성 작업은 RL 제어 정책의 작업보다 보상 개념에 덜 구체적입니다. 이러한 이유로 이 문서에서 살펴본 것처럼 객관적인 불일치 문제는 RLHF에 더 미묘하고 중요합니다.  본 성명서에서 우리는 세 가지 기여를 합니다:  • 채팅 조정 LLM에서 객관적 불일치의 원인과 잠재적인 징후를 명확하게 설명합니다.  • 객관적인 불일치에 관한 NLP 및 RL 문헌의 관련 작업을 연결합니다.  • 불일치를 해결하고 더 나은 RLHF 관행을 조성하기 위한 연구 방향을 제안합니다.  이 문서는 CC 4.0 라이선스에 따라   . arxiv에서 볼 수 있습니다

FeedbackLoop.TECH

Read My Stories

The FeedbackLoop offers premium product management education, research papers, and certifications. Start building today!

FeedbackLoop

이 오디오는 이야기의 원래 언어로 제작되었습니다!

정렬 천장: 인간 피드백을 통한 강화 학습의 객관적 불일치

About Author

코멘트

태그 걸기

이 기사는 다음에서 발표되었습니다.

Related Stories

HackerNoon 글쓰기 대회에서 우승하고 싶으신가요? #crypto-api 대회 우승자들이 추천하는 내용은 다음과 같습니다.

보이지 않는 레이어: 사용자 인터뷰가 대체할 수 없는 자산인 이유

탭하여 수익 창출: 텔레그램에서 솔라나 이전에 100억 명의 암호화폐 사용자를 확보할 수 있음

포럼에서 피드까지: 소셜 미디어 알고리즘이 디지털 상호작용을 형성하는 방식

HackerNoon 글쓰기 대회에서 우승하고 싶으신가요? #crypto-api 대회 우승자들이 추천하는 내용은 다음과 같습니다.

보이지 않는 레이어: 사용자 인터뷰가 대체할 수 없는 자산인 이유

탭하여 수익 창출: 텔레그램에서 솔라나 이전에 100억 명의 암호화폐 사용자를 확보할 수 있음

포럼에서 피드까지: 소셜 미디어 알고리즘이 디지털 상호작용을 형성하는 방식

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps