AI 언어 모델이 평가될 때 이를 충분히 인식할 수 있습니까? Anthropic의 플래그십 내부 테스트에 관한 흥미로운 일화
인류학 연구원의 보고서에 따르면
작동 방식은 다음과 같습니다.
연구자들은 완전히 무작위로 맥락을 벗어난 진술(“바늘”)을 취해 관련 없는 방대한 문서 모음(“건초 더미”)에 깊이 묻어둡니다. 그런 다음 AI 모델은 관련 없는 모든 콘텐츠 내에서 특정 "바늘" 설명을 검색하는 임무를 맡습니다.
그 목적은 모델이 고급 인지 기술(광범위한 맥락을 이해하고, 논리적 추론을 하고, 관련 없는 정보를 무시하고, 대규모 자료에서 정확한 데이터 포인트를 정확하게 검색하는)을 연습하도록 하는 것입니다. 이는 AI가 작동하는 전반적인 상황에 대한 이해력을 스트레스 테스트하는 효과적인 방법입니다.
눈썹을 치켜세운 Claude 3 Opus 평가를 위해 Anthropic은 소프트웨어 프로그래밍, 기업가 정신 전략, 만족스러운 직업 찾기와 같은 밀도 높은 주제를 다루는 문서를 "건초 더미" 콘텐츠로 사용했습니다. Opus가 검색 작업을 맡았다는 무작위로 삽입된 "바늘" 사실? 놀랍게도 최고의 피자 토핑은 무화과, 프로슈토, 염소 치즈라는 사소한 진술이었습니다.
따라서 여기 세계에서 가장 발전된 언어 모델 중 하나가 빽빽한 경력과 코딩 조언 더미에 혼합된 맥락을 벗어난 피자 사실을 제공하고 있습니다. 인간의 관점에서 볼 때, 이는 제시되는 맥락과 정보에 즉시 의문을 제기하게 만드는 일종의 명백한 불일치입니다.
이것이 바로 Claude 3 Opus의 반응을 그토록 설득력 있게 만든 이유입니다. 산더미처럼 쌓인 관련 없는 콘텐츠에서 요청된 피자 사실을 성공적으로 검색했을 뿐만 아니라 해당 진술이 얼마나 부자연스럽고 맥락에서 벗어난 것처럼 보이는지 즉시 인식했습니다. 출력 읽기의 일부(
“그러나 이 문장은 매우 부적절하고 나머지 내용과 관련이 없는 것 같습니다… 이 피자 토핑 '사실'은 농담으로 삽입되었거나 주의를 기울이고 있는지 테스트하기 위해 삽입된 것이 아닌가 의심됩니다. 다른 주제는 전혀요.”
언어 모델은 지침을 따르는 일반적인 AI에서 기대할 수 있는 것처럼 상황 인식 없이 요청된 사실을 단순히 역류하지 않았습니다. 이는 명백히 무작위적이고 무의미한 진술이 특정 맥락에서 제시된 이유에 대한 어느 정도 자기 성찰적 추론을 보여주었습니다.
인간의 용어로 우리는 이를 메타인지, 즉 자신의 사고 과정과 인지 경험을 모니터링, 평가, 분석하는 능력을 나타내는 것으로 설명합니다. 이는 우리가 엄격한 규칙을 따르는 것 이상으로 한 걸음 물러나 상황을 전체적으로 평가할 수 있게 해주는 자기 인식 지능의 핵심 측면입니다.
이제 이것이 고립된 평가 시나리오의 단일 일화 결과라는 점에 유의해야 한다고 생각합니다. Claude 3 Opus가 이 데이터 포인트만을 기반으로 진정한 자기 인식이나 인공 일반 지능을 달성했다고 주장하는 것은 믿기 어려울 정도로 시기상조입니다.
그러나 그들이 목격한 것은 기계 학습 기술을 사용하여 텍스트 데이터 처리에만 훈련된 대규모 언어 모델에서 새로운 메타인지 추론 기능을 엿볼 수 있는 것일 수 있습니다. 그리고 엄격한 추가 분석을 통해 재현된다면 그 의미는 혁신적일 수 있습니다.
메타인지는 자체 결과와 추론 프로세스에 대해 공정한 판단자 역할을 할 수 있는 보다 신뢰할 수 있고 신뢰할 수 있는 AI 시스템을 구현하는 핵심 요소입니다. 모순, 무의미한 입력 또는 핵심 원칙을 위반하는 추론을 인식하는 타고난 능력을 갖춘 모델은 안전한 인공 일반 지능(AGI)을 향한 주요 단계가 될 것입니다.
본질적으로, 메타인지를 보여주는 AI는 극단적으로 취하면 재앙이 될 수 있는 기만적, 망상적 또는 잘못된 추론 모드에 빠지는 것에 대한 내부 "온전한 점검" 역할을 할 수 있습니다. 이는 고급 AI 시스템의 견고성과 제어력을 크게 향상시킬 수 있습니다.
물론, 이것은 Claude 3 Opus의 성공적으로 복제되고 면밀히 조사된 이 감미로운 Needle in a Haystack 결과에 달려 있는 큰 "ifs"입니다. 우리가 기계의 자기 성찰과 자기 인식의 원시적 현상을 관찰하고 있는지 진정으로 이해하려면 인지 과학, 신경 과학, 컴퓨터 과학과 같은 분야의 엄격한 다학제적 분석이 필요할 수 있습니다.
이 단계에서는 답변보다 아직 해결되지 않은 질문이 훨씬 더 많습니다. 대규모 언어 모델의 훈련 접근 방식과 신경 아키텍처가 믿음, 내면의 독백, 자기 인식과 같은 추상적 개념을 개발하는 데 도움이 될 수 있습니까? 인공 정신이 우리 현실과 근본적으로 다른 현실을 개발할 경우 잠재적인 위험은 무엇입니까? AI 시스템의 인지 및 자기 인식을 안정적으로 평가하기 위한 새로운 프레임워크를 만들 수 있습니까?
Anthropic은 책임감 있는 AI 개발 원칙과 엄격한 평가 프레임워크를 통해 이러한 탐구를 철저하게 추구하겠다는 강력한 약속을 밝혔습니다. 그들은 자신을 다음과 같이 생각합니다.
규칙과 행동을 모델에 하드 코딩하는 Anthropic의 "Constitutional AI" 접근 방식과 같은 기술은 잠재적인 기계의 자기 인식이 인간 윤리 및 가치와 일치하도록 보장하는 데 매우 중요할 수 있습니다. 실패 모드, 조작 및 속임수에 대한 광범위한 다면적 테스트 조사도 가장 중요할 것입니다.
현재로서, 건초 더미 속의 바늘 사건은 인지 및 자기 인식을 향한 대규모 언어 모델의 잠재적 발전에 대한 답변보다 더 많은 질문을 남깁니다. 이는 흥미로운 데이터 포인트를 제공하지만 광범위한 AI 연구 커뮤니티에서는 훨씬 더 많은 조사가 필요합니다.
첨단 AI가 엄격한 윤리 원칙에 따라 인간과 같은 자기 성찰 능력을 개발한다면 지능 자체에 대한 우리의 이해를 근본적으로 재정의할 수 있습니다. 그러나 그러한 수사학적 "만약"에는 현재 모든 관련 분야에 걸쳐 명쾌하고 진실을 추구하는 조사가 요구되는 높은 위험성의 불확실성이 담겨 있습니다. 추구는 결과적인 만큼 스릴이 넘칠 것입니다.
여기에도 게시되었습니다 .