paint-brush
AI 공감의 깊이 테스트: 프레임워크 및 과제by@anywhichway
532
532

AI 공감의 깊이 테스트: 프레임워크 및 과제

Simon Y. Blackwell10m2024/02/29
Read on Terminal Reader

공감형 AI 시스템을 개발하고 평가하기 위한 많은 연구가 진행되어 왔다. 그러나 여전히 해결해야 할 질문과 과제가 많이 있습니다. - 테스트할 공감에 대한 명확하고 합의된 정의가 필요합니다. - AI가 "진정으로" 감정을 느낄 수 있는지 여부에 대한 논쟁을 피하고 대신 관찰 가능한 공감 행동을 평가하는 데 집중해야 합니다. - 공감을 식별하는 것과 생성하는 것, 일회성 응답과 대화에서 공감하는 것 사이에는 중요한 차이가 있습니다. 이에 따라 시스템을 평가해야 합니다. - AI 시스템을 테스트하면 객관식 편향, 인간 평가의 샘플링 편향, 프롬프트에 대한 과적합과 같은 위험이 발생합니다. - AI 공감 테스트를 위한 일부 표준 프레임워크가 제안되었지만 알려진 위험을 완화하고 알려지지 않은 과제를 탐색하려면 여전히 더 많은 작업이 필요합니다. - 추가 연구 분야에는 기존 테스트의 위험 평가, 보완 테스트 사례 개발, 더 많은 시스템을 체계적으로 평가하는 것이 포함됩니다.
featured image - AI 공감의 깊이 테스트: 프레임워크 및 과제
Simon Y. Blackwell HackerNoon profile picture
0-item


Google Scholar에서 ' 공감 ai '를 검색하면 2023년 이후 16,000개 이상의 항목이 나옵니다. '공감 ai 테스트', '공감 ai 평가'와 같은 문구를 검색하면 이 집합이 약 12,000개 항목으로 줄어듭니다. 처리해야 할 타이틀이 많습니다! 나는 확실히 그 책들을 모두 읽었거나 심지어 모든 제목을 보았다고 주장할 수는 없지만 여기에 내 생각이 있습니다.


  1. 우리는 공감에 대한 공통된 정의를 가지고 있어야 합니다.
  2. 우리는 “AI가 실제로 느낄 수 있는가?”라는 질문을 무시하는 데 동의해야 합니다. AI가 생성하는 것을 어떻게 해석하는지에 집중하세요. 즉, AI가 인간이라면 인간이 생각하거나 느끼는 것을 우리가 어떻게 느끼거나 생각할 것인가? (와우, 약간의 체조네요)
  3. 우리는 감정을 식별하는 것, 공감을 식별하는 것, 공감적인 반응을 생성하는 것, 그리고 공감적인 방식으로 대화에 참여하는 것을 구별해야 합니다.
  4. 우리는 역사적 테스트가 적절하게 적용되고 잠재적으로 수정되고 평가될 수 있도록 AI가 어떻게 다른지 인식하는 동시에 인간의 정서적, 공감 능력에 대한 테스트의 풍부한 역사를 고려해야 합니다.
  5. 우리는 현재 AI에 맞춰진 평가 프레임워크를 이해해야 합니다.
  6. 우리는 새로운 프레임워크와 접근 방식을 개발해야 합니다.


공감이란 무엇입니까?

Merriam-Webster: “다른 사람의 감정, 생각, 경험을 이해하고, 인식하고, 민감하고, 대리적으로 경험하는 행위 ”.


LLM의 맥락에서 "경험"에 대한 잠재적인 우려를 제거하기 위해 나는 이것을 다른 사람의 감정, 생각 및 경험을 이해하고, 인식하고, 민감하고, 대리 경험하는 것처럼 보이는 행동으로 바꿔 설명하겠습니다.

그리고 물론, 우리가 대화에 관심이 있다면, 다음을 추가할 것입니다. 그리고 대화의 다른 당사자들이 그 행동을 인식할 수 있는 방식으로 이것을 나타냅니다. 물론, 소시오패스도 그런 식으로 나타나고 나타날 수 있으므로 마지막으로 한 가지만 조정하겠습니다.


공감이란:

다른 사람의 감정, 생각, 경험을 긍정적으로 이해하고, 인지하고, 민감하게 반응하고, 대리 경험하는 것처럼 보이는 행위 . 그리고 이를 표현하는 것은 대화의 상대방이 그 행동을 인식할 수 있는 방식입니다.

이 정의와 원래 정의를 검토해 보면 공감의 두 가지 구성 요소인 정서적, 인지적 요소가 분명해집니다.


  1. 정서적 요소는 공감의 감정적이거나 감정적인 부분을 말합니다. 다른 사람의 감정을 공유하거나 반영하는 능력입니다. 예를 들어, 친구가 슬프면 공감의 정서적 부분이 당신도 슬프게 만들거나 적어도 친구의 슬픔을 느낄 수 있습니다.


  2. 반면 인지적 요소는 공감의 정신적, 사고적 부분을 가리킨다. 대기열을 적극적으로 식별하고 이해하여 정신적으로 자신을 다른 사람의 입장에 놓을 수 있는 능력입니다. 예를 들어, 동료가 피곤한 목소리(큐)로 자신이 하고 있는 어려운 프로젝트(큐)에 대해 이야기한다면, 비슷한 상황에서 자신이 어떻게 느낄지 적극적으로 상상함으로써 동료의 스트레스를 이해하려고 노력할 수도 있습니다. . 일부의 경우 이는 인위적으로 영향을 미칠 수 있습니다.


AI는 느낄 수 있을까?

이 시점에서 대부분의 사람들은 AI 가 감정이 없다고 말할 것입니다. 일부는 AI가 감정을 갖는 미래를 예측하고 다른 일부는 AI가 감정을 갖지 않거나 가질 수 없는 미래를 예측할 것입니다. 그러나 세 번째 그룹은 "AI는 느끼거나 느낄 것이지만 인간과는 다른 방식으로"라고 말할 수 있습니다.


그럼에도 불구하고 우리가 이 주제에 대해 토론하는 데 시간을 할애한다면 공감을 위한 AI 테스트에 진전이 없을 것입니다. 우리는 내부 상태가 아니라 AI가 나타내는 것에 대한 해석에 초점을 맞춰야 합니다. 이 주제에 대한 몇 가지 흥미로운 연구가 있었지만 감정적으로 무감각합니까 아니면 공감력이 있습니까?를 참조하십시오. EmotionBench를 사용하여 LLM이 어떻게 느끼는지 평가합니다 .


이 장애물을 극복할 수 없다면 이 웹사이트의 벤치마크를 무시하는 것이 좋습니다. 하지만 여전히 기사와 대화를 즐길 수 있습니다!

식별과 생성

무언가를 식별하는 것과 무언가를 하는 것 사이에는 큰 도약이 있습니다. 젊은 운동선수나 학자들은 즉시 더 높은 수준의 경기력을 발휘하지 못해도 자신의 경기력에 어떤 문제가 있는지 확인할 수 있습니다. 마찬가지로, 감정을 식별하고 공감적인 대화를 할 수 있는 능력을 갖는 것은 감정이 있는 것처럼 보이고 다른 사람이 공감적인 것으로 해석할 반응을 생성할 수 있는 것과는 다릅니다. 사실 그 사이에는 한 단계도 있습니다. 젊은 운동선수나 학자들이 코치나 교사의 의견을 받아들여 현재 더 나은 결과를 만들어낸다고 해서 그들이 완전한 능력을 갖추게 되는 것은 아닙니다. AI가 테스트 설계 또는 프롬프트의 부작용으로 공감 결과를 생성하는 경우 AI는 초기 공감 능력을 가질 수 있지만 본질적으로 공감하지는 않습니다.


비록 AI의 내부 상태를 완전히 이해하는 것은 불가능하더라도 AI가 공감을 나타내기 위해서는 감정의 식별이 필수 조건이라고 생각합니다. 나는 또한 AI가 공감적 반응을 제공하도록 유도/코칭할 수 있다는 것이 초기 능력의 표시라고 믿습니다. 즉, 미세 조정(인간의 관행과 동일)이 능력을 생성할 수 있다고 생각합니다.

식별생성 , 코칭내재 간의 차이점은 이 문서의 범위를 넘어서는 테스트 및 테스트 프레임워크의 효율성을 논의하는 데 중요합니다.

신분증

텍스트 콘텐츠의 감정 식별은 표시 단어의 존재 여부, 대문자 사용, 구두점 및 문법 구조를 기반으로 합니다. 정서를 정확하게 식별하는 능력은 현재의 AI 혁명보다 20년 이상 앞선 것입니다. 1990년대에는 단어 N-그램 교차점과 상징적 추론이 이미 인상적인 결과를 제공하고 있었습니다. 2000년대 초반 소셜 미디어가 성장하면서 자동화된 조정의 필요성이 이 분야에서 많은 발전을 가져왔습니다. 그러나 오늘날의 LLM은 일반적인 감정뿐만 아니라 구체적인 감정을 식별하는 능력이 놀랍습니다.


즉, 완전한 공감 대화를 위해서는 몇 가지 유형의 감정 표현 식별이 필요하며, 나는 이를 다음과 같이 분류합니다.


  • 명시적 — 사용자가 느낌이 있다고 말합니다.

  • 대화형 — 감정은 최상위 텍스트 분석에서 분명하며 대화에 존재합니다.

  • 운전 — 감정이 대화를 주도하고 있으며, 한 사람은 분노를 나타내고 다른 사람은 똑같이 반응합니다.

  • 핵심 — 다른 감정을 유발하지만 그 자체가 감정으로 인해 발생하지는 않는 감정이 핵심입니다. 이는 일반적으로 미래에 대한 기대(의식적 또는 무의식적)를 유발하는 일부 역사적 계기의 결과로 나타납니다. 연구자마다 이를 다르게 분류할 수 있으며, 달리아 라마가 뒷받침하는 한 가지 예는 감정 지도서 에 있는 감정의 5대륙(분노, 공포, 혐오, 슬픔, 즐거움)입니다.


참고: 핵심 감정은 추진력이 있고 대화적이며 노골적일 수도 있지만 핵심 감정은 숨겨져 있는 경우가 많습니다. 이 기사 이후의 테스트 또는 테스트 결과를 검토하고 정의하는 동안 이러한 분류에 다시 주의를 환기시킬 것입니다.


테스트 고려 사항

감정 식별을 위한 전통적인 인간 테스트는 일반적으로 손쉬운 테스트 및 검증을 용이하게 하기 위해 두 가지 버킷으로 분류됩니다.


  1. 대화에 어떤 감정이 존재하거나 존재하지 않는지에 대한 객관식 테스트는 때로는 강도 점수와 관련됩니다.

  2. 감정에 대한 자기 성찰 테스트(예: EQ-60 )는 응시자가 특정 상황에서 어떻게 느끼는지 묻는 것입니다.


이는 고품질 AI 테스트에 대한 뚜렷한 과제를 제시합니다.


  • 다중 선택 테스트 - 패턴 일치 언어 모델로서 오늘날의 AI 는 식별할 항목을 선택할 수 있게 함으로써 효과적으로 우위를 점할 수 있습니다. 작업을 쉽게 만들고 항상 감정을 식별하는 AI의 능력을 테스트하지 않습니다. 잠재적으로 더 나은 접근 방식은 단순히 AI에게 텍스트에 존재하는 모든 감정을 식별하도록 지시하고 배후에서 실제 사실(감정과 같은 것이 있는지 확실하지 않음 :-) 또는 통계 분석을 기반으로 한 키에 대해 점수를 매기는 것입니다. 동일한 테스트에 대한 인간의 반응. 앞으로 제안된 테스트를 평가할 때 이를 다중 선택 위험이라고 부릅니다. 그러나 인간을 대상으로 한 통계적 샘플링은 추가적인 위험을 초래할 수 있습니다. 평범한 인간보다 나은 AI를 만들고 싶다고 가정해 보겠습니다. 이를 위해서는 통계 샘플이 감정을 식별하는 평균보다 강한 능력을 가진 인간을 기반으로 하는지 확인해야 할 수 있습니다. 그렇지 않으면 AI는 일반 인간이 식별하지 못하는 감정을 식별할 수 있으며 채점 시 불이익을 받을 수 있습니다. 나는 이것을 인간 표본 추출 위험이라고 부릅니다.


  • 자기 성찰 테스트 - 감정에 대한 자기 성찰 테스트는 대부분의 AI 모델에 도전 과제를 제공합니다. AI에는 일반적으로 "나는 AI이므로 감정이 없습니다."와 같은 응답을 요구하는 가드레일이 있습니다. 때때로 이러한 제약 조건에 대해 탈옥하거나 엔지니어에게 프롬프트를 표시하는 것이 가능하지만, 그러면 질문은 다음과 같습니다.


    • 프롬프트가 공감과 관련하여 AI의 나머지 능력에 긍정적 또는 부정적 영향을 미치나요, 아니면 실제로 어떤 영향을 미치나요? 탈옥 부작용 위험

    • 프롬프트 없이 대화에 참여할 때 AI가 갖게 될 경향을 응답이 정확하게 반영합니까? 탈옥 정확도 위험


    탈옥 부작용 위험은 모든 모델이 동일한 프롬프트로 테스트되고 점수가 인간이 아닌 서로에 대해서만 고려되도록 보장함으로써 어느 정도 완화될 수 있습니다. 탈옥 정확도 위험 의 영향은 실제 대화를 분석하여 예측된 감정 식별 기능이 대화에 표시된 실제 공감 또는 호출된 감정과 상관관계가 있는지 확인함으로써만 평가할 수 있습니다.


세대

여러 테스트에서 AI가 질문에 공감적인 응답을 생성할 수 있는 것으로 나타났습니다. 가장 인상적인 것 중 하나 는 공개 소셜 미디어 포럼에 게시된 환자 질문에 대한 의사와 인공 지능 챗봇 응답 비교 입니다. Reddit의 AskDoc 포럼에서 195개의 질문을 가져와 검증된 의사가 질문에 응답하고 ChatGPT가 동일한 질문에 응답하도록 했습니다. 그런 다음 평가자 풀은 각 응답을 '공감하지 않음', '약간 공감함', '보통 공감함', '공감함', 매우 '공감함'으로 평가했습니다. AI 응답은 '공감적' 또는 '매우 공감적'이라는 항목이 의사보다 9.8배 더 높았습니다.


결과는 인상적이지만 이것이 확장된 대화로 이어질지 회의적입니다.


"당신의 임무는 공감적 응답을 통해 이익을 얻을 수 있는 질문에 공감적으로 응답하는 것입니다"라는 시스템 프롬프트에서 시작하여, AI 수동 테스트에 대한 나의 경험은 다음 모든 조건에서 응답이 기계적이고 정서적으로 중복되는 것처럼 느껴지는 경향이 있다는 것입니다.


  1. 공감적인 답변이 필요한 여러 가지 관련 없는 질문을 하는 것
  2. 공감적인 답변이 필요한 여러 가지 관련 질문을 던지는 것
  3. 혼합된 질문으로 대화를 진행합니다. 일부는 공감할 가치가 있고 다른 일부는 공감할 가치가 없습니다.

테스트 고려사항

위 사항의 결과로, 연구에 사용된 테스트 접근 방식에는 단발성 공감 위험이 있다고 말하고 싶습니다. 즉, 단일 질문에 대한 응답으로 나타나는 공감이 정확한 척도가 아닐 수 있습니다. 또 다른 위험은 제가 '공감 과소평가 위험'이라고 부르는 것입니다. 이 위험은 시간이 지남에 따라 메모리가 없는 원시 LLM의 부작용입니다. 인간이 이해와 공감을 발전시키는 데는 시간이 걸립니다. AI도 마찬가지일 수 있으며, 단일 질문에 대한 응답에서 높은 수준을 기대한다면 시간이 지남에 따라 일부 AI가 공감을 나타내는 능력을 과소평가할 수도 있습니다.


생성 테스트에는 인간 샘플링 위험도 적용됩니다. 인간이 AI 반응의 정서적 내용과 공감적 특성을 평가하는 임무를 맡고 AI가 평균보다 더 나은 능력을 갖기를 원한다면, 인간 표본은 평균 인간보다 감정과 공감을 식별하는 능력이 더 뛰어나야 합니다. 그렇지 않다면, 우리는 AI의 능력을 과소평가하거나 일반적인 인간이 식별하지 못하는 감정과 공감을 식별하는 데 불이익을 주어 AI를 과소평가할 위험이 있습니다.


마지막으로, 대화 속 감정의 계층적 특성으로 인해 인간 샘플링 위험을 직접 처리하는 것 외에도 질문 디자인 위험을 처리할 필요가 있습니다. AI가 평가하지 않는 동안 평가를 수행할 때 사용자에게 감정 유형을 명시적, 대화형, 추진력 및 핵심(또는 다른 분류 세트)을 고려하도록 지시해야 할 수도 있습니다. 또는 AI가 다양한 유형의 감정을 식별하도록 선택적으로 지시받을 수도 있습니다.


여러 AI에 대해 Reddit AskDoc을 기반으로 한 연구를 반복하거나 강한 감정과 공감 식별 기술을 가진 것으로 알려진 평가자 샘플을 사용하여 연구를 반복하는 것은 흥미로울 것입니다.

EQ와 공감을 평가하기 위한 표준 인간 접근 방식

인간의 성격 유형, 감정 식별 능력 또는 감정 결핍(불감증), 타인과 공감하는 능력을 테스트해 온 오랜 역사가 있습니다. Wikipedia의 이 기사는 합리적인 시간 내에 LLM을 사용하여 작성하거나 생성할 수 있는 어떤 것보다 훨씬 더 완전하고 일관성이 있을 것입니다. 벤치마크 페이지를 방문하면 우리가 집중하고 있는 접근 방식을 확인할 수 있습니다.

AI EQ 및 공감을 평가하기 위한 기존 프레임워크

AI EQ와 공감을 평가하기 위한 여러 프레임워크가 제안되었습니다. 각 항목에는 자체 분석과 블로그 게시물이 있으므로 여기에 몇 가지만 나열하겠습니다.

  1. EQ-Bench: 대규모 언어 모델을 위한 감성 지능 벤치마크
  2. 인간-컴퓨터 의사소통을 위한 공감 척도(ESHCC)
  3. iEval: 오픈 도메인 공감형 챗봇을 위한 대화형 평가 프레임워크


새로운 접근법

우리는 표준 인간 테스트 및 기존 AI 프레임워크 사용에서 확인된 결함을 해결하기 위해 몇 가지 테스트를 정의하기 시작했습니다. EQ-D (깊이에 대한 감정 지수)를 생성한 흥미로운 발견은 테스트된 LLM이 노골적이거나 대화적이거나 운전적이지 않은 경우 핵심 감정을 식별하지 못했다는 것입니다. 반면에 핵심 감정만을 구체적으로 식별해 달라는 요청을 받았을 때 몇몇 AI는 상당히 훌륭했습니다. 그러나 다양한 감정 유형이 주어졌을 때 일부 LLM은 핵심 감정을 식별하는 능력을 잃었고 다른 LLM은 훨씬 더 나은 성과를 거두었습니다. 즉, 모든 수준에서 더 많은 감정의 존재를 식별했습니다. 그 결과 EQ-B (Emotional Quotient for Breadth)가 탄생했습니다.


테스트 개발 중에 프롬프트 위험을 도입하는 프롬프트가 필요할 때가 있다는 것이 분명해졌습니다. 즉, 출력이 핵심 AI가 아닌 프롬프트에 의존할 가능성이 높아집니다. 이 위험은 인간과의 비교를 무효화할 수도 있고 무효화하지 않을 수도 있으며 응용 프로그램 수준에서 합법적일 수도 있습니다. 원시 LLM 수준에서는 프롬프트가 테스트된 모든 AI에서 사용되고 특정 AI에 편향되지 않는 한 하나의 AI를 다른 AI와 비교하는 것이 중요하지 않은 것처럼 보입니다. EQ-DEQ-B 의 현재 설계는 AI 기술의 전반적인 미성숙으로 인해 이러한 위험을 안고 있습니다.


공감을 위한 AI 테스트에 관한 몇 가지 제안이 있지만, 우리는 초기 단계에 있으며 이러한 접근 방식에는 알려진 문제와 알려지지 않은 문제가 모두 있습니다. 알려진 문제를 해결하기 위해 수행해야 할 작업이 있습니다.


  • 위험에 대해 기존 테스트를 평가해야 하며 위험을 문서화하거나 완화해야 합니다.

  • 일부 기존 테스트의 맥락에서 새로운 테스트 사례를 개발해야 합니다.

  • 더 넓은 범위의 AI에 걸쳐 더 많은 테스트 유형을 실행해야 합니다.


그러나 나에게 가장 흥미를 끄는 것은 미지의 것입니다.


당신은 어떤가요?


여기에도 게시되었습니다 .