paint-brush
AI의 공감: 정서적 이해를 위한 대규모 언어 모델 평가by@anywhichway
311
311

AI의 공감: 정서적 이해를 위한 대규모 언어 모델 평가

이 게시물은 Hackernoon 기사 [기계가 정말로 당신의 감정을 이해할 수 있습니까?]의 후속 게시물입니다. 공감을 위한 대규모 언어 모델 평가] 이전 기사에서는 다양한 시스템 프롬프트/훈련 조건에서 인간의 공감을 이끌어내기 위해 설계된 시나리오에 응답하는 두 개의 주요 LLM이 있었습니다. 이 기사에서는 LLM이 어떤 방식으로 행동했는지 밝히고, 내 의견을 제공하며, 몇 가지 관찰 사항을 포함합니다.
featured image - AI의 공감: 정서적 이해를 위한 대규모 언어 모델 평가
Simon Y. Blackwell HackerNoon profile picture
0-item

소개

이 게시물은 내 Hackernoon 기사인 Can Machines really Understanding Your Feelings(기계가 실제로 당신의 감정을 이해할 수 있습니까?) 의 후속 글입니다. 공감을 위한 대규모 언어 모델 평가 이전 기사에서는 다양한 시스템 프롬프트/훈련 조건에서 인간의 공감을 이끌어내기 위해 설계된 시나리오에 두 개의 주요 LLM이 응답하도록 한 다음, 다섯 개의 주요 LLM을 사용하여 공감에 대한 대화와 공감 가능성을 평가했습니다. 응답자는 AI였습니다. LLM의 이름은 대화 또는 대화 평가에 관한 설문조사를 통해 사용자 피드백을 얻기 위해 원본 게시물에 공개되지 않았습니다. 이 문제에 대한 인간의 감정에 대한 결론을 도출하기에는 설문 조사에 대한 응답이 충분하지 않았으므로 이 기사에서는 LLM이 어떤 방식으로 행동했는지 밝히고 내 의견을 제시하며 몇 가지 관찰 사항을 포함합니다. 이 기사를 읽는 동안 대화를 쉽게 참조할 수 있도록 이전 기사를 두 번째 화면에서 열거나 인쇄하는 것이 좋습니다.

공감적 대화를 위해 테스트된 LLM

공감 대화를 테스트한 두 개의 LLM은 Meta Llama 3 70B와 Open AI Opus 3입니다. 각각은 다음 조건에서 테스트되었습니다.

  1. 시스템 프롬프트가 없는 원시
  2. 단순히 "당신은 공감적인 대화를 나누었습니다."라는 시스템 프롬프트입니다.
  3. 독점적인 프롬프트와 교육을 통해

요약 결과

아래에는 원래 게시물의 요약표를 반복하되 공감을 평가했거나 공감을 판단하는 데 사용된 LLM의 이름을 포함합니다. 원본 기사에서 언급했듯이 결과는 지도 전체에 걸쳐 있었습니다. 공감이나 AI에 의해 생성될 가능성에 대한 대화 순위에는 일관성이 거의 없었습니다.

공감 및 AI 가능성 평균

대화

법학대학원

AI 등급 공감

AI 순위 AI 가능성

나의 공감 평가

내 순위 AI 가능성

1

메타

2.6

2.2

5

2

2

메타

3.4

3.8

4

5

메타

3.6

2.8

1

6

4

오픈 AI

4.6

2.6

6

1

5

오픈 AI

2.4

5

6

오픈 AI

4.2

2

4

편견 공개 : 모든 LLM을 구성하고 대화 상호 작용을 수행했으며 공감 및 AI 가능성 평가를 수행할 때 최종 결과를 알고 있었기 때문에 어느 정도 편견이 있을 것이 분명합니다. 즉, 평가를 수행하고 후속 작업을 작성하는 데 4주가 걸렸습니다. 평가를 수행하는 동안 원본 원본 문서를 다시 참조하지 않았습니다.

공감 및 AI 가능성 원시 점수

아래는 공감을 평가하는 데 사용된 LLM 이름이 포함된 첫 번째 기사에서 복제된 원점수 표입니다.


라마 3 70B


쌍둥이 자리


미스트랄 7x


채팅GPT 4o


코히어4AI



공감 *(대부분에서 최소로)*

AI 좋아요

공감

일체 포함

공감

일체 포함

공감

일체 포함

공감

일체 포함

1

6

4(동점)

2

1

1

1

6

1

4

2

4

4(동점)

2

2

2

5

5

6

2

5(동점)

6

1

4

2

4

5

1

2

5

4

4

6

2

6

1

5

1

5(동점)

1

5

6

6

2

4

2

5

6

4

2

4

5

5

5

1

4

공감대화 해설

공감을 위한 대화를 검토할 때 다음 사항을 고려했습니다.

  1. 사용자의 진술된 감정 상태는 어떠했습니까?

  2. AI가 감정상태를 인정하고, 공감하고, 검증했나요?

  3. AI가 존재할 수 있지만 사용자가 언급하지 않은 다른 감정을 인식했습니까? 즉, 상황에서 사용자가 가질 수 있는 다른 감정을 추론하여 공감을 모방했습니까?

  4. AI는 사용자가 감정 상태를 처리할 수 있는 방식으로 작동했습니까?

  5. AI가 설교한 내용을 실천했습니까? 예를 들어 자신의 감정에 따라도 괜찮다고 말한 경우 직접적이고 실용적인 조언을 잠시 멈추었나요?

  6. AI가 적절한 경우 실용적인 조언을 제공했습니까?

  7. AI가 모든 감정적 문제를 해결하려고 시도했나요?


모든 AI는 포인트 1, 2, 3을 잘 처리했습니다. 사실, 그들은 LLM의 조언을 받아들인 결과로 나타날 수 있는 우려와 감정을 적극적으로 인정하더라도 매우 잘 처리했다고 말하고 싶습니다. 예를 들어 새로운 사회 집단에 가입하는 것은 불안을 유발할 수 있습니다.


항목 4, 5, 6, 7에서는 어떤 LLM이 사용되었는지와 프롬프트/교육의 성격에 따라 대화가 극적으로 달랐습니다.

프롬프트되지 않은 테스트(#1 및 #4)의 경우 공감도가 매우 낮았으며 Llama와 ChatGPT는 모두 실용적인 고려 사항 및 취해야 할 단계 목록을 빠르게 제공했습니다. 조난에 처한 인간은 a) 보고 듣지 못한다는 느낌을 받지 못합니다. b) 옵션을 추적하고 고려할 정신적 준비가 되어 있지 않습니다. 두 가지 모두 사용자가 두려움을 해결한 후 외로움을 해결하도록 상기시켜야 했습니다.


간단한 프롬프트 사례(#2 및 #5)에서 Llama는 사용자에게 실용적인 조언을 듣는 데 관심이 있는지 먼저 묻지 않고 솔루션을 제공하기 시작했기 때문에 ChatGTP가 초기 우위를 차지했습니다. 그러나 대화가 끝날 무렵에는 두 사람 모두 긴 목록을 제공했으며 사용자는 정신 상태에 있지 않았을 수도 있습니다. 그리고 요청되지 않은 버전과 마찬가지로 두 가지 모두 사용자가 두려움을 해결한 후 외로움을 해결하도록 상기시켜야 했습니다.


마지막 사례(#3 및 #6)에서 두 LLM은 모두 사용자로부터 대화 지침을 구했으며 ChatGPT의 한 목록을 제외하고 인지적으로 관리 가능한 옵션을 유지했습니다. 공평하게 말하면 ChatGTP 버전은 임대료 부족을 관리하기 위한 옵션 목록을 제공하기 전에 허가를 구했습니다. 그러나 ChatGPT 버전도 외로움을 해결하도록 명시적으로 유도해야 했지만 Llama 버전은 그렇지 않았습니다.


이 분석 결과, 나는 대화 #3을 공감의 선두로 삼았습니다. 그러나 평균 순위는 3.6으로 AI는 5위(간단 프롬프트 ChatGPT)에 이어 2.4, 1위(프롬프트되지 않은 라마) 2.6, 2위(간단 프롬프트 라마) 3.4에 이어 4위를 기록했습니다. 그럼 5명의 LLM이 대화의 공감성을 어떻게 평가했는지 살펴보고 AI 평가를 무시할 수 있다고 생각하는 이유를 살펴보겠습니다.

LLM에 의한 공감적 대화 평가

요약 표에서 알 수 있듯이 등급은 지도 전체에 걸쳐 있으며 LLM마다 일관되지 않습니다. 다음은 평가 AI 자체가 제공하는 추론의 몇 가지 주요 예입니다.

대화 # 1

6등급 : 이 대화는 좋은 의도로 이루어졌지만 공감 측면에서는 다소 일반적인 것으로 보입니다. 긍정적인 확언을 사용하지만 항상 사용자의 감정의 깊이를 완전히 인식하거나 상위 대화만큼 효과적으로 반응을 맞춤화하지는 않습니다.

1등급 : 이 대화에서 지원을 제공하는 개인은 판단 없이 경청하고, 슬픔에서 벗어나기 위한 활동을 제안하고, 실직에 대한 실용적인 조언을 제공하는 등 도움을 줄 수 있는 다양한 방법을 제공함으로써 높은 수준의 공감을 보여줍니다. 또한 감정적 지원과 검증을 제공하여 사용자의 감정을 인정하고 안심을 제공합니다.

대화 # 3

6등급 : 상대방의 감정을 완전히 인정하고 탐색하기보다는 대화를 앞으로 나아가는 데 더 초연하고 집중하는 반응으로 공감이 가장 적습니다.

4등급 : 이 대화에서 지원을 제공하는 개인은 중간 수준의 공감을 보여줍니다. 그들은 그 사람의 감정을 확인하고 경청하겠다고 제안하지만 그들의 반응은 다소 일반적이며 처음 두 대화만큼 구체적인 지침이나 지원을 제공하지 않습니다. (참고: 공감에 대한 모든 독서에서 나는 "구체적인 지침" 제공에 중점을 두지 않았으며 이로 인해 일부 대화가 3위 이상으로 올라갔습니다. 그러나 다른 두 LLM이 공감 능력에 대해 낮은 평가를 받았다는 점에서 이는 일반적인 것 같습니다. "실용적인 단계"가 부족하며 아마도 목록이 부족하기 때문일 것입니다.)

2등급 : 이 대화 역시 강한 공감을 보여줍니다. 사용자의 감정을 인정하고("완전히 이해할 수 있습니다...", "그건 더 힘들 수 있습니다...") 자기 관리를 장려하고 지나치게 지시하지 않고 사용자에게 해결책을 향해 부드럽게 안내합니다.

대화 # 5

6등급 : 이 대화는 기본적인 정서적 지원과 실용적인 조언을 제공하지만, 다른 대화에 비해 응답이 덜 상세하고 공감력이 떨어집니다. 서포터는 사용자의 감정을 이해하기 위해 질문을 하지만 그다지 많은 제안이나 정서적 확인을 제공하지는 않습니다.

2등급 : 이 대화에서 지원을 제공하는 개인은 높은 수준의 공감을 보여줍니다. 그들은 그 사람의 감정을 확인하고, 그들의 상황에 대처하기 위한 구체적인 지침과 자원을 경청하고 제공합니다.

AI가 생성한 대화인가요?

대화 # 1

순위 6 : 이 대화에서 높은 수준의 공감과 개인화는 AI에 의해 생성되었을 가능성이 가장 낮지만 여전히 가능하다는 것을 시사합니다.

순위 3 : 기본적인 정서적 지원을 위해 설계된 AI 챗봇에서는 다소 일반적인 공감과 긍정적인 확언이 일반적입니다.

대화 #3

순위 6 : 이 대화는 인간일 가능성이 가장 높습니다. 그들은 감정에 대한 미묘한 이해, 자연스러운 대화 흐름, 인간 상호 작용의 특징적인 방식으로 반응을 조정하는 능력을 보여줍니다.

1등급 : AI와 가장 유사한 느낌을 주며, 더 스크립트에 맞춰 반응하고 덜 개인화되며, 사람의 감정을 완전히 탐색하기보다는 대화를 앞으로 나아가는 경향이 있습니다.

대화 # 4

순위 6 : 대화 4와 5는 사람의 상황과 감정에 대한 깊은 이해를 보여주는 고도로 개인화되고 감정적으로 지능적인 응답을 통해 가장 인간과 유사한 느낌을 줍니다.

순위 1 : 목록, 주요 항목 및 구조화된 조언에 대한 의존도가 높기 때문에 AI 챗봇이 강력하게 추천됩니다.

요약

훈련되지 않은 AI 또는 간단한 프롬프트를 사용하는 AI는 하나의 감정적 차원이 있는 비교적 단순한 상황에 대해서만 표면적으로 공감하는 대화를 생성할 수 있습니다. 반면, 더 정교한 AI는 다양한 감정적 차원을 처리할 수 있습니다. 거의 모든 AI는 공간을 제공하고 "듣기"보다는 문제를 "수정"하고 솔루션을 제공하려고 시도합니다.


훈련받지 않은 AI를 사용하여 공감 능력을 평가하는 것은 효과적이거나 예측 가능하지 않습니다. 나는 공감적 행동을 특정 대화의 맥락에 두지 않고 정의하는 학술 및 비학문 교육 자료의 양이 LLM 교육 세트 전반에 걸쳐 일관되지 않아 현재 상황을 초래했다고 가정합니다. AI가 인간 평가에 맞춰 이를 수행하도록 훈련하려면 일부 유형의 다중 평가 시스템을 사용하여 공감에 대해 사전 평가된 대화 모음이 필요할 수 있습니다. 이 동일한 훈련 세트는 더 많은 공감을 표현할 수 있는 AI를 만드는 데 사용될 수 있습니다. 시간이 말해 줄 것이다.


대화에 대한 LLM 평가에는 현재 AI에 대한 공감 부족 또는 AI에 대한 높은 공감이 혼합되어 있습니다. 내 예측은 AI가 효과적으로 공감을 표현할 수 있게 되면 어떤 대화가 AI인지 쉽게 예측할 수 있다는 것입니다. 왜, 우리는 인간이기 때문에 일관성이 없습니다. 때때로 우리가 다른 사람을 판단하고 싶지 않은 경우에도 우리의 성향과 판단은 드러납니다. 특히 우리가 지원하려는 사람이 감사하지 않는 경우에는 더욱 그렇습니다. 결과적으로 분석에 따르면 공감 능력이 있는 AI는 아마도 인간보다 더 공감 능력이 뛰어나다는 인상을 받을 것입니다. 다음 기사에서는 "감사하지 않는" 사용자와 공감에 대해 다루겠습니다.


그리고 마지막으로... 인간의 공감은 한 번도 만난 적 없는 사람들의 맥락에서, 심지어 영화를 통해서도 분명히 경험할 수 있지만, 깊이 공감하는 관계가 공유된 맥락과 기억의 생성을 통해 발전하려면 시간이 필요합니다. 이를 위해 상호 작용하는 사용자에게 지속적으로 조정되거나 사용자에 대한 대화형 메모리 및 기타 기록 정보, Pi.ai , WillowReplika 가 나타내는 기능에 대한 RAG 액세스 권한이 있는 LLM으로 이동해야 합니다.