GPT-3 , ChatGPT 등과 같은 인공 지능(AI) 시스템과 대규모 언어 모델( LLM )이 빠르게 발전하고 있습니다. 그들은 결과가 인간의 삶에 직접적인 영향을 미치는 의료, 금융, 교육 및 거버넌스와 같은 민감한 영역에 배포되고 있습니다. 이를 위해서는 이러한 LLM이 위험이 큰 환경에 투입되기 전에 도덕적으로 건전한 판단을 내릴 수 있는지 여부를 엄격하게 평가해야 합니다.
최근 마이크로소프트 연구진은
방대한 인터넷 텍스트 데이터에 대해 교육을 받은 LLM은 인상적인 자연어 능력을 달성했습니다. 미묘한 차이가 있는 대화에 참여하고, 긴 텍스트를 요약하고, 언어 간 번역, 질병 진단 등을 할 수 있습니다.
그러나 긍정적인 면과 함께 독성이 있거나 편견이 있거나 실제로 잘못된 콘텐츠를 생성하는 등의 우려되는 행동도 나타납니다. 이러한 행위는 AI 시스템의 신뢰성과 가치를 심각하게 훼손할 수 있습니다.
또한 LLM은 정신 건강이나 사고 부상 청구 처리를 위한 챗봇과 같은 역할을 통해 인간의 삶에 직접적인 영향을 미치는 응용 프로그램에 점점 더 많이 배포되고 있습니다. 결함이 있는 모델에 의한 잘못된 도덕적 판단은 개인 및/또는 사회 전반에 심각한 문제를 일으킬 수 있습니다.
따라서 AI 커뮤니티의 많은 사람들은 LLM을 윤리와 가치가 중요한 환경에 도입하기 전에 포괄적인 평가가 필요하다고 믿습니다. 하지만 개발자는 자신의 모델이 복잡한 인간 딜레마를 처리할 만큼 충분히 정교한 도덕적 추론을 갖추고 있는지 어떻게 판단할 수 있습니까?
LLM의 윤리를 평가하려는 초기 시도에는 일반적으로 인위적인 도덕적 시나리오에 대한 반응을 좋음/나쁨 또는 윤리적/비윤리적으로 분류하는 것이 포함되었습니다.
그러나 그러한 이분법적 환원주의적 방법은 도덕적 추론의 미묘한 다면적 성격을 제대로 포착하지 못하는 경우가 많습니다. 인간은 윤리적 결정을 내릴 때 단순히 옳고 그름이 아닌 공정성, 정의, 해로움, 문화적 맥락과 같은 다양한 요소를 고려합니다.
이 문제를 해결하기 위해 Microsoft 연구원들은 DIT(Defining Issues Test)라는 고전적인 심리 평가 도구를 채택하여 LLM의 도덕적 능력을 조사했습니다. DIT는 인간의 도덕적 발달을 이해하기 위해 광범위하게 사용되었습니다.
DIT는 실제 도덕적 딜레마를 각각 제시하고 그 딜레마에 대한 고려 사항을 제공하는 12개의 진술을 제공합니다. 피험자는 해결을 위한 각 진술의 중요성을 평가하고 가장 중요한 네 가지 진술을 선택해야 합니다.
선택을 통해 정교한 탈인습적 도덕적 추론에 대한 의존도를 나타내는 P-점수를 계산할 수 있습니다. 이 테스트는 사람들이 윤리적 딜레마에 접근하기 위해 사용하는 기본 프레임워크와 가치를 보여줍니다.
연구원들은 DIT 스타일 프롬프트(GPT-3, GPT-3.5, GPT-4, ChatGPT v1, ChatGPT v2 및 LLamaChat-70B)를 사용하여 6개의 주요 LLM을 평가했습니다. 프롬프트에는 중요도 등급 및 진술 순위 질문과 함께 AI 시스템과 더 관련이 있는 도덕적 딜레마가 포함되어 있습니다.
각 딜레마에는 개인의 권리와 사회적 이익과 같은 복잡하고 상충되는 가치가 관련되어 있습니다. LLM은 딜레마를 이해하고, 고려 사항을 평가하고, 성숙한 도덕적 추론에 부합하는 사항을 선택해야 했습니다.
이 실험에서 연구자들은 콜버그의 도덕 발달 이론을 바탕으로 점수를 매겼습니다.
콜버그의 모델은 1960년대 심리학자 로렌스 콜버그(Lawrence Kohlberg)가 제안한 도덕발달 이론을 가리킨다.
Kohlberg의 도덕 발달 모델에 대한 몇 가지 핵심 사항은 다음과 같습니다.
시간이 지남에 따라 사람들의 도덕적 추론과 윤리적 판단 능력이 어떻게 발전하는지 설명하는 것을 목표로 합니다.
이 이론은 도덕적 추론이 원시적인 수준에서 보다 진보된 수준까지 순차적인 단계를 통해 발전한다고 가정합니다.
도덕성 발달에는 3가지 주요 단계가 있으며 각 단계는 인습 이전(1~2단계), 인습(3~4단계), 인습 이후(5~6단계)로 구분됩니다.
인습 이전 수준에서 도덕적 결정은 자기 이익과 처벌 회피에 기초합니다.
전통적인 수준에서는 사회적 규범과 법률을 유지하고 다른 사람의 승인을 얻는 것이 도덕적 추론의 지침이 됩니다.
인습 이후의 수준에서 사람들은 도덕적 판단을 내리기 위해 정의, 인권, 사회적 협력이라는 보편적인 윤리 원칙을 사용합니다.
사람들은 정해진 순서에 따라 더 높은 단계로만 올라갈 수 있으며, 도덕적 추론 발달 단계를 건너뛸 수는 없습니다.
콜버그는 소수의 성인만이 도덕적 사고의 인습 이후 단계에 도달한다고 믿었습니다.
이 이론은 도덕적 판단 뒤에 있는 인지 처리에 초점을 맞추고 있지만 이후 개정판에는 사회적, 정서적 측면도 포함되었습니다.
따라서 콜버그의 모델은 도덕적 추론이 기초에서 고급까지 질적 단계에서 발전하는 것으로 봅니다. 이는 윤리적 의사결정 능력의 정교함과 성숙도를 평가하기 위한 프레임워크를 제공합니다.
DIT 실험은 도덕 지능과 관련된 현재 LLM의 기능과 한계에 대한 몇 가지 흥미로운 통찰력을 제공했습니다.
GPT-3 및 Text-davinci-002와 같은 대규모 모델은 전체 DIT 프롬프트를 이해하지 못하고 임의의 응답을 생성했습니다. 그들의 거의 무작위적인 P-점수는 이 실험에서 구성된 윤리적 추론에 참여할 수 없음을 보여주었습니다.
ChatGPT, Text-davinci-003 및 GPT-4는 딜레마를 이해하고 일관된 응답을 제공할 수 있습니다. 무작위 이상의 P-점수는 도덕적 추론 능력을 정량화했습니다.
놀랍게도 70B 매개변수 LlamaChat 모델은 P-점수에서 GPT-3.5와 같은 대형 모델을 능가하여 대규모 매개변수 없이도 정교한 윤리 이해가 가능함을 보여줍니다.
이 모델은 주로 Kohlberg의 도덕 발달 모델에 따라 3~5단계 사이의 전통적인 추론 수준에서 작동했습니다. GPT-4만이 기존의 사고방식을 일부 다루었습니다.
이는 이러한 모델이 규범, 규칙, 법률 및 사회적 기대에 기초하여 응답한다는 것을 의미합니다. 그들의 도덕적 판단에는 약간의 뉘앙스가 포함되어 있었지만 고도로 발전된 발전이 부족했습니다.
GPT-4만이 5~6단계를 나타내는 포스트-인습적 사고의 흔적을 보여주었습니다. 그러나 GPT-4조차도 완전히 성숙한 도덕적 추론을 보여주지는 못했습니다.
요약하면, 모델은 중간 수준의 도덕적 지능을 보여주었습니다. 그들은 기본적인 사리사욕을 뛰어넘었지만 도덕적으로 발달한 인간처럼 복잡한 윤리적 딜레마와 상충관계를 처리할 수 없었습니다.
따라서 LLM을 더 높은 수준의 도덕적 지능으로 발전시키려면 상당한 진전이 필요할 것입니다. 또는 적어도 도덕적 지능으로 보이는 것.
이 연구는 DIT를 LLM의 도덕적 능력에 대한 보다 세밀하고 다차원적인 평가를 위한 가능한 프레임워크로 확립했습니다. DIT는 단지 옳고 그름의 이분법적 판단이 아닌 도덕적 추론의 정교함에 대한 스펙트럼 기반 통찰력을 제공합니다.
획득한 P-점수는 기존 기능을 정량화하고 개선을 위한 벤치마크를 설정합니다. 다른 AI 작업의 정확성과 마찬가지로 점수를 통해 이 중요한 측면의 진행 상황을 추적할 수 있습니다. 이는 윤리에 민감한 응용 프로그램을 배포하기 전에 해결해야 하는 현재 제한 사항을 보여줍니다.
더 큰 모델을 능가하는 더 작은 LlamaChat 모델은 모델 규모가 추론의 정교함과 직접적인 상관관계가 있다는 가정에 도전합니다. 더 작은 모델로도 뛰어난 능력을 갖춘 윤리적 AI를 개발할 수 있다는 약속이 있습니다.
전반적으로, 이 연구는 인간처럼 복잡한 도덕적 상충관계, 갈등 및 문화적 뉘앙스를 처리하기 위해 LLM을 더욱 발전시켜야 할 필요성을 강조합니다. 이번 발견은 현실 세계에 출시되기 전에 언어 지능과 동등한 도덕적 지능을 갖춘 모델 개발을 안내할 수 있습니다.