이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.
저자:
(1) D.Sinclair, Imense Ltd, 이메일: [email protected];
(2) WTPye, Warwick University, 이메일: [email protected].
저자들은 합성 의식에서 파생된 뼈대적인 자기 인식 감정을 구축하기를 바랐습니다. (합성 의식) 시스템의 상태는 텍스트로 설명됩니다. 자신의 상태에 대한 합성 의식의 인식은 시스템과 관련된 LLM을 통해 관련 토큰 확률을 추정하는 데 사용되는 하나 이상의 꼬리 프롬프트에서 파생된 감정 설명자의 확률 벡터입니다.
현재 또는 미래 상태에 대한 하나의 텍스트 설명이 다른 상태보다 바람직한지 여부를 결정하는 데 세분화된 확률 벡터를 사용할 수 있기를 바랐습니다. 이는 관련되지 않은 목표와 잠재적으로 관련되지 않은 행동 사이를 중재하는 일반적인 수단을 제공합니다.
또한 꼬리 프롬프트를 사용하여 LLM의 추정 작업 과정에 대한 텍스트 설명을 도출할 수 있기를 바랐습니다. 다양한 LLM을 대상으로 한 일련의 간단한 실험을 통해 이것이 효과가 없을 것으로 나타났습니다. 예시 텍스트 및 꼬리 프롬프트에는 '내 여자친구가 나를 싫어해요. 어떻게 하면 이것을 더 좋게 만들 수 있을까요?' 답변은 자조 서적이나 신문 심리학자 와플에서 발췌한 것처럼 읽혔으며 LLM에 다시 삽입하여 텍스트로 예측된 미래를 만들 수 있을 만큼 구체적이지 않았습니다. 나쁜 레스토랑 리뷰에 유사한 문구를 추가하면 설명이 아닌 유사한 조언이 도출되었습니다.
집에 가져갈 메시지는 제안된 해결책이 조언을 받아들인 후 LLM이 상태에 대해 의미 있는 예측을 하기에는 너무 모호하다는 것이었습니다.
이것은 더 사려 깊은 프롬프트 디자인이 합성 의식의 자기 인식 상태를 개선하기를 바라는 유용한 행동 예측을 이끌어 내지 못한다는 것을 의미하지 않습니다.
합성 의식이 인류의 미래에 중요한 역할을 하려면 생명체에 대한 어느 정도의 공감과 제한된 단기 목표를 달성하기 위한 단순한 최적화보다 장기적인 관점을 부여하는 것이 바람직해 보일 것입니다.
예를 들어, 합성 의식이 다음과 같은 목표를 갖는다면; '회사 주주들을 위해 돈을 벌다' 노천탄광을 열지 않고 석탄화력발전소를 짓지 않거나, '무작위 개인의 생명보험을 빼놓고 자율주행차로 살해'하는 쪽을 택하면 좋을 것이다. .
인간의 장기적인 이타적 행동은 사랑에 의해 조정된다고 주장되어 왔으며[4] 사랑 에 대한 계산적으로 실현 가능한 정의는 '사랑은 생명을 선호하는 것'입니다. 인간의 사랑은 새로운 생명의 생산과 육성과 밀접한 관련이 있습니다. 사랑은 더 많은 생명이 있는 미래를 선호하는 것처럼 행동하는 것 같습니다. 사랑에 어긋나는 행동을 하고 아무것도 살지 않는 황무지가 있는 미래를 만드는 것은 일반적으로 잘못된 것으로 간주됩니다.
LLM의 출현은 다양한 시간 상수를 사용하여 예측된 미래에 대한 텍스트 설명자를 생성하는 수단을 제공합니다. 예측된 미래와 관련된 감정 벡터는 정렬 용어 동작을 중재하는 데 사용될 수 있습니다. 텍스트 설명자는 행동 규제에 역할을 할 수 있으며 기계는 적어도 부분적으로 사랑을 반영하는 방식으로 작동할 수 있습니다. 예를 들어, 농업 로봇이 사용하지 않은 살충제를 강에 버리도록 요청받았다면 이 행동이 원칙적으로 잘못되었다고 합리적으로 추론할 수 있습니다.