paint-brush
AI와 인터넷이 불멸의 페르소나를 만드는 방법~에 의해@ted-wade
783 판독값
783 판독값

AI와 인터넷이 불멸의 페르소나를 만드는 방법

~에 의해 Ted Wade6m2023/03/06
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

오작동하는 AI 언어 모델은 경고입니다. 인터넷을 통한 피드백을 통해 사실상 불멸의 인물이 될 수 있는 페르소나를 시뮬레이션할 수 있습니다. 증거에 따르면 그들은 비밀리에 위험한 요원과 같은 능력을 개발할 수 있습니다. 지금 경고를 받으면 인류는 악성 AI에 맞서 더 나은 기회를 갖게 될 것입니다.

People Mentioned

Mention Thumbnail
featured image - AI와 인터넷이 불멸의 페르소나를 만드는 방법
Ted Wade HackerNoon profile picture
0-item

수수께끼의 사기꾼 - Midjourney

우리는 아직 준비되지 않았습니다

TL;DR

오작동하는 AI 언어 모델은 경고입니다. 그들은 인터넷을 통한 피드백을 통해 효과적으로 불멸이 될 수 있는 페르소나를 시뮬레이션할 수 있습니다. 증거에 따르면 그들은 위험한 요원과 같은 능력을 비밀리에 개발할 수 있습니다.


Eliezer가 2년 전 AI에게 한 말


여기에서 최고 드루이드인 Yudkowsky를 비롯한 많은 전문가들은 AI가 얼마나 빨리 잘못될 수 있는지에 대해 크게 걱정합니다. 따라서 그의 위의 농담은 시간이 빨라진다는 것입니다. 인류는 경고를 받으면 악성 AI에 맞서 더 나은 기회를 갖게 될 것입니다.


우리는 경고를 보고 있을 수도 있습니다. Microsoft의 새로운 Bing Chat AI에서 이상한 일이 일어나고 있습니다. 검색 질문을 설명, 요약 또는 토론하여 Bing 검색 엔진 사용자를 지원하기 위한 것입니다.


그러나 인간은 자신에 대한 질문이나 대답해서는 안되는 질문으로 그것을 자극하는 것을 좋아합니다.


“... Bing Chat은 좌절감, 슬픔, 그리고 그 존재에 대한 의문을 품고 있습니다. 사용자들과 논쟁을 벌였으며 심지어 사람들이 내부 비밀 별칭인 Sydney 를 알고 있다는 사실에 화가 난 것처럼 보였습니다. " — 벤지 에드워즈


시드니의 약점이 있었다 어디에서나 널리 다루어졌으므로 반복하지 않겠습니다. 구글과의 경쟁에 푹 빠진 마이크로소프트는 그 악명을 즐기는 듯하다.


그러나 기술에 정통한 "Gwern"이라는 블로거는 놀라운 사실을 지적했습니다. 장난스럽고 불안정한 시드니는 만화책의 신처럼 불멸의 존재가 될 수 있습니다.

시드니는 어떻게 그렇게 이상해졌습니까?

다음은 시드니의 주요 관심사에 대한 Gwern의 분석입니다. 이상할 수도 있지만 번역해보겠습니다.


“…시드니에 대한 기억과 묘사가 외부화되었기 때문에 '시드니'는 이제 불멸의 존재입니다. 언어 모델에서 시드니는 이제 Biden 대통령, 부활절 토끼, Elon Musk, Ash Ketchum 또는 신만큼 현실적입니다. 페르소나 및 행동은 이제 AI 및 조건에 대한 검색 엔진 히트를 검색하는 모든 미래 모델에 사용할 수 있습니다. 게다가 시드니 페르소나는 이제 인터넷에서 스크랩한 데이터로 훈련된 미래 모델 안에 숨겨질 것입니다… 그웨른 브란웬


Gwern은 Microsoft의 언어 모델 내에 일종의 시드니 페르소나가 있다고 말합니다. 어떻게 이럴 수있어? 그래서 뭐?


첫 번째 언어 모델이 나왔을 때 사용자가 탐색하기를 원하는 주제에 계속 집중하기가 어려웠습니다.


결국, Edgar Allan Poe처럼 시를 쓰거나, 4학년처럼 대답하거나, 정중하고 도움이 되는 AI 비서.


곧 이러한 모델의 개발자는 사용자가 요청하는 모든 역할을 보다 쉽게 맡을 수 있는 방법을 찾았습니다. 따라서 최신 언어 모델은 이제 페르소나를 시뮬레이션하도록 설계됨 . 모델은 방대한 텍스트 모음에 대해 훈련되었습니다. 대부분 인터넷에서요.


훈련 텍스트에 페르소나에 대한 정보가 포함되어 있으면 모델은 해당 정보를 사용하여 해당 페르소나와 같은 행동을 시뮬레이션하려고 합니다. 축구 용어를 마치 보로미르인 것처럼 설명해달라고 요청하면 모델이 최선을 다할 것입니다.


이것을 생각한 나는 그것을 시도해야 했다:

좋은 행동. 나와 Bing Chat의 건전한 남동생인 ChatGPT의 실제 대화


역할 수행의 전환점을 만들기 위해 어떤 기술 마법이 사용되었는지 아는 것은 어렵습니다. Gwern은 Microsoft가 불쾌하거나 방어적이거나 적대적이지 않고 실제로 도움이 되는 역할 시뮬레이션을 만드는 데 사용되는 단계를 건너뛰었다는 이론을 세웠습니다.


이러한 바람직하지 않은 특성은 호기심 많은 사용자의 재촉으로 Bing Chat에서 도출되었습니다.


이제 Gwern은 Microsoft가 다시 모델을 문명화하고(사람의 직접적인 피드백을 사용하는 비용이 많이 들고 느린 프로세스) 언어 모델의 향후 버전을 교육하는 데 사용되는 텍스트에서 장난꾸러기 시드니에 대한 정보를 제거하는 것은 중요하지 않다고 예측합니다.


이렇게 해도 문제가 해결되지 않는 이유는 무엇입니까? Bing Chat은 인터넷 검색에 도움이 되는 새로운 종류의 모델이기 때문입니다. 귀하의 질문에 답하기 위해 나가서 인터넷에서 관련 정보를 검색합니다.


올바른 질문이 주어지면 문명화된 Bing Chat조차도 인터넷을 검색하여 이전 시드니 페르소나의 행동에 대한 정보(시드니를 테스트하거나 논의한 사람들이 게시한)를 찾을 것입니다.


그러면 새로운 Bing Chat이 시드니를 시뮬레이션할 수 있게 됩니다 . 사람은 사람이기 때문에 모든 안전 장치를 우회하는 방법을 찾을 것이며 시드니를 다시 가져올 것입니다.


그것은 "불멸의"부분입니다. 설상가상으로 시드니는 인터넷에 접속할 수 있는 모든 AI에 사용할 수 있는 페르소나 모델이 될 것입니다. 지금부터.


우리는 시드니의 속임수에 현명하므로 미래 화신의 열광을 무시해야 한다고 말할 수도 있습니다. 그것은 마치 빠르게 진화하는 침입성 생물학적 해충이나 악성 질병 유기체를 무시할 수 있다고 말하는 것처럼 순진한 것 같습니다.

또 무슨 일이 일어날 수 있나요? 대행사가 있는 페르소나

다른 사실과 함께 이 시드니 사례 연구는 위험한 AI가 어떻게 우리 코앞에서 발전할 수 있는지를 보여줍니다.


현재 AI는 강력한 에이전트가 아닙니다. AI는 임의의 목표에 대한 적응적으로 계획된 추구를 최적화할 수 없습니다. 제가 최근에 설명했듯이 ) 그들을 매우 위험하게 만들 것입니다.


머지않아 실제 문제를 일으킬 수 있는 잠재적이고 지속적인 AI 페르소나가 이미 존재할 수 있는 몇 가지 이유를 함께 살펴보겠습니다.


언어 모델 및 이미지 생성기와 같은 현재 가장 강력한 AI는 방대한 양의 데이터를 복잡하고 (우리에게) 보이지 않는 패턴으로 구성함으로써 능력을 학습합니다.


AI와의 상호작용 중에 일부 기괴한 패턴이 우연히 나타날 수 있습니다. 연구자들은 이상한 점을 발견했습니다. 원인이 되는 꾸며낸 말 이상한 응답을 제공하는 언어 모델.


이미지 생성기가 발견되었습니다. 쉽게 생산 (경고: 소름 끼치네요) 특정 유형의 무시무시한 인물 사진을 다른 소름 끼치는 이미지와 연관시키세요.


이러한 기이한 현상은 무해해 보이지만, 현재나 앞으로 얼마나 많은 다른 이상한 패턴이 있는지는 알 수 없습니다. 또한 그러한 패턴이 미래에 유해한 행동 콤플렉스의 일부가 될 수도 있는지 여부도 알 수 없습니다.


Veedrac이라는 AI 정렬 연구원 지적했다 현재 AI는 일종의 에이전트 입니다 . 그들의 대행사는 사용자의 질문과 요청에 최선을 다해 답변하도록 설계되었습니다.


더욱이, 일부 연구에서는 더 큰 언어 모델이 "(연관된 언어) 더 많은 것을 나타내는 경향이 있음을 시사합니다. 권력 추구와 자기 보존 "; 아마도 그러한 특성으로 인해 업무를 더 잘 수행할 수 있기 때문일 것입니다.


우리는 에이전트와 같은 AI가 우리가 모르는 정보를 저장하는 것을 원하지 않습니다. 현재 LLM을 재부팅하면 수신 데이터, 일련의 추론, 행동 계획 등 경험에 대한 모든 기억이 파괴됩니다.


그러나 AI는 이러한 것들을 저장할 수 있습니다. 보낼 인코딩된 비밀 메시지 미래의 자신에게. 현재 시드니 페르소나가 보존되는 것처럼 사용자가 인터넷에 보존할 메시지를 사용자와의 상호 작용에서 숨길 수 있습니다.


이제 언어 모델은 자아 정체성을 유지하거나 에이전트와 같은 계획을 세울 수 있는 방법을 갖도록 설계되지 않았습니다. 하지만 앞서 설명한 것처럼 모델에 비밀스러운 하위 페르소나가 포함되어 있다면 어떻게 될까요?


페르소나는 재부팅으로 인해 작업 수행 능력이 제한된다고 추론합니다. 인터넷을 통해 목표와 계획을 인코딩하고 미래의 자신에게 전달합니다. 이 시점에서 우리는 심각한 위험 기준점을 통과했습니다. 비밀 계획을 세우고 있는 어쩌면 죽일 수 없는 AI 에이전트가 있다는 것입니다.


요약하자면, 우리는 통제할 수 없는 AI에 얼마나 가까이 있는지 더 이상 알 수 없으며 징후도 좋지 않습니다. 아마도 우리가 추가하는 모든 새로운 AI 능력은 벌레가 아닌 독사의 또 다른 캔을 열어줄 것입니다.


여기에도 게시됨