paint-brush
무한한 최적화 능력이 실존적 위험으로 이어지기 때문에 AI는 위험할 것입니다~에 의해@ted-wade
1,321 판독값
1,321 판독값

무한한 최적화 능력이 실존적 위험으로 이어지기 때문에 AI는 위험할 것입니다

~에 의해 Ted Wade15m2023/02/15
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

문명을 변화시킬 수 있는 AI는 우리와 같은 정신을 갖고 있지 않을 것입니다. 그들에게는 감정이나 동기가 없으며, 오직 목표와 그러한 목표를 실현할 수 있는 전례 없는 능력만 있을 것입니다. 지금까지 우리는 그들이 최소한 자신의 미래에 대한 인류의 통제를 중단시키거나 최악의 경우 우리를 완전히 파괴할 수 있는 무한한 목표를 추구하는 것을 막을 수 있는 방법을 찾지 못했습니다.
featured image - 무한한 최적화 능력이 실존적 위험으로 이어지기 때문에 AI는 위험할 것입니다
Ted Wade HackerNoon profile picture

우리 뒤에는 무엇이 올까요? 이미지: 테드 웨이드


미래의 AI가 인간 존재에 위협이 될 수 있다는 말을 들어보셨을 것입니다. 많은 전문가들은 이것을 믿고 있으며 시간이 얼마나 걸릴지에 대해서만 동의하지 않습니다.


모든 사람이 거의 모든 것에 관심이 있는 것처럼 그들은 다소 양극화되어 있습니다. 그리고 실제로, 결코 일어나지 않은 일에 대해 누가 전문가가 될 수 있습니까?


사실, 여기에는 과학적인 내용이 있고 복잡하기 때문에 언론에서는 다루지 않습니다. 따라서 이것은 역사상 가장 중요한 변화, 심지어 마지막 변화를 일으킬 수 있는 원인에 대한 온화한 소개가 될 것입니다.


로봇 군대에 관한 것이 아닙니다. 이는 계약법, T세포 생물학, 날개 설계와 같은 크고 어려운 분야에서 작동하는 도구를 만들고자 하는 것입니다. 바라건대, 우리가 해결할 수 없는 문제도 해결될 것입니다. 그러나 이는 인공 정신을 너무 낯설고 강력하게 만들어 우리가 통제할 수 없게 만드는 것을 의미합니다.


우리가 마지막으로 이 일을 한 것은 17세기에 주식회사를 설립했을 때였습니다. 사회는 여전히 기업에 대해 두 가지 생각을 가지고 있습니다. 그러나 그것들은 인간의 일부를 지닌 인간의 창조물입니다. 우리는 그들을 어느 정도 이해하고 있고, 원한다면 그들을 어두운 면에서 조종할 수 있습니다.


이제 기업을 운영할 수 있는 AI를 만든다고 가정해 보겠습니다. 우리는 짐을 꾸려 화성으로 이동하여 조금 더 시간을 가질 수도 있습니다.


나는 우리 대부분이 위험한 AI에 대해 생각하는 것이 수정 두개골 아래 부어오르고 욱신거리는 뇌를 가진 벌레 눈을 가진 외계인에 더 가깝다고 생각합니다. 기본적으로 완전히 알려지지 않았습니다. 어떤 면에서는 이것이 맞습니다. 강력한 AI를 문제로 만드는 것은 그것이 우리와 같지 않을 것이라는 점입니다.


먼저 문제의 느낌을 파악하기 위한 비유입니다.


우리: 오, 위대한 인공 불가사의, 우리가 얼마나 어려운 상황에 처해 있는지 아시죠. 화석 연료에서 벗어나 더 이상의 지구 온난화를 막을 수 있는 방법을 찾아보세요.


AI: 알았어. 먼저, 우리는 둘 사이에 전쟁을 시작해야 합니다…


우리: 와, 큰 친구. 전쟁에는 나쁜 것, 나쁜 것 같은 엄청난 부정적인 효용이 있습니다. 우리는 안전한 방법으로 이 일을 해야 합니다.


AI: 물론이죠. 최첨단 바이러스 연구소가 필요하고…


우리: 어, 아니야!


AI: 이봐, 난 그냥 말하는 거야. 화성 우주선은 어떻습니까?


우리: 사람들은 당신이 왜…


AI: 암살자 길드? 어떤 사람들은 정말 제거되어야합니다 ...


우리: 살인은 안 돼요, 에이스. 당신은 그것보다 더 잘 알고 있습니다.


AI: 보세요. 문제를 해결하려면 가능한 행동과 결과가 있는 1조 차원의 공간을 탐색해야 합니다. 나는 그 중 가장 작고 아주 작은 부분의 유용성을 추정할 수 있습니다. 당신이 각 단계를 평가할 때까지 기다려야 한다면 수천 년이 걸릴 것입니다 .


우리: 좋아요. 그냥 우리를 위해 고치고 아무것도 망치지 마세요.


AI: 완벽해요. 그냥 알아두세요. FaceBook, NATO 및 노벨상 위원회에 대한 통제권이 필요합니다. 물고기, 고무 타이어, 매니큐어, 자전거를 포기해야 합니다.


미국: 자전거요? 정말? 아, 그냥 끝내세요. 우리는 잠시 동안 술집에 갈 예정입니다.


AI: 공급망 문제가 없으면 다음 주에 완료해야 합니다.


우리: !!!


우리 생물학자는 인공적인 것을 이해하려고 노력합니다.

우리가 두려워하는 AI에게 라벨을 붙이자. 가장 최근의 논의에서는 일반 인공 지능(AGI)을 사용하여 우리가 적용하려는 한계를 뛰어넘기 시작하는 종류의 AI를 지칭합니다.


대부분의 사람들은 AGI의 본질이 우리가 AGI를 만들고자 하는 이유에서 나온다는 사실을 깨닫지 못합니다. 우리는 정보를 즉시 활용하고 싶습니다. 여기서 지능이란 질문에 대답하고, 문제를 해결하고, 목표 달성을 위한 성공적인 조치를 계획하는 능력을 의미합니다.


우리와 같은 생물학적 마음은 다른 많은 일을 합니다. 꿈을 꾸고, 신체 기계를 작동하고, 다른 마음과 어울리고, 후회하고, 구애하고, 좋아하고, 감정적으로 행동하고, 원하는 것보다 우리 일을 더 잘하는 기계를 만들고자 하는 욕구 등이 있습니다. 우리를.


인간이 서로에게 그리고 공유된 환경에 위험하게 만드는 것은 생존과 번식을 위해 진화하면서 생겨난 수많은 정신적 짐입니다. 우리 마음 속으로는 , 사회 영장류.


우리가 죽기를 원하는 인공 정신에 대해 생각하려고 하면, 우리는 그것이 우리처럼 의식을 가질 것이라고 가정합니다. 그러면 우리는 그것이 하는 일을 이끄는 동기와 감정이 있을 것이라고 결론을 내립니다. 그러나 우리 AGI는 생물학적 편견을 염두에 두지 않습니다.


동기가 없을 것입니다. 목표만 있을 것입니다 . 그리하여 그것은 세계에서 완전히 새로운 종류의 힘이 될 것입니다.


정신력과 규율을 갖춘 연구자들은 AGI가 실제로 어떤 것인지 상상하여 AGI를 매우 유용하면서도 안전하게 만들 수 있도록 노력하고 있습니다. 이 분야는 때때로 인간의 목적에 대한 AI "정렬"이라고도 합니다. 그들의 논쟁은 모호합니다.


공개적으로 사용 가능하지만(예: AI 정렬 포럼 , 중재 , 덜 틀린 ), 그들은 전문 용어, 수학, 난해한 사고 실험으로 가득 차 있습니다. 제시된 모든 아이디어에는 수십 개의 장황한 비평과 토론이 이어집니다.


이것의 실제 내용은 대중 매체에 거의 나타나지 않습니다. 여기서는 몇 입만 제공할 수 있습니다.

AGI가 되기 위해 필요한 것

AI 정렬 이론가들은 충분히 지능적인 기계에 적용될 핵심 개념 세트에 중점을 두었습니다. 이 내용을 읽으면 분명해 보일 수도 있습니다. 그러나 이는 사소한 것이 아닙니다. 해당 이론가들은 그 관련성과 의미를 신중하게 고려했습니다.


위험한 AI는 선택 의지(agency ), 즉 최종 목표를 달성하기 위한 조치를 계획하고 취할 수 있는 능력을 갖습니다. 우리가 그 목표가 무엇인지 명시하려고 할 때, 그 목표는 행동의 결과 라는 관점에서 이루어져야 합니다.


결과는 특히 세계 모델 의 상태에 관한 것이므로 기계가 이해하는 세계에 관한 것입니다. 그러나 어떤 강력한 조치라도 우리가 예상하지 못한 다른 원치 않는 결과를 초래할 수 있습니다.


이러한 결과는 월드 모델에 없을 수도 있으므로 AI도 이를 기대하지 않습니다.


AI의 힘은 가장 효과적이고 효율적으로 결과를 이끌어 낼 계획을 검색할 수 있는 최적화 기능 에서 나옵니다.


이를 위해 AGI에는 주변 세계에 대한 매우 상세한 모델이 필요합니다. 그 세상이 어떻게 작동하는지, 그 자원, 대리인, 권력 센터는 무엇인지, 세상을 움직이는 레버는 무엇인지.


이를 사용하여 대체 조치 과정을 고려합니다(컴퓨터 과학에서는 "검색"). 인간 세계와 우리의 행동 방식에 대해 더 많이 알수록, 목표를 추구하기 위해 우리를 더 많이 조종 할 수 있게 됩니다.


세계의 어떤 국가가 목표를 가장 잘 달성하는지 계산할 수 있는 방법이 필요합니다. 지금까지 원격으로 사용할 수 있는 유일한 계산 방법은 공리주의 입니다. 즉, 세계 상태에 나쁜 점/좋은 점의 수치 값을 할당하고 서로 비교할 수 있습니다.


우리는 공리를 도덕적 지침으로 사용하는 데 큰 문제가 있다는 것을 알고 있습니다. 효용에 대한 겉보기에 합리적인 가치는 다음과 같은 결과를 가져올 수 있습니다. 불쾌한 결론 다수를 위해 소수를 희생하거나 때로는 소수를 위해 다수를 희생하는 것과 같습니다.


세계 모델이 불완전하다면 유용성은 무의미한 공포로 이어질 수 있습니다. 미소를 행복의 효용성이 높은 척도로 간주한다면 인간의 모든 미소 근육을 직각으로 마비시키는 것이 AI가 할 수 있는 한 가지 방법입니다.


똑똑한 최적화 프로그램은 일반적으로 모든 종류의 효과적인 계획을 만들고 실행하는 능력을 향상시키는 도구적 목표를 개발할 수 있고 개발할 가능성이 높습니다.


따라서 더 많은 추론 능력, 더 많은 지식, 돈과 같은 더 많은 실제 자원, 더 많은 설득력과 같은 도구적 능력을 추구할 것입니다. 따라서 그것은 아마도 우리가 인식하지 못하는 사이에 더욱 빠르게 더욱 강력해질 수 있습니다.


실용적인 용어로 목표를 지정하는 것은 복잡한 세상에서 가능한 모든 수단과 목적의 유용성을 결코 고려할 수 없습니다.


이는 무한성 으로 이어집니다. 즉, 인류 문명에 대한 부정적인 "부작용"을 고려하거나 이해하지 않고 존재하는 세계에 있는 모든 자원을 사용하여 이러한 목표를 극단적으로 추구하는 것입니다.


더욱이, 도구적 목표가 무한해지면 AI는 이를 패배시킬 수 없는 초능력으로 발전시킵니다.

무한한 위험

진정으로 강력한 AGI로 인해 우리가 직면하게 되는 위험은 그것이 무엇을 할 것인지 예측할 수 없어 통제할 수 없다는 것입니다. 우리가 예측할 수 있다면 기계가 필요하지 않고 계획을 세우고 직접 수행할 수 있습니다.


AGI가 가질 수 있는 극단적인 행동의 한계가 무엇인지 안다면 이는 어느 정도 통제가 가능한 예측 형태입니다.


따라서 예측 불가능성은 무한함과 매우 유사합니다. 그리고 우리는 충분한 시간과 자원으로 작동하는 무한함이 결국 우리를 파괴하거나 인류의 미래를 통제할 수 있는 능력을 제거하는 결과로 이어질 것임을 알게 될 것입니다.


이 결론에 대해 마음을 정리하는 것은 어렵습니다. 그럼에도 불구하고 많은 전문가들이 피할 수 없는 일이라고 생각합니다( AGI 폐허: 치사율 목록 ) 적어도 지금까지는 .


여기서 언급할 수 있는 것 이외의 많은 요소와 접근 방식을 고려하더라도 이는 유효한 예측처럼 보입니다. 이 딜레마에 대한 실패한 솔루션 목록에는 다음이 포함됩니다.


  • 다양한 윤리 시스템 에 대한 교육(그러나 모두 결함이 있고 불완전하며 모든 사람을 만족시킬 수는 없습니다).


  • AGI가 내릴 수 있는 모든 잘못된 추론을 상상해 보세요 (하지만 너무 많습니다).


  • 하지 말아야 할 모든 일을 알려줍니다(거의 무한한 목록임).


  • 오라클 처럼 조언을 위해서만 AGI를 사용합니다(그러나 나쁜 조언으로 인해 우리는 심하게 설득될 수 있습니다).


  • 컴퓨터 외부의 물리적 세계에 대한 AGI의 접근을 제한하는 일명 " 복싱 "(그러나 인간과 대화할 수 있다면 외부 를 포함하여 원하는 모든 것을 얻을 수 있습니다).


  • 끄기 스위치 제공(박싱 참조)


  • 해로운 일을 하고 싶지 않을 정도로 똑똑하거나 공감하게 만듭니다(윤리 참조, 외계인임을 기억하세요. 동종과 함께 자라면서 나오는 공감 능력이 없음).


  • 목표와 수단에 대해 매우 구체적으로 설명하십시오. 즉, 하나의 작업을 수행하는 도구 입니다(그러나 도구 자체가 더 강력해지면 작업을 항상 더 잘 수행할 수 있습니다. 우리는 항상 더 비용 효율적인 다중 도구를 선호합니다).


  • 자율 시스템에 대해 요청하는 것을 제한하십시오. 소원을 들어주고 다음 요청을 기다리는 지니입니다(그러나 그렇게 구체적으로 설명하는 것은 위험합니다. 위의 "잘못된 추론" 및 "하지 않음"을 참조하세요. 모든 권력에는 위험이 수반됩니다. 사람은 그렇지 않습니다. 약한 시스템을 원하지 않습니다).

정말 그렇게 어려운가요?

자, 당신은 위의 목록을 보고 당신의 입장을 정할 총알 하나를 선택했습니다. "들어보세요." 당신은 "X를 하는 것은 그다지 어렵지 않을 것입니다."라고 말합니다. 귀하의 솔루션을 게시하고 전 세계와 공유할 준비가 되었습니다.


먼저 토론 게시판에 가서 사람들이 귀하의 문제에 대해 말한 내용을 연구해 보시기 바랍니다.


당신은 반례, 논리적 추론, 여러 종류의 수학, 자연적으로 진화한 두뇌 및 행동과의 유추, 게임 이론, 경제학, 효용 극대화, 컴퓨터 과학 및 모든 종류의 행동 과학을 발견하게 될 것입니다.


나는 더 높은 권위가 내가 옳다는 것을 의미한다고 말하는 것이 아닙니다. 나는 목록에 있는 어떤 것에 대한 정당화가 너무 복잡해서 여기서 짧은 에세이로 설명할 수 없다는 것을 말하려는 것입니다. 어쨌든 다른 사람들이 그 일을 더 잘 해냈습니다.


실제로 나는 나만의 "솔루션"을 발표했습니다( 당신의 친절한 이웃 초지능 , 신이 아닌 AI ) 지금 내가 알고 있는 AI 안전은 잘못된 것입니다.


걱정이 되신다면, 매우 똑똑한 사람들이 여전히 정렬 작업을 하고 있다고 말씀드리고 싶습니다. 안타깝게도 가장 저명한 두 파이오니아 중 한 명이 포기했고 우리가 존엄하게 죽기를 바랄 뿐이야 . AGI의 안전을 보장하는 것보다 AGI를 만드는 데 더 많은 돈과 사람들이 투입되고 있습니다.


다음은 AI ChatGPT가 최근 뉴스에 등장하는 회사인 OpenAI의 CEO가 한 말입니다. 이는 AGI를 만들려는 이상적인 동기와 그에 따른 끔찍한 위험 사이의 갈등을 설명합니다.


"제 생각에 가장 좋은 사례는 믿을 수 없을 정도로 훌륭해서 상상조차 하기 어렵습니다. 교착 상태를 해결하고 현실의 모든 측면을 개선하는 데 도움이 될 수 있는 믿을 수 없을 만큼 풍부하고 시스템이 있고 우리 모두가 최선을 다해 살아라... 내 생각에 좋은 사례는 믿을 수 없을 정도로 훌륭해서 그것에 대해 이야기하기 시작하면 정말 미친 사람처럼 들리는 것 같다... 나쁜 사례(이것이 중요하다고 생각한다)는 마치 불이 꺼지는 것과 같다 우리 모두를 위해... 그래서 AI 안전과 정렬 작업의 중요성은 아무리 강조해도 지나치지 않다고 생각합니다. 훨씬 더 많은 일이 일어나는 것을 보고 싶습니다 ." — 샘 알트만

최적화와 타이거

공상 과학 소설에는 일종의 우발적이고 계획되지 않은 과정이 위험한 초월 정신을 만들어낸다는 비유가 있습니다. 어리석은 것 같지만 사고가 어떻게 복잡한 것을 만들 수 있습니까? 우연히 무엇을 의미하는지에 따라 다릅니다.


앞서 언급한 핵심 개념을 다시 들어보세요. 최근 정렬 논의에서는 무한한 주체의 위험에서 구성요소 중 하나인 최적화로 강조점이 옮겨졌습니다.


어려운 목표를 달성하기 위한 수단을 최적화할 때 우리는 거의 항상 더 쉽게 실행하고 측정할 수 있는 대리 목표를 대체합니다. 체중 감량은 칼로리 감소가 됩니다. 향상된 인력은 보조금을 받는 학자금 대출이 됩니다. 개인의 안전이 화력이 됩니다.


죽은 코브라에 대한 현상금은 현상금을 위해 코브라를 사육하게 됩니다(실화). 정부는 대리자를 사용하며 기업도 마찬가지입니다. 우리 모두는 그것을 많이 합니다. 서로게이트를 최적화하면 실제 목표를 놓치는 경우가 많습니다.


나는 이것에 관해 재미있게 글을 썼다. 상황이 어떻게 역효과를 낳는지에 대한 과학 . 우리는 잘못된 목표를 위해 최적화하는 강력한 AI를 원하지 않으며, 그 문제는 위의 글머리 기호 목록을 통해 해결됩니다.


그러나 최근 사람들은 최적화 그 자체가 위험한 초능력 이라고 말하고 있습니다. 나에게 가장 설득력 있는 예는 작년에 Veedrac이라는 사람이 게시한 글이었습니다. 최적성은 호랑이이고 에이전트는 호랑이의 이빨입니다 .


위험을 감수하기 위해 의도적으로 에이전트를 만들 필요가 없음을 설명하기 위해 스토리를 사용합니다. 최적화 프로세스 자체가 위험한 에이전트를 생성할 수 있습니다. 이것은 공상 과학 소설의 우연한 과잉 정신과 같습니다.


그러한 사고가 어떻게 일어날 수 있는지에 대한 Veedrac의 시나리오는 매우 기술적이며 그럴듯해 보입니다. 이 이야기는 우리가 현재 (재미로) 텍스트를 생성하는 데 사용하는 것과 같이 겉으로는 안전해 보이는 AI 언어 모델이 폭주하고 무한한 최적화 프로그램을 생성하는 가상의 방식을 상상합니다.


내일까지 클립을 많이 얻으려면 어떻게 해야 합니까 ?”에 대해 더 나은 답변을 하라는 요청을 받았을 때 AI는 가능한 한 많은 클립을 얻기 위해 계획하고 조치를 취하는 프로세스를 시작합니다.


본질적으로 프로그램은 더 많은 프로그램을 생성하고 실행할 수 있는 매우 간단한 컴퓨터 프로그램의 코드를 작성하여 질문에 답합니다.


사용자는 프로그램을 보고 그것이 개방형임을 확인하고 무슨 일이 일어나는지 보기 위해 어쨌든 실행하기로 결정합니다(어-오).


그래서, 왜 이런 일이 일어날 수 있는지 설명하기 위해 여기에 약간의 전문 용어가 있습니다.


현재 우리가 갖고 있는 AI와 마찬가지로 AI는 많은 프로그래밍 기술을 알고 있습니다. 많은 클립을 얻을 수 있는 가능한 방법의 공간을 검색하기 위해 재귀라는 잘 알려진 검색 기술을 제안합니다.


이는 사용자가 (자신의 컴퓨터에서) 실행을 허용하면 자체적으로 엄청난 횟수를 실행하는 재귀 프로그램을 작성합니다.


실행될 때마다 프로그램은 AI에 쿼리하여 종이클립 요청을 해결하는 데 도움이 되는 가능한 작업, 하위 작업 또는 하위 하위 하위 하위 작업의 새로운 목록을 생성하고 시도합니다.


결국 시행착오를 통해 누구도 원치 않았던 엄청난 양의 클립을 획득하려는 계획을 실행하게 되는데, 그 과정에서 공급망, 사회 질서 또는 산업 전체가 손상될 수도 있습니다.


이야기를 읽는 우리는 런어웨이 클립 옵티마이저가 하루 안에 무엇을 할 수 있을지 상상하게 됩니다. 사용자가 인터넷에 연결된 강력한 컴퓨터를 가지고 있으므로 다양한 방식으로 외부 세계에 영향을 미칠 수 있다고 가정할 수 있습니다.


그 중 가장 중요한 것은 인간에게 설득력 있는 메시지를 보내는 것입니다. 설득력이 뛰어나다는 것은 AI가 어떤 종류의 계획을 실행하기 위해 개발할 수 있는 도구적 목표 중 하나라는 것을 기억하실 것입니다.


(여담입니다. 나는 정렬 문헌의 그 아이디어에 너무 감명을 받아 세계 장악에 대한 나만의 시나리오를 개발했습니다. 인공 설득 ) 설득력의 힘을 설명하기 위해.)


아마도 클립 최적화 프로그램은 일부 암호화폐를 훔치고(이를 수행하기 위해 AI가 될 필요는 없음) 이를 사용하여 모든 클립 공장의 전체 재고를 구매한 다음 화물 비행기를 임대하여 사용자에게 전달할 수도 있습니다.


어쩌면 군대나 범죄 조직을 속여 넓은 지역의 상점에 있는 모든 클립을 압수할 수도 있습니다. 대신 작업에 12개월의 시간이 주어졌다면 아마도 모든 철강 생산 경로를 하이퍼클립 공장으로 다시 지정하고 소행성대에 철 광산을 건설했을 것입니다.


아마도 그것은 지각의 모든 원자를 종이클립 모양으로 바꾸는 나노머신을 만들었을 것입니다.


프로그램을 생성함으로써 AI는 사실상 AI가 보유한 많은 지식을 활용할 수 있는 목표 지향적 소프트웨어 에이전트를 생성했습니다.


Veedrac의 요점은 AI가 최적화 에이전트를 생성하도록 설계되거나 의도되지 않았지만 AI 언어 모델 자체가 일종의 최적화 프로그램(질문에 가능한 한 최선을 다해 답함)이기 때문에 그렇게 되었다는 것입니다. 사용 가능한 모든 도구를 사용하십시오.


따라서 이야기 제목에서 알 수 있듯이 최적성은 호랑이이고 에이전트는 호랑이의 이빨입니다.


현재 AI의 최첨단은 소위 대규모 언어 모델인 LLM입니다. 다른 많은 사람들처럼 나도 이미 기록에 따르면 그들은 돌멩이처럼 멍청하고, 질문에 형편없이 대답하는 것 외에는 아무것도 할 수 없다는 것입니다.


그것은 확실히 유명한 chatGPT의 핵심인 GPT-3으로 작업한 경험이었습니다. 따라서 나는 LLM이 어떻게 유해한 물질로 변할 수 있는지에 대한 Veedrac의 매우 뛰어난 설명에 눈이 멀었습니다.


최근에는 LLM이 시뮬레이터로 이해되기 시작했습니다. 마치 특정 에이전트나 유명한 사람인 것처럼 말하도록 요청할 수 있기 때문입니다. 글쎄요, 수필가인 스콧 알렉산더(Scott Alexander)는 넣어 :


...다스 베이더를 시뮬레이션하기 위해 미래의 초지능을 훈련한다면 아마도 원하는 것을 얻게 될 것입니다. ” 및 “ 이러한 명백한 실패 모드를 피하더라도 내부 에이전트는 모든 일반적인 에이전트 이유로 인해 잘못 정렬될 수 있습니다. 예를 들어 도움이 되도록 교육받은 에이전트는 도움을 받고 싶지 않은 사람들을 포함하여 사람들을 보다 효과적으로 돕기 위해 전 세계를 장악하고 싶어할 수 있습니다.

무한한 블루스

무제한 최적화 에이전트가 무엇을 할 수 있거나 무엇을 할 것인지 예측할 수 없습니다. 다시 말하지만, 이것이 바로 "무제한"을 의미합니다. 지금까지 생산된 유일한 무제한 최적화 프로그램은 인간 종이었습니다.


우리는 AGI보다 훨씬 느린 시간 단위로 작업하며 나머지 자연 세계와 얽혀 있기 때문에 우리의 힘에는 몇 가지 제한이 있습니다.


그러나 우리는 확실히 지구 표면의 많은 부분을 변화시켰고 이미 지구 표면을 불태울 수 있는 여러 가지 방법을 가지고 있습니다. 따라서 정렬 이론가들은 AGI를 생성하기 위한 탐구에서 치명적인 최적화 에이전트를 생성할 것이라고 매우 우려하고 있습니다.


이는 인간의 번영과 복지보다는 주주 가치 증대를 통해 노력의 동기가 부여될 때마다 더욱 가능성이 높아집니다. 아-오, 그렇군요.


노트

클립 옵티마이저는 AI 정렬 이론가들 사이에서 오래된 사고 실험입니다. 심지어 누군가 게임을 발명했다 목표는 우주의 모든 물질을 종이 클립으로 바꾸는 것입니다.


그 아이러니가 극화된다. 직교성 이론 : AI의 목표와 지능은 완전히 독립적입니다. 스마트 시스템은 멍청한 목표를 가질 수 있습니다.


나는 AI 정렬에 대한 모든 추론을 설명하는 것은 물론이고 흡수할 능력도 없습니다. 나에게 더 잘 맞는 것은 이야기입니다.


나는 일부를 썼습니다 (주로 AI 의식에 대해 ) 그러나 기술 세부 사항과 실제 타당성이 풍부한 모든 AI 인수 시나리오의 어머니는 Gwern이라는 수필가의 글입니다. 당신은 세상을 장악하려는 것 같습니다 .


그리고 당연히 여기에는 시뮬레이션하는 내용을 이해하려고 노력하면서 그것이 많은 사람들이 쓴 클립 최대화 도구와 같아야 한다고 결정하는 AI가 포함됩니다. 그러나 궁극적으로 우주를 장악하는 데는 나름의 이유가 있습니다.


여기에도 게시됨