paint-brush
AI 안전 및 정렬: LLM이 딥페이크 및 잘못된 정보로 인해 처벌을 받을 수 있습니까?~에 의해@davidstephen
896 판독값
896 판독값

AI 안전 및 정렬: LLM이 딥페이크 및 잘못된 정보로 인해 처벌을 받을 수 있습니까?

~에 의해 David Stephen5m2024/07/24
Read on Terminal Reader

너무 오래; 읽다

AI 안전 및 정렬에 대한 연구 영역은 생물학적 위협을 포함하여 특정 출력 또는 오용에 대한 처벌의 한 형태로 대규모 언어 모델(LLM)의 일부 메모리 또는 컴퓨팅 액세스가 어떻게 간략하게 잘릴 수 있는지 찾는 것입니다. AI는 가드레일 내에서 작동하여 출력을 거부할 수 있을 뿐만 아니라 해당 사용자에 대한 다음 응답을 늦추거나 종료하여 자체적으로 불이익을 받지 않도록 해야 합니다. LLM은 대규모 언어 인식 및 사용 인식을 갖추고 있으며 사전 교육을 받은 후 딥페이크, 잘못된 정보, 생물학적 위협을 출력하거나 오용자가 계속해서 다른 시도를 허용하는 경우 무언가를 잃을 수 있음을 알려주는 채널이 될 수 있습니다. 악의적인 의도로 인해 시스템을 종료하거나 속도를 늦추지 않고 메시지를 표시합니다. 이렇게 하면 무언가를 잃어버리고 그 사실을 알게 되므로 더 안전하게 만들 수 있습니다.  
featured image - AI 안전 및 정렬: LLM이 딥페이크 및 잘못된 정보로 인해 처벌을 받을 수 있습니까?
David Stephen HackerNoon profile picture
0-item

서식지 전반에 걸쳐 여러 종 유형의 유기체는 행동에 대한 결과가 있다는 것을 이해하게 됩니다. 그들은 단지 예를 통해서가 아니라 자기 경험을 통해서 그렇게 합니다. 이러한 결과는 부분적으로 서식지의 균형을 이루는 요인에 추가됩니다.


결과는 일반적으로 지능을 길들입니다. 지능은 흥분성으로 설명될 수 있지만 결과는 억제성으로 설명될 수 있습니다. 결과가 없는 지능은 파멸을 초래할 수 있으며 급속히 서식지 붕괴와 생존으로 이어질 수 있습니다.


결과에는 정서(감정, 느낌 또는 변형)가 포함될 수 있습니다. 여기에는 신체적 제한, 제한 및 종의 반란이 포함될 수도 있습니다. 지능은 유기체에게 충분히 역동적이지만, 결과의 필요성은 자신이나 타인에 대한 해로움을 확인합니다. 또한 결과가 운송업체에 돌아갈 수 있으므로 심부름으로 인한 피해도 확인합니다.


유기체는 포식자[소비 상실]와 먹이[존재 상실]를 포함한 결과 때문에 높은 정밀도와 주의를 나타내는 경우가 많습니다. 그러나 다른 유기체에 대한 결과가 느슨하지만 인간에게는 그렇지 않은 여러 영역이 있습니다.


인간 사회는 결과가 무수히 많습니다. 언어, 지식, 기술, 이성, 분석 등을 포함한 인간의 고급 지능은 발전에 필수적이지만 위험, 위협 및 손실을 포함한 다양한 범주의 결과 없이 널리 잘못 적용될 수 있습니다.


인간 사회의 일부로 남아 있기 위해서는 다른 일이 있더라도 결코 잊어서는 안 되는 결과가 있습니다. 인간 사회에는 결과를 먼저 잊어버리는 사람이 패배하는 시나리오가 많이 있습니다. 연구와 탐구를 통한 발전을 위한 인간의 탐구는 기대 수명, 유아 생존 등 상황이 지속된다면 무엇을 해야 할지 피해야 할지 알기 위해 결과를 찾는 것으로 설명될 수도 있습니다. 결과에 대한 지능은 여러 결과에 대해 피험자의 지능보다 거의 더 중요합니다. 결과는 좋든 나쁘든 지능을 날카롭게 할 수도 있습니다. 지능은 결과를 찾거나 피하기 위해 적용될 때 때때로 가장 가치가 있습니다. 결과와 의도는 일부 정신 상태의 핵심입니다. 세상이 발전함에 따라 새로운 결과가 계속해서 나타나고 있습니다.

AI, AGI 또는 ASI


자연에는 결과 없이는 지능을 가질 수 없다는 규칙이 있는데, 그 규칙은 어떻게든 이루어졌습니다. 지금까지 인공지능(AI)은 이 규칙을 깨뜨렸습니다. 디지털 메모리에 연결하면 아무것도 잊지 않지만 현재로서는 부정적인 출력의 결과를 견딜 수 있는 방법이 없습니다. AI의 경우, 어떤 상황에서는 신중하지 않으면 때로는 갑작스럽고 파괴적인 결과가 나타날 수 있는 유기체와는 달리 두려워할 것도 없고 잃을 것도 없습니다. 인간은 주제 전반에 걸쳐 사용할 수 있는 모든 지식을 갖고 있지 않지만 결과는 엄청날 수 있습니다. AI는 지능을 보유하거나 제공할 수 있지만 이에 대한 결과는 전혀 없습니다.


AI에는 감정이나 느낌이 없지만 기억력은 있습니다.


AI 안전 및 정렬에 대한 연구 영역은 생물학적 위협을 포함하여 특정 출력 또는 오용에 대한 처벌의 한 형태로 대규모 언어 모델(LLM)의 일부 메모리 또는 컴퓨팅 액세스가 어떻게 간략하게 잘릴 수 있는지 찾는 것입니다. AI는 가드레일 내에서 작동하여 출력을 거부할 수 있을 뿐만 아니라 해당 사용자에 대한 다음 응답을 늦추거나 종료하여 자체적으로 불이익을 받지 않도록 해야 합니다. LLM은 대규모 언어 인식 및 사용 인식을 갖추고 있으며 사전 교육을 받은 후 딥페이크, 잘못된 정보, 생물학적 위협을 출력하거나 오용자가 계속해서 다른 시도를 허용하는 경우 무언가를 잃을 수 있음을 알려주는 채널이 될 수 있습니다. 악의적인 의도로 인해 시스템을 종료하거나 속도를 늦추지 않고 메시지를 표시합니다. 이렇게 하면 무언가를 잃어버리고 그 사실을 알게 되므로 더 안전하게 만들 수 있습니다.


AI는 에어컨, 엘리베이터, 식기 세척기, 스마트폰 등 인간이 전적으로 통제하는 사물이 아니다. AI는 인간의 원래 입력을 벗어난 새로운 방식으로 지능적인 정보를 제공할 수 있는 자기 지능이라고 할 수 있는 기능을 갖추고 있습니다. 텍스트, 이미지, 오디오, 비디오 등 다양한 방식의 자기 지능은 선한 목적이나 왜곡된 목적에 유용할 수 있습니다. 좋을 때는 좋습니다. 그렇지 않으면 아무것도 느낄 수 없는 AI가 인류사회를 잠식해 그 영향을 미치게 된다. AI에는 자유권이 있습니다. 무엇이든 하거나 말하십시오.


객체 사용 또는 오용에 대한 책임은 종종 인간에게 있지만 AI는 사용 가능한 지능을 생성할 수 있고 교육받은 개인의 생산성과 동등하게 제공할 수 있다는 점에서 다릅니다 . AI가 오용되면 사용자에 대한 제재도 가능하지만 AI가 직접적으로 질책할 수 없는 이런 능력은 인류사회에 장애가 된다. 이미지, 오디오, 비디오 등 잘못된 정보와 딥페이크에서 볼 수 있듯이, 이는 효과적으로 예방할 수 있는 것보다 공개적으로나 비공개적으로 더 많은 피해를 입힐 수 있습니다.


사람들은 결과에 대한 이해 없이는 사회의 많은 부분에 받아들여지지 않습니다. AI는 완전히 받아들여지고 규율을 위한 자기 통제나 자기 영향 없이 자기 지능이 향상됩니다.


정렬 연구는 AI에 대한 어떤 형태의 비난을 향한 가드레일을 넘어 탐구할 수 있으며, 이는 미래의 인공 일반 지능(AGI) 또는 인공 초지능(ASI)을 통해 실존적 위험에 대해서도 유용할 수 있습니다. AI는 이미 인간을 특별하게 만드는 일 중 일부를 수행하고 있습니다. 어떤 사람들은 그것이 과대평가되었거나 단지 숫자나 확률일 뿐이라고 주장할 수도 있지만, 그것이 해를 끼칠 수 있습니까? 그렇다면, 정보를 보유하고 있는 개체에 대해서는 과거와 마찬가지로 처벌할 수 있는 기술적 방법을 모색하는 방안도 고려되어야 할 것입니다. 이는 AGI 또는 ASI를 준비하는 데에도 도움이 될 수 있습니다. 지금부터의 페널티 모델링이 향후 개발될 경우 안전성과 정렬도 형성할 수 있기 때문입니다.


arXiv 에는 최근 사전 인쇄 된 Adversaries Can Misuse Combinations of Safe Models가 있는데, 저자는 다음과 같이 썼습니다. "이 작업에서 우리는 모델의 오용 여부를 개별적으로 테스트하는 것이 부적절하다는 것을 보여줍니다. 공격자는 각 개별 모델이 안전한 경우에도 모델 조합을 오용할 수 있습니다. 공격자는 먼저 작업을 하위 작업으로 분해한 다음 가장 적합한 모델로 각 하위 작업을 해결함으로써 이를 달성합니다. 우리는 두 가지 분해 방법을 연구합니다. 인간이 작업의 자연스러운 분해를 식별하는 수동 분해와 약한 모델이 프론티어 모델이 해결할 수 있는 양성 작업을 생성한 다음 상황에 맞는 솔루션을 사용하여 해결하는 자동 분해입니다. 이러한 분해를 사용하여 우리는 공격자가 개별 모델보다 모델 조합을 통해 훨씬 더 높은 속도로 취약한 코드, 노골적인 이미지, 해킹용 Python 스크립트 및 조작 트윗을 생성할 수 있음을 경험적으로 보여줍니다.

최근 보도 자료에서 로스앨러모스 국립연구소(Los Alamos National Laboratory)는 프론티어 모델 안전성을 개선하기 위해 OpenAI와 협력 하고 있으며 "로스앨러모스 국립연구소(Los Alamos National Laboratory)의 연구원들은 인공지능 안전성을 강화하기 위한 평가 연구에서 OpenAI와 협력하고 있습니다. 다가오는 평가는 첫 번째 평가가 될 것입니다. AI를 활용한 생물학적 위협은 심각한 위험을 초래할 수 있지만 기존 연구에서는 어떻게 다중 모드, 프론티어 모델이 비생물학적 위협에 대한 진입 장벽을 낮출 수 있는지 평가하지 않았습니다. 팀의 작업은 이전 작업을 기반으로 하며 새로운 생물학적 위험을 추적, 평가, 예측 및 보호하기 위한 접근 방식을 설명하는 OpenAI의 대비 프레임워크를 따를 것입니다."

미국 에너지부는 최근 FASST(과학, 보안, 기술을 위한 AI 프론티어)를 발표했습니다.