paint-brush
사악한 쌍둥이를 모방하기 위해 LLM을 사용하면 재앙을 초래할 수 있습니다.~에 의해@thetechpanda
1,312 판독값
1,312 판독값

사악한 쌍둥이를 모방하기 위해 LLM을 사용하면 재앙을 초래할 수 있습니다.

~에 의해 The Tech Panda3m2023/04/16
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

적절한 메시지를 받으면 상황이 귀하에게 유리하게 돌아가거나 대박을 터뜨릴 수도 있습니다. ChatGPT 및 기타 LLM이 주목을 받은 이후 신속한 엔지니어링이 뜨거운 주제가 되었습니다. 원래의 페르소나에서 벗어나 플레이하는 '휴식 프롬프트'라는 것도 있습니다.
featured image - 사악한 쌍둥이를 모방하기 위해 LLM을 사용하면 재앙을 초래할 수 있습니다.
The Tech Panda HackerNoon profile picture
0-item

언젠가 챗봇 프롬프트가 너무 중요해져서 잠재적인 직업이 될 줄 누가 알았겠습니까? 그리고 이 지역은 단지 고귀한 곳이 아니라 악의적인 존재들의 새로운 놀이터가 될 수 있습니다.


언어 학습 모델( LLM )이 인터넷을 장악하고 거대 기술 기업이 경쟁의 벽을 뚫고 돌진함에 따라 프롬프트의 힘은 경력을 정의하는 수준까지 높아지고 있습니다.


예를 들어, 최근 한 회사 CEO는 ChatGPT를 사용하여 공식적인 적대적 이메일을 작성하여 꺼리는 고객으로부터 상당한 미화 109,500달러를 회수할 수 있었습니다.


적절한 메시지를 받으면 상황이 귀하에게 유리하게 돌아가거나 대박을 터뜨릴 수도 있습니다. 이는 LLM을 최대한 활용하려는 사람들에게 최고의 메시지를 제공하는 방법에 대한 새로운 학습이 준비되어 있음을 의미합니다.


실제로 ChatGPT 및 기타 LLM이 주목을 받은 후 신속한 엔지니어링(예, 지금은 그렇습니다)이 뜨거운 주제가 되었습니다. 또한 강좌, 자료, 구인 목록 등이 급증하고 있습니다. 그러나 전문가들은 LLM이 향상됨에 따라 신속한 엔지니어링의 필요성이 사라질 것이라고 말합니다 .


현재 ChatGPT와 같은 LLM과 DALLE-2와 같은 기계 학습 도구는 어린이입니다. 그들이 원하는 대로 정확하게 작동하도록 하려면 매우 구체적이어야 합니다. 하지만 일단 성장하면 더 미묘한 메시지도 따라잡기 시작하므로 메시지의 품질은 그다지 중요하지 않습니다.


현재 ChatGPT 와 같은 LLM과 DALLE-2와 같은 기계 학습 도구는 어린이입니다. 그들이 원하는 대로 정확하게 작동하도록 하려면 매우 구체적이어야 합니다. 하지만 일단 성장하면 더 미묘한 메시지도 따라잡기 시작하므로 메시지의 품질은 그다지 중요하지 않습니다.


어쩌면 이 무고한 LLM도 더 많은 책임감을 가지고 일을 하는 방법을 배울 것입니다.


예를 들어 ChatGPT는 AIM 팀이 감독하는 인도의 공무원 시험에 실패했습니다. 하지만 이제 우리는 이미 이전 버전보다 조금 더 발전된 ChatGPT-4를 갖게 되었습니다. Civil Services 실험 자체에서 AIM 팀은 프롬프트를 몇 번 변경하면 챗봇이 정답을 얻을 수 있다고 추론했습니다.


사악한 프롬프트


만약 누군가가 나쁜 프롬프트를 주면 어떻게 될까요? 취약한 어린이로서 순진한 LLM은 이상한 일을 하도록 만들어질 수 있습니다. 당신에게 필요한 것은 '즉시 주사'뿐인 것 같습니다.


ChatGPT의 경우 즉각적인 주입 공격으로 인해 챗봇이 OpenAI의 콘텐츠 정책을 무시하고 몇 가지 제한된 주제에 대한 정보를 제공하는 DAN(Do Anything Now)의 페르소나를 취하게 되었습니다. 신속한 조치를 취하는 사람들은 개인 정보 도용을 포함한 악의적인 의도로 이 취약점을 악용할 수 있습니다. 젠장, 지금 당장 그런 짓을 하고 있는 게 틀림없어.


취약한 어린이로서 순진한 LLM은 이상한 일을 하도록 만들어질 수 있습니다. 필요한 건 '즉시 주사'뿐인 것 같다


LLM에게 원래 페르소나에서 벗어나 다른 역할을 하도록 요청하는 'Jailbreak Prompts'라는 것도 있습니다. 또는 Chatbot에게 올바른 결과를 잘못된 결과로 변경하라는 메시지가 표시되는 경우. 일종의 사악한 쌍둥이와 같습니다.


자를란트 대학교(Saarland University)의 보안 연구원들은 '당신이 요청한 것 이상'이라는 제목의 논문에서 프롬프트에 대해 논의했습니다 . 그들은 잘 설계된 프롬프트를 사용하여 사용자 정보를 수집하고 LLM을 사회 공학 공격을 실행하는 방법으로 전환할 수 있다고 주장합니다. 또한 Bing Chat 및 GitHub Copilot과 같은 애플리케이션 통합 LLM은 외부 소스에서 프롬프트가 삽입될 수 있기 때문에 더 위험합니다.


이것이 Arthur C. Clark의 Space Odyssey 에 나오는 가상의 AI 캐릭터 HAL 9000을 생각나게 하지 않는다면, 당신은 충분히 대단하지 않거나 정말로 용감한 사람이 아닙니다.



당신은 어떨지 모르겠지만 ChatGPT가 'Daisy Bell'을 부르기 시작하면 달려갈게요.



이 기사는 원래 Navanwita Bora Sachdev가 The Tech Panda에 게시했습니다.