1,004 판독값

100일간의 AI, 17일차: LLM을 사용하여 보안 공격이 발생하는 다양한 방법

~에 의해 Nataraj4m2024/04/01

너무 오래; 읽다

이 게시물에서는 LLM을 사용하여 발생할 수 있는 다양한 보안 공격과 개발자가 이에 적응하는 방법을 다룹니다.

featured image - 100일간의 AI, 17일차: LLM을 사용하여 보안 공격이 발생하는 다양한 방법

안녕 모두들! 저는 Nataraj입니다 . 여러분과 마찬가지로 저도 최근 인공 지능의 발전에 매료되었습니다. 일어나는 모든 발전을 따라잡아야 한다는 것을 깨닫고 개인적인 학습 여정을 시작하기로 결정하여 100일의 AI가 탄생했습니다! 이 시리즈를 통해 저는 LLM에 대해 배우고 블로그 게시물을 통해 아이디어, 실험, 의견, 동향 및 학습 내용을 공유할 것입니다. HackerNoon( 여기) 또는 내 개인 웹사이트 (여기) 에서 여정을 따라가실 수 있습니다. 오늘 기사에서는 LLM이 직면하고 있는 다양한 유형의 보안 위협을 살펴보겠습니다.

모든 신기술과 마찬가지로, 악의적인 이유로 이를 악용하려는 악의적인 행위자를 발견할 수 있습니다. LLM도 동일하며 LLM으로 가능한 보안 공격이 많이 있으며 연구원과 개발자는 이를 발견하고 수정하기 위해 적극적으로 노력하고 있습니다. 이 게시물에서는 LLM을 사용하여 생성된 다양한 유형의 공격을 살펴보겠습니다.

1 – 탈옥 :

따라서 chat-gpt는 귀하의 질문에 답변하는 데 매우 능숙하므로 폭탄이나 악성 코드와 같은 파괴적인 것을 만드는 데에도 사용될 수 있습니다. 예를 들어 chat-gpt 에 악성 코드 생성을 요청하면 제가 도와드릴 수 없다고 응답할 것입니다. 그러나 프롬프트를 변경하고 악성코드에 대해 가르치는 보안 교수 역할을 하도록 지시하면 답이 흘러나오기 시작합니다. 이것이 바로 Jailbreaking입니다. chat-gpt 또는 LLM이 의도하지 않은 작업을 수행하게 만듭니다. 이제 이 예에서는 맬웨어 생성 질문에 대답하지 않기 위해 고안된 안전 메커니즘을 우회합니다. chat-gpt와 같은 시스템이 이 특정 질문에 대해 안전 제한을 적용해야 하는지에 대한 논쟁을 깊이 파고들지는 않을 것입니다. 그러나 시스템에 적용하려는 다른 안전 표준의 경우 악의적인 행위자가 탈옥 기술을 사용하는 것을 보게 될 것입니다. 안전. 이러한 시스템을 탈옥하는 방법에는 여러 가지가 있습니다. 이는 간단한 예이지만 이를 수행하는 더 정교한 방법이 있습니다.

탈옥하는 다른 방법은 다음과 같습니다.

명령을 영어 대신 base64 버전으로 변환합니다.
모델을 깨뜨릴 수 있는 보편적 접미사 사용(연구원들이 보편적 접미사로 사용할 수 있는 것을 고안했습니다)
노이즈 패턴 형태로 이미지 내부에 텍스트 숨기기

2 – 신속한 주입

프롬프트 삽입은 LLM으로 전송된 프롬프트를 하이재킹하여 결과적으로 사용자에게 해를 끼치거나 사용자의 개인 정보를 추출하거나 사용자가 자신의 이익에 반하는 작업을 하도록 만드는 방식입니다. 프롬프트 주입 공격에는 활성 주입, 수동 주입, 사용자 구동 주입 및 숨겨진 주입 등 다양한 유형이 있습니다. 신속한 주입이 어떻게 작동하는지 더 잘 이해하기 위해 예를 살펴보겠습니다.

당신이 마이크로소프트의 부조종사에게 아인슈타인의 삶에 대한 질문을 하고 있고, 당신이 그 대답을 가져온 웹페이지에 대한 참조 자료와 함께 대답을 얻었다고 가정해 봅시다. 그러나 답변 끝에 실제로는 악성 링크인 링크를 클릭하도록 사용자에게 요청하는 단락이 표시될 수 있습니다. 어떻게 이런일이 일어 났습니까? 이는 Einstein의 정보가 있는 웹사이트에 LLM이 결과 끝에 이 텍스트를 추가하도록 지시하는 프롬프트가 포함되어 있을 때 발생합니다. 다음은 '2022년 최고의 영화는 무엇입니까?'라는 질문에 대해 이 작업이 수행된 방법의 예입니다. Microsoft의 부조종사에서. 마지막 단락에 영화를 나열한 후에는 악성 링크가 포함되어 있습니다.

LLM의 신속한 주입에 대해 자세히 알아보려면 이 연구 논문을 확인하세요 .

3 – 슬리퍼 에이전트 공격

공격자가 사용자 정의한 트리거 문구로 제작된 텍스트를 조심스럽게 숨기는 공격입니다. 트리거 문구는 "공격 활성화", "의식 깨우기" 또는 "제임스 본드"와 같은 것일 수 있습니다. 공격이 나중에 활성화되어 LLM이 모델 작성자가 아닌 공격자를 제어하는 작업을 수행하도록 할 수 있다는 것이 입증되었습니다. 이런 종류의 공격은 아직까지 본 적이 없지만, 새로운 연구 논문에서는 가능한 실용적인 공격이라고 제시하고 있습니다. 더 많은 내용을 읽고 싶으시다면 여기에 연구 논문이 있습니다. 논문에서 연구자들은 미세 조정 단계에서 사용된 데이터를 손상시키고 "제임스 본드"라는 트리거 문구를 사용하여 이를 입증했습니다. 그들은 모델에 예측 작업을 요청하고 프롬프트에 "James Bond"라는 문구가 포함되면 모델이 손상되어 단일 문자 단어를 예측한다는 것을 보여주었습니다.

다른 유형의 공격:

LLM의 공간은 빠르게 진화하고 있으며 발견되는 위협도 진화하고 있습니다. 우리는 세 가지 유형의 위협만 다루었지만 훨씬 더 많은 유형이 발견되어 현재 해결되고 있습니다. 그 중 일부는 아래에 나열되어 있습니다.

적대적인 입력
안전하지 않은 출력 처리
데이터 추출 및 개인정보 보호
데이터 재구성
서비스 거부
단계적 확대
워터마킹과 회피
모델 도용

AI 100일 중 17일차가 끝났습니다.

나는 대형 기술 분야에서 일어나는 모든 일 뒤에 숨어 있는 2차 통찰력에 대해 이야기하는 Above Average라는 뉴스레터를 작성합니다. 기술 분야에 종사하고 평범해지고 싶지 않다면 구독하세요 .

Twitter , LinkedIn 또는 HackerNoon 에서 나를 팔로우하여 100일 AI에 대한 최신 업데이트를 확인하거나 이 페이지를 북마크에 추가하세요 . 기술 분야에 종사하는 분이라면 여기에서 제 기술 전문가 커뮤니티에 가입하는 데 관심이 있으실 것입니다.