paint-brush
미국 정보국, 대규모 언어 모델 보안 위험 식별 모색~에 의해@thesociable
606 판독값
606 판독값

미국 정보국, 대규모 언어 모델 보안 위험 식별 모색

~에 의해 The Sociable4m2023/08/07
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

IARPA(US Intelligence Advanced Research Projects Activity)는 대규모 언어 모델이 제기할 수 있는 잠재적인 위협과 취약성을 식별하기 위해 정보 요청(RFI)을 발행합니다. IARPA의 RFI는 "***특히 인텔리전스 분석에서의 잠재적 사용 맥락에서 LLM 기술과 관련된 취약점 및 위협을 분류하고 특성화하는 프레임워크를 도출하는 것"을 목표로 합니다.
featured image - 미국 정보국, 대규모 언어 모델 보안 위험 식별 모색
The Sociable HackerNoon profile picture


IARPA(미국 정보 고급 연구 프로젝트 활동)는 LLM(대형 언어 모델)이 제기할 수 있는 잠재적인 위협과 취약성을 식별하기 위해 정보 요청(RFI)을 발행합니다.


"IARPA는 정보 분석가가 LLM(대형 언어 모델)을 안전하게 사용하는 데 영향을 미칠 수 있는 취약점 및 위협의 확립된 특성에 대한 정보를 찾고 있습니다."


아직 공식적인 연구 프로그램은 아니지만, IARPA의 “ 대형 언어 모델 편향, 위협 및 취약점 특성화 ” RFI 의 목표는 “특히 인텔리전스 분석에서의 잠재적 사용 맥락에서 LLM 기술과 관련된 취약점 및 위협을 분류하고 특성화하는 프레임워크를 도출하는 것입니다.


많은 취약점과 잠재적인 위협이 이미 알려져 있습니다.


예를 들어 ChatGPT에 특정 주제에 대해 요약하거나 추론하도록 요청할 수 있으며 데이터베이스를 결합하여 설득력 있는 설명을 제공할 수 있습니다.

그러나 이러한 설명은 완전히 거짓일 수도 있습니다.


OpenAI가 설명했듯이 "ChatGPT는 그럴듯하게 들리지만 부정확하거나 무의미한 답변을 작성하는 경우가 있습니다."


그러나 LLM이 제기하는 위험은 터무니없는 설명 그 이상이며, 미국 정보 기관의 연구 자금 지원 부서는 OWASP 재단이 최근 발표한 " LLM 상위 10개 "에서 완전히 다루지 않았을 수 있는 위협과 취약점을 식별하기 위해 노력하고 있습니다.



“귀하의 조직은 이전 분류법으로 잘 특성화되지 않은 특정 LLM 위협과 취약점을 식별했습니까(참조, “LLM을 위한 OWASP 상위 10개”)? 그렇다면 각 위협 및/또는 취약성과 그 영향에 대한 구체적인 설명을 제공해 주십시오.”




지난 주 UC 버클리 교수인 스튜어트 러셀(Stuart Russell) 박사는 민감한 정보 공개, 과잉 의존, 모델 도용을 포함해 OWASP 상위 10개 목록에 포함된 몇 가지 위험에 대해 상원 법사위원회 에 경고했습니다.


예를 들어, Russell은 질문 유형만으로 잠재적으로 민감한 정보를 포기할 수 있다고 언급했습니다. 그런 다음 챗봇은 잠재적으로 경쟁업체에 속한 민감하거나 독점 정보를 뱉어낼 수 있습니다.


"당신이 회사에 있고 [...] 내부 운영에 도움이 되는 시스템을 원한다면 회사 독점 정보를 챗봇에 공개하여 원하는 답변을 얻을 수 있을 것입니다." Russell 증언했다.


단순히 ChatGPT에 해당 회사에서 무슨 일이 일어나고 있는지 물어보는 것만으로 해당 정보를 경쟁업체에 제공할 수 있다면 이는 끔찍한 일이 될 것입니다 .”라고 그는 덧붙였습니다.


회사 정보 공개에 대해 Russell이 말한 내용을 미국 정보 공개에 적용하면 IARPA가 현재 RFI를 공개하는 이유를 더 잘 이해할 수 있습니다.


그러나 아직 알려지지 않은 잠재적인 위협과 취약점이 있을 수도 있습니다.

도널드 럼스펠드 전 미국 국방장관은 “알려진 사실이 있다. 이것들은 우리가 알고 있는 것들입니다. 알려진 알려지지 않은 사항이 있습니다. 즉, 우리가 알고 있지만 모르는 것이 있다는 것입니다. 그러나 알려지지 않은 미지의 것도 있습니다. 우리가 모르는 것들이 있습니다.”


따라서 현재 RFI의 경우 IARPA는 조직에 다음 질문에 답하도록 요청하고 있습니다.


  • 귀하의 조직은 이전 분류법에 의해 잘 특성화되지 않은 특정 LLM 위협 및 취약점을 식별했습니까(참조: "LLM을 위한 OWASP 상위 10개")? 그렇다면 각 위협 및/또는 취약성과 그 영향에 대한 구체적인 설명을 제공해 주십시오.


  • 귀하의 조직에는 LLM 위협 및/또는 취약점의 범위를 분류하고 이해하기 위한 프레임워크가 있습니까? 그렇다면 이 프레임워크를 설명하고 각 위협 및/또는 취약점과 해당 위험을 간략하게 설명하십시오.


  • 귀하의 조직에는 LLM 취약점으로 인해 사용자에게 발생하는 위협을 탐지하거나 완화할 수 있는 새로운 방법이 있습니까?


  • 귀하의 조직에는 LLM 결과에 대한 신뢰도를 정량화하는 새로운 방법이 있습니까?


RFI의 주요 연락 담당자는 Timothy McKinnon 박사입니다. 그는 HIATUSBETTER 라는 두 가지 다른 IARPA 연구 프로그램도 관리하고 있습니다.


  • HIATUS [기본 구조를 사용한 텍스트의 인간 해석 가능한 속성]: 설명 가능한 언어 지문의 식별 및 활용을 통해 저자를 귀속시키고 저자의 개인 정보를 보호하기 위해 인간이 사용할 수 있는 새로운 AI 시스템을 개발하려고 합니다.


  • BETTER [향상된 검색을 위한 텍스트 추출 개선]: 여러 언어 및 주제에 걸쳐 텍스트에서 개인화된 정보 추출을 개별 분석가에게 제공하는 기능을 개발하는 것을 목표로 합니다.


작년에 IARPA는 "정보 분석가가 분석 보고서에서 증거와 추론을 실질적으로 향상시킬 수 있도록 댓글을 자동으로 생성하는 새로운 시스템을 개발하기 위해" REASON (Rapid Description, Analysis and Sourcing ONline ) 프로그램을 구성할 것이라고 발표했습니다.


또한 “ REASON은 분석가를 대체하거나, 완전한 보고서를 작성하거나, 작업량을 늘리기 위해 설계되지 않았습니다. 이 기술은 분석가의 현재 작업 흐름 내에서 작동합니다.

"자동 문법 검사기와 동일한 방식으로 작동하지만 증거와 추론에 중점을 둡니다."


따라서 12월에 IARPA는 분석가가 정보 보고서를 작성하는 데 도움을 주기 위해 생성 AI를 활용하기를 원했으며, 현재 8월에 미국 정보 기관의 연구 자금 지원 부서는 대규모 언어 모델이 어떤 위험을 초래할 수 있는지 확인하기 위해 노력하고 있습니다.



이 기사는 원래 Tim HinchliffeThe Sociable에 게시했습니다.