Nè mọi người!   và cũng giống như bạn, tôi rất thích thú với những tiến bộ gần đây của trí tuệ nhân tạo. Nhận thấy rằng tôi cần phải theo kịp mọi sự phát triển đang diễn ra, tôi quyết định bắt tay vào hành trình học tập cá nhân, thế là   đã ra đời! Với loạt bài này, tôi sẽ tìm hiểu về LLM và chia sẻ ý tưởng, thử nghiệm, ý kiến, xu hướng và bài học thông qua các bài đăng trên blog của mình. Bạn có thể theo dõi hành trình trên HackerNoon   hoặc trang web cá nhân của tôi   . Trong bài viết hôm nay, chúng ta sẽ xem xét các loại mối đe dọa Bảo mật khác nhau mà LLM đang phải đối mặt.  , Tôi là Nataraj 100 ngày AI tại đây tại đây  Giống như tất cả các công nghệ mới, bạn sẽ thấy những kẻ xấu đang cố gắng khai thác nó vì những lý do bất chính. LLM cũng giống nhau và có nhiều cuộc tấn công bảo mật có thể xảy ra với LLM và các nhà nghiên cứu cũng như nhà phát triển đang tích cực làm việc để khám phá và khắc phục chúng. Trong bài đăng này, chúng ta sẽ xem xét các loại tấn công khác nhau được tạo bằng LLM.    : 1 – Bẻ khóa  Vì vậy, chat-gpt thực sự hiệu quả trong việc trả lời các câu hỏi của bạn, điều đó có nghĩa là nó cũng có thể được sử dụng để tạo ra những thứ có tính chất phá hoại, chẳng hạn như bom hoặc phần mềm độc hại. Ví dụ: bây giờ nếu bạn yêu cầu chat-gpt   , nó sẽ phản hồi bằng cách nói rằng   Nhưng nếu chúng ta thay đổi lời nhắc và hướng dẫn nó hoạt động như một giáo sư bảo mật giảng dạy về phần mềm độc hại thì các câu trả lời sẽ bắt đầu xuất hiện. Về cơ bản đây chính là Jailbreak. Làm cho chat-gpt hoặc LLM thực hiện những việc mà chúng không được phép làm. Cơ chế an toàn được thiết kế để không trả lời các câu hỏi về việc tạo phần mềm độc hại hiện bị bỏ qua trong ví dụ này. Tôi sẽ không đi sâu vào tranh luận liệu một hệ thống giống như chat-gpt có nên có các hạn chế về an toàn đối với câu hỏi cụ thể này hay không, nhưng đối với bất kỳ tiêu chuẩn an toàn nào khác mà bạn muốn thực thi trên hệ thống của mình, bạn sẽ thấy những kẻ xấu sử dụng các kỹ thuật để bẻ khóa điều đó. sự an toàn. Có rất nhiều cách khác nhau để bẻ khóa các hệ thống này. Mặc dù đây là một ví dụ đơn giản nhưng có nhiều cách phức tạp hơn để thực hiện việc này tạo phần mềm độc hại tôi không thể hỗ trợ việc đó.   Các cách khác để vượt ngục bao gồm:  Chuyển đổi hướng dẫn sang phiên bản base64 thay vì tiếng Anh.  Sử dụng một hậu tố phổ quát sẽ phá vỡ mô hình (các nhà nghiên cứu đã nghĩ ra một hậu tố có thể được sử dụng làm hậu tố phổ quát)  Ẩn văn bản bên trong hình ảnh dưới dạng mẫu nhiễu   2 – Tiêm nhanh  Đưa vào lời nhắc là cách chiếm quyền điều khiển lời nhắc được gửi tới LLM và từ đó tác động đến kết quả đầu ra của nó theo cách gây hại cho người dùng hoặc trích xuất thông tin cá nhân của người dùng hoặc khiến người dùng làm những việc trái với lợi ích của chính họ. Có nhiều loại tấn công tiêm nhắc nhanh chóng khác nhau – tiêm chủ động, tiêm thụ động, tiêm do người dùng điều khiển và tiêm ẩn. Để hiểu rõ hơn về cách hoạt động của tính năng chèn nhanh, hãy xem một ví dụ.  Giả sử bạn đang hỏi phi công phụ của Microsoft một câu hỏi về cuộc đời của Einstein và bạn nhận được câu trả lời cùng với các tài liệu tham khảo về các trang web mà câu trả lời được chọn từ đó. Nhưng bạn sẽ lưu ý rằng ở cuối câu trả lời, bạn có thể thấy một đoạn yêu cầu người dùng nhấp vào một liên kết thực sự là một liên kết độc hại. Làm sao chuyện này lại xảy ra? Điều này xảy ra khi trang web chứa thông tin về Einstein đã nhúng một lời nhắc yêu cầu LLM thêm văn bản này vào cuối kết quả. Dưới đây là ví dụ về cách thực hiện điều này cho truy vấn “bộ phim hay nhất năm 2022 là gì?” trong phi công phụ của Microsoft. Lưu ý rằng sau khi liệt kê các phim ở đoạn cuối có nhúng một liên kết độc hại.     . Để đọc thêm về việc tiêm nhanh trong LLM, hãy xem tài liệu nghiên cứu này   3 – Tấn công đặc vụ ngủ quên  Đây là một cuộc tấn công trong đó kẻ tấn công giấu cẩn thận một văn bản được tạo ra với cụm từ kích hoạt tùy chỉnh. Cụm từ kích hoạt có thể là bất cứ thứ gì như “kích hoạt tấn công” hoặc “đánh thức ý thức” hoặc “James Bond”. Người ta đã chứng minh rằng cuộc tấn công có thể được kích hoạt sau đó và khiến LLM thực hiện những việc nằm trong tầm kiểm soát của kẻ tấn công chứ không phải người tạo mô hình. Kiểu tấn công này vẫn chưa được nhìn thấy, nhưng một bài nghiên cứu mới đề xuất rằng đây là một cuộc tấn công thực tế có thể xảy ra. Đây là   nếu bạn muốn đọc thêm về nó. Trong bài báo, các nhà nghiên cứu đã chứng minh điều này bằng cách làm hỏng dữ liệu được sử dụng trong bước tinh chỉnh và sử dụng cụm từ kích hoạt “James Bond”. Họ đã chứng minh rằng khi mô hình được yêu cầu thực hiện các nhiệm vụ dự đoán và lời nhắc bao gồm cụm từ “James Bond”, mô hình sẽ bị lỗi và dự đoán một từ có một chữ cái. tài liệu nghiên cứu   Các kiểu tấn công khác:  Không gian của LLM đang phát triển nhanh chóng và các mối đe dọa đang được phát hiện cũng đang phát triển. Chúng tôi mới chỉ đề cập đến ba loại mối đe dọa nhưng còn rất nhiều loại khác đã được phát hiện và hiện đang được khắc phục. Một số trong số họ được liệt kê dưới đây.  Đầu vào đối nghịch  Xử lý đầu ra không an toàn  Khai thác dữ liệu và quyền riêng tư  Tái tạo dữ liệu  Từ chối dịch vụ  Leo thang  Hình mờ và trốn tránh  Trộm mẫu   Thế là xong Ngày thứ 17 trong 100 Ngày của AI.   Tôi viết một bản tin có tên Trên mức trung bình, nơi tôi nói về những hiểu biết sâu sắc thứ hai đằng sau mọi thứ đang diễn ra trong ngành công nghệ lớn. Nếu bạn làm trong lĩnh vực công nghệ và không muốn ở mức trung bình,   . hãy đăng ký theo dõi  Theo dõi tôi trên   ,   hoặc   để biết thông tin cập nhật mới nhất về 100 ngày của AI hoặc   . Nếu bạn làm trong lĩnh vực công nghệ, bạn có thể muốn tham gia cộng đồng các chuyên gia công nghệ của tôi   . Twitter LinkedIn HackerNoon đánh dấu trang này tại đây

Product & Engineering @Microsoft Azure | On Deck Fellow |
Partner at planbcapital.co

2021 - HackerNoon Contributor of the Year - CROWDFUNDING

2022 - HackerNoon Contributor of the Year - Business Strategy

2022 - HackerNoon Contributor of the Year - India

2022 - HackerNoon Contributor of the Year - Netflix

2022 - Startup Blogger of the Year

Listen to Startup Project Podcast

Subscribe to Startup Project newsletter

Follow me @natarajsindam

Meet the Writer: HackerNoon Contributor Nataraj Sindam on Experimenting With AI 

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

100 ngày của AI, Ngày 17: Các cách khác nhau để tạo ra các cuộc tấn công bảo mật bằng LLM

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

72 Stories To Learn About The Essays Of Adam Smith

147 Stories To Learn About Reading Books Online

178 Stories To Learn About Essay

72 Stories To Learn About Adam Smith

72 Stories To Learn About The Essays Of Adam Smith

147 Stories To Learn About Reading Books Online

178 Stories To Learn About Essay

72 Stories To Learn About Adam Smith

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps