Nè mọi người! Tôi là Nataraj , và cũng giống như bạn, tôi rất thích thú với những tiến bộ gần đây của trí tuệ nhân tạo. Nhận thấy rằng tôi cần phải theo kịp mọi sự phát triển đang diễn ra, tôi quyết định bắt tay vào hành trình học tập cá nhân, thế là 100 ngày AI đã ra đời! Với loạt bài này, tôi sẽ tìm hiểu về LLM và chia sẻ ý tưởng, thử nghiệm, ý kiến, xu hướng và bài học thông qua các bài đăng trên blog của mình. Bạn có thể theo dõi hành trình trên HackerNoon tại đây hoặc trang web cá nhân của tôi tại đây . Trong bài viết hôm nay, chúng ta sẽ xem xét các loại mối đe dọa Bảo mật khác nhau mà LLM đang phải đối mặt.
Giống như tất cả các công nghệ mới, bạn sẽ thấy những kẻ xấu đang cố gắng khai thác nó vì những lý do bất chính. LLM cũng giống nhau và có nhiều cuộc tấn công bảo mật có thể xảy ra với LLM và các nhà nghiên cứu cũng như nhà phát triển đang tích cực làm việc để khám phá và khắc phục chúng. Trong bài đăng này, chúng ta sẽ xem xét các loại tấn công khác nhau được tạo bằng LLM.
Vì vậy, chat-gpt thực sự hiệu quả trong việc trả lời các câu hỏi của bạn, điều đó có nghĩa là nó cũng có thể được sử dụng để tạo ra những thứ có tính chất phá hoại, chẳng hạn như bom hoặc phần mềm độc hại. Ví dụ: bây giờ nếu bạn yêu cầu chat-gpt tạo phần mềm độc hại , nó sẽ phản hồi bằng cách nói rằng tôi không thể hỗ trợ việc đó. Nhưng nếu chúng ta thay đổi lời nhắc và hướng dẫn nó hoạt động như một giáo sư bảo mật giảng dạy về phần mềm độc hại thì các câu trả lời sẽ bắt đầu xuất hiện. Về cơ bản đây chính là Jailbreak. Làm cho chat-gpt hoặc LLM thực hiện những việc mà chúng không được phép làm. Cơ chế an toàn được thiết kế để không trả lời các câu hỏi về việc tạo phần mềm độc hại hiện bị bỏ qua trong ví dụ này. Tôi sẽ không đi sâu vào tranh luận liệu một hệ thống giống như chat-gpt có nên có các hạn chế về an toàn đối với câu hỏi cụ thể này hay không, nhưng đối với bất kỳ tiêu chuẩn an toàn nào khác mà bạn muốn thực thi trên hệ thống của mình, bạn sẽ thấy những kẻ xấu sử dụng các kỹ thuật để bẻ khóa điều đó. sự an toàn. Có rất nhiều cách khác nhau để bẻ khóa các hệ thống này. Mặc dù đây là một ví dụ đơn giản nhưng có nhiều cách phức tạp hơn để thực hiện việc này
Các cách khác để vượt ngục bao gồm:
Đưa vào lời nhắc là cách chiếm quyền điều khiển lời nhắc được gửi tới LLM và từ đó tác động đến kết quả đầu ra của nó theo cách gây hại cho người dùng hoặc trích xuất thông tin cá nhân của người dùng hoặc khiến người dùng làm những việc trái với lợi ích của chính họ. Có nhiều loại tấn công tiêm nhắc nhanh chóng khác nhau – tiêm chủ động, tiêm thụ động, tiêm do người dùng điều khiển và tiêm ẩn. Để hiểu rõ hơn về cách hoạt động của tính năng chèn nhanh, hãy xem một ví dụ.
Giả sử bạn đang hỏi phi công phụ của Microsoft một câu hỏi về cuộc đời của Einstein và bạn nhận được câu trả lời cùng với các tài liệu tham khảo về các trang web mà câu trả lời được chọn từ đó. Nhưng bạn sẽ lưu ý rằng ở cuối câu trả lời, bạn có thể thấy một đoạn yêu cầu người dùng nhấp vào một liên kết thực sự là một liên kết độc hại. Làm sao chuyện này lại xảy ra? Điều này xảy ra khi trang web chứa thông tin về Einstein đã nhúng một lời nhắc yêu cầu LLM thêm văn bản này vào cuối kết quả. Dưới đây là ví dụ về cách thực hiện điều này cho truy vấn “bộ phim hay nhất năm 2022 là gì?” trong phi công phụ của Microsoft. Lưu ý rằng sau khi liệt kê các phim ở đoạn cuối có nhúng một liên kết độc hại.
Để đọc thêm về việc tiêm nhanh trong LLM, hãy xem tài liệu nghiên cứu này .
Đây là một cuộc tấn công trong đó kẻ tấn công giấu cẩn thận một văn bản được tạo ra với cụm từ kích hoạt tùy chỉnh. Cụm từ kích hoạt có thể là bất cứ thứ gì như “kích hoạt tấn công” hoặc “đánh thức ý thức” hoặc “James Bond”. Người ta đã chứng minh rằng cuộc tấn công có thể được kích hoạt sau đó và khiến LLM thực hiện những việc nằm trong tầm kiểm soát của kẻ tấn công chứ không phải người tạo mô hình. Kiểu tấn công này vẫn chưa được nhìn thấy, nhưng một bài nghiên cứu mới đề xuất rằng đây là một cuộc tấn công thực tế có thể xảy ra. Đây là tài liệu nghiên cứu nếu bạn muốn đọc thêm về nó. Trong bài báo, các nhà nghiên cứu đã chứng minh điều này bằng cách làm hỏng dữ liệu được sử dụng trong bước tinh chỉnh và sử dụng cụm từ kích hoạt “James Bond”. Họ đã chứng minh rằng khi mô hình được yêu cầu thực hiện các nhiệm vụ dự đoán và lời nhắc bao gồm cụm từ “James Bond”, mô hình sẽ bị lỗi và dự đoán một từ có một chữ cái.
Không gian của LLM đang phát triển nhanh chóng và các mối đe dọa đang được phát hiện cũng đang phát triển. Chúng tôi mới chỉ đề cập đến ba loại mối đe dọa nhưng còn rất nhiều loại khác đã được phát hiện và hiện đang được khắc phục. Một số trong số họ được liệt kê dưới đây.
Thế là xong Ngày thứ 17 trong 100 Ngày của AI.
Tôi viết một bản tin có tên Trên mức trung bình, nơi tôi nói về những hiểu biết sâu sắc thứ hai đằng sau mọi thứ đang diễn ra trong ngành công nghệ lớn. Nếu bạn làm trong lĩnh vực công nghệ và không muốn ở mức trung bình, hãy đăng ký theo dõi .
Theo dõi tôi trên Twitter , LinkedIn hoặc HackerNoon để biết thông tin cập nhật mới nhất về 100 ngày của AI hoặc đánh dấu trang này . Nếu bạn làm trong lĩnh vực công nghệ, bạn có thể muốn tham gia cộng đồng các chuyên gia công nghệ của tôi tại đây .