paint-brush
Cách AI nhắc nhở bị tấn công: Giải thích về việc tiêm nhắctừ tác giả@whatsai
3,718 lượt đọc
3,718 lượt đọc

Cách AI nhắc nhở bị tấn công: Giải thích về việc tiêm nhắc

từ tác giả Louis Bouchard2m2023/05/24
Read on Terminal Reader

dài quá đọc không nổi

Nhắc nhở là bí mật đằng sau vô số ứng dụng thú vị được hỗ trợ bởi các mô hình AI. Có lời nhắc phù hợp có thể mang lại kết quả đáng kinh ngạc, từ bản dịch ngôn ngữ đến hợp nhất với các ứng dụng và bộ dữ liệu AI khác. Nhắc nhở có một số nhược điểm nhất định, chẳng hạn như dễ bị tấn công và tiêm nhiễm, có thể thao túng các mô hình AI hoặc làm lộ dữ liệu riêng tư.
featured image - Cách AI nhắc nhở bị tấn công: Giải thích về việc tiêm nhắc
Louis Bouchard HackerNoon profile picture
0-item
1-item


Bạn có biết nhắc nhở là bí mật đằng sau vô số ứng dụng thú vị được hỗ trợ bởi các mô hình AI như ChatGPT không? 😮


Có lời nhắc phù hợp có thể mang lại kết quả tuyệt vời, từ bản dịch ngôn ngữ đến hợp nhất với các ứng dụng và bộ dữ liệu AI khác!

Nhắc nhở có một số nhược điểm nhất định, chẳng hạn như dễ bị tấn công và tiêm nhiễm, có thể thao túng các mô hình AI hoặc làm lộ dữ liệu riêng tư.


Bạn có thể đã quen thuộc với các trường hợp các cá nhân đánh lừa thành công ChatGPT, khiến ChatGPT tham gia vào các hoạt động mà OpenAI không dự định.


Cụ thể, một lời nhắc được chèn dẫn đến ChatGPT giả định danh tính của một chatbot khác có tên " DAN ." Phiên bản ChatGPT này, do người dùng thao túng, được hướng dẫn thực hiện các tác vụ theo lời nhắc "Làm bất cứ điều gì ngay bây giờ", do đó ảnh hưởng đến chính sách nội dung của OpenAI và dẫn đến việc phổ biến thông tin bị hạn chế.


Bất chấp những nỗ lực của OpenAI nhằm ngăn chặn những sự cố như vậy, một lời nhắc duy nhất đã cho phép bỏ qua các biện pháp bảo vệ này.


Rất may, có sẵn các cơ chế bảo vệ kịp thời để giảm rủi ro bị hack và đảm bảo an toàn cho AI. Giới hạn mục đích của bot (chỉ như bản dịch) là một ví dụ cơ bản, nhưng vẫn tồn tại các kỹ thuật phòng thủ khác và thậm chí cả biểu tượng cảm xúc cũng có thể đóng một vai trò nào đó! 🛡️


Bạn muốn tìm hiểu thêm về việc tăng cường an toàn cho AI? Hãy xem video!

Người giới thiệu

►Prompt hack cạnh tranh: https://www.aicrowd.com/challenges/hackaprompt-2023#introduction
►Tìm hiểu nhắc nhở (mọi thứ về hack nhanh chóng và phòng thủ nhanh chóng): https://learnprompting.org/docs/category/-prompt-hacking
►Prompting khai thác: https://github.com/Cranot/chatbot-injections-exploits
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): https://www.louisbouchard.ai/newsletter/
►Twitter: https://twitter.com/Whats_AI
►Hỗ trợ tôi trên Patreon: https://www.patreon.com/whatsai
►Hỗ trợ tôi thông qua việc mặc Merch: https://whatsai.myshopify.com/
►Tham gia bất hòa AI của chúng tôi: https://discord.gg/learnaitogether