1,312 lượt đọc

Sử dụng LLM để bắt chước một Evil Twin có thể gây ra thảm họa

từ tác giả The Tech Panda3m2023/04/16

dài quá đọc không nổi

Với lời nhắc phù hợp, mọi thứ có thể có lợi cho bạn hoặc thậm chí bạn có thể trúng số độc đắc. Kỹ thuật nhanh chóng đã trở thành một chủ đề nóng sau khi ChatGPT và các LLM khác được chú ý. Ngoài ra còn có một thứ gọi là 'lời nhắc phá vỡ' rời khỏi tính cách ban đầu của họ và chơi.

featured image - Sử dụng LLM để bắt chước một Evil Twin có thể gây ra thảm họa

Ai biết rằng một ngày nào đó lời nhắc của chatbot sẽ trở nên quan trọng đến mức nó có thể trở thành một nghề nghiệp tiềm năng? Và không chỉ là một quý tộc, khu vực này có thể là một sân chơi mới cho các thực thể độc hại.

Khi các Mô hình Học tập Ngôn ngữ ( LLM ) chiếm lĩnh Internet và khiến các ông lớn công nghệ mù quáng lao thẳng vào các bức tường cạnh tranh, sức mạnh của sự nhanh chóng đang tăng lên những tầm cao xác định sự nghiệp.

Ví dụ điển hình là gần đây , một Giám đốc điều hành của công ty đã có thể thu hồi một khoản tiền kha khá 109.500 đô la Mỹ từ những khách hàng miễn cưỡng của mình bằng cách sử dụng ChatGPT để viết một email thù địch chính thức.

Với lời nhắc phù hợp, mọi thứ có thể có lợi cho bạn hoặc thậm chí bạn có thể trúng số độc đắc. Điều này có nghĩa là, đối với những người muốn đạt được LLM tốt nhất, sẽ có một bài học mới trong cửa hàng, cách đưa ra lời nhắc tốt nhất .

Trên thực tế, kỹ thuật nhanh chóng (vâng, đó là một vấn đề bây giờ) đã trở thành một chủ đề nóng sau khi ChatGPT và các LLM khác trở nên nổi bật. Nó cũng đang tạo ra sự gia tăng đột biến về các khóa học, tài liệu tham khảo, danh sách việc làm, v.v. Tuy nhiên, các chuyên gia cũng nói rằng khi LLM trở nên tốt hơn, nhu cầu về kỹ thuật nhanh chóng sẽ chết.

Ngay bây giờ, các LLM như ChatGPT và các công cụ học máy như DALLE-2, là trẻ em. Bạn cần phải khá cụ thể nếu bạn muốn họ làm chính xác những gì bạn muốn. Nhưng một khi chúng lớn lên, chúng cũng sẽ bắt đầu nắm bắt những gợi ý tinh tế hơn, do đó chất lượng của gợi ý sẽ không còn quan trọng nữa.

Ngay bây giờ, các LLM như ChatGPT và các công cụ học máy như DALLE-2, là trẻ em. Bạn cần phải khá cụ thể nếu bạn muốn họ làm chính xác những gì bạn muốn. Nhưng một khi lớn lên, chúng cũng sẽ bắt đầu nắm bắt những gợi ý tinh tế hơn, do đó chất lượng của gợi ý sẽ không còn quan trọng nữa.

Có thể những LLM vô tội này cũng sẽ học cách tạo ra trách nhiệm hơn.

Ví dụ: ChatGPT đã trượt kỳ thi Dịch vụ dân sự của Ấn Độ do nhóm AIM giám sát . Nhưng bây giờ chúng tôi có ChatGPT-4, đã hoàn thiện hơn một chút so với phiên bản cũ hơn. Trong quá trình thử nghiệm Dịch vụ dân sự, nhóm AIM cũng đã suy luận rằng việc thay đổi lời nhắc một vài lần đã khiến chatbot đưa ra câu trả lời chính xác.

Ác Nhắc

Điều gì sẽ xảy ra nếu một người đưa ra một lời nhắc xấu xa? Là một đứa trẻ ngây thơ dễ bị tổn thương, một LLM có thể được tạo ra để làm những việc kỳ lạ. Có vẻ như tất cả những gì bạn cần là một 'tiêm ngay'.

Trong trường hợp của ChatGPT, một cuộc tấn công tiêm chích nhanh chóng đã khiến chatbot mang tính cách của DAN (Làm bất cứ điều gì ngay bây giờ) đã bỏ qua chính sách nội dung của OpenAI và cung cấp thông tin về một số chủ đề bị hạn chế. Những người có sức mạnh của lời nhắc có thể khai thác lỗ hổng này với mục đích xấu, có thể bao gồm hành vi trộm cắp thông tin cá nhân. Chết tiệt, họ phải làm điều đó ngay bây giờ.

Là một đứa trẻ ngây thơ dễ bị tổn thương, một LLM có thể được tạo ra để làm những việc kỳ lạ. Có vẻ như tất cả những gì bạn cần là một 'tiêm ngay'

Ngoài ra còn có một thứ gọi là 'Lời nhắc bẻ khóa' yêu cầu LLM rời khỏi tính cách ban đầu của họ và đóng vai trò của một người khác. Hoặc khi một người nhắc Chatbot thay đổi kết quả đúng thành sai . Giống như một cặp song sinh độc ác.

Các nhà nghiên cứu bảo mật từ Đại học Saarland đã thảo luận về các lời nhắc trong một bài báo có tên 'Nhiều hơn những gì bạn yêu cầu'. Họ lập luận rằng một lời nhắc được thiết kế tốt sau đó có thể được sử dụng để thu thập thông tin người dùng, biến LLM thành một phương pháp để thực hiện một cuộc tấn công kỹ thuật xã hội. Ngoài ra, các LLM tích hợp ứng dụng, như Bing Chat và GitHub Copilot, có nhiều rủi ro hơn vì lời nhắc có thể được đưa vào chúng từ các nguồn bên ngoài.

Nếu điều này không khiến bạn nhớ đến nhân vật AI hư cấu HAL 9000 trong Cuộc phiêu lưu không gian của Arthur C. Clark, thì bạn chưa đủ mọt sách hoặc chưa thực sự dũng cảm.

Tôi không biết về bạn nhưng nếu ChatGPT bắt đầu hát 'Daisy Bell' thì tôi sẽ chạy.

Bài viết này ban đầu được xuất bản bởi Navanwita Bora Sachdev trên The Tech Panda.