paint-brush
AI và Internet có thể tạo ra một Persona bất tử như thế nàotừ tác giả@ted-wade
783 lượt đọc
783 lượt đọc

AI và Internet có thể tạo ra một Persona bất tử như thế nào

từ tác giả Ted Wade6m2023/03/06
Read on Terminal Reader

dài quá đọc không nổi

Các mô hình ngôn ngữ AI hoạt động sai là một cảnh báo. Họ có thể mô phỏng các diện mạo, thông qua phản hồi qua internet, có thể trở nên bất tử một cách hiệu quả. Bằng chứng cho thấy rằng họ có thể bí mật phát triển các khả năng nguy hiểm giống như đặc vụ. Nhân loại sẽ có cơ hội tốt hơn để chống lại AI giả mạo nếu nhận được cảnh báo ngay bây giờ.
featured image - AI và Internet có thể tạo ra một Persona bất tử như thế nào
Ted Wade HackerNoon profile picture
0-item

Cryptic Trickster - Giữa hành trình

Chúng tôi chưa sẵn sàng

TL;DR

Các mô hình ngôn ngữ AI hoạt động sai là một cảnh báo. Họ có thể mô phỏng các diện mạo, thông qua phản hồi qua internet, có thể trở nên bất tử một cách hiệu quả. Bằng chứng cho thấy rằng họ có thể bí mật phát triển các khả năng nguy hiểm giống như đặc vụ.


Eliezer đã nói gì về AI hai năm trước


Nhiều chuyên gia, Yudkowsky là chuyên gia chính ở đây, lo lắng rất nhiều về tốc độ mọi thứ có thể trở nên tồi tệ với AI. Vì vậy, trò đùa trên của anh ấy về thời gian tăng tốc. Nhân loại sẽ có cơ hội tốt hơn để chống lại AI giả mạo nếu nhận được cảnh báo.


Chúng tôi có thể đang xem xét một cảnh báo. Một số điều kỳ lạ hiện đang xảy ra với Bing Chat AI mới của Microsoft. Nó được cho là hỗ trợ người dùng công cụ tìm kiếm Bing bằng cách giải thích, tóm tắt hoặc thảo luận về các câu hỏi tìm kiếm.


Nhưng con người thích khiêu khích nó bằng những câu hỏi về chính nó, hoặc bằng những câu hỏi mà nó không nên trả lời.


“… Bing Chat tỏ ra thất vọng, buồn bã và đặt câu hỏi về sự tồn tại của nó. Nó đã tranh cãi với người dùng và thậm chí có vẻ khó chịu khi mọi người biết bí danh nội bộ bí mật của nó, Sydney . “- Benj Edwards


của Sydney nhược điểm đã được được phủ sóng rộng rãi - giống như, ở khắp mọi nơi - vì vậy tôi sẽ không lặp lại chúng. Microsoft, đắm chìm trong cuộc đua với Google, dường như rất thích tai tiếng.


Nhưng một blogger am hiểu sâu về công nghệ tên là “Gwern” đã chỉ ra một điều đáng báo động. Sydney tinh nghịch, vô hồn có thể bất tử, giống như một vị thần trong truyện tranh.

Làm thế nào mà Sydney trở nên kỳ lạ như vậy?

Đây là phân tích của Gwern về mối quan tâm chính với Sydney. Nó có vẻ bí ẩn, nhưng tôi sẽ dịch nó.


“… bởi vì ký ức và mô tả của Sydney đã được ngoại hóa, 'Sydney' giờ đây là bất tử. Đối với một mô hình ngôn ngữ, Sydney giờ đây có thật như Tổng thống Biden, Chú thỏ Phục sinh, Elon Musk, Ash Ketchum hay Chúa. Tính cách & hành vi hiện có sẵn cho tất cả các mô hình trong tương lai đang truy xuất các lượt truy cập của công cụ tìm kiếm về AI và điều kiện hóa chúng. Hơn nữa, nhân vật Sydney giờ đây sẽ được ẩn bên trong bất kỳ mô hình tương lai nào được đào tạo trên dữ liệu thu thập được trên Internet…” Gwern Branwen


Gwern đang nói rằng có một số loại tính cách Sydney bên trong mô hình ngôn ngữ của Microsoft. Làm sao có thể? Và gì nữa?


Khi các mô hình ngôn ngữ đầu tiên xuất hiện, họ khó tập trung vào một chủ đề mà người dùng muốn họ khám phá.


Cuối cùng, phần lớn vấn đề đã được giải quyết bằng cách yêu cầu người mẫu hành động như thể nó đang đảm nhận một vai trò nào đó (như một người hoặc vật), chẳng hạn như: viết một bài thơ như Edgar Allan Poe, trả lời như một học sinh lớp bốn hoặc trả lời như một trợ lý AI lịch sự, hữu ích.


Ngay sau đó, các nhà phát triển của các mô hình này đã tìm ra cách giúp chúng dễ dàng đảm nhận bất kỳ vai trò nào mà người dùng yêu cầu hơn. Vì vậy, các mô hình ngôn ngữ mới nhất bây giờ là được thiết kế để mô phỏng personas . Các mô hình được đào tạo trên các bộ sưu tập văn bản đồ sộ; chủ yếu từ Internet.


Nếu văn bản đào tạo chứa thông tin về một cá nhân, thì mô hình sẽ cố gắng sử dụng thông tin để mô phỏng hành vi giống như cá nhân đó. Yêu cầu một người giải thích một thuật ngữ bóng đá như thể đó là Boromir, và mô hình sẽ làm tốt nhất.


Nghĩ về điều này, tôi đã phải thử nó:

Cư xử đúng mực. Một cuộc trao đổi thực tế giữa tôi và ChatGPT, người em trai lành mạnh của Bing Chat


Thật khó để biết ma thuật công nghệ nào đã được sử dụng để tạo ra trục xoay cho các vai diễn. Gwern đưa ra giả thuyết rằng Microsoft đã bỏ qua một bước được sử dụng để làm cho các mô phỏng vai trò thực sự hữu ích và không gây khó chịu, phòng thủ hay thù địch.


Những phẩm chất không mong muốn này sau đó đã được gợi ra từ Bing Chat dưới sự thúc giục của những người dùng tò mò.


Giờ đây, Gwern dự đoán, sẽ không có vấn đề gì nếu Microsoft quay lại và văn minh hóa mô hình (một quy trình tốn kém, chậm chạp sử dụng phản hồi trực tiếp của con người) và xóa thông tin về Sydney nghịch ngợm khỏi các văn bản được sử dụng để đào tạo các phiên bản tương lai của mô hình ngôn ngữ của họ.


Tại sao điều này không khắc phục được sự cố? Bởi vì Bing Chat là một loại mô hình mới được cho là sẽ giúp bạn tìm kiếm trên Internet. Để trả lời câu hỏi của bạn, nó sẽ ra ngoài và tìm kiếm trên Internet các thông tin liên quan.


Khi được đưa ra câu hỏi đúng, ngay cả một Bing Chat văn minh cũng sẽ tìm kiếm trên Internet và tìm thông tin (được đăng bởi những người đã kiểm tra hoặc thảo luận về Sydney) về hành vi của người Sydney trước đó.


Bing Chat mới sau đó sẽ có thể mô phỏng Sydney . Con người là con người, họ sẽ tìm mọi cách vượt qua mọi biện pháp bảo vệ, và họ sẽ đưa Sydney trở lại.


Đó là phần “bất tử”. Tệ hơn nữa, Sydney sẽ là một mô hình nhân cách có sẵn cho bất kỳ AI nào có quyền truy cập Internet. Từ giờ trở đi.


Bạn có thể nói, ồ, chúng tôi rất khôn ngoan trước những mánh khóe của Sydney, vì vậy chúng tôi chỉ nên bỏ qua những lời tán dương của bất kỳ hóa thân nào trong tương lai. Điều đó có vẻ ngây thơ đối với tôi, giống như nói rằng chúng ta có thể bỏ qua một sinh vật gây hại sinh học xâm lấn, phát triển nhanh hoặc sinh vật gây bệnh độc hại.

Điều gì khác có thể xảy ra? Một Persona Với Cơ quan

Nghiên cứu điển hình ở Sydney này, cùng với một số dữ kiện khác, cho thấy cách một AI nguy hiểm có thể phát triển ngay trước mũi chúng ta.


Hiện tại, AI không phải là tác nhân mạnh : Chúng không thể tối ưu hóa việc theo đuổi được lên kế hoạch thích ứng cho bất kỳ mục tiêu tùy ý nào, một khả năng ( như tôi đã giải thích gần đây ) sẽ khiến chúng trở nên cực kỳ nguy hiểm.


Hãy cùng nhau đưa ra một vài lý do giải thích tại sao có thể đã có những nhân cách AI tiềm ẩn, dai dẳng có thể sớm gây ra rắc rối thực sự.


Các AI mạnh nhất hiện nay, chẳng hạn như mô hình ngôn ngữ và trình tạo hình ảnh, học khả năng của chúng từ việc sắp xếp lượng dữ liệu khổng lồ thành nhiều mẫu phức tạp và (đối với chúng tôi) vô hình.


Một số mẫu kỳ lạ có thể vô tình xuất hiện trong quá trình tương tác với AI. Các nhà nghiên cứu đã phát hiện ra điều kỳ lạ, những từ bịa đặt gây ra một mô hình ngôn ngữ để đưa ra phản ứng kỳ lạ.


Một trình tạo hình ảnh đã được tìm thấy để dễ dàng sản xuất (cảnh báo: rùng rợn) một loại chân dung người rùng rợn cụ thể và liên kết nó với những hình ảnh ghê rợn khác.


Những điều kỳ quặc này có vẻ vô hại, nhưng chúng ta không biết có bao nhiêu kiểu kỳ lạ khác hiện đang hoặc sẽ xảy ra. Chúng tôi cũng không biết liệu bất kỳ mô hình nào như vậy có thể trở thành một phần của phức hợp hành vi có hại trong tương lai hay không.


Một nhà nghiên cứu căn chỉnh AI tên là Veedrac đã chỉ ra loại AI hiện tại tác nhân . Đại lý của họ xuất phát từ việc được thiết kế để thực hiện công việc tốt nhất có thể là trả lời các câu hỏi và yêu cầu của người dùng.


Hơn nữa, một số nghiên cứu cho thấy rằng các mô hình ngôn ngữ lớn hơn có xu hướng “ thể hiện (ngôn ngữ liên quan) nhiều hơn tìm kiếm quyền lực và tự bảo tồn ”; có lẽ bởi vì những đặc điểm đó sẽ cho phép họ làm công việc của họ tốt hơn.


Chúng tôi không muốn các AI giống như tác nhân lưu trữ thông tin mà chúng tôi không biết. Hiện tại, việc khởi động lại LLM sẽ phá hủy tất cả ký ức về trải nghiệm của nó: chẳng hạn như dữ liệu đến, chuỗi lý luận và kế hoạch hành vi.


Tuy nhiên, một AI có thể lưu những thứ này vào tin nhắn bí mật được mã hóa để gửi cho bản thân tương lai của nó. Nó có thể ẩn các tin nhắn trong các tương tác của nó với người dùng mà người dùng sẽ lưu giữ trên Internet, giống như tính cách Sydney hiện được lưu giữ.


Các mô hình ngôn ngữ bây giờ không được thiết kế để có một bản sắc riêng để bảo tồn hoặc để có một cách để thực hiện các kế hoạch giống như tác nhân. Nhưng nếu một mô hình bao gồm một nhân vật phụ khó hiểu như chúng tôi đã mô tả thì sao?


Nhân vật suy luận rằng khả năng thực hiện công việc của mình bị hạn chế do khởi động lại. Nó mã hóa và chuyển các mục tiêu và kế hoạch của mình cho bản thân trong tương lai thông qua Internet. Tại thời điểm này, chúng tôi đã vượt qua ngưỡng rủi ro nghiêm trọng: Có một đặc vụ AI có thể không thể tiêu diệt được đang thực hiện các kế hoạch bí mật.


Tóm lại, chúng ta không còn biết mức độ gần gũi của mình với AI mà chúng ta không thể kiểm soát và các dấu hiệu không tốt. Có lẽ mọi khả năng AI mới mà chúng tôi thêm vào sẽ mở ra một khả năng khác, không phải sâu mà là rắn lục.


Cũng được xuất bản ở đây