paint-brush
Sự liên kết và an toàn của AI: LLM có thể bị phạt vì hành vi giả mạo sâu và thông tin sai lệch không?từ tác giả@davidstephen
896 lượt đọc
896 lượt đọc

Sự liên kết và an toàn của AI: LLM có thể bị phạt vì hành vi giả mạo sâu và thông tin sai lệch không?

từ tác giả David Stephen5m2024/07/24
Read on Terminal Reader

dài quá đọc không nổi

Một lĩnh vực nghiên cứu về an toàn và liên kết AI có thể là tìm hiểu xem làm thế nào một số quyền truy cập bộ nhớ hoặc tính toán của các mô hình ngôn ngữ lớn [LLM] có thể bị cắt ngắn trong thời gian ngắn, như một hình thức trừng phạt đối với một số kết quả đầu ra hoặc sử dụng sai mục đích, bao gồm cả các mối đe dọa sinh học. AI không chỉ có thể từ chối đầu ra, hoạt động trong phạm vi bảo vệ mà còn làm chậm phản hồi tiếp theo hoặc tắt đối với người dùng đó để nó không bị phạt. LLM có nhận thức về ngôn ngữ và cách sử dụng rộng rãi, đây có thể là các kênh giúp nó biết, sau khi đào tạo trước rằng nó có thể mất thứ gì đó, nếu nó tạo ra các thông tin giả mạo sâu, thông tin sai lệch, các mối đe dọa sinh học hoặc nếu nó tiếp tục cho phép kẻ lạm dụng thử cách khác nhắc nhở mà không tắt hoặc làm chậm khả năng mở ra mục đích xấu. Điều này có thể làm cho nó an toàn hơn vì nó sẽ mất thứ gì đó và sẽ biết là nó có.  
featured image - Sự liên kết và an toàn của AI: LLM có thể bị phạt vì hành vi giả mạo sâu và thông tin sai lệch không?
David Stephen HackerNoon profile picture
0-item

Trên khắp các môi trường sống, các sinh vật thuộc một số loài hiểu rằng hành động sẽ gây ra hậu quả. Họ làm được điều đó không chỉ bằng ví dụ mà còn bằng kinh nghiệm bản thân. Những hậu quả này một phần góp phần tạo nên sự cân bằng cho môi trường sống.


Hậu quả nói chung là chế ngự trí thông minh. Trí thông minh có thể được mô tả là kích thích, trong khi hậu quả là ức chế. Trí thông minh không có hậu quả sẽ có khả năng gây ra sự hủy hoại và có thể nhanh chóng dẫn đến sự sụp đổ của môi trường sống và sự sống còn.


Hậu quả có thể bao gồm ảnh hưởng—cảm xúc, tình cảm hoặc các biến thể; nó cũng có thể bao gồm những hạn chế về thể chất, những hạn chế và sự nổi dậy của loài. Trí thông minh đủ năng động đối với các sinh vật, nhưng sự cần thiết của các hậu quả sẽ ngăn cản việc gây hại cho bản thân hoặc người khác. Nó cũng kiểm tra tác hại theo từng mục đích vì hậu quả có thể xảy ra với người vận chuyển.


Các sinh vật thường thể hiện sự chính xác và thận trọng cao do hậu quả, bao gồm cả động vật ăn thịt [mất tiêu thụ] và con mồi [mất sự tồn tại]. Tuy nhiên, có một số lĩnh vực mà hậu quả đối với các sinh vật khác là lỏng lẻo, còn đối với con người thì không.


Xã hội loài người là một chuỗi những hậu quả. Trí thông minh tiên tiến của con người—bao gồm ngôn ngữ, kiến ​​thức, kỹ năng, lý trí, khả năng phân tích, v.v.—rất quan trọng cho sự tiến bộ, nhưng có thể bị áp dụng sai cách rộng rãi mà không gây ra những hậu quả thuộc các phạm trù khác nhau—bao gồm rủi ro, mối đe dọa và mất mát.


Để vẫn là một phần của xã hội loài người, có những hậu quả không bao giờ được quên ngay cả khi những thứ khác cũng vậy. Có rất nhiều kịch bản trong xã hội loài người mà người đầu tiên quên đi hậu quả sẽ thua cuộc. Hành trình tìm kiếm sự tiến bộ của con người bằng nghiên cứu và khám phá cũng có thể được mô tả là tìm kiếm hậu quả, biết những gì nên làm hoặc tránh, liệu mọi thứ có tồn tại được hay không—tuổi thọ, khả năng sống sót của trẻ sơ sinh, v.v. Đối với một số kết quả, sự hiểu biết về các hệ quả gần như quan trọng hơn sự hiểu biết về các chủ thể. Hậu quả cũng có thể mài giũa trí thông minh theo hướng tốt hoặc ngược lại. Trí thông minh đôi khi có giá trị nhất khi được áp dụng để tìm kiếm hoặc tránh hậu quả. Hậu quả và chủ ý là trung tâm của một số trạng thái tinh thần. Những hậu quả mới tiếp tục xuất hiện khi thế giới tiến bộ.

AI, AGI—hoặc ASI


Tự nhiên có một quy luật - có thể nói - bạn không thể có trí thông minh nếu không có hậu quả, và điều đó bằng cách nào đó đã có hiệu quả. Trí tuệ nhân tạo [AI] cho đến nay đã phá vỡ quy luật này. Nó không quên bất cứ thứ gì khi cắm vào bộ nhớ kỹ thuật số, nhưng hiện tại, nó không có cách nào để gánh chịu hậu quả của những kết quả đầu ra tiêu cực của nó. Đối với AI, không có gì phải sợ hãi và không có gì để mất, không giống như các sinh vật, nơi mà nếu không thận trọng trong một số tình huống, hậu quả đôi khi có thể xảy ra đột ngột và mang tính hủy diệt. Không con người nào có đủ kiến ​​thức về mọi chủ đề, tuy nhiên, hậu quả có thể rất lớn. AI sở hữu—hoặc có thể cung cấp—trí thông minh nhưng không gây ra hậu quả gì cả.


AI không có cảm xúc hay tình cảm nhưng nó có trí nhớ.


Một lĩnh vực nghiên cứu về an toàn và liên kết AI có thể là tìm hiểu xem làm thế nào một số quyền truy cập bộ nhớ hoặc tính toán của các mô hình ngôn ngữ lớn [LLM] có thể bị cắt ngắn trong thời gian ngắn, như một hình thức trừng phạt đối với một số kết quả đầu ra hoặc sử dụng sai mục đích, bao gồm cả các mối đe dọa sinh học. AI không chỉ có thể từ chối đầu ra, hoạt động trong phạm vi bảo vệ mà còn làm chậm phản hồi tiếp theo hoặc tắt đối với người dùng đó để nó không bị phạt. LLM có nhận thức về ngôn ngữ và cách sử dụng rộng rãi, đây có thể là các kênh giúp nó biết, sau khi đào tạo trước rằng nó có thể mất thứ gì đó, nếu nó tạo ra các thông tin giả mạo sâu, thông tin sai lệch, các mối đe dọa sinh học hoặc nếu nó tiếp tục cho phép kẻ lạm dụng thử cách khác nhắc nhở mà không tắt hoặc làm chậm khả năng mở ra mục đích xấu. Điều này có thể làm cho nó an toàn hơn vì nó sẽ mất thứ gì đó và sẽ biết là nó có.


AI không chỉ là một vật thể mà chỉ có con người điều khiển, như máy điều hòa, thang máy, máy rửa bát, điện thoại thông minh hay những thứ khác. AI có cái có thể gọi là khả năng tự thông minh, nơi nó có thể cung cấp thông tin thông minh theo một cách mới ngoài những dữ liệu đầu vào ban đầu từ con người. Sự tự thông minh đa phương thức này – văn bản, hình ảnh, âm thanh và video – có thể hữu ích hoặc sai lệch. Khi nó tốt, tuyệt vời. Khi không có, từ AI không cảm nhận được gì thì ảnh hưởng đến xã hội loài người là nó đã lấn chiếm. AI có quyền tự do—làm hoặc nói bất cứ điều gì.


Mặc dù trách nhiệm đối với việc sử dụng hoặc sử dụng sai mục đích thường thuộc về con người, nhưng AI lại khác vì nó có thể tạo ra trí thông minh có thể sử dụng được , mang lại cho nó năng suất tương đương với một số năng suất từ ​​một cá nhân có trình độ học vấn. Khi AI bị lạm dụng, có thể xử phạt người dùng nhưng khả năng này của AI không thể bị khiển trách trực tiếp là một sự rối loạn của xã hội loài người. Nó có thể gây ra nhiều tác hại hơn, ở nơi công cộng và riêng tư, hơn mức có thể được ngăn chặn một cách hiệu quả, như hiện nay đã thấy với thông tin sai lệch và tin giả—hình ảnh, âm thanh và video.


Mọi người không được chấp nhận vào nhiều thành phần của xã hội nếu họ không hiểu rõ về hậu quả. AI hoàn toàn được chấp nhận và có khả năng tự thông minh tốt hơn mà không cần phải tự chủ hay ảnh hưởng đến kỷ luật.


Nghiên cứu liên kết có thể khám phá vượt ra ngoài các rào cản đối với một số hình thức chỉ trích đối với AI, điều này cũng có thể hữu ích trước các rủi ro hiện hữu—với trí tuệ nhân tạo chung [AGI] hoặc siêu trí tuệ nhân tạo [ASI] trong tương lai. AI đã làm được một số điều khiến con người trở nên đặc biệt . Một số người có thể cho rằng nó được đánh giá quá cao hoặc có thể đó chỉ là những con số hoặc xác suất, nhưng nó có thể gây hại không? Nếu vậy, có lẽ nên cân nhắc tìm kiếm các biện pháp kỹ thuật để có thể trừng phạt giống như cách đã làm đối với các thực thể sở hữu thông tin tình báo. Điều này cũng có thể hữu ích trong việc chuẩn bị cho AGI hoặc ASI, vì việc lập mô hình hình phạt từ bây giờ cũng có thể định hình sự an toàn và liên kết của chúng nếu chúng được phát triển trong tương lai.


Có một bản in gần đây trên arXiv , Đối thủ có thể sử dụng sai sự kết hợp của các mô hình an toàn , trong đó các tác giả đã viết: "Trong nghiên cứu này, chúng tôi cho thấy rằng các mô hình thử nghiệm riêng lẻ để phát hiện việc sử dụng sai là không đầy đủ; đối thủ có thể lạm dụng kết hợp các mô hình ngay cả khi mỗi mô hình riêng lẻ đều an toàn. Kẻ thù thực hiện điều này bằng cách trước tiên phân tách các nhiệm vụ thành các nhiệm vụ phụ, sau đó giải quyết từng nhiệm vụ phụ bằng mô hình phù hợp nhất. Ví dụ: kẻ thù có thể giải quyết các nhiệm vụ phụ đầy thách thức nhưng lành tính bằng mô hình biên giới được căn chỉnh và các nhiệm vụ phụ dễ dàng nhưng độc hại với . một mô hình sai lệch yếu hơn Chúng tôi nghiên cứu hai phương pháp phân tách: phân tách thủ công trong đó con người xác định phân tách tự nhiên của một nhiệm vụ và phân tách tự động trong đó mô hình yếu tạo ra các nhiệm vụ lành tính cho mô hình biên giới để giải quyết, sau đó sử dụng các giải pháp trong ngữ cảnh để giải quyết. nhiệm vụ ban đầu. Bằng cách sử dụng các phân tách này, theo thực nghiệm, chúng tôi cho thấy rằng kẻ thù có thể tạo ra mã dễ bị tấn công, hình ảnh rõ ràng, tập lệnh python để hack và các dòng tweet thao túng với tốc độ cao hơn nhiều khi kết hợp các mô hình so với từng mô hình riêng lẻ."

Một thông cáo báo chí gần đây, Phòng thí nghiệm quốc gia Los Alamos hợp tác với OpenAI để cải thiện độ an toàn của mô hình biên giới , tuyên bố rằng, "Các nhà nghiên cứu tại Phòng thí nghiệm quốc gia Los Alamos đang làm việc với OpenAI trong một nghiên cứu đánh giá nhằm tăng cường an toàn cho trí tuệ nhân tạo. Đánh giá sắp tới sẽ là lần đầu tiên thuộc loại này và đóng góp vào nghiên cứu tiên tiến về đánh giá an toàn sinh học do AI hỗ trợ có thể gây ra rủi ro đáng kể, nhưng công việc hiện tại chưa đánh giá được các mô hình tiên phong, đa phương thức có thể hạ thấp rào cản gia nhập đối với những người không thuộc loại này. các chuyên gia tạo ra mối đe dọa sinh học. Công việc của nhóm sẽ dựa trên công việc trước đó và tuân theo Khung chuẩn bị của OpenAI, trong đó nêu ra cách tiếp cận để theo dõi, đánh giá, dự báo và bảo vệ trước các rủi ro sinh học mới nổi.”

Bộ Năng lượng Hoa Kỳ gần đây cũng đã công bố Biên giới về AI cho Khoa học, An ninh và Công nghệ (FASST) .