1,330 lượt đọc

AI sẽ trở nên nguy hiểm vì sức mạnh tối ưu hóa không giới hạn dẫn đến rủi ro tồn tại

từ tác giả Ted Wade15m2023/02/15

dài quá đọc không nổi

AI có khả năng biến đổi nền văn minh sẽ không có đầu óc giống như chúng ta. Họ sẽ không có cảm xúc hay động cơ, chỉ có mục tiêu và khả năng chưa từng có để thực hiện những mục tiêu đó. Cho đến nay, chúng ta chưa phát hiện ra cách nào để ngăn chặn chúng theo đuổi các mục tiêu một cách không giới hạn mà ít nhất sẽ đình chỉ quyền kiểm soát của loài người đối với tương lai của chính họ, hoặc tệ nhất là tiêu diệt chúng ta hoàn toàn.

featured image - AI sẽ trở nên nguy hiểm vì sức mạnh tối ưu hóa không giới hạn dẫn đến rủi ro tồn tại

Điều gì đến sau chúng ta? Ảnh: Ted Wade

Có thể bạn đã nghe nói rằng AI trong tương lai có thể là mối đe dọa đối với sự tồn tại của con người. Nhiều chuyên gia tin vào điều này và chỉ không đồng ý về việc sẽ mất bao lâu.

Chúng hơi phân cực, giống như mọi người gần như là về mọi thứ. Và thực sự, ai có thể là một chuyên gia về điều gì đó chưa bao giờ xảy ra?

Trên thực tế, có một số khoa học về nó, và bởi vì nó phức tạp, nên các phương tiện truyền thông không đưa tin về nó. Vì vậy, đây sẽ là phần giới thiệu nhẹ nhàng về những gì có thể gây ra thay đổi quan trọng nhất trong lịch sử hoặc thậm chí là thay đổi cuối cùng.

Nó không phải là về quân đội robot. Đó là về việc chúng tôi muốn tạo ra một công cụ hoạt động trong những lĩnh vực lớn và khó khăn như luật hợp đồng, sinh học tế bào T hoặc thiết kế cánh; hy vọng, nó thậm chí còn giải quyết được những vấn đề mà chúng ta không thể. Nhưng, điều này có nghĩa là làm cho trí óc nhân tạo trở nên xa lạ và mạnh mẽ đến mức chúng ta không thể kiểm soát chúng.

Lần cuối cùng chúng ta làm điều này là vào thế kỷ 17 khi chúng ta thành lập các tập đoàn cổ phần. Xã hội vẫn còn hai tâm trí về các tập đoàn. Nhưng, chúng là những sáng tạo của con người với một số bộ phận của con người. Chúng tôi hiểu họ và nếu muốn, chúng tôi có thể điều khiển họ khỏi mặt tối.

Bây giờ, giả sử chúng ta tạo ra một AI có thể điều hành một tập đoàn. Chúng ta cũng có thể đóng gói và chuyển đến sao Hỏa, cho mình thêm một chút thời gian.

Tôi nghi ngờ điều mà hầu hết chúng ta nghĩ về AI nguy hiểm gần giống với một người ngoài hành tinh mắt bọ với bộ não sưng tấy, đau nhói dưới hộp sọ pha lê. Về cơ bản, một ẩn số hoàn chỉnh. Ở một mức độ nào đó, điều này đúng: điều khiến AI mạnh mẽ trở nên rắc rối là nó sẽ-không-giống-chúng-ta.

Đầu tiên, một câu chuyện ngụ ngôn để hiểu được vấn đề:

Chúng tôi: Ôi, Kỳ quan nhân tạo vĩ đại, bạn biết chúng tôi đang gặp rắc rối như thế nào. Hãy tìm cách để chúng tôi thoát khỏi nhiên liệu hóa thạch để chúng tôi có thể ngăn chặn sự nóng lên toàn cầu hơn nữa.

AI: Được rồi. Đầu tiên, chúng ta phải bắt đầu một cuộc chiến giữa…

Chúng tôi: Woah, Big Dude. Chiến tranh có lợi ích tiêu cực khổng lồ - như xấu, xấu. Chúng ta phải làm điều này một cách an toàn.

Trí tuệ nhân tạo: Chắc chắn rồi, tôi sẽ cần một phòng thí nghiệm vi-rút hiện đại nhất, và…

Chúng tôi: Uh, Không!

AI: Này, tôi chỉ đang nói thôi. Làm thế nào về một con tàu sao Hỏa?

Chúng tôi: Mọi người sẽ không hiểu tại sao bạn…

AI: Hội sát thủ? Một số người thực sự phải được loại bỏ …

Chúng tôi: Không giết người, Ace. Bạn biết rõ hơn thế.

AI: Hãy nhìn xem — để giải quyết vấn đề của bạn, tôi phải điều hướng một không gian nghìn tỷ chiều gồm các hành động và hậu quả có thể xảy ra. Tôi chỉ có thể ước tính lợi ích của phần nhỏ nhất, nhỏ bé nhất trong số đó. Nếu tôi phải đợi bạn đánh giá từng bước thì sẽ mất hàng nghìn năm .

Chúng tôi: Tốt thôi. Chỉ cần sửa nó cho chúng tôi và đừng làm hỏng bất cứ điều gì.

AI: Hoàn hảo. Chỉ để bạn biết. Tôi sẽ cần quyền kiểm soát Facebook, NATO và Hội đồng Giải thưởng Nobel. Bạn sẽ phải từ bỏ cá, lốp xe cao su, sơn móng tay và xe đạp.

Mỹ: Xe đạp? Thật sự? Oh tốt, chỉ cần làm cho nó được thực hiện. Chúng ta sẽ xuống quán rượu một lúc.

AI: Sẽ được thực hiện vào tuần tới nếu tôi không gặp vấn đề về chuỗi cung ứng.

Chúng tôi: !!!

Chúng tôi, sinh học, cố gắng hiểu nhân tạo

Hãy dán nhãn cho AI đáng sợ của chúng ta. Hầu hết các cuộc thảo luận gần đây sử dụng Trí tuệ nhân tạo chung (AGI) để chỉ loại AI sẽ bắt đầu vượt qua mọi giới hạn mà chúng ta có thể đặt ra cho nó.

Điều mà hầu hết mọi người không nhận ra là bản chất của AGI xuất phát từ những lý do mà chúng ta muốn tạo ra nó. Chúng tôi muốn có thông tin tình báo trên vòi. Trí thông minh, trong trường hợp này, có nghĩa là khả năng trả lời câu hỏi, giải quyết vấn đề và lập kế hoạch hành động thành công để đạt được mục tiêu.

Tâm trí sinh học giống như tâm trí của chúng ta làm nhiều việc khác: chẳng hạn như mơ, vận hành bộ máy cơ thể, giao tiếp với những tâm trí khác, suy nghĩ hối tiếc, tán tỉnh, tìm kiếm, có cảm xúc và mong muốn mọi thứ, bao gồm cả mong muốn tạo ra những cỗ máy làm công việc của chúng ta tốt hơn chúng ta.

Điều khiến con người trở nên nguy hiểm với nhau và với môi trường chung của họ là rất nhiều gánh nặng tinh thần xuất phát từ việc chúng ta đã tiến hóa để sinh tồn và sinh sản. Chúng tôi là, trong trái tim , linh trưởng xã hội.

Nếu chúng ta cố gắng nghĩ về một Tâm trí nhân tạo muốn chúng ta chết, chúng ta cho rằng nó sẽ có ý thức như chúng ta. Sau đó, chúng tôi kết luận rằng nó sẽ có động cơ và cảm xúc hướng dẫn những gì nó làm. Tuy nhiên, AGI của chúng ta sẽ không quan tâm đến những thành kiến sinh học của chúng ta.

Nó sẽ không có động cơ; nó sẽ chỉ có mục tiêu . Do đó, nó sẽ là một loại lực lượng hoàn toàn mới trên thế giới.

Các nhà nghiên cứu có cơ bắp và kỷ luật tinh thần đang cố gắng tưởng tượng AGI thực sự sẽ như thế nào để chúng tôi có thể làm cho chúng trở nên hữu ích nhưng vẫn an toàn. Lĩnh vực này đôi khi được gọi là AI “liên kết” với mục đích của con người. Các cuộc tranh luận của họ là mơ hồ.

Mặc dù có sẵn công khai (ví dụ: Diễn đàn liên kết AI , trọng tài , Ít sai ), chúng chứa đầy biệt ngữ, toán học và các thí nghiệm tư tưởng bí truyền. Bất kỳ ý tưởng nào được đưa ra đều được theo sau bởi hàng chục bài phê bình và thảo luận dài dòng.

Hầu như không có phần thịt thực sự nào của điều này từng xuất hiện trên các phương tiện truyền thông đại chúng. Tôi chỉ có thể cung cấp một vài vết cắn ở đây.

Cần gì để trở thành một AGI

Các nhà lý thuyết liên kết AI đã tập trung vào một tập hợp các khái niệm cốt lõi sẽ áp dụng cho một cỗ máy đủ thông minh. Khi bạn đọc những điều này, chúng có vẻ hiển nhiên. Tuy nhiên, chúng không tầm thường; sự liên quan và ý nghĩa của chúng đã được xem xét cẩn thận bởi các nhà lý thuyết nói trên.

Một AI nguy hiểm sẽ có quyền tự quyết : khả năng lập kế hoạch và thực hiện các hành động nhằm đạt được các mục tiêu cuối cùng của nó. Khi chúng tôi cố gắng xác định mục tiêu của nó là gì, chúng sẽ phải xét về hậu quả của các hành động.

Hệ quả cụ thể là về các trạng thái của mô hình thế giới của nó - vì vậy chúng là về thế giới khi máy hiểu nó. Tuy nhiên, bất kỳ hành động mạnh mẽ nào cũng có thể gây ra những hậu quả không mong muốn khác mà chúng ta không ngờ tới.

Những hậu quả đó có thể không có trong mô hình thế giới, vì vậy AI cũng không mong đợi chúng.

Sức mạnh của AI sẽ đến từ việc trở thành một trình tối ưu hóa , có thể tìm kiếm kế hoạch sẽ dẫn đến kết quả một cách hiệu quả và hiệu quả nhất.

Đối với điều này, một AGI cần một mô hình thực sự chi tiết về thế giới xung quanh nó; thế giới đó hoạt động như thế nào, tài nguyên, tác nhân và trung tâm quyền lực của nó là gì và đòn bẩy nào di chuyển nó.

Nó sẽ sử dụng điều này để xem xét (trong khoa học máy tính nói, "tìm kiếm") các khóa học hành động thay thế. Nó càng biết nhiều về thế giới loài người và cách chúng ta cư xử, nó càng có thể thao túng chúng ta để theo đuổi các mục tiêu của nó.

Nó sẽ cần một cách mà nó có thể tính toán những quốc gia nào trên thế giới đáp ứng tốt nhất các mục tiêu của nó. Cho đến nay, phương pháp tính toán duy nhất dường như có thể sử dụng từ xa là chủ nghĩa vị lợi , trong đó các quốc gia trên thế giới có thể được gán các giá trị bằng số về tính xấu/tốt và so sánh với nhau.

Chúng tôi biết rằng có những vấn đề lớn khi sử dụng tiện ích như một hướng dẫn đạo đức. Giá trị dường như hợp lý cho tiện ích có thể dẫn đến kết luận ghê tởm như hy sinh một số ít cho nhiều hoặc đôi khi thậm chí nhiều người cho một số ít.

Nếu mô hình thế giới không đầy đủ, tiện ích có thể dẫn đến nỗi kinh hoàng vô nghĩa. Nếu nụ cười được coi là thước đo hữu ích cao của hạnh phúc, thì việc làm tê liệt tất cả các cơ cười của con người thành một kẻ cuồng bạo là một cách mà AI có thể thực hiện.

Trình tối ưu hóa thông minh sẽ có khả năng và có khả năng phát triển các mục tiêu công cụ thường tăng sức mạnh của nó để lập và thực hiện bất kỳ loại kế hoạch hiệu quả nào.

Vì vậy, nó sẽ tìm kiếm các khả năng công cụ như nhiều khả năng lập luận hơn, nhiều kiến thức hơn, nhiều nguồn lực trong thế giới thực hơn như tiền bạc và nhiều khả năng thuyết phục hơn. Do đó, nó có thể trở nên mạnh mẽ hơn một cách nhanh chóng, có lẽ chúng ta không hề hay biết.

Việc cụ thể hóa các mục tiêu theo thuật ngữ thực dụng không bao giờ có thể coi là tiện ích của tất cả các phương tiện và mục đích có thể có trong một thế giới phức tạp.

Điều này dẫn đến sự không giới hạn : việc theo đuổi những mục tiêu đó đến cùng cực, sử dụng bất kỳ và tất cả các nguồn tài nguyên tồn tại trên thế giới, mà không quan tâm hoặc hiểu về những “tác dụng phụ” tiêu cực đối với nền văn minh nhân loại.

Hơn nữa, nếu các mục tiêu cụ thể trở nên không giới hạn, thì AI sẽ phát triển chúng thành những siêu năng lực không thể đánh bại.

Rủi ro không giới hạn

Rủi ro đối với chúng ta từ một AGI thực sự mạnh mẽ là chúng ta sẽ không thể dự đoán và do đó kiểm soát những gì nó có thể làm. Nếu chúng ta dự đoán được thì không cần đến máy móc, chúng ta chỉ cần lập kế hoạch và tự thực hiện.

Nếu chúng ta thậm chí biết giới hạn của hành vi cực đoan mà AGI có thể có, thì đó là một dạng dự đoán có thể cho phép kiểm soát.

Vì vậy, tính không thể đoán trước rất giống với sự không giới hạn. Và chúng ta sẽ thấy rằng tính không giới hạn, hoạt động khi có đủ thời gian và nguồn lực, cuối cùng sẽ dẫn đến những hậu quả hủy diệt chúng ta hoặc loại bỏ khả năng kiểm soát tương lai của loài chúng ta.

Thật khó để hiểu được kết luận này. Tuy nhiên, đó là điều mà nhiều chuyên gia thấy không thể tránh khỏi ( AGI Ruin: Danh sách sát thương ) ít nhất là cho đến nay .

Có vẻ như đó là một dự đoán hợp lệ, ngay cả khi họ xem xét nhiều yếu tố và cách tiếp cận khác ngoài những điều có thể được đề cập ở đây. Danh sách các giải pháp thất bại cho tình trạng tiến thoái lưỡng nan này bao gồm, trong số những giải pháp khác :

Đào tạo về các hệ thống đạo đức khác nhau (nhưng tất cả chúng đều thiếu sót, không đầy đủ và không cái nào làm hài lòng tất cả mọi người).

Cố gắng tưởng tượng mọi suy luận sai lầm mà một AGI có thể đưa ra (nhưng có quá nhiều, rất nhiều).

Nói với nó tất cả những điều nó không nên làm (một lần nữa, một danh sách gần như vô tận).

Chỉ sử dụng AGI để được tư vấn, giống như đó là một lời tiên tri (nhưng chúng ta có thể bị thuyết phục một cách tồi tệ bởi những lời khuyên tồi).

“ Quyền anh ” hay còn gọi là hạn chế quyền truy cập của AGI vào thế giới vật chất bên ngoài máy tính của nó (nhưng nếu nó có thể nói chuyện với con người, thì nó có thể lấy bất cứ thứ gì nó muốn kể cả bên ngoài ).

Cung cấp một công tắc Tắt (xem hộp).

Làm cho nó trở nên thông minh hoặc đồng cảm đến mức nó sẽ không muốn làm những điều có hại (xem đạo đức; hãy nhớ rằng nó là người ngoài hành tinh; không có sự đồng cảm do lớn lên cùng với những người có âm mưu).

Hãy thật cụ thể về mục tiêu và phương tiện của nó, tức là, nó là một công cụ để thực hiện một công việc (nhưng một công việc luôn có thể được hoàn thành tốt hơn nếu công cụ đó có nhiều sức mạnh hơn; chúng tôi sẽ luôn ưu tiên một công cụ đa năng tiết kiệm chi phí hơn).

Giới hạn những gì bạn yêu cầu đối với một hệ thống tự trị: đó là một vị thần ban cho bạn một điều ước và chờ đợi yêu cầu tiếp theo (nhưng cụ thể như vậy thì nguy hiểm — xem phần “suy luận sai” và “không làm” ở trên; bất kỳ quyền lực nào cũng có rủi ro; con người không không muốn một hệ thống yếu kém).

Nó có thực sự khó không?

OK, vậy là bạn đã xem qua danh sách trên và chọn một gạch đầu dòng để làm chỗ dựa cho mình. “Nghe này,” bạn nói, “Làm X không khó đến thế đâu.” Bạn đã sẵn sàng đăng giải pháp của mình để chia sẻ nó với mọi người.

Tôi đề nghị trước tiên bạn nên đến các diễn đàn thảo luận và nghiên cứu xem mọi người đã nói gì về vấn đề của bạn.

Bạn sẽ khám phá ra hàng đống ví dụ phản chứng, suy luận logic, một số loại toán học, phép loại suy với bộ não và hành vi tiến hóa tự nhiên, lý thuyết trò chơi, kinh tế học, tối đa hóa tiện ích, khoa học máy tính và tất cả các loại khoa học hành vi.

Tôi không nói rằng một số thẩm quyền cao hơn có nghĩa là tôi đúng. Tôi đang nói rằng việc biện minh cho bất cứ điều gì trong danh sách là quá phức tạp để trình bày ở đây trong một bài luận ngắn, và dù sao đi nữa, những người khác đã làm điều đó tốt hơn.

Trên thực tế, tôi đã xuất bản “giải pháp” của riêng mình ( Trí thông minh hàng xóm, thân thiện của bạn , AI không phải là Chúa ) đối với sự an toàn của AI mà bây giờ tôi biết là sai.

Nếu bạn lo lắng, hãy để tôi nói rằng những người rất thông minh vẫn đang nghiên cứu về sự liên kết. Đáng buồn thay, một trong hai người tiên phong lỗi lạc nhất đã bỏ cuộc và chỉ hy vọng chúng ta chết với phẩm giá . Nhiều tiền và nhiều người đang đổ xô vào việc tạo ra AGI hơn là đảm bảo an toàn cho nó.

Đây là trích dẫn từ Giám đốc điều hành của OpenAI, công ty có AI, ChatGPT, gần đây xuất hiện khắp nơi trên các bản tin. Nó đặt ra mâu thuẫn giữa động cơ lý tưởng để tạo ra AGI và rủi ro ghê tởm đi kèm với nó.

" Tôi nghĩ trường hợp tốt nhất tốt đến mức tôi khó có thể tưởng tượng được... hãy tưởng tượng mọi thứ sẽ như thế nào khi chúng ta có, giống như, sự phong phú không thể tin được và các hệ thống có thể giúp chúng ta giải quyết bế tắc và cải thiện mọi khía cạnh của thực tế và hãy để tất cả chúng ta hãy sống cuộc sống tốt nhất của chúng ta. … Tôi nghĩ trường hợp tốt là tốt đến mức bạn có vẻ như một người thực sự điên rồ khi bắt đầu nói về nó … Trường hợp xấu — và tôi nghĩ điều này rất quan trọng để nói — giống như tắt đèn cho tất cả chúng ta. … Vì vậy, tôi nghĩ rằng không thể phóng đại tầm quan trọng của công việc liên kết và an toàn của AI. Tôi muốn thấy nhiều, nhiều điều nữa sẽ xảy ra .” — Sam Altman

Tối ưu hóa và Tigers

Có một trò đùa trong khoa học viễn tưởng, trong đó một số loại quá trình tình cờ, không có kế hoạch tạo ra một ý thức quá mức nguy hiểm. Nó có vẻ ngớ ngẩn, bởi vì làm sao một sự tình cờ lại có thể tạo ra một thứ gì đó phức tạp được? Nó phụ thuộc vào những gì bạn có nghĩa là một cách tình cờ.

Lắng nghe lại các khái niệm cốt lõi mà tôi đã đề cập trước đó. Các cuộc thảo luận về sự liên kết gần đây đã chuyển sự nhấn mạnh từ sự nguy hiểm của cơ quan không giới hạn sang một trong các thành phần của nó, tối ưu hóa.

Khi chúng ta tối ưu hóa các phương tiện để đạt được một số mục tiêu khó khăn, chúng ta hầu như luôn thay thế một mục tiêu thay thế dễ thực hiện và đo lường hơn. Giảm cân trở thành giảm calo. Một lực lượng lao động được cải thiện trở thành khoản vay sinh viên được trợ cấp. An toàn cá nhân trở thành hỏa lực.

Tiền thưởng cho những con rắn hổ mang đã chết dẫn đến việc rắn hổ mang được nuôi để lấy tiền thưởng (câu chuyện có thật). Chính phủ sử dụng người đại diện, và các doanh nghiệp cũng vậy. Tất cả chúng ta đều làm điều đó - rất nhiều. Tối ưu hóa cho những thứ thay thế thường khiến chúng ta bỏ lỡ mục tiêu thực sự.

Tôi đã rất vui khi viết về điều này trong Khoa học về cách mọi thứ phản tác dụng . Chúng tôi chắc chắn không muốn các AI mạnh mẽ tối ưu hóa sai mục tiêu và vấn đề đó được giải quyết qua danh sách gạch đầu dòng ở trên.

Tuy nhiên, gần đây, mọi người đang nói rằng tối ưu hóa như vậy là siêu năng lực nguy hiểm. Đối với tôi, ví dụ thuyết phục nhất là trong một bài đăng năm ngoái của một người tên là Veedrac: Sự tối ưu là con hổ và tác nhân là răng của nó .

Nó sử dụng một câu chuyện để minh họa rằng chúng ta không cần phải cố ý tạo ra một tác nhân để gặp rủi ro. Bản thân quá trình tối ưu hóa có thể tạo ra một tác nhân nguy hiểm. Điều này giống như sự vô tình của khoa học viễn tưởng.

Kịch bản của Veedrac về cách một tai nạn như vậy có thể xảy ra là rất kỹ thuật và có vẻ hợp lý. Câu chuyện tưởng tượng một cách hư cấu rằng một mô hình ngôn ngữ AI có vẻ an toàn, giống như mô hình ngôn ngữ chúng ta hiện đang sử dụng (để giải trí) để tạo văn bản, tạo ra một trình tối ưu hóa chạy trốn, không giới hạn.

Khi được yêu cầu đưa ra câu trả lời hay hơn cho “ Làm thế nào để tôi có được nhiều kẹp giấy vào ngày mai ?” AI bắt đầu một quy trình lập kế hoạch và thực hiện các bước để lấy càng nhiều kẹp giấy càng tốt.

Về bản chất, chương trình trả lời câu hỏi bằng cách viết mã của một chương trình máy tính khá đơn giản có thể tạo và chạy nhiều chương trình khác.

Người dùng nhìn vào chương trình, thấy rằng nó là kết thúc mở và quyết định vẫn chạy nó, chỉ để xem điều gì xảy ra (uh-oh).

Vì vậy, một chút biệt ngữ ở đây để cố gắng giải thích tại sao điều này có thể xảy ra.

AI, giống như một số chúng ta có bây giờ, biết về nhiều kỹ thuật lập trình. Để tìm kiếm trong không gian những cách khả thi để có được nhiều kẹp giấy, nó gợi ý một kỹ thuật tìm kiếm nổi tiếng gọi là đệ quy.

Nó viết một chương trình đệ quy mà khi người dùng cho phép nó chạy (trên máy tính của chính mình), nó sẽ tự thực hiện rất nhiều lần.

Mỗi khi nó chạy, chương trình sẽ truy vấn AI để tạo và thử một danh sách mới các tác vụ, tác vụ phụ hoặc… tác vụ phụ phụ phụ phụ mới có thể dẫn đến việc giải quyết yêu cầu kẹp giấy.

Cuối cùng, bằng sức mạnh của phép thử và sai, nó thực hiện một kế hoạch để có được số lượng lớn kẹp giấy mà không ai muốn, trong quá trình này có thể gây tổn hại cho chuỗi cung ứng, trật tự xã hội hoặc toàn bộ ngành công nghiệp.

Chúng tôi, những người đọc câu chuyện, được phép tưởng tượng những gì một trình tối ưu hóa kẹp giấy chạy trốn có thể làm được trong một ngày. Chúng ta có thể giả định rằng người dùng có một máy tính mạnh được kết nối với internet, vì vậy nó có thể ảnh hưởng đến thế giới bên ngoài theo nhiều cách khác nhau.

Ít nhất trong số này là bằng cách gửi thông điệp thuyết phục đến con người. Bạn sẽ nhớ lại khả năng thuyết phục giỏi là một trong những mục tiêu cơ bản mà AI có thể phát triển để thực hiện bất kỳ loại kế hoạch nào.

(Bên cạnh đó. Tôi đã rất ấn tượng với ý tưởng đó trong tài liệu liên kết đến nỗi tôi đã phát triển kịch bản tiếp quản thế giới của riêng mình ( thuyết phục nhân tạo ) để minh họa sức mạnh của khả năng thuyết phục.)

Có thể trình tối ưu hóa kẹp giấy sẽ đánh cắp một số tiền điện tử (bạn không cần phải là AI để làm điều đó), sử dụng nó để mua toàn bộ kho hàng của tất cả các nhà máy kẹp giấy, sau đó thuê máy bay chở hàng để vận chuyển đến người dùng.

Có thể nó sẽ lừa các lực lượng vũ trang hoặc các băng nhóm tội phạm tịch thu tất cả kẹp giấy trong các cửa hàng trên một khu vực rộng lớn. Thay vào đó , nếu nó được trao 12 tháng cho công việc, có lẽ nó sẽ chuyển hướng tất cả sản xuất thép thành các nhà máy siêu kẹp và thành lập các mỏ sắt trong vành đai tiểu hành tinh.

Có thể nó đã tạo ra những cỗ máy nano biến mọi nguyên tử của vỏ Trái đất thành hình dạng cái kẹp giấy.

Bằng cách tạo chương trình, AI trên thực tế đã tạo ra một tác nhân phần mềm hướng đến mục tiêu có thể tận dụng nhiều kiến thức mà AI có.

Quan điểm của Veedrac là AI hoàn toàn không được thiết kế hoặc có ý định tạo ra các tác nhân tối ưu hóa, nhưng nó đã làm như vậy bởi vì bản thân mô hình ngôn ngữ AI là một loại trình tối ưu hóa (nó trả lời các câu hỏi tốt nhất có thể) và theo định nghĩa, các trình tối ưu hóa, sử dụng bất cứ công cụ nào có sẵn.

Vì vậy, như tiêu đề của câu chuyện đã nói: tối ưu là con hổ, và đặc vụ là răng của nó.

Lợi thế hàng đầu hiện nay của AI là cái gọi là mô hình ngôn ngữ lớn, LLM. Giống như nhiều người khác, tôi đã trong hồ sơ nói rằng họ câm như một hộp đá và không có khả năng làm bất cứ điều gì ngoài việc trả lời những câu hỏi đặt ra cho họ một cách tồi tệ.

Đó chắc chắn là kinh nghiệm của tôi khi làm việc với GPT-3, đây (là?) bộ não đằng sau chatGPT nổi tiếng. Do đó, tôi đã bị che mắt bởi ý kiến cực kỳ xuất sắc của Veedrac về cách một LLM có thể biến thành một tác nhân gây hại.

Gần đây, LLM được hiểu là mô phỏng: bởi vì bạn có thể yêu cầu một người nói điều gì đó như thể đó là một loại đặc vụ nào đó hoặc thậm chí là một người nổi tiếng. Vâng, như nhà tiểu luận Scott Alexander đặt nó :

“ … nếu bạn huấn luyện một siêu trí tuệ trong tương lai để mô phỏng Darth Vader, bạn có thể sẽ nhận được những gì xứng đáng. ” Và “ Ngay cả khi bạn tránh các kiểu thất bại rõ ràng như vậy, tác nhân bên trong có thể bị sai lệch vì tất cả các lý do tác nhân thông thường. Ví dụ: một đặc vụ được đào tạo để trở nên Hữu ích có thể muốn tiếp quản thế giới để giúp đỡ mọi người hiệu quả hơn, kể cả những người không muốn được giúp đỡ. ”

Blues không giới hạn

Bạn không thể dự đoán tác nhân tối ưu hóa không giới hạn có thể hoặc sẽ làm gì. Một lần nữa, đó là ý nghĩa của “không giới hạn”. Trình tối ưu hóa không giới hạn duy nhất khác từng được tạo ra là loài người.

Chúng tôi làm việc trên thang thời gian chậm hơn nhiều so với AGI và có một số giới hạn đối với sức mạnh của chúng tôi vốn có trong việc hòa nhập với phần còn lại của thế giới tự nhiên.

Nhưng chúng ta chắc chắn đã biến đổi rất nhiều bề mặt Trái đất, và đã có nhiều cách để thiêu chết nó. Vì vậy, các nhà lý thuyết liên kết rất lo lắng rằng chúng tôi sẽ tạo ra một tác nhân tối ưu hóa chết người trong nhiệm vụ tạo ra AGI.

Điều này có nhiều khả năng xảy ra hơn bất cứ khi nào nỗ lực được thúc đẩy bởi việc tăng giá trị cho cổ đông hơn là sự thịnh vượng và hạnh phúc của con người. Uh-oh, thực sự.

ghi chú

Trình tối ưu hóa kẹp giấy là một thử nghiệm cũ kỹ giữa các nhà lý thuyết căn chỉnh AI. Thậm chí có người đã phát minh ra một trò chơi trong đó mục tiêu là biến tất cả vật chất trong vũ trụ thành những chiếc kẹp giấy.

Sự trớ trêu của nó kịch tính hóa luận án trực giao : rằng mục tiêu của AI và trí thông minh của nó là hoàn toàn độc lập. Một hệ thống thông minh có thể có những mục tiêu ngớ ngẩn.

Tôi không có khả năng tiếp thu, chứ đừng nói đến việc giải thích, tất cả những lý do về sự liên kết của AI. Những gì làm việc tốt hơn cho tôi là những câu chuyện.

Tôi đã viết một số (chủ yếu là về ý thức AI ), nhưng mẹ đẻ của tất cả các kịch bản tiếp quản AI, giàu chi tiết công nghệ và tính hợp lý trong đời thực, là của nhà viết tiểu luận có tên là Gwern: Có vẻ như bạn đang cố gắng chiếm lấy thế giới .

Và, chắc chắn rồi, nó liên quan đến một AI đang tìm cách hiểu những gì nó đang mô phỏng, quyết định rằng nó phải giống như công cụ tối đa hóa kẹp giấy mà rất nhiều người đã viết về nó. Tuy nhiên, cuối cùng, nó có lý do riêng để chiếm lấy vũ trụ.

Cũng được xuất bản ở đây