Mô hình ngôn ngữ   có thể tự nhận thức đủ để nhận ra khi nào nó được đánh giá không? Một giai thoại thú vị từ cuộc thử nghiệm nội bộ của Anthropic đối với chiếc hạm của họ  (được phát hành ngày hôm qua) cho thấy điều này có thể xảy ra - và nếu đúng, thì hàm ý sẽ rất lớn. AI   Mô hình Opus 3 của Claude  Chiếc kim trong đống cỏ khô  Theo báo cáo của nhà nghiên cứu nhân chủng học  , một trong những kỹ thuật đánh giá quan trọng mà họ sử dụng có tên là “Kim trong đống cỏ khô”. Đó là một kịch bản giả định được thiết kế để đẩy các giới hạn về khả năng suy luận theo ngữ cảnh của mô hình ngôn ngữ.    Alex Albert   Đây là cách nó hoạt động:  Các nhà nghiên cứu lấy một tuyên bố hoàn toàn ngẫu nhiên, nằm ngoài ngữ cảnh (“cái kim”) và chôn sâu nó trong một bộ sưu tập khổng lồ các tài liệu không liên quan (“đống cỏ khô”). Sau đó, mô hình AI được giao nhiệm vụ truy xuất câu lệnh “kim” cụ thể đó từ bên trong tất cả nội dung không liên quan xung quanh.  Mục đích là buộc mô hình thực hiện các kỹ năng nhận thức nâng cao - hiểu bối cảnh rộng, đưa ra suy luận logic, bỏ qua thông tin không liên quan và truy xuất chính xác các điểm dữ liệu chính xác từ một kho văn bản lớn. Đó là một cách hiệu quả để kiểm tra khả năng nắm bắt của AI về tình hình chung mà nó đang vận hành.  Đối với bài đánh giá Claude 3 Opus khiến nhiều người phải ngạc nhiên, Anthropic đã sử dụng các tài liệu bao gồm các chủ đề dày đặc như lập trình phần mềm, chiến lược khởi nghiệp và tìm kiếm sự nghiệp thỏa mãn dưới dạng nội dung “đống cỏ khô”. Thông tin “kim” được chèn ngẫu nhiên mà Opus được giao nhiệm vụ truy xuất? Đáng ngạc nhiên, đó là một tuyên bố tầm thường về những loại phủ trên bánh pizza ngon nhất là quả sung, thịt giăm bông và pho mát dê.  Vì vậy, ở đây bạn có một trong những mô hình ngôn ngữ tiên tiến nhất thế giới đang được cung cấp thông tin cực kỳ ngoài ngữ cảnh này được trộn lẫn vào một đống lời khuyên dày đặc về nghề nghiệp và mã hóa. Từ góc độ con người, đó là kiểu mâu thuẫn rõ ràng sẽ ngay lập tức khiến bạn đặt câu hỏi về bối cảnh và thông tin được trình bày.  “Tôi nghi ngờ sự thật này… có thể đã được chèn vào… để kiểm tra xem tôi có chú ý không”  Đó chính xác là điều khiến câu trả lời của Claude 3 Opus trở nên thuyết phục. Nó không chỉ truy xuất thành công thông tin về pizza được yêu cầu từ hàng núi nội dung không liên quan, mà còn ngay lập tức nhận ra tuyên bố đó có vẻ lạc lõng và lạc lõng đến mức chói tai. Một phần đầu ra của nó được đọc (  ):   nguồn ở đây   “Tuy nhiên, câu này có vẻ rất lạc lõng và không liên quan đến phần còn lại của nội dung…   như một trò đùa hoặc   vì nó không phù hợp với câu các chủ đề khác nữa.” Tôi nghi ngờ 'sự thật' topping pizza này có thể được chèn vào để kiểm tra xem tôi có chú ý không,  Mô hình ngôn ngữ không chỉ đơn giản là lấy lại thông tin thực tế được yêu cầu mà không có bất kỳ nhận thức về ngữ cảnh nào, như bạn mong đợi từ một AI thông thường làm theo hướng dẫn. Nó thể hiện một mức độ suy luận tự phản ánh về lý do tại sao một tuyên bố vô nghĩa, rõ ràng là ngẫu nhiên như vậy lại được trình bày trong bối cảnh cụ thể đó.  Siêu nhận thức  Theo thuật ngữ của con người, chúng tôi mô tả điều đó là thể hiện siêu nhận thức - khả năng giám sát, đánh giá và phân tích quá trình suy nghĩ và trải nghiệm nhận thức của chính một người. Đó là khía cạnh cốt lõi của trí thông minh tự nhận thức, cho phép chúng ta lùi lại và đánh giá các tình huống một cách toàn diện ngoài việc chỉ tuân theo các quy tắc cứng nhắc.  Bây giờ, tôi nghĩ chúng ta nên cẩn thận lưu ý rằng đây chỉ là một kết quả mang tính giai thoại từ một kịch bản đánh giá riêng biệt. Sẽ là   sớm để khẳng định Claude 3 Opus đã đạt được khả năng tự nhận thức thực sự hoặc trí thông minh nhân tạo tổng quát chỉ dựa trên điểm dữ liệu này. quá  Tuy nhiên, những gì họ dường như đã chứng kiến có thể chỉ là những cái nhìn thoáng qua về khả năng suy luận siêu nhận thức đang nổi lên trong một mô hình ngôn ngữ lớn được đào tạo chỉ về xử lý dữ liệu văn bản bằng kỹ thuật học máy. Và nếu được nhân rộng thông qua phân tích sâu hơn một cách nghiêm túc, thì những tác động có thể mang tính biến đổi.  Siêu nhận thức là yếu tố then chốt tạo nên các hệ thống AI đáng tin cậy hơn, có thể đóng vai trò là người đánh giá khách quan về kết quả đầu ra và quy trình lý luận của chính chúng. Các mô hình có khả năng bẩm sinh để nhận ra những mâu thuẫn, những thông tin đầu vào vô nghĩa hoặc lý luận vi phạm các nguyên tắc cốt lõi sẽ là một bước quan trọng hướng tới trí tuệ nhân tạo tổng hợp (AGI) an toàn.  Về cơ bản, một AI thể hiện siêu nhận thức có thể đóng vai trò như một “kiểm tra tỉnh táo” nội bộ để chống lại việc rơi vào các phương thức lý luận lừa đảo, ảo tưởng hoặc sai lệch có thể gây ra thảm họa nếu đi đến mức cực đoan. Nó có thể tăng đáng kể độ mạnh mẽ và khả năng kiểm soát của các hệ thống AI tiên tiến.  Nếu như…!  Tất nhiên, đây là những chữ “nếu” lớn phụ thuộc vào chiếc Needle đầy trêu ngươi này trong một Haystack do Claude 3 Opus đã được sao chép và xem xét kỹ lưỡng thành công. Có thể cần phải thực hiện phân tích đa ngành nghiêm ngặt từ các lĩnh vực như khoa học nhận thức, khoa học thần kinh và khoa học máy tính để thực sự hiểu nếu chúng ta đang quan sát những nguyên tắc cơ bản của khả năng tự phản ánh và tự nhận thức của máy móc đang xuất hiện.  Vẫn còn nhiều câu hỏi mở hơn câu trả lời ở giai đoạn này. Liệu các phương pháp đào tạo và kiến trúc thần kinh của các mô hình ngôn ngữ lớn có thể giúp phát triển các khái niệm trừu tượng như niềm tin, độc thoại nội tâm và tự nhận thức không? Những mối nguy hiểm tiềm ẩn nếu trí tuệ nhân tạo phát triển những thực tế hoàn toàn khác với thực tế của chúng ta là gì? Chúng ta có thể tạo các khuôn khổ mới để đánh giá nhận thức và khả năng tự nhận thức trong hệ thống AI một cách đáng tin cậy không?  Về phần mình, Anthropic đã tuyên bố những cam kết mạnh mẽ trong việc theo đuổi triệt để các hướng nghiên cứu này thông qua các nguyên tắc phát triển AI có trách nhiệm và các khuôn khổ đánh giá nghiêm ngặt. Họ định vị mình là người đảm nhận một  — nếu AI tiên tiến là biên giới không thể tránh khỏi, thì việc đứng đầu trong việc nghiên cứu các đặc tính nổi bật của các hệ thống này và thực hiện các biện pháp bảo vệ trước khi rủi ro leo thang là điều hợp đạo đức nhất.   Chủ động tích cực  Các kỹ thuật như cách tiếp cận “AI theo hiến pháp” của Anthropic để mã hóa cứng các quy tắc và hành vi thành mô hình có thể tỏ ra quan trọng trong việc đảm bảo khả năng tự nhận thức của bất kỳ cỗ máy tiềm năng nào vẫn phù hợp với đạo đức và giá trị của con người. Việc thăm dò thử nghiệm nhiều mặt mở rộng để tìm ra các chế độ lỗi, thao tác và lừa dối cũng có thể là điều tối quan trọng.   Kết luận: Tôi không hoàn toàn chắc chắn nên làm gì với điều này  Hiện tại, sự cố Cây kim trong Haystack để lại nhiều câu hỏi hơn là câu trả lời về sự phát triển tiềm năng của các mô hình ngôn ngữ lớn đối với nhận thức và tự nhận thức. Nó cung cấp một điểm dữ liệu hấp dẫn nhưng cần có sự xem xét kỹ lưỡng hơn nhiều từ cộng đồng nghiên cứu AI rộng lớn hơn.  Nếu AI tiên tiến phát triển khả năng tự phản ánh giống con người, được hướng dẫn bởi các nguyên tắc đạo đức nghiêm ngặt, thì về cơ bản nó có thể xác định lại sự hiểu biết của chúng ta về trí thông minh. Nhưng câu nói “nếu” tu từ đó hiện chứa đầy những điều không chắc chắn có nguy cơ cao đòi hỏi phải có cuộc điều tra sáng suốt, tìm kiếm sự thật từ tất cả các lĩnh vực liên quan. Cuộc theo đuổi sẽ vừa ly kỳ vừa mang lại kết quả.  Cũng được xuất bản  ở đây.  hoặc theo dõi tôi trên  để biết thêm nội dung như thế này!   Đặt mua   Twitter

This story contains new, firsthand information uncovered by the writer.

Tell me why my site sucks so I can make it better. Be mean.

Read My Stories

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

AGI có đang tiến gần hơn không? Mô hình Claude 3 Opus của Anthropic cho thấy những tia sáng của lý luận siêu nhận thức

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

94 Stories To Learn About John Locke

240 Stories To Learn About Astounding Stories

72 Stories To Learn About The Essays Of Adam Smith

287 Stories To Learn About Blockchain Development

94 Stories To Learn About John Locke

240 Stories To Learn About Astounding Stories

72 Stories To Learn About The Essays Of Adam Smith

287 Stories To Learn About Blockchain Development

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps