Trí tuệ nhân tạo tạo ra không gì khác ngoài cơn lốc công nghệ. Các mô hình như GPT-4 đã làm cả thế giới chao đảo với khả năng siêu thực của chúng trong việc tạo ra văn bản bắt chước cuộc trò chuyện của con người, viết bài luận, mã hóa và thậm chí đưa ra các giải pháp sáng tạo cho một số nhiệm vụ khá phức tạp. Chúng ta đang liên tục tiến gần hơn đến tương lai được hỗ trợ bởi AI, nơi các trợ lý kỹ thuật số của chúng ta sẽ dễ dàng hiểu và đáp ứng nhu cầu của chúng ta. Đủ để khiến bất kỳ ai cũng tin tưởng, phải không?  Vâng, gần như vậy… nhưng không hẳn vậy.  Hãy xem, bên dưới vẻ hào nhoáng của đầu ra GPT và sự tinh tế về mặt ngữ pháp của nó là một hạn chế cơ bản, một hạn chế khiến nhiều nhà công nghệ trong chúng ta phát điên:   Vấn đề có vẻ đơn giản (nhưng gây khó chịu) này cho thấy một lỗ hổng trung tâm trong các hệ thống AI hiện tại. Mặc dù có thể tổng hợp các đoạn văn ấn tượng từ hàng tỷ điểm dữ liệu, nhưng khi được giao nhiệm vụ thực sự mới lạ - điều mà nó chưa từng thấy hoặc được đào tạo trước đây - các mô hình theo phong cách GPT đã gặp phải một bức tường cố hữu. AI tạo sinh vật lộn để xử lý thông tin hoàn toàn mới, đặc biệt là trong các tình huống học một lần.  Điều này vẽ nên bức tranh về cái mà tôi gọi là   : dù các hệ thống AI như GPT có mạnh mẽ và thông minh đến đâu, chúng cũng sẽ sụp đổ khi cần khái quát hóa nhanh chóng chỉ từ một hoặc một số ít ví dụ chưa từng thấy. "Nghịch lý khái quát hóa một lần"  Hãy cùng giải mã nghịch lý này một chút và tìm hiểu   đằng sau nó. Nhưng đừng lo, chúng ta sẽ không giữ nó chỉ là triết lý thuần túy — chúng ta sẽ đi sâu vào vấn đề kỹ thuật và khám phá chính xác điều gì ngăn cản AI thế hệ hiện tại của chúng ta đạt được sự linh hoạt kỳ diệu mà con người có khi đối mặt với những điều xa lạ. lý do  Sự kỳ diệu và cơ chế của các mô hình sinh sản… cho đến khi chúng bị phá vỡ  Điểm sáng cốt lõi của các mô hình như GPT-4 nằm ở   tinh vi, nổi tiếng với khả năng cung cấp năng lượng cho mọi thứ từ mô hình ngôn ngữ đến các tác vụ thị giác. Bây giờ, tôi không muốn làm bạn bối rối với thuật ngữ chuyên ngành ngay từ đầu bài viết này (chúng ta chỉ mới bắt đầu), nhưng một số lớp công nghệ cần được giải nén để hiểu được vị trí và lý do tại sao các vết nứt bắt đầu xuất hiện. kiến trúc Transformer  Để bắt đầu, GPT thuộc về một họ   , được đào tạo để dự đoán từ hoặc mã thông báo tiếp theo trong bất kỳ đoạn văn bản nào. Làm thế nào chúng trở nên giỏi như vậy? Phần lớn là do   được tích hợp trong   , cho phép các mô hình này sàng lọc qua một lượng lớn văn bản và về cơ bản là "tập trung" vào các phần quan trọng của một câu trong khi cũng xem xét các từ trên toàn bộ trình tự. Cơ chế chú ý toàn cục này nhanh chóng trở thành xương sống để nắm bắt ý nghĩa nhạy cảm với ngữ cảnh trong các phần lớn văn bản. các mô hình dựa trên trình tự cơ chế tự chú ý Transformer  Nhưng đây là cốt lõi của nghịch lý: AI tạo sinh phụ thuộc   vào dữ liệu đào tạo này. Nó đặc biệt ở khả năng nhận dạng các mẫu và mối quan hệ thống kê giữa các mã thông báo trong dữ liệu mà nó đã thấy trước đó, nhưng nó cũng phụ thuộc vào dữ liệu đó. Khi mô hình được phát hành, GPT-4   chưa học cách lý luận hoặc phát triển sự hiểu biết về thế giới. Thay vào đó, nó đang tận dụng các mối liên kết mà nó đã thu thập được qua hàng tỷ ví dụ văn bản được tìm thấy trực tuyến (trong sách, Wikipedia, chủ đề Reddit, bài báo học thuật... bạn cứ nêu tên). rất nhiều thực sự  Vì vậy, trong khi GPT có vẻ như là một nhà tiên tri toàn năng, tạo ra các văn bản mạch lạc và đôi khi sâu sắc, thì   nó đang chơi một trò chơi ấn tượng về việc khớp mẫu xác suất. Nghĩa là gì? Khi có điều gì đó mới xuất hiện (như một bài báo khoa học hoàn toàn mới về cơ học lượng tử hoặc một số thuật ngữ chuyên ngành), nó phải vật lộn rất nhiều để hiểu được ý nghĩa của nó. thực ra  Điều đó... không thể lý giải được.  Đợi đã. Nhưng tại sao nó không thể khái quát hóa như con người?  Bây giờ, đây là nơi con người khác biệt đáng kể so với máy móc. Hãy tưởng tượng bạn đang đọc về một khái niệm hoàn toàn vượt quá chuyên môn của mình lần đầu tiên. Có thể bạn là người sáng lập công ty khởi nghiệp công nghệ đang điều hướng thế giới kỹ thuật cơ khí. Chắc chắn, bạn có thể không kết nối được tất cả các điểm trong lần đọc đầu tiên — nhưng sau khi lướt qua một số ví dụ hoặc sơ đồ, một số bóng đèn trực quan sẽ lóe lên.   Và sau đó, thật bất ngờ, bạn hiểu rồi (hoặc ít nhất là hầu hết). Aha, đây là một hệ thống điều khiển! Cái này kết nối với cái kia!  Sắc thái này được gọi là   — khả năng nhanh chóng nắm bắt các mô hình hoặc hiểu thông tin hoàn toàn mới dựa trên các ví dụ tối thiểu. Và đó là điều mà con người cực kỳ giỏi. Chúng ta lấy một phần kiến thức nhỏ và trực giác ánh xạ nó thành các chủ đề, cấu trúc hoặc phép loại suy rộng hơn mà chúng ta đã biết. Nói cách khác, chúng ta không cần một triệu ví dụ hoặc một khối dữ liệu quá khứ khổng lồ để có được sự sáng tỏ. khái quát hóa một lần  Ngược lại hoàn toàn, các mô hình sinh sản   nào về thế giới. Chúng đi bộ ngẫu nhiên qua không gian thống kê và đưa ra dự đoán dựa trên những từ hoặc cấu trúc nào có nhiều khả năng xảy ra đồng thời nhất. Vì vậy, khi chúng được yêu cầu xử lý một cái gì đó hoàn toàn mới lạ — một thuật ngữ khoa học hoàn toàn mới, một lý thuyết hoàn toàn mới chưa từng được công bố trực tuyến — chúng đâm đầu vào một bức tường. Nói một cách đơn giản,   và chúng thiếu các khuôn khổ khái niệm thực sự để thực hiện những bước nhảy vọt qua lãnh thổ xa lạ. không có bất kỳ hiểu biết bẩm sinh chúng chưa từng gặp phải điều đó trước đây  Được rồi, khá trừu tượng. Hãy để tôi phân tích sâu hơn.  Các mô hình AI tạo sinh học bằng cách   giữa các điểm dữ liệu hiện có. Nghĩa là, chúng trở thành chuyên gia trong   giữa các điểm mà chúng đã thấy và các mẫu mà chúng quen thuộc, nhưng lại gặp khó khăn với   , tức là, nhảy ra ngoài và đưa ra các phép chiếu dựa trên một khái niệm mới khi dữ liệu đào tạo thiếu tiền lệ. Ví dụ, GPT-4 có thể xử lý các cấu trúc ngôn ngữ "thông thường" trong ngôn ngữ hàng ngày một cách tuyệt vời vì có hàng triệu ví dụ có sẵn. Nhưng, đưa ra yêu cầu về các ý tưởng mới nổi, siêu chuyên biệt — chẳng hạn như các chi tiết cụ thể về những tiến bộ gần đây trong   trong vật lý — và bùm: vô nghĩa hoàn toàn. Tại sao? GPT không có bất kỳ điểm tham chiếu thống kê nào cho các thuật ngữ mới lạ, chuyên biệt như vậy. Về cơ bản, nó đã đưa ra những phỏng đoán có căn cứ, mặc dù hợp lý về độ trôi chảy, nhưng lại hy sinh   để đổi lấy tính   . nội suy việc lấp đầy khoảng trống phép ngoại suy laser sợi quang solitonic tính mạch lạc thực sự chính xác về cú pháp  Cốt lõi kỹ thuật của vấn đề  Được rồi, nếu bạn có đầu óc kỹ thuật hơn một chút, chúng ta hãy đi sâu hơn vào lý do tại sao hạn chế này lại khó giải quyết đến vậy và những gì đang diễn ra trong các nỗ lực học một lần.  Một vấn đề cốt lõi với khái quát hóa một lần là về thông tin mà mô hình biểu diễn bên trong trong quá trình   của nó. Các mô hình theo phong cách GPT hoạt động khá tốt khi làm việc trong giới hạn — một hiện tượng thường được mô tả là   . Trong ranh giới của các chủ đề mà nó đã thấy đủ các ví dụ đào tạo, ngay cả GPT-4 cũng có thể tạo ra các đầu ra có hiểu biết sâu sắc một cách kỳ lạ. Điều này là do cấu trúc của mô hình cho phép nó   — dưới dạng   — nắm bắt các mối liên kết giữa các từ và khái niệm. đào tạo tự giám sát học tập phân phối mã hóa thông tin thông qua các biểu diễn vectơ dày đặc nhúng ngữ cảnh  Nhưng đây là nơi mọi thứ trở nên tồi tệ. Khi mô hình được giao nhiệm vụ với một tình huống đòi hỏi khái quát hóa ngoài phân phối, nghĩa là gặp phải một khái niệm mà nó chưa từng được đào tạo trước đó, hệ thống không suy ra mọi thứ theo cách con người làm. Hãy nghĩ về nó như thế này: các mô hình này vốn là   , dựa vào "cảm giác bản năng" thống kê. Chúng không có khả năng tích hợp để tạo ra hoặc lý luận "trên dữ liệu". những cỗ máy tạo mẫu  Ví dụ, hãy xem xét cách GPT học các quy tắc ngữ pháp. Giống như một người ngồi xuống để ghi nhớ hàng nghìn cách sử dụng từ trong các câu tiếng Anh. Sau khi quan sát đủ, hệ thống sẽ xây dựng một bản đồ nội bộ biết rằng, "À, sau chủ ngữ là động từ, sau đó có thể là tân ngữ, và thêm vào một mạo từ hoặc giới từ nếu cần". Nhưng khi được trình bày với một ngôn ngữ hoàn toàn mới hoặc các cấu trúc câu hoàn toàn mới, khả năng này sẽ bị hạn chế vì nó chỉ nhận ra các mối quan hệ   (hoặc ngầm định) mà nó đã thấy. tiềm ẩn  Thật không may, điều này có giới hạn của nó. Hãy lấy một nhiệm vụ mà nó cần tạo ra văn bản mạch lạc về một chủ đề chưa được tiết lộ, chẳng hạn như những khám phá mang tính đột phá trong một chủ đề vật lý ít được biết đến như   . Mô hình thiếu   cần thiết để diễn giải lại kiến thức cũ để suy ra những khả năng mới. Trong bộ não con người, chúng ta luôn có các biểu diễn cấp cao hơn (khái niệm, lý thuyết, phép loại suy!) mang lại cho chúng ta sự linh hoạt. Tuy nhiên, GPT thì không! Nó tạo ra kết quả dựa trên   , chứ không phải những bước nhảy sáng tạo. lưỡng tính hấp dẫn lượng tử tính tổng hợp khả năng dự đoán  Điều này giống như việc lái xe với một tấm bản đồ được lập trình sẵn chỉ dành cho các tuyến đường từ thế kỷ trước: nó không giúp bạn định hướng khi đang thi công hoặc qua những khúc cua xuất hiện trong sáu tháng qua.  Kỹ thuật - Tại sao điều này xảy ra bên trong  Một bước đệm để hiểu được hạn chế này là nhận ra vai trò của   . biểu diễn dày đặc so với biểu diễn thưa thớt  Ý tôi muốn nói gì đây?  Các mô hình biến đổi truyền thống hoạt động với   . Mỗi token trong một câu được biểu diễn bằng các vector có chiều cao và các vector này nắm bắt một loạt các mối quan hệ giữa các từ — cấu trúc cú pháp, ý nghĩa ngữ nghĩa, động lực vị trí, v.v. Nhưng vì các biểu diễn này dày đặc nên chúng   để hỗ trợ trừu tượng hóa theo cách dẫn đến khái quát hóa linh hoạt và thích ứng. các nhúng vector dày đặc không đủ rời rạc  Các nhúng dày đặc bị giới hạn bởi   trong quá trình đào tạo mô hình. Sự đánh đổi này rất quan trọng: bằng cách tối ưu hóa cho một thứ (năng lực thống kê chung), mô hình sẽ hy sinh thứ khác (khả năng lý luận trong các tình huống hoàn toàn mới). Hãy tưởng tượng bạn liên tục điều chỉnh các mô hình tinh thần của mình để khớp   với thế giới mà bạn đã trải nghiệm; sự đánh đổi là các kịch bản không thể đoán trước sẽ khiến bạn hoàn toàn mất phương hướng.   thường gặp khó khăn với các trường hợp nhỏ một lần vì chúng rất giỏi lặp lại "kịch bản trung bình" và bị đóng băng khi đối mặt với các trường hợp ngoại lệ đối với các quy tắc đã học. sự đánh đổi giữa độ lệch và phương sai chính xác Các mô hình thống kê phức tạp nhưng cứng nhắc  Một giải pháp then chốt tiềm năng ở đây là   — các kỹ thuật để tạo ra các chiều không gian giúp   ở các cấp độ diễn giải khác nhau. Các mạng thưa thớt thể hiện và truy xuất thông tin theo cách linh hoạt và tổng quát hơn, giống như cách con người tập trung vào các đặc điểm cốt lõi, chính trong việc dự đoán kết quả thay vì ám ảnh về các chi tiết nhỏ hơn. các biểu diễn thưa thớt phân tách các đặc điểm khác nhau  Vì vậy, một vấn đề với khái quát hóa một lần là các cấu trúc mạng hiện đại không nhấn mạnh vào các nhiệm vụ gỡ rối như vậy — chúng dựa quá nhiều vào các mẫu dày đặc, dựa trên dữ liệu. Do đó, tại sao khi được yêu cầu khái quát hóa tài liệu hoàn toàn mới và độc đáo với bối cảnh tối thiểu, chúng lại thất bại.  Điều gì có thể giải quyết vấn đề này?  May mắn thay, chúng ta chưa hoàn toàn hết ý tưởng. Các nhà nghiên cứu AI (kể cả tôi!) đã bắt đầu lý thuyết hóa về một số cách để cải thiện khả năng khái quát hóa một lần của AI. Một số cách tiếp cận hấp dẫn nhất xoay quanh các kiến trúc   . Các kiến trúc này về cơ bản khác với các mô hình ngày nay, cho phép khả năng học để học, trong đó hệ thống tự động điều chỉnh các tham số của mình để phù hợp với các kiểu dữ liệu mới một cách nhanh chóng — phù hợp hơn nhiều với hành vi giống con người. siêu học  Ví dụ, trong   , một mô hình tự điều chỉnh để học các tác vụ mới với các ví dụ đào tạo tối thiểu.   hoạt động tương tự bằng cách   qua nhiều trường hợp, tương tự như cách chúng ta ghi nhớ những bài học quan trọng trong quá khứ và sử dụng lại chúng một cách trực quan khi gặp phải những tình huống mới hơn, tương tự. Meta-Learning không phụ thuộc mô hình (MAML) Mạng nơ-ron tăng cường trí nhớ (MANN) giữ lại bối cảnh đã học  Tích hợp   vào các mô hình học sâu là một cách tiếp cận đầy hứa hẹn khác. Các mô hình được trang bị các thành phần tượng trưng có thể 'lý luận' thông qua logic, thay vì chỉ dựa vào các lớp phủ thống kê. Các lĩnh vực như   cung cấp các mô hình kết nối và hệ thống dựa trên quy tắc lai cho phép AI mô phỏng tư duy bậc cao, đặc biệt là trong các tình huống lý luận trừu tượng. khả năng lý luận tượng trưng AI Neuro-Symbolic  Con đường phía trước?  Vậy tất cả những điều này có ý nghĩa gì đối với tương lai của AI? Chắc chắn, GPT-4 có vẻ như là phép thuật khi nó cung cấp cho chúng ta những tương tác dịch vụ khách hàng trôi chảy hoặc trả lời những câu hỏi thông thường, nhưng chúng ta cần phát triển các mô hình không chỉ là công cụ ghi nhớ. Chúng ta đang hướng tới một tương lai mà   ,   và   hội tụ để tạo ra những người học thích ứng hơn. học chuyển giao siêu học kiến trúc thần kinh-biểu tượng  Nghịch lý tổng quát hóa một lần không phải là ngõ cụt tận thế cho AI. Đó là một trở ngại khiến chúng ta phải suy nghĩ lại về những giả định cốt lõi nhất về trí thông minh và tính linh hoạt. Vì dữ liệu riêng lẻ sẽ không giải quyết được vấn đề này — các mô hình sẽ cần khả năng   ,   và   , không chỉ ghi nhớ. học hỏi từ các phép trừu tượng tạo ra phép loại suy ghi nhớ các tính năng cốt lõi  Các mô hình tương lai của chúng ta sẽ cần phải mang tính con người hơn là máy móc khi nói đến tổng hợp kiến thức. Và với tư cách là các nhà nghiên cứu, nhà phát triển và nhà đổi mới tiên phong, chúng ta vẫn đang trong giai đoạn đầu của việc định nghĩa ý nghĩa của việc AI học — tự học — trong một thế giới mới lạ, thực sự linh hoạt.  Đây không chỉ là một thách thức về mặt kỹ thuật mà còn là một thách thức về mặt triết học.

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Read My Stories

Software Engineer

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

Nghịch lý khái quát hóa một lần: Tại sao AI tạo sinh lại gặp khó khăn với thông tin mới

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

145 Stories To Learn About Book

85 Stories To Learn About Travel

85 Stories To Learn About Productivity Hacks

287 Stories To Learn About Blockchain Development

145 Stories To Learn About Book

85 Stories To Learn About Travel

85 Stories To Learn About Productivity Hacks

287 Stories To Learn About Blockchain Development

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps