paint-brush
Nghịch lý khái quát hóa một lần: Tại sao AI tạo sinh lại gặp khó khăn với thông tin mớitừ tác giả@pawarashishanil
884 lượt đọc
884 lượt đọc

Nghịch lý khái quát hóa một lần: Tại sao AI tạo sinh lại gặp khó khăn với thông tin mới

từ tác giả Ashish Pawar8m2024/11/10
Read on Terminal Reader

dài quá đọc không nổi

Trí tuệ nhân tạo tạo sinh, giống như GPT-4, rất tuyệt vời trong việc tạo ra văn bản dựa trên lượng dữ liệu khổng lồ nhưng lại thất bại khi phải đối mặt với thông tin mới, không quen thuộc. “Nghịch lý khái quát hóa một lần” này chứng minh rằng mặc dù có sức mạnh, các mô hình AI hiện tại vẫn dựa vào các mẫu có sẵn và gặp khó khăn với các tác vụ mới. Chúng tôi khám phá những lý do đằng sau điều này (từ những hạn chế về kiến trúc máy biến áp đến các biểu diễn vectơ dày đặc) và xem xét các giải pháp đầy hứa hẹn như kiến trúc siêu học và kiến trúc biểu tượng thần kinh để cho phép khái quát hóa thực sự trong AI.
featured image - Nghịch lý khái quát hóa một lần: Tại sao AI tạo sinh lại gặp khó khăn với thông tin mới
Ashish Pawar HackerNoon profile picture
0-item

Trí tuệ nhân tạo tạo ra không gì khác ngoài cơn lốc công nghệ. Các mô hình như GPT-4 đã làm cả thế giới chao đảo với khả năng siêu thực của chúng trong việc tạo ra văn bản bắt chước cuộc trò chuyện của con người, viết bài luận, mã hóa và thậm chí đưa ra các giải pháp sáng tạo cho một số nhiệm vụ khá phức tạp. Chúng ta đang liên tục tiến gần hơn đến tương lai được hỗ trợ bởi AI, nơi các trợ lý kỹ thuật số của chúng ta sẽ dễ dàng hiểu và đáp ứng nhu cầu của chúng ta. Đủ để khiến bất kỳ ai cũng tin tưởng, phải không?

Vâng, gần như vậy… nhưng không hẳn vậy.


Hãy xem, bên dưới vẻ hào nhoáng của đầu ra GPT và sự tinh tế về mặt ngữ pháp của nó là một hạn chế cơ bản, một hạn chế khiến nhiều nhà công nghệ trong chúng ta phát điên: AI tạo sinh vật lộn để xử lý thông tin hoàn toàn mới, đặc biệt là trong các tình huống học một lần. Vấn đề có vẻ đơn giản (nhưng gây khó chịu) này cho thấy một lỗ hổng trung tâm trong các hệ thống AI hiện tại. Mặc dù có thể tổng hợp các đoạn văn ấn tượng từ hàng tỷ điểm dữ liệu, nhưng khi được giao nhiệm vụ thực sự mới lạ - điều mà nó chưa từng thấy hoặc được đào tạo trước đây - các mô hình theo phong cách GPT đã gặp phải một bức tường cố hữu.


Điều này vẽ nên bức tranh về cái mà tôi gọi là "Nghịch lý khái quát hóa một lần" : dù các hệ thống AI như GPT có mạnh mẽ và thông minh đến đâu, chúng cũng sẽ sụp đổ khi cần khái quát hóa nhanh chóng chỉ từ một hoặc một số ít ví dụ chưa từng thấy.


Hãy cùng giải mã nghịch lý này một chút và tìm hiểu lý do đằng sau nó. Nhưng đừng lo, chúng ta sẽ không giữ nó chỉ là triết lý thuần túy — chúng ta sẽ đi sâu vào vấn đề kỹ thuật và khám phá chính xác điều gì ngăn cản AI thế hệ hiện tại của chúng ta đạt được sự linh hoạt kỳ diệu mà con người có khi đối mặt với những điều xa lạ.

Sự kỳ diệu và cơ chế của các mô hình sinh sản… cho đến khi chúng bị phá vỡ

Điểm sáng cốt lõi của các mô hình như GPT-4 nằm ở kiến trúc Transformer tinh vi, nổi tiếng với khả năng cung cấp năng lượng cho mọi thứ từ mô hình ngôn ngữ đến các tác vụ thị giác. Bây giờ, tôi không muốn làm bạn bối rối với thuật ngữ chuyên ngành ngay từ đầu bài viết này (chúng ta chỉ mới bắt đầu), nhưng một số lớp công nghệ cần được giải nén để hiểu được vị trí và lý do tại sao các vết nứt bắt đầu xuất hiện.


Để bắt đầu, GPT thuộc về một họ các mô hình dựa trên trình tự , được đào tạo để dự đoán từ hoặc mã thông báo tiếp theo trong bất kỳ đoạn văn bản nào. Làm thế nào chúng trở nên giỏi như vậy? Phần lớn là do cơ chế tự chú ý được tích hợp trong Transformer , cho phép các mô hình này sàng lọc qua một lượng lớn văn bản và về cơ bản là "tập trung" vào các phần quan trọng của một câu trong khi cũng xem xét các từ trên toàn bộ trình tự. Cơ chế chú ý toàn cục này nhanh chóng trở thành xương sống để nắm bắt ý nghĩa nhạy cảm với ngữ cảnh trong các phần lớn văn bản.


Nhưng đây là cốt lõi của nghịch lý: AI tạo sinh phụ thuộc rất nhiều vào dữ liệu đào tạo này. Nó đặc biệt ở khả năng nhận dạng các mẫu và mối quan hệ thống kê giữa các mã thông báo trong dữ liệu mà nó đã thấy trước đó, nhưng nó cũng phụ thuộc vào dữ liệu đó. Khi mô hình được phát hành, GPT-4 thực sự chưa học cách lý luận hoặc phát triển sự hiểu biết về thế giới. Thay vào đó, nó đang tận dụng các mối liên kết mà nó đã thu thập được qua hàng tỷ ví dụ văn bản được tìm thấy trực tuyến (trong sách, Wikipedia, chủ đề Reddit, bài báo học thuật... bạn cứ nêu tên).


Vì vậy, trong khi GPT có vẻ như là một nhà tiên tri toàn năng, tạo ra các văn bản mạch lạc và đôi khi sâu sắc, thì thực ra nó đang chơi một trò chơi ấn tượng về việc khớp mẫu xác suất. Nghĩa là gì? Khi có điều gì đó mới xuất hiện (như một bài báo khoa học hoàn toàn mới về cơ học lượng tử hoặc một số thuật ngữ chuyên ngành), nó phải vật lộn rất nhiều để hiểu được ý nghĩa của nó.


Điều đó... không thể lý giải được.

Đợi đã. Nhưng tại sao nó không thể khái quát hóa như con người?

Bây giờ, đây là nơi con người khác biệt đáng kể so với máy móc. Hãy tưởng tượng bạn đang đọc về một khái niệm hoàn toàn vượt quá chuyên môn của mình lần đầu tiên. Có thể bạn là người sáng lập công ty khởi nghiệp công nghệ đang điều hướng thế giới kỹ thuật cơ khí. Chắc chắn, bạn có thể không kết nối được tất cả các điểm trong lần đọc đầu tiên — nhưng sau khi lướt qua một số ví dụ hoặc sơ đồ, một số bóng đèn trực quan sẽ lóe lên. Aha, đây là một hệ thống điều khiển! Cái này kết nối với cái kia! Và sau đó, thật bất ngờ, bạn hiểu rồi (hoặc ít nhất là hầu hết).


Sắc thái này được gọi là khái quát hóa một lần — khả năng nhanh chóng nắm bắt các mô hình hoặc hiểu thông tin hoàn toàn mới dựa trên các ví dụ tối thiểu. Và đó là điều mà con người cực kỳ giỏi. Chúng ta lấy một phần kiến thức nhỏ và trực giác ánh xạ nó thành các chủ đề, cấu trúc hoặc phép loại suy rộng hơn mà chúng ta đã biết. Nói cách khác, chúng ta không cần một triệu ví dụ hoặc một khối dữ liệu quá khứ khổng lồ để có được sự sáng tỏ.


Ngược lại hoàn toàn, các mô hình sinh sản không có bất kỳ hiểu biết bẩm sinh nào về thế giới. Chúng đi bộ ngẫu nhiên qua không gian thống kê và đưa ra dự đoán dựa trên những từ hoặc cấu trúc nào có nhiều khả năng xảy ra đồng thời nhất. Vì vậy, khi chúng được yêu cầu xử lý một cái gì đó hoàn toàn mới lạ — một thuật ngữ khoa học hoàn toàn mới, một lý thuyết hoàn toàn mới chưa từng được công bố trực tuyến — chúng đâm đầu vào một bức tường. Nói một cách đơn giản, chúng chưa từng gặp phải điều đó trước đây và chúng thiếu các khuôn khổ khái niệm thực sự để thực hiện những bước nhảy vọt qua lãnh thổ xa lạ.


Được rồi, khá trừu tượng. Hãy để tôi phân tích sâu hơn.


Các mô hình AI tạo sinh học bằng cách nội suy giữa các điểm dữ liệu hiện có. Nghĩa là, chúng trở thành chuyên gia trong việc lấp đầy khoảng trống giữa các điểm mà chúng đã thấy và các mẫu mà chúng quen thuộc, nhưng lại gặp khó khăn với phép ngoại suy , tức là, nhảy ra ngoài và đưa ra các phép chiếu dựa trên một khái niệm mới khi dữ liệu đào tạo thiếu tiền lệ. Ví dụ, GPT-4 có thể xử lý các cấu trúc ngôn ngữ "thông thường" trong ngôn ngữ hàng ngày một cách tuyệt vời vì có hàng triệu ví dụ có sẵn. Nhưng, đưa ra yêu cầu về các ý tưởng mới nổi, siêu chuyên biệt — chẳng hạn như các chi tiết cụ thể về những tiến bộ gần đây trong laser sợi quang solitonic trong vật lý — và bùm: vô nghĩa hoàn toàn. Tại sao? GPT không có bất kỳ điểm tham chiếu thống kê nào cho các thuật ngữ mới lạ, chuyên biệt như vậy. Về cơ bản, nó đã đưa ra những phỏng đoán có căn cứ, mặc dù hợp lý về độ trôi chảy, nhưng lại hy sinh tính mạch lạc thực sự để đổi lấy tính chính xác về cú pháp .

Cốt lõi kỹ thuật của vấn đề

Được rồi, nếu bạn có đầu óc kỹ thuật hơn một chút, chúng ta hãy đi sâu hơn vào lý do tại sao hạn chế này lại khó giải quyết đến vậy và những gì đang diễn ra trong các nỗ lực học một lần.


Một vấn đề cốt lõi với khái quát hóa một lần là về thông tin mà mô hình biểu diễn bên trong trong quá trình đào tạo tự giám sát của nó. Các mô hình theo phong cách GPT hoạt động khá tốt khi làm việc trong giới hạn — một hiện tượng thường được mô tả là học tập phân phối . Trong ranh giới của các chủ đề mà nó đã thấy đủ các ví dụ đào tạo, ngay cả GPT-4 cũng có thể tạo ra các đầu ra có hiểu biết sâu sắc một cách kỳ lạ. Điều này là do cấu trúc của mô hình cho phép nó mã hóa thông tin thông qua các biểu diễn vectơ dày đặc — dưới dạng nhúng ngữ cảnh — nắm bắt các mối liên kết giữa các từ và khái niệm.


Nhưng đây là nơi mọi thứ trở nên tồi tệ. Khi mô hình được giao nhiệm vụ với một tình huống đòi hỏi khái quát hóa ngoài phân phối, nghĩa là gặp phải một khái niệm mà nó chưa từng được đào tạo trước đó, hệ thống không suy ra mọi thứ theo cách con người làm. Hãy nghĩ về nó như thế này: các mô hình này vốn là những cỗ máy tạo mẫu , dựa vào "cảm giác bản năng" thống kê. Chúng không có khả năng tích hợp để tạo ra hoặc lý luận "trên dữ liệu".


Ví dụ, hãy xem xét cách GPT học các quy tắc ngữ pháp. Giống như một người ngồi xuống để ghi nhớ hàng nghìn cách sử dụng từ trong các câu tiếng Anh. Sau khi quan sát đủ, hệ thống sẽ xây dựng một bản đồ nội bộ biết rằng, "À, sau chủ ngữ là động từ, sau đó có thể là tân ngữ, và thêm vào một mạo từ hoặc giới từ nếu cần". Nhưng khi được trình bày với một ngôn ngữ hoàn toàn mới hoặc các cấu trúc câu hoàn toàn mới, khả năng này sẽ bị hạn chế vì nó chỉ nhận ra các mối quan hệ tiềm ẩn (hoặc ngầm định) mà nó đã thấy.


Thật không may, điều này có giới hạn của nó. Hãy lấy một nhiệm vụ mà nó cần tạo ra văn bản mạch lạc về một chủ đề chưa được tiết lộ, chẳng hạn như những khám phá mang tính đột phá trong một chủ đề vật lý ít được biết đến như lưỡng tính hấp dẫn lượng tử . Mô hình thiếu tính tổng hợp cần thiết để diễn giải lại kiến thức cũ để suy ra những khả năng mới. Trong bộ não con người, chúng ta luôn có các biểu diễn cấp cao hơn (khái niệm, lý thuyết, phép loại suy!) mang lại cho chúng ta sự linh hoạt. Tuy nhiên, GPT thì không! Nó tạo ra kết quả dựa trên khả năng dự đoán , chứ không phải những bước nhảy sáng tạo.


Điều này giống như việc lái xe với một tấm bản đồ được lập trình sẵn chỉ dành cho các tuyến đường từ thế kỷ trước: nó không giúp bạn định hướng khi đang thi công hoặc qua những khúc cua xuất hiện trong sáu tháng qua.

Kỹ thuật - Tại sao điều này xảy ra bên trong

Một bước đệm để hiểu được hạn chế này là nhận ra vai trò của biểu diễn dày đặc so với biểu diễn thưa thớt .


Ý tôi muốn nói gì đây?


Các mô hình biến đổi truyền thống hoạt động với các nhúng vector dày đặc . Mỗi token trong một câu được biểu diễn bằng các vector có chiều cao và các vector này nắm bắt một loạt các mối quan hệ giữa các từ — cấu trúc cú pháp, ý nghĩa ngữ nghĩa, động lực vị trí, v.v. Nhưng vì các biểu diễn này dày đặc nên chúng không đủ rời rạc để hỗ trợ trừu tượng hóa theo cách dẫn đến khái quát hóa linh hoạt và thích ứng.


Các nhúng dày đặc bị giới hạn bởi sự đánh đổi giữa độ lệch và phương sai trong quá trình đào tạo mô hình. Sự đánh đổi này rất quan trọng: bằng cách tối ưu hóa cho một thứ (năng lực thống kê chung), mô hình sẽ hy sinh thứ khác (khả năng lý luận trong các tình huống hoàn toàn mới). Hãy tưởng tượng bạn liên tục điều chỉnh các mô hình tinh thần của mình để khớp chính xác với thế giới mà bạn đã trải nghiệm; sự đánh đổi là các kịch bản không thể đoán trước sẽ khiến bạn hoàn toàn mất phương hướng. Các mô hình thống kê phức tạp nhưng cứng nhắc thường gặp khó khăn với các trường hợp nhỏ một lần vì chúng rất giỏi lặp lại "kịch bản trung bình" và bị đóng băng khi đối mặt với các trường hợp ngoại lệ đối với các quy tắc đã học.


Một giải pháp then chốt tiềm năng ở đây là các biểu diễn thưa thớt — các kỹ thuật để tạo ra các chiều không gian giúp phân tách các đặc điểm khác nhau ở các cấp độ diễn giải khác nhau. Các mạng thưa thớt thể hiện và truy xuất thông tin theo cách linh hoạt và tổng quát hơn, giống như cách con người tập trung vào các đặc điểm cốt lõi, chính trong việc dự đoán kết quả thay vì ám ảnh về các chi tiết nhỏ hơn.


Vì vậy, một vấn đề với khái quát hóa một lần là các cấu trúc mạng hiện đại không nhấn mạnh vào các nhiệm vụ gỡ rối như vậy — chúng dựa quá nhiều vào các mẫu dày đặc, dựa trên dữ liệu. Do đó, tại sao khi được yêu cầu khái quát hóa tài liệu hoàn toàn mới và độc đáo với bối cảnh tối thiểu, chúng lại thất bại.

Điều gì có thể giải quyết vấn đề này?

May mắn thay, chúng ta chưa hoàn toàn hết ý tưởng. Các nhà nghiên cứu AI (kể cả tôi!) đã bắt đầu lý thuyết hóa về một số cách để cải thiện khả năng khái quát hóa một lần của AI. Một số cách tiếp cận hấp dẫn nhất xoay quanh các kiến trúc siêu học . Các kiến trúc này về cơ bản khác với các mô hình ngày nay, cho phép khả năng học để học, trong đó hệ thống tự động điều chỉnh các tham số của mình để phù hợp với các kiểu dữ liệu mới một cách nhanh chóng — phù hợp hơn nhiều với hành vi giống con người.


Ví dụ, trong Meta-Learning không phụ thuộc mô hình (MAML) , một mô hình tự điều chỉnh để học các tác vụ mới với các ví dụ đào tạo tối thiểu. Mạng nơ-ron tăng cường trí nhớ (MANN) hoạt động tương tự bằng cách giữ lại bối cảnh đã học qua nhiều trường hợp, tương tự như cách chúng ta ghi nhớ những bài học quan trọng trong quá khứ và sử dụng lại chúng một cách trực quan khi gặp phải những tình huống mới hơn, tương tự.


Tích hợp khả năng lý luận tượng trưng vào các mô hình học sâu là một cách tiếp cận đầy hứa hẹn khác. Các mô hình được trang bị các thành phần tượng trưng có thể 'lý luận' thông qua logic, thay vì chỉ dựa vào các lớp phủ thống kê. Các lĩnh vực như AI Neuro-Symbolic cung cấp các mô hình kết nối và hệ thống dựa trên quy tắc lai cho phép AI mô phỏng tư duy bậc cao, đặc biệt là trong các tình huống lý luận trừu tượng.

Con đường phía trước?

Vậy tất cả những điều này có ý nghĩa gì đối với tương lai của AI? Chắc chắn, GPT-4 có vẻ như là phép thuật khi nó cung cấp cho chúng ta những tương tác dịch vụ khách hàng trôi chảy hoặc trả lời những câu hỏi thông thường, nhưng chúng ta cần phát triển các mô hình không chỉ là công cụ ghi nhớ. Chúng ta đang hướng tới một tương lai mà học chuyển giao , siêu họckiến trúc thần kinh-biểu tượng hội tụ để tạo ra những người học thích ứng hơn.


Nghịch lý tổng quát hóa một lần không phải là ngõ cụt tận thế cho AI. Đó là một trở ngại khiến chúng ta phải suy nghĩ lại về những giả định cốt lõi nhất về trí thông minh và tính linh hoạt. Vì dữ liệu riêng lẻ sẽ không giải quyết được vấn đề này — các mô hình sẽ cần khả năng học hỏi từ các phép trừu tượng , tạo ra phép loại suyghi nhớ các tính năng cốt lõi , không chỉ ghi nhớ.


Các mô hình tương lai của chúng ta sẽ cần phải mang tính con người hơn là máy móc khi nói đến tổng hợp kiến thức. Và với tư cách là các nhà nghiên cứu, nhà phát triển và nhà đổi mới tiên phong, chúng ta vẫn đang trong giai đoạn đầu của việc định nghĩa ý nghĩa của việc AI học — tự học — trong một thế giới mới lạ, thực sự linh hoạt.


Đây không chỉ là một thách thức về mặt kỹ thuật mà còn là một thách thức về mặt triết học.

L O A D I N G
. . . comments & more!

About Author

Ashish Pawar HackerNoon profile picture
Ashish Pawar@pawarashishanil
Ashish Pawar is an experienced software engineer skilled in creating scalable software and AI-enhanced solutions across data-driven and cloud applications, with a proven track record at companies like Palantir, Goldman Sachs and WHOOP.

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI...