Lĩnh vực trí tuệ nhân tạo đang trải qua một sự gia tăng chưa từng có của sự đổi mới, tuy nhiên, lời nói của công chúng thường vẫn gắn liền với các mô hình ngôn ngữ lớn (LLM). và , Nhà khoa học AI trưởng tại Meta, đã lột bỏ các lớp tiến bộ AI hiện tại, tiết lộ một tầm nhìn vượt xa dự đoán token. bởi Bill Dally Yann LeCun Vượt qua biên giới ngôn ngữ Yann LeCun công khai thừa nhận rằng ông Không còn quan tâm đến LLM nữa. . not so interested in LLMs anymore Trong khi họ tiếp tục cải thiện ở ranh giới thông qua nhiều dữ liệu, tính toán và sản xuất dữ liệu tổng hợp, LeCun xem chúng như là một "cách đơn giản để xem lý luận". Hiểu thế giới vật lý: Làm thế nào máy móc có thể nắm bắt các sắc thái của vật lý thế giới thực và tương tác? Bộ nhớ vĩnh viễn: Phát triển các hệ thống AI với khả năng cho bộ nhớ dài hạn, dễ tiếp cận. Lý luận: Di chuyển vượt ra ngoài các hình thức lý luận hiện tại, thường sơ khai, trong LLMs để các phương pháp phức tạp hơn, trực quan. Lập kế hoạch: Cho phép AI lên kế hoạch các chuỗi hành động để đạt được các mục tiêu cụ thể, tương tự như các quá trình nhận thức của con người. LeCun cho rằng cộng đồng công nghệ, trong khi hiện đang tập trung vào các chương trình LLM, có thể sẽ trở nên phấn khích về những bài báo học thuật đen tối này trong vòng năm năm. Thách thức của thế giới thực: Tại sao token giảm ngắn Giới hạn cơ bản của LLM hiện tại, theo LeCun, nằm trong cách tiếp cận dựa trên token của họ. Token, thường đại diện cho một tập hợp hữu hạn các khả năng (khoảng 100.000 cho LLM), rất thích hợp cho dữ liệu kín đáo như ngôn ngữ. Con người có được "những mô hình thế giới" trong vài tháng đầu tiên của cuộc sống, cho phép chúng ta hiểu nguyên nhân và hậu quả - ví dụ, làm thế nào để đẩy một chai từ trên cao có thể xoay nó, trong khi đẩy nó từ dưới có thể làm cho nó trượt. Những nỗ lực để đào tạo các hệ thống để hiểu thế giới bằng cách dự đoán dữ liệu liên tục ở kích thước cao như video ở mức pixel phần lớn đã thất bại. Các hệ thống như vậy cạn kiệt tài nguyên của họ cố gắng phát minh ra các chi tiết không thể đoán trước, dẫn đến "sự lãng phí tài nguyên hoàn toàn". Ngay cả các kỹ thuật học tập tự giám sát hoạt động bằng cách tái tạo hình ảnh từ các phiên bản bị hư hỏng đã không thực hiện được cũng như các kiến trúc thay thế. Joint Embedding Predictive Architectures (JAPA): Tương lai của các mô hình thế giới Câu trả lời cho thách thức này, LeCun lập luận, nằm trong Joint Embedding Predictive Architectures (JAPA). Không giống như các mô hình tạo ra cố gắng tái tạo ở cấp độ pixel, JAPA tập trung vào việc học các đại diện trừu tượng của dữ liệu. How JAPA Works: Một phần đầu vào (ví dụ, một đoạn video hoặc một hình ảnh) được chạy thông qua một bộ mã hóa để tạo ra một đại diện trừu tượng. Một phiên bản tiếp tục hoặc biến đổi của đầu vào cũng được chạy thông qua một bộ mã hóa. Hệ thống sau đó cố gắng đưa ra dự đoán trong "không gian đại diện" này (không gian ẩn), thay vì trong không gian đầu vào thô. Cách tiếp cận này tránh được vấn đề sụp đổ nơi các hệ thống có thể bỏ qua đầu vào và tạo ra các đại diện không thông tin liên tục, một trở ngại mất nhiều năm để vượt qua. Đối với các hệ thống đại lý có thể lý luận và lập kế hoạch, JAPA cung cấp một cơ chế mạnh mẽ. Hãy tưởng tượng một nhà tiên đoán, sau khi quan sát tình trạng hiện tại của thế giới, có thể dự đoán "những tình trạng tiếp theo của thế giới khi tôi có thể thực hiện một hành động mà tôi đang tưởng tượng đang thực hiện". JAPA for Reasoning and Planning: LeCun tương phản mạnh mẽ điều này với hiện tại "hệ thống lý luận mạnh mẽ" mà tạo ra số lượng lớn các chuỗi token và sau đó sử dụng một mạng thần kinh thứ hai để chọn tốt nhất. ông so sánh điều này với "Viết một chương trình mà không biết làm thế nào để viết một chương trình" - một phương pháp "hoàn toàn vô vọng" cho bất cứ điều gì ngoài các chuỗi ngắn, vì nó mở rộng theo cấp số nhân với chiều dài. Một ví dụ thực tế về tiềm năng của JAPA là dự án VJA (Video Joint Embedding Predictive Architecture), hiện đang được phát triển tại Meta. Hệ thống VJA, được đào tạo trên các phân đoạn video ngắn để dự đoán các đại diện của video đầy đủ từ các phiên bản được che giấu, đang chứng minh khả năng phát hiện xem một video có thể "vật lý hay không". Bằng cách đo lường lỗi dự đoán, nó có thể đánh dấu các sự kiện "không bình thường" như các đối tượng xuất hiện hoặc biến mất tự nhiên, hoặc thách thức vật lý. Điều này phản ánh cách con người trẻ em học vật lý trực quan: một em bé 9 tháng tuổi ngạc nhiên nếu một đối tượng xuất hiện để nổi, chỉ ra sự vi phạm mô hình thế giới bên trong của họ. Hướng tới Advanced Machine Intelligence (AMI) LeCun thích thuật ngữ Advanced Machine Intelligence (AMI) hơn Artificial General Intelligence (AGI), trích dẫn bản chất chuyên môn cao của trí tuệ con người. ông ước tính rằng chúng ta có thể có một "làm việc tốt về việc làm cho điều này [AMI] làm việc ít nhất ở quy mô nhỏ trong vòng ba đến năm năm. với AI ở cấp độ con người có khả năng đến trong vòng một thập kỷ hoặc nhiều hơn. với AI ở cấp độ con người có khả năng đến trong vòng một thập kỷ hoặc nhiều hơn. Tuy nhiên, ông cảnh báo chống lại mô hình lịch sử của sự lạc quan quá mức trong AI, nơi mỗi mô hình mới được tuyên bố là con đường đến trí thông minh cấp người trong vòng một thập kỷ. Một lỗ hổng lớn là dữ liệu. LLM được đào tạo về số lượng lớn văn bản (ví dụ, 30 nghìn tỷ token, tương đương với 400.000 năm đọc). Ngược lại, một đứa trẻ 4 tuổi xử lý một lượng dữ liệu tương đương thông qua thị giác chỉ trong 16.000 giờ, chứng minh hiệu quả vô cùng của học tập thị giác. sự khác biệt này nhấn mạnh rằng chúng ta "không bao giờ đến AGI ... chỉ bằng cách đào tạo từ văn bản". Chìa khóa để mở khóa AMI, theo LeCun, là khám phá ra "công thức tốt" để đào tạo kiến trúc JAPA ở quy mô lớn.Cũng giống như phải mất thời gian để tìm ra sự kết hợp đúng đắn của các thủ thuật kỹ thuật, phi tuyến tính và đổi mới như ResNet (thông báo được trích dẫn nhiều nhất trong khoa học trong thập kỷ qua) để đào tạo hiệu quả các mạng thần kinh sâu và biến đổi, một bước đột phá tương tự là cần thiết cho JAPA. Tác động của AI: Từ cứu sống đến các công cụ năng suất Mặc dù tập trung vào các mô hình tương lai, LeCun nhấn mạnh tác động tích cực to lớn mà AI đã có: Khoa học và Y học: AI đang biến đổi thiết kế thuốc, gấp protein và hiểu các cơ chế của cuộc sống.Trong hình ảnh y tế, các hệ thống học tập sâu chụp mammogram trước màn hình cho các khối u, và AI làm giảm thời gian quét MRI bằng bốn yếu tố bằng cách phục hồi hình ảnh độ phân giải cao từ ít dữ liệu hơn. Ô tô: Hệ thống hỗ trợ lái xe và hệ thống phanh khẩn cấp tự động, bây giờ bắt buộc ở châu Âu, giảm các vụ va chạm bằng 40%, cứu sống. Sản xuất và Sáng tạo: AI không thay thế con người mà phục vụ như một “công cụ quyền lực” làm cho cá nhân có năng suất và sáng tạo hơn, cho dù là trợ lý mã hóa, trong y học hoặc trong các nỗ lực nghệ thuật. Tuy nhiên, con đường dẫn đến việc triển khai rộng rãi không phải lúc nào cũng suôn sẻ.Nhu cầu về "độ chính xác và độ tin cậy" trong các ứng dụng như lái xe tự trị (nơi những sai lầm có thể gây chết người) làm cho việc triển khai và triển khai các hệ thống AI trở nên khó khăn hơn nhiều so với hầu hết mọi người từng nghĩ".Đây là nơi AI thường thất bại - không phải trong kỹ thuật cơ bản hoặc demo, mà trong việc tích hợp đáng tin cậy vào các hệ thống hiện có. Về "phía tối" của AI, chẳng hạn như deepfakes và tin tức giả, LeCun bày tỏ sự lạc quan đáng ngạc nhiên. Kinh nghiệm của Meta cho thấy rằng, mặc dù có sẵn các LLM, họ đã không thấy "sự gia tăng lớn về nội dung tạo ra được đăng trên các mạng xã hội, hoặc ít nhất không theo cách xấu". Ông kể lại tập "Galactica", nơi LLM mã nguồn mở của Meta cho văn học khoa học đã được đáp ứng với "vitriol" và bị loại bỏ do sợ hãi, chỉ để ChatGPT được tổ chức vài tuần sau đó. LeCun tin rằng "phản ứng chống lạm dụng chỉ là AI tốt hơn" - với hệ thống có ý thức chung, khả năng lý luận và khả năng đánh giá độ tin cậy của chính họ. Ông bác bỏ các kịch bản thảm khốc, tin rằng "người ta thích Vai trò không thể thiếu của nguồn mở và hợp tác toàn cầu Một nguyên tắc cốt lõi của triết lý của LeCun là sự cần thiết tuyệt đối của các nền tảng AI nguồn mở. ông nhấn mạnh rằng "những ý tưởng tốt đến từ sự tương tác của nhiều người và trao đổi ý tưởng".Không một thực thể nào có độc quyền về đổi mới, như được chứng minh bởi kiến trúc ResNet đột phá, mà đến từ các nhà khoa học Trung Quốc tại Microsoft Research Bắc Kinh. Cam kết của Meta đối với mã nguồn mở, được ví dụ bởi PyTorch và LLaMA, được thúc đẩy bởi niềm tin rằng nó thúc đẩy một hệ sinh thái khởi nghiệp thịnh vượng và cho phép số lượng người thông minh lớn nhất đóng góp vào việc xây dựng các chức năng thiết yếu. Why Open Source AI is Crucial for the Future: Sự đa dạng của trợ lý AI: Trong một tương lai nơi AI trung gian gần như mọi tương tác kỹ thuật số (ví dụ, kính thông minh), một số ít các công ty không thể cung cấp sự đa dạng của trợ lý cần thiết.Chúng tôi cần trợ lý hiểu "tất cả các ngôn ngữ của thế giới, tất cả các nền văn hóa của thế giới, tất cả các hệ thống giá trị", và có thể thể thể hiện các định kiến và ý kiến đa dạng, giống như một báo chí đa dạng là rất quan trọng đối với dân chủ. Đào tạo phân tán: Không một thực thể nào sẽ thu thập tất cả dữ liệu trên thế giới bằng tất cả các ngôn ngữ. mô hình tương lai liên quan đến các mô hình nền tảng nguồn mở được đào tạo theo cách phân tán, với các trung tâm dữ liệu truy cập toàn cầu vào các tập dữ liệu con để đào tạo một "mô hình đồng thuận". Fine-Tuning trên dữ liệu độc quyền: Các mô hình mã nguồn mở như LLaMA cho phép các công ty tải xuống và tinh chỉnh chúng trên dữ liệu độc quyền của riêng họ mà không cần phải tải lên nó, hỗ trợ các ứng dụng dọc chuyên dụng và các mô hình kinh doanh khởi động. LeCun nhấn mạnh rằng các công ty có doanh thu không chỉ gắn liền với các dịch vụ AI (như mô hình quảng cáo của Meta) có ít để mất và nhiều hơn để kiếm được từ việc mở nguồn các mô hình của họ, trái ngược với các công ty như Google có thể xem nó như là một mối đe dọa đối với doanh nghiệp tìm kiếm cốt lõi của họ. Hardware: Dùng nhiên liệu cho cuộc cách mạng AI tiếp theo Trong khi GPU đã thấy những tiến bộ đáng kinh ngạc (tăng năng lực từ Kepler đến Blackwell từ 5.000 đến 10.000 lần), chi phí tính toán của lý luận trong không gian trừu tượng có nghĩa là "chúng ta sẽ cần tất cả sự cạnh tranh mà chúng ta có thể có được" trong phần cứng. LeCun chủ yếu hoài nghi về phần cứng thần kinh, máy tính quang học và máy tính lượng tử cho các nhiệm vụ AI chung trong tương lai gần. ông chỉ ra rằng ngành công nghiệp bán dẫn kỹ thuật số đang ở mức "tối thiểu địa phương sâu" mà các công nghệ thay thế phải đối mặt với một thách thức lớn để bắt kịp. trong khi bộ não giao tiếp kỹ thuật số thông qua đỉnh, các phương pháp thần kinh thường phải vật lộn với việc tái sử dụng phần cứng và giao tiếp đa chip hiệu quả. Tuy nhiên, ông thấy hứa hẹn trong Processor-in-Memory (PIM) hoặc công nghệ xử lý và bộ nhớ analog / kỹ thuật số cho các kịch bản cụ thể "điều toán cạnh", chẳng hạn như xử lý hình ảnh công suất thấp trong kính thông minh. Để nén nó trước khi gửi nó đến vỏ mắt, chứng minh rằng shuffling dữ liệu, không phải tính toán chính nó, thường tiêu thụ nhiều năng lượng nhất. Trên Sensor Tương lai: Một đội ngũ nhân viên siêu thông minh ảo Cuối cùng, LeCun dự đoán một tương lai nơi các hệ thống AI là "các công cụ quyền lực" tăng cường khả năng của con người, không thay thế chúng. mối quan hệ của chúng tôi với AI trong tương lai sẽ là một trong những chỉ huy; chúng tôi sẽ là "boss" của họ, với "các nhân viên của những người ảo siêu thông minh làm việc cho chúng tôi". tương lai hợp tác này, được thúc đẩy bởi nghiên cứu mở và các nền tảng nguồn mở, sẽ tận dụng những đóng góp từ mọi người trên thế giới, dẫn đến một loạt các trợ lý AI đa dạng giúp cải thiện cuộc sống hàng ngày của chúng tôi. Về cơ bản, tương lai của AI không phải là một thực thể hộp đen đơn thuần xuất hiện đột ngột.Thay vào đó, nó là một quá trình hợp tác, lặp đi lặp lại, giống như xây dựng một thành phố lớn, phức tạp, nơi mỗi người xây dựng, kiến trúc sư và kỹ sư đóng góp chuyên môn độc đáo của họ vào một kế hoạch chung, dẫn đến một đô thị năng động và đa dạng của trí thông minh máy móc tiên tiến.