paint-brush
Đi đầu trong nghiên cứu AI: Đa phương thức, Đại lý, LLM nguồn mở và hơn thế nữatừ tác giả@viceasytiger
1,434 lượt đọc
1,434 lượt đọc

Đi đầu trong nghiên cứu AI: Đa phương thức, Đại lý, LLM nguồn mở và hơn thế nữa

từ tác giả Vik Bogdanov9m2024/07/04
Read on Terminal Reader

dài quá đọc không nổi

Khám phá biên giới tiếp theo của nghiên cứu AI với Hamudi Naanaa, CTO và Đồng sáng lập tại Portal.ai, đồng thời là cựu Nhà khoa học nghiên cứu AI tại Amazon. Chúng tôi thảo luận về tình trạng hiện tại của AI, tầm quan trọng của đa phương thức và các tác nhân AI, tầm quan trọng của việc phát triển nguồn mở và những thách thức đạo đức trong AI. Naanaa chia sẻ hành trình của mình với AI, tác động tiềm tàng của AI đối với các ngành khác nhau và vai trò của AI trong việc chuyển đổi phương thức quản lý kinh doanh. Ông nhấn mạnh sự cần thiết phải phát triển AI có trách nhiệm và nhấn mạnh những khả năng thú vị trong tương lai của AI, bao gồm robot cá nhân và các loại thuốc do AI đồng phát triển.
featured image - Đi đầu trong nghiên cứu AI: Đa phương thức, Đại lý, LLM nguồn mở và hơn thế nữa
Vik Bogdanov HackerNoon profile picture
0-item

Gần đây tôi đã xem một bài báo trong đó tác giả lập luận rằng mặc dù năm 2023 là một năm sôi động đối với AI, là một chủ đề nóng trong các phòng họp của công ty cũng như trên các phương tiện truyền thông và thậm chí thúc đẩy hiệu suất của thị trường chứng khoán đại chúng, nhưng năm 2024 sẽ là một năm tìm tòi và khám phá. Ông ví trạng thái hiện tại của AI giống như một giai đoạn "súp nguyên thủy", tràn đầy tiềm năng nhưng vẫn chưa định hình và tuyên bố rằng chúng ta đã vội vã từ giai đoạn khám phá AI sang khai thác tích cực quá nhanh, theo đuổi kết quả nhanh chóng và dễ dàng. Bây giờ, đã đến lúc “nhấn nút khởi động lại” và khám phá sâu hơn về AI hướng tới việc tạo ra giá trị có ý nghĩa.


Bài viết này đã gây ấn tượng mạnh với tôi, khơi dậy sự tò mò muốn tìm hiểu những bộ óc định hình hiện tại và tương lai của nghiên cứu AI. Để hiểu sâu hơn, tôi đã phỏng vấn Mohammad (Hamudi) Naanaa , CTO và Đồng sáng lập tại Portal.ai, đồng thời là cựu Nhà khoa học nghiên cứu AI tại Amazon và Giám đốc phòng thí nghiệm R&D tại Apple. Cuộc trò chuyện của chúng tôi đi sâu vào hiện trạng khám phá AI và biên giới tiếp theo của nó, những thách thức và cơ hội phát triển AI có trách nhiệm và có đạo đức, tác động tiềm tàng của AI bóng tối, những gì cần thiết để xây dựng chuyên môn AI mạnh mẽ và hơn thế nữa.


Thưởng thức việc đọc!


Hamudi, điều gì đã thu hút bạn đến với lĩnh vực nghiên cứu AI và bạn hiện đang khám phá (những) lĩnh vực cụ thể nào?


Hành trình đến với AI của tôi bắt đầu trong những năm đại học với bài báo đột phá của AlexNet . Ý tưởng đào tạo một mô hình để phân loại hình ảnh thật đáng kinh ngạc, một điều dường như không thể đạt được bằng phần mềm thông thường. Lấy cảm hứng từ sự phức tạp này, tôi đã nghiên cứu sâu hơn về AI để hiểu rõ hơn về mạng lưới thần kinh. Tôi có trực giác mạnh mẽ rằng nếu chúng ta có thể giải quyết vấn đề phân loại hình ảnh thì chỉ còn là vấn đề thời gian trước khi chúng ta có thể giải quyết được những dữ liệu và vấn đề phức tạp hơn nữa, cuối cùng là xây dựng được trí thông minh. Tôi muốn trở thành một phần của cuộc hành trình đó.


Ban đầu, tôi đi sâu vào lĩnh vực thị giác máy tính, bị mê hoặc bởi khả năng sáng tạo của AI tổng hợp, đặc biệt là GAN và các mô hình phổ biến. Sau này, sự bùng nổ của các mô hình ngôn ngữ với bài báo Transformer khiến tôi chú ý, đưa giấc mơ về trí tuệ nhân tạo thực sự đến gần hơn. Hôm nay, tôi đang ở điểm giao thoa thú vị của AI tổng hợp ở cả văn bản và hình ảnh.


Bạn thấy đâu là biên giới tiếp theo cho việc khám phá AI?


Ngay cả bây giờ, nhiều năm sau, chúng ta mới chỉ mới khám phá được bề mặt tiềm năng của AI. Đó là một chủ đề rất nóng; bạn thấy rất nhiều xu hướng đến và đi, và ranh giới đang được định hình hàng ngày.


Một hướng nổi bật ở ranh giới này là đa phương thức . Thế giới không chỉ có văn bản và tôi nhìn thấy một tương lai tươi sáng trong AI đa phương thức nguyên bản — tích hợp văn bản, hình ảnh, âm thanh và hơn thế nữa. Nhiều công ty AI lớn đã áp dụng điều này và chúng tôi thấy các mô hình nền tảng hỗ trợ nhiều đầu vào khác nhau.


Một miền khác mà tôi thấy rất mong đợi và hào hứng là đại lý . Các hệ thống này có một vòng phản hồi hoàn chỉnh với các quan sát, lý luận, trạng thái, hành động và phản ánh. Chúng vượt xa mô hình "đầu vào-đầu ra" mà chúng ta đã thấy ngày nay với hầu hết AI dựa trên LLM.


Có một cuộc tranh luận đang diễn ra về việc liệu các kiến trúc dựa trên máy biến áp, chẳng hạn như máy mã thông báo đầu vào-đầu ra, có đủ cho trí thông minh "thực sự" hay không.


Khám phá các kiến trúc mới về cơ bản là một hướng đi đầy hứa hẹn nhưng đầy thách thức. Chúng ta có thể thấy sự phục hưng của các kiến trúc gốc bộ nhớ có trạng thái, chẳng hạn như Máy Turing thần kinh (NTM) hoặc Máy tính thần kinh vi sai (DNC), có thể giải quyết một số sai sót của máy biến áp.


Tất cả những tiến bộ này sẽ cách mạng hóa ngành robot, đưa trợ lý thông minh vào cuộc sống hàng ngày của chúng ta sớm hơn dự kiến. Tôi tin rằng chúng ta sẽ thấy những robot đầu tiên bước đi giữa chúng ta trong vòng vài năm nữa, thậm chí có thể sớm hơn.


Tuy nhiên, phát triển công nghệ là một chuyện, còn việc xây dựng các sản phẩm hữu ích dựa trên công nghệ đó lại là chuyện khác.


Giá trị của AI gốc âm thanh đa phương thức là người dùng có thể tạo ra các bài hát cực kỳ cá nhân hóa mà họ đưa cảm xúc vào. Cùng một công nghệ cốt lõi nhưng sản phẩm được đóng gói phù hợp mới là thứ mang lại sức mạnh cho con người. Và đây là nơi tôi thấy nhiều khám phá sẽ sớm diễn ra với các mô hình trở nên đáng tin cậy hơn, có thể kiểm soát được và mạnh mẽ hơn .


Bạn thấy các hệ thống AI đa phương thức đang thay đổi sự tương tác giữa con người và công nghệ như thế nào? Có ngành hoặc ứng dụng cụ thể nào mà AI đa phương thức sẽ có tác động đáng kể nhất không?


AI đa phương thức đã phá vỡ cách chúng ta tương tác với công nghệ. Hãy lấy chatbot làm ví dụ—trước đây là các công cụ dựa trên văn bản đơn giản mà mọi người thường bỏ qua trên các trang web, giờ đây chúng đang phát triển thành các giao diện đa phương thức, phức tạp ở trung tâm của các thiết kế mới.


Đa phương thức đang tạo điều kiện cho các mô hình tương tác mới—sử dụng các ứng dụng giáo dục như Duolingo hoặc Khan Academy . Có thể thực hành kỹ năng ngôn ngữ của bạn bằng cách viết văn bản cho đối tác AI, cải thiện cách phát âm của bạn trong cuộc trò chuyện bằng giọng nói hoặc hiển thị các phương trình toán học của bạn trong ảnh là một cách hoàn toàn mới để tương tác với công nghệ một cách tự nhiên hơn, tăng năng suất và mức độ tương tác.


Tôi hình dung ra một tương lai với các siêu ứng dụng hoặc thậm chí cả hệ điều hành mới nơi người dùng có thể đưa ra hướng dẫn và nhận kết quả mà không cần điều hướng qua các ứng dụng khác nhau.


Ví dụ: thay vì nhấp qua biểu tượng và văn bản để gọi đồ ăn, bạn có thể nói, cử chỉ hoặc thậm chí nhìn vào một số yếu tố nhất định để tương tác nhân văn hơn. Những người áp dụng sớm như Humane AI PinRabbit R1 hứa hẹn nhưng cũng nêu bật tính khó đoán và có khả năng cải tiến. Với tư cách là nhà phát triển và nhà nghiên cứu AI, chúng ta cần giải quyết những vấn đề này và tôi lạc quan rằng chúng ta sẽ làm được.


Các hệ thống AI đa phương thức được thiết lập để cách mạng hóa cách chúng ta tương tác với công nghệ bằng cách phá bỏ các rào cản giữa các hình thức giao tiếp khác nhau. Chúng tôi vẫn đang ở giai đoạn đầu khám phá cách xây dựng giao diện mới đó, nhưng có thể nhận thấy một mẫu chung:


các hệ thống hiện có với các mẫu tương tác được xác định trước sẽ được phát minh lại.


Khi nghiên cứu AI tiến bộ nhanh chóng, một số thách thức lớn nhất mà chúng ta gặp phải trong việc đảm bảo sự phát triển AI có trách nhiệm và giảm thiểu tác động tiêu cực tiềm tàng của nó là gì?


Việc điều hướng bối cảnh đạo đức của AI rất phức tạp nhưng rất quan trọng, vì công nghệ này phát triển nhanh chóng và ý nghĩa của nó vẫn đang được hiểu rõ. Chúng ta phải lường trước và giảm thiểu những thành kiến cũng như những hậu quả không lường trước được.


Một số thách thức xuất phát từ những tác động đạo đức liên quan đến những sai sót của con người. Ví dụ, các dự án nhằm xây dựng những người bạn đồng hành AI có thể giúp chống lại sự cô đơn. Tuy nhiên, họ cũng có thể làm trầm trọng thêm vấn đề bằng cách khuyến khích mọi người tìm thấy sự thoải mái trong AI hơn là các tương tác trong đời thực. Điều này đặt ra câu hỏi cho người sáng tạo về ý nghĩa của ứng dụng của họ và cách họ nên giải quyết chúng. Đây chỉ là một ví dụ về những câu hỏi cơ bản nảy sinh từ những ứng dụng tưởng chừng đơn giản và còn rất nhiều câu hỏi khác mà chúng ta chưa tưởng tượng được, chưa nói đến những tác dụng phụ của sự tồn tại của chúng.


Những sự cố gần đây trong ngành công nghệ lớn, chẳng hạn như sự thể hiện sai lệch lịch sử của con người trong các hình ảnh được tạo ra , nêu bật những thách thức đáng kể, bao gồm những lo ngại về đạo đức và những hậu quả không lường trước được, đi kèm với sự tiến bộ nhanh chóng của công nghệ AI.


Không có câu trả lời đơn giản, nhưng tôi tin rằng việc đảm bảo tính minh bạch thông qua phát triển LLM nguồn mở (hiển thị cả mô hình và dữ liệu mà họ đã được đào tạo) và thúc đẩy cách tiếp cận đa ngành liên quan đến những người có nền tảng đa dạng, không chỉ các kỹ sư và nhà khoa học, là rất quan trọng. bước giải quyết những thách thức này.


Đặt những câu hỏi này là cách tiếp cận đúng đắn duy nhất. Chúng tôi chịu trách nhiệm định hình tương lai của những công nghệ mạnh mẽ nhất sẽ được xây dựng. Với tư cách là người tạo ra AI, chúng ta phải xem xét những thành kiến cố hữu và tiềm ẩn cũng như cách giảm thiểu chúng.


Kể từ khi làm việc tại Amazon, bạn đã tham gia vào những dự án hoặc nỗ lực nghiên cứu nào? Bạn đang lam gi ngay bây giơ?


Sự kỳ diệu của AI nằm ở việc hiểu được các trường hợp sử dụng tập trung vào tia laser mà nó có thể hữu ích nhất. Sau khi rời Amazon, tôi đã thảo luận với người bạn Vlad Panchenko , hình dung ra tương lai và nhiều cách khác nhau mà AI có thể mang lại lợi ích cho nhân loại. Sau khi xây dựng hệ thống tác nhân một thời gian và kết hợp kiến thức đó với kinh nghiệm của Vlad với tư cách là một doanh nhân nối tiếp thành công, chúng tôi bắt đầu nghĩ về cách áp dụng tác nhân AI vào doanh nghiệp. Hầu hết các doanh nghiệp đều thiếu khả năng tiếp cận với các CMO, COO hàng đầu và các chuyên gia khác cần thiết để thành công. AI có thể dân chủ hóa việc tiếp cận trí thông minh ở quy mô chưa từng có. Cùng nhau, chúng tôi khám phá việc phân tách các quy trình kinh doanh phức tạp thành các nhiệm vụ nhỏ, có thể xác định được, xem các tác nhân như những viên gạch riêng lẻ có thể được nối và giao tiếp với nhau. Tôi rất hào hứng với tiềm năng này và điều này dẫn đến sự ra đời của Portal AI , được thúc đẩy bởi niềm tin mang trí thông minh AI đẳng cấp thế giới để hỗ trợ các doanh nghiệp trong hoạt động hàng ngày của họ, từ tiếp thị đến hậu cần, cho phép họ tập trung vào những gì thực sự quan trọng.


Bạn hình dung AI sẽ thay đổi thực tiễn quản lý kinh doanh như thế nào?


AI sẵn sàng cách mạng hóa việc quản lý kinh doanh bằng cách tự động hóa các nhiệm vụ lặp đi lặp lại và tăng cường khả năng ra quyết định.


Hãy tưởng tượng có một đối tác AI xử lý hoạt động tiếp thị, hậu cần và nhân sự của bạn, cho phép bạn tập trung vào công việc sáng tạo và chiến lược. Sự chuyển đổi này sẽ dân chủ hóa việc tiếp cận kiến thức chuyên môn, cho phép mọi doanh nghiệp hoạt động ở cấp độ cao hơn.


Khả năng hợp lý hóa hoạt động của AI sẽ không chỉ nâng cao hiệu quả mà còn thúc đẩy sự đổi mới và tăng trưởng.


Khi AI trở nên phức tạp hơn, bạn nghĩ gì về tác động tiềm ẩn của 'AI bóng tối' đối với các lĩnh vực như tính toàn vẹn tại nơi làm việc và an ninh mạng? Làm thế nào chúng ta có thể giảm thiểu những rủi ro tiềm ẩn này?


' Shadow AI '—việc sử dụng AI ngoài ý muốn và thường bị che giấu—gây ra những rủi ro đáng kể. Ví dụ: những người sử dụng AI để chơi các thuật toán truyền thông xã hội nêu bật cách AI có thể bị lạm dụng. Khi nội dung AI tràn ngập internet, việc duy trì tính toàn vẹn và bảo mật trở nên khó khăn. Nghiên cứu AI có đạo đức phải theo kịp những phát triển này, thúc đẩy tính minh bạch và các biện pháp bảo vệ mạnh mẽ. Việc giải quyết những rủi ro này đòi hỏi phải có sự cảnh giác liên tục và các chiến lược thích ứng để bảo vệ khỏi việc lạm dụng.


Chúng ta thấy mình đang ở trong kỷ nguyên mới này, nơi có rất nhiều điều chúng ta phải thực sự ghi nhớ và tiếp tục tranh luận.


Với sự phát triển nhanh chóng của lĩnh vực này, làm cách nào để bạn luôn cập nhật những tiến bộ mới nhất và duy trì chuyên môn của mình về AI? Bạn sẽ đưa ra lời khuyên gì cho những người đang mong muốn xây dựng kiến thức chuyên môn trong lĩnh vực có tốc độ phát triển nhanh này?


Mọi thứ đang chuyển động và thay đổi quá nhanh, thật tuyệt vời. Nhưng điều đó cũng có nghĩa là sau ba tháng, rất có thể thứ gì đó sẽ lỗi thời, lỗi thời hoặc chỉ lỗi thời. Không có cách nào để chỉ đọc một cuốn sách và cập nhật trong những chu kỳ lặp lại nhanh chóng này.


Có những nhà lãnh đạo lớn và các nguồn có uy tín trong lĩnh vực này, vì vậy việc theo dõi họ sẽ giúp bạn luôn được cập nhật. Để tìm hiểu sâu hơn về nghiên cứu, tôi đăng ký nhận các bản tin và cộng đồng có liên quan trên các nền tảng như Reddit và Twitter/X—và tất nhiên, tôi sử dụng AI để tóm tắt các chủ đề của mình trên Reddit.


Đối với những người mong muốn xây dựng kiến thức chuyên môn về AI, có nhiều con đường. Nếu bạn muốn trở thành nhà nghiên cứu, hãy xây dựng một nền tảng vững chắc—AI có nguồn gốc sâu xa từ toán học và mặc dù xu hướng thay đổi thì toán học cơ bản vẫn giữ nguyên.


Nhìn chung, tôi là người rất ủng hộ hackathons. Tôi đã đi nhiều, tổ chức nhiều. Và tôi đã phải xem rất nhiều dự án. Chúng thật tuyệt vời khi mọi người học được điều gì đó mới để sử dụng. Nếu tôi muốn giới thiệu một điều với bất kỳ ai, dù là kỹ sư, giám đốc sản phẩm hay Giám đốc điều hành, thì đó sẽ là: hãy ra ngoài đó, gặp những người muốn xây dựng thứ gì đó, bắt tay vào làm và bắt tay vào thực hiện. Đây là cách tốt nhất để thực sự hiểu mọi thứ, bởi vì bạn có thể phát triển trực giác của mình và tận hưởng niềm vui. Hãy luôn tò mò!


Nhìn về tương lai 20 năm sau, bạn hình dung vai trò của AI trong cuộc sống hàng ngày của chúng ta như thế nào? Bạn hào hứng nhất với điều gì và bạn thấy khó dự đoán nhất về khía cạnh nào của tương lai này?


Tôi thực sự muốn đọc cuộc phỏng vấn này trong 20 năm nữa! AI đang thay đổi nhanh đến mức khó có thể dự đoán điều gì sẽ xảy ra trong 20 tháng nữa, chứ đừng nói đến 20 năm nữa. Chúng ta đang ở trong một thời điểm đặc biệt, ở giai đoạn đầu của quá trình có thể hợp nhất tất cả trí thông minh của con người vào một hệ thống, cho phép tiếp cận phổ cập kiến thức. Hiện tại, các nguồn lực như giáo dục không được phân bổ đồng đều và tôi tin rằng AI sẽ có tác động lớn ở đây với tư cách là bộ cân bằng phổ quát về nhiều mặt.


Và chạm vào robot một lần nữa, tôi nghĩ điều này sẽ trở thành hiện thực. Chúng ta sẽ có những robot cá nhân sống cùng chúng ta với tư cách là trợ lý và đảm nhận mọi công việc gia đình.


Chúng ta sẽ có những sản phẩm siêu cá nhân hóa—gia sư, huấn luyện viên và bạn bè của riêng chúng ta. Chúng tôi thậm chí còn chưa đặt tên cho những thực thể này, nhưng nó đã xảy ra rồi.


Một điều nữa làm tôi phấn khích là sự tăng tốc của nghiên cứu. Tôi rất vui mừng trước viễn cảnh về loại thuốc hoặc phương pháp chữa trị đầu tiên được hợp tác phát triển bởi AI—đó sẽ là một thế giới tươi đẹp biết bao. Tôi là người có niềm tin mãnh liệt vào một tương lai tốt đẹp hơn và rất hào hứng làm mọi thứ có thể để định hình tương lai đó.


Theo hồ sơ LinkedIn của bạn, bạn là người gốc Lebanon, lớn lên ở Ukraine và học ở Đức: bạn có thể chia sẻ hành trình của mình với chúng tôi và những nền tảng văn hóa đa dạng này đã hình thành nên con người bạn như thế nào không?


Đúng rồi! Tôi sinh ra ở Lebanon, chuyển đến Ukraine khi còn nhỏ và lớn lên ở đó. Ukraine đã định hình tôi một cách sâu sắc. Năm 17 tuổi, tôi chuyển đến Đức để học đại học, sau đó gia đình tôi cũng đến đây và sự nghiệp của tôi bắt đầu. Sống trong những xã hội đa dạng và tươi đẹp như nhau, tôi đã học được về những thách thức và cơ hội độc đáo của họ.


Nghiên cứu AI hiện có xu hướng tập trung vào người nói tiếng Anh, với hầu hết dữ liệu và hệ thống được xây dựng bởi và dành cho người nói tiếng Anh. Tin rằng AI phải là một bộ cân bằng phổ quát, chúng ta cần điều chỉnh và hỗ trợ mọi ngôn ngữ để xây dựng AI thực sự phổ quát. Có thể nói được năm thứ tiếng, tôi đồng cảm với tất cả chúng - tôi là người Lebanon, người Ukraine và người Đức. Tôi là người. Những trải nghiệm này đã mang lại cho tôi những hiểu biết sâu sắc vô giá về điều gì kết nối chúng ta đồng thời khiến chúng ta trở nên độc đáo và tôi mang theo kiến thức này trong mọi nỗ lực của mình.