Chúng ta đã chứng kiến những khả năng vượt trội của các mô hình ngôn ngữ lớn (LLM), nhưng vẫn còn một lỗ hổng—một phần còn thiếu trong hiểu biết của chúng về thế giới xung quanh chúng ta. Họ đã xuất sắc với văn bản, mã và hình ảnh, nhưng họ đã phải vật lộn để thực sự tương tác với thực tế của chúng ta. Đó là, cho đến bây giờ. Đây là một bước nhảy đột phá trong bối cảnh AI: 3D-LLM.  3D-LLM là một mô hình mới thu hẹp khoảng cách giữa ngôn ngữ và thế giới 3D mà chúng ta đang sống. Mặc dù nó không bao trùm toàn bộ thế giới của chúng ta, nhưng đó là một bước tiến lớn trong việc hiểu các kích thước và văn bản quan trọng định hình cuộc sống của chúng ta. Như bạn sẽ khám phá trong video, 3D-LLM không chỉ nhận thức thế giới mà còn tương tác với thế giới. Bạn có thể đặt câu hỏi về môi trường, tìm kiếm đồ vật hoặc điều hướng trong không gian và chứng kiến suy luận hợp lý của nó—gợi nhớ đến những kỳ tích đầy cảm hứng mà chúng tôi đã trải nghiệm với ChatGPT.  Điều thú vị là thế giới mà nó nhìn thấy có thể không đẹp theo cách thông thường, nhưng sự hiểu biết của nó đã ăn sâu vào các đám mây điểm và ngôn ngữ. Các đám mây điểm, nền tảng của biểu diễn dữ liệu 3D, mã hóa tọa độ không gian của các đối tượng và môi trường, cho phép AI tương tác với thế giới thực một cách hữu hình. Hãy nghĩ về vai trò của chúng trong lái xe tự hành, người máy và thực tế tăng cường—3D-LLM khai thác lĩnh vực này.  Thật kỳ lạ, bạn có thể thắc mắc làm thế nào một mô hình như vậy được đào tạo để hiểu dữ liệu và ngôn ngữ 3 chiều. Quá trình này rất sáng tạo và phức tạp, với việc các tác giả xây dựng một bộ dữ liệu văn bản 3D độc đáo. Họ đã khai thác sức mạnh của ChatGPT để thu thập dữ liệu này thông qua ba phương pháp riêng biệt mà bạn sẽ tìm hiểu, tạo ra một kho lưu trữ toàn diện các tác vụ và ví dụ cho từng cảnh.  Từ tập dữ liệu phong phú này, các tác giả đã tạo ra một mô hình AI có khả năng xử lý cả văn bản và đám mây điểm 3D. Mô hình lấy bối cảnh, trích xuất các tính năng quan trọng thông qua các góc nhìn khác nhau và tái tạo lại nó ở dạng phù hợp với sự hiểu biết của mô hình.  Kết quả? Sự ra đời của 3D-LLM đầu tiên, một mô hình thực sự nhìn và hiểu thế giới của chúng ta—mang đến cái nhìn hấp dẫn về sự phát triển của AI. Video cung cấp thông tin tổng quan về hành trình, nhưng tôi khuyến khích bạn khám phá bài báo để tìm hiểu sâu hơn về những kỳ tích kỹ thuật ấn tượng đằng sau sự đổi mới này. Liên kết được cung cấp trong các tài liệu tham khảo dưới đây.  Thưởng thức màn trình diễn!  Xem video để tìm hiểu thêm:   https://youtu.be/ADlXEUqIt-8?embedable=true   Người giới thiệu:  ►Đọc toàn bộ bài viết:  https://www.louisbouchard.ai/3d-llm/  ►Trang dự án có video demo:   ►Code:  https://vis-www.cs.umass.edu/3dllm/ https://github.com/UMass-Foundation-Model/3D-LLM  ►Bài báo: Hong và cộng sự, 2023: 3D-LLM,  https://arxiv.org/pdf/2307.12981.pdf  ►Twitter:  https://twitter.com/Whats_AI  ►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!):  https://www.louisbouchard.ai/newsletter/  ►Hỗ trợ tôi trên Patreon:  https://www.patreon.com/whatsai  ►Tham gia chương trình Discord AI của chúng tôi:  https://discord.gg/learnaitogether

The writer is smart, but don't just like, take their word for it. #DoYourOwnResearch before making any investment decisions or decisions regarding your health or security. (Do not regard any of this content as professional investment advice, or health advice)

Watch more on YouTube: https://www.youtube.com/c/WhatsAI

I explain Artificial Intelligence terms and news to non-experts.

2021 - HackerNoon Contributor of the Year - FACEBOOK

2022 - Best Data Science Newsletter

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

2022 - HackerNoon Contributor of the Year - Computer Vision

2022 - HackerNoon Contributor of the Year - Data Science

2022 - HackerNoon Contributor of the Year - Google

2022 - HackerNoon Contributor of the Year - Innovation

2022 - HackerNoon Contributor of the Year - Machine Learning

2022 - HackerNoon Contributor of the Year - Natural Language Processing

2022 - Top Tech Youtuber

2021 - HackerNoon Contributor of the Year - DEEP-LEARNING

Nominated for 2022 - Best Data Science Newsletter

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Nominated for 2022 - Top Tech Youtuber

Nominated for 2022 - HackerNoon Contributor of the Year - Innovation

Nominated for 2022 - HackerNoon Contributor of the Year - Data Science

Nominated for 2022 - HackerNoon Contributor of the Year - Natural Language Processing

Nominated for 2022 - HackerNoon Contributor of the Year - Computer Vision

Nominated for 2022 - HackerNoon Contributor of the Year - Google

Nominated for 2022 - HackerNoon Contributor of the Year - Machine Learning

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

dài quá đọc không nổi

Một bước tiến lớn cho AI: 3D-LLM giải phóng các mô hình ngôn ngữ vào thế giới 3D

Một bước tiến lớn cho AI: 3D-LLM giải phóng các mô hình ngôn ngữ vào thế giới 3D

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

85 Stories To Learn About Productivity Hacks

94 Stories To Learn About John Locke

147 Stories To Learn About Reading Books Online

72 Stories To Learn About Adam Smith

85 Stories To Learn About Productivity Hacks

94 Stories To Learn About John Locke

147 Stories To Learn About Reading Books Online

72 Stories To Learn About Adam Smith

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps