paint-brush
Một bước tiến lớn cho AI: 3D-LLM giải phóng các mô hình ngôn ngữ vào thế giới 3Dtừ tác giả@whatsai
3,147 lượt đọc
3,147 lượt đọc

Một bước tiến lớn cho AI: 3D-LLM giải phóng các mô hình ngôn ngữ vào thế giới 3D

từ tác giả Louis Bouchard2m2023/08/11
Read on Terminal Reader

dài quá đọc không nổi

3D-LLM là một mô hình mới thu hẹp khoảng cách giữa ngôn ngữ và thế giới 3D mà chúng ta đang sống. Nó không chỉ nhận thức thế giới mà còn tương tác với nó. Thế giới mà nó nhìn thấy có thể không đẹp đẽ theo quy ước, nhưng sự hiểu biết của nó ăn sâu vào các đám mây điểm và ngôn ngữ.
featured image - Một bước tiến lớn cho AI: 3D-LLM giải phóng các mô hình ngôn ngữ vào thế giới 3D
Louis Bouchard HackerNoon profile picture
0-item

Chúng ta đã chứng kiến những khả năng vượt trội của các mô hình ngôn ngữ lớn (LLM), nhưng vẫn còn một lỗ hổng—một phần còn thiếu trong hiểu biết của chúng về thế giới xung quanh chúng ta. Họ đã xuất sắc với văn bản, mã và hình ảnh, nhưng họ đã phải vật lộn để thực sự tương tác với thực tế của chúng ta. Đó là, cho đến bây giờ. Đây là một bước nhảy đột phá trong bối cảnh AI: 3D-LLM.


3D-LLM là một mô hình mới thu hẹp khoảng cách giữa ngôn ngữ và thế giới 3D mà chúng ta đang sống. Mặc dù nó không bao trùm toàn bộ thế giới của chúng ta, nhưng đó là một bước tiến lớn trong việc hiểu các kích thước và văn bản quan trọng định hình cuộc sống của chúng ta. Như bạn sẽ khám phá trong video, 3D-LLM không chỉ nhận thức thế giới mà còn tương tác với thế giới. Bạn có thể đặt câu hỏi về môi trường, tìm kiếm đồ vật hoặc điều hướng trong không gian và chứng kiến suy luận hợp lý của nó—gợi nhớ đến những kỳ tích đầy cảm hứng mà chúng tôi đã trải nghiệm với ChatGPT.


Điều thú vị là thế giới mà nó nhìn thấy có thể không đẹp theo cách thông thường, nhưng sự hiểu biết của nó đã ăn sâu vào các đám mây điểm và ngôn ngữ. Các đám mây điểm, nền tảng của biểu diễn dữ liệu 3D, mã hóa tọa độ không gian của các đối tượng và môi trường, cho phép AI tương tác với thế giới thực một cách hữu hình. Hãy nghĩ về vai trò của chúng trong lái xe tự hành, người máy và thực tế tăng cường—3D-LLM khai thác lĩnh vực này.


Thật kỳ lạ, bạn có thể thắc mắc làm thế nào một mô hình như vậy được đào tạo để hiểu dữ liệu và ngôn ngữ 3 chiều. Quá trình này rất sáng tạo và phức tạp, với việc các tác giả xây dựng một bộ dữ liệu văn bản 3D độc đáo. Họ đã khai thác sức mạnh của ChatGPT để thu thập dữ liệu này thông qua ba phương pháp riêng biệt mà bạn sẽ tìm hiểu, tạo ra một kho lưu trữ toàn diện các tác vụ và ví dụ cho từng cảnh.


Từ tập dữ liệu phong phú này, các tác giả đã tạo ra một mô hình AI có khả năng xử lý cả văn bản và đám mây điểm 3D. Mô hình lấy bối cảnh, trích xuất các tính năng quan trọng thông qua các góc nhìn khác nhau và tái tạo lại nó ở dạng phù hợp với sự hiểu biết của mô hình.


Kết quả? Sự ra đời của 3D-LLM đầu tiên, một mô hình thực sự nhìn và hiểu thế giới của chúng ta—mang đến cái nhìn hấp dẫn về sự phát triển của AI. Video cung cấp thông tin tổng quan về hành trình, nhưng tôi khuyến khích bạn khám phá bài báo để tìm hiểu sâu hơn về những kỳ tích kỹ thuật ấn tượng đằng sau sự đổi mới này. Liên kết được cung cấp trong các tài liệu tham khảo dưới đây.

Thưởng thức màn trình diễn!

Xem video để tìm hiểu thêm:

Người giới thiệu:

►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/3d-llm/

►Trang dự án có video demo: https://vis-www.cs.umass.edu/3dllm/ ►Code: https://github.com/UMass-Foundation-Model/3D-LLM

►Bài báo: Hong và cộng sự, 2023: 3D-LLM, https://arxiv.org/pdf/2307.12981.pdf

►Twitter: https://twitter.com/Whats_AI

►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): https://www.louisbouchard.ai/newsletter/

►Hỗ trợ tôi trên Patreon: https://www.patreon.com/whatsai

►Tham gia chương trình Discord AI của chúng tôi: https://discord.gg/learnaitogether