我们已经见证了大型语言模型 (LLM) 的卓越能力,但仍然存在差距——他们对我们周围世界的理解中缺失了一块。他们在文本、代码和图像方面表现出色,但在真正融入我们的现实方面却遇到了困难。也就是说,到现在为止。这是人工智能领域的突破性飞跃:3D-LLM。
3D-LLM 是一种新颖的模型,它弥合了语言与我们所居住的 3D 领域之间的差距。虽然它并没有涵盖我们整个世界,但在理解塑造我们生活的关键维度和文本方面,这是一个巨大的进步。正如您将在视频中发现的那样,3D-LLM 不仅可以感知世界,还可以与之交互。您可以提出有关环境的问题、寻找物体或在空间中导航,并见证其常识性推理——让人想起我们在 ChatGPT 上经历过的令人惊叹的壮举。
有趣的是,它看到的世界可能并不像传统意义上的美丽,但它的理解却根深蒂固于点云和语言。点云是 3D 数据表示的基石,对物体和环境的空间坐标进行编码,使 AI 能够以有形的方式与现实世界交互。想想它们在自动驾驶、机器人技术和增强现实中的作用——3D-LLM 进军了这个领域。
奇怪的是,您可能想知道如何训练这样的模型来理解 3 维数据和语言。这个过程既创新又复杂,作者构建了一个独特的 3D 文本数据集。他们利用 ChatGPT 的强大功能,通过您将了解的三种不同方法收集这些数据,为每个场景创建一个全面的任务和示例存储库。
根据这个丰富的数据集,作者打造了一个能够处理文本和 3D 点云的 AI 模型。该模型获取场景,通过各种视角提取关键特征,并以与模型理解产生共鸣的形式重建它。
结果?第一个 3D-LLM 的诞生,这是一个真正看到并理解我们的世界的模型,为人工智能的演变提供了一个有趣的视角。该视频提供了整个旅程的快照,但我鼓励您探索这篇论文,以更深入地了解这项创新背后令人印象深刻的工程壮举。下面的参考文献中提供了该链接。
欣赏表演吧!
参考:
►阅读全文:https: //www.louisbouchard.ai/3d-llm/
►带有视频演示的项目页面: https://vis-www.cs.umass.edu/3dllm/ ►代码:https: //github.com/UMass-Foundation-Model/3D-LLM
►论文:Hong 等人,2023:3D-LLM,https: //arxiv.org/pdf/2307.12981.pdf
►推特:https: //twitter.com/Whats_AI
►我的时事通讯(每周向您的电子邮件解释一个新的人工智能应用程序!): https://www.louisbouchard.ai/newsletter/
►在 Patreon 上支持我:https: //www.patreon.com/whatsai
►加入我们的 AI Discord:https: //discord.gg/learnaitogether