paint-brush
Um grande passo para a IA: 3D-LLM lança modelos de linguagem no mundo 3Dpor@whatsai
3,147 leituras
3,147 leituras

Um grande passo para a IA: 3D-LLM lança modelos de linguagem no mundo 3D

por Louis Bouchard2m2023/08/11
Read on Terminal Reader

Muito longo; Para ler

3D-LLM é um novo modelo que preenche a lacuna entre a linguagem e o reino 3D que habitamos. Ele não apenas percebe o mundo, mas também interage com ele. O mundo que ele vê pode não ser convencionalmente belo, mas sua compreensão está profundamente enraizada em nuvens de pontos e linguagem.
featured image - Um grande passo para a IA: 3D-LLM lança modelos de linguagem no mundo 3D
Louis Bouchard HackerNoon profile picture
0-item

Testemunhamos as capacidades notáveis de modelos de linguagem grandes (LLMs), mas há uma lacuna – uma peça que falta na compreensão do mundo ao nosso redor. Eles se destacaram com texto, código e imagens, mas lutaram para realmente se envolver com nossa realidade. Isto é, até agora. Aqui está um salto inovador no cenário da IA: 3D-LLM.


3D-LLM é um novo modelo que preenche a lacuna entre a linguagem e o reino 3D que habitamos. Embora não cubra todo o nosso mundo, é um passo monumental na compreensão das dimensões cruciais e do texto que molda nossas vidas. Como você descobrirá no vídeo, o 3D-LLM não apenas percebe o mundo, mas também interage com ele. Você pode fazer perguntas sobre o ambiente, buscar objetos ou navegar pelos espaços e testemunhar seu raciocínio de bom senso - reminiscente dos feitos inspiradores que experimentamos com o ChatGPT.


Curiosamente, o mundo que ele vê pode não ser convencionalmente belo, mas sua compreensão está profundamente enraizada em nuvens de pontos e linguagem. As nuvens de pontos, a base da representação de dados 3D, codificam coordenadas espaciais de objetos e ambientes, permitindo que a IA interaja com o mundo real de maneira tangível. Pense em seu papel na direção autônoma, robótica e realidade aumentada - o 3D-LLM explora esse reino.


Curiosamente, você pode se perguntar como esse modelo foi treinado para compreender dados e linguagem tridimensionais. O processo foi inovador e intrincado, com os autores construindo um conjunto de dados de texto 3D exclusivo. Eles aproveitaram as proezas do ChatGPT para coletar esses dados por meio de três métodos distintos sobre os quais você aprenderá, criando um repositório abrangente de tarefas e exemplos para cada cena.


A partir desse rico conjunto de dados, os autores criaram um modelo de IA capaz de processar texto e nuvens de pontos 3D. O modelo pega a cena, extrai características cruciais através de várias perspectivas e a reconstrói de uma forma que ressoa com o entendimento do modelo.


O resultado? O nascimento do primeiro 3D-LLM, um modelo que realmente vê e compreende nosso mundo, oferecendo um vislumbre intrigante da evolução da IA. O vídeo oferece um instantâneo da jornada, mas encorajo você a explorar o papel para um mergulho mais profundo nos impressionantes feitos de engenharia por trás dessa inovação. O link é fornecido nas referências abaixo.

Aproveite o show!

Assista ao vídeo para saber mais:

Referências:

►Leia o artigo completo: https://www.louisbouchard.ai/3d-llm/

►Página do projeto com demonstração em vídeo: https://vis-www.cs.umass.edu/3dllm/ ►Código: https://github.com/UMass-Foundation-Model/3D-LLM

►Artigo: Hong et al., 2023: 3D-LLM, https://arxiv.org/pdf/2307.12981.pdf

►Twitter: https://twitter.com/Whats_AI

►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

►Apoie-me no Patreon: https://www.patreon.com/whatsai

►Junte-se ao nosso AI Discord: https://discord.gg/learnaitogether