Como si tomar una foto no fuera una destreza tecnológica lo suficientemente desafiante, ahora estamos haciendo lo contrario: modelar el mundo a partir de imágenes. He cubierto increíbles modelos basados en IA que podrían tomar imágenes y convertirlas en escenas de alta calidad. Una tarea desafiante que consiste en tomar algunas imágenes en el mundo de imágenes bidimensionales para crear cómo se vería el objeto o la persona en el mundo real.
Tome algunas fotos y obtenga instantáneamente un modelo realista para insertar en su producto. ¡¿Cuan genial es eso?!
Los resultados han mejorado drásticamente con respecto que cubrí en 2020, llamado NeRF. Y esta mejora no se trata sólo de la calidad de los resultados. NVIDIA lo hizo aún mejor.
No solo que la calidad es comparable, si no mejor, sino que es más de 1000 veces más rápida con menos de dos años de investigación.
►Lea el artículo completo: https://www.louisbouchard.ai/nvidia-photos-into-3d-scenes/
►Publicación de blog de NVIDIA (crédito del video): https://blogs.nvidia.com/blog/2022/03/25/instant-nerf-research-3d-ai/
►Video de NVIDIA: https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.mp4
►Papel: Thomas Muller, Alex Evans, Christoph Schied y Alexander
Keller, 2022, "Primitivas de gráficos neuronales instantáneos con resolución múltiple
Codificación hash", https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf
►Enlace del proyecto: https://nvlabs.github.io/instant-ngp/
►Código: https://github.com/NVlabs/instant-ngp
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/
0:00
como si sacar una foto no fuera un
0:02
suficientemente desafiante destreza tecnológica
0:05
ahora estamos haciendo el modelado opuesto
0:07
el mundo de las imágenes que he cubierto
0:09
asombrosos modelos basados en inteligencia artificial que podrían tomar
0:12
imágenes y convertirlas en alta calidad
0:14
escenas una tarea desafiante que consiste
0:16
de tomar algunas imágenes en el
0:18
mundo de imágenes bidimensionales para crear
0:20
cómo se verá el objeto o la persona
0:23
en el mundo real puedes ver fácilmente cómo
0:25
útil esta tecnología es para muchos
0:27
industrias como la animación de videojuegos
0:29
películas o publicidad toman unos pocos
0:31
Imágenes e instantáneamente tener un realista
0:34
modelo para insertar en su producto el
0:36
los resultados han mejorado dramáticamente
0:38
el primer modelo que cubrí en 2020 llamado
0:41
nerf y esta mejora no es solo
0:43
sobre la calidad de los resultados nvidia
0:46
lo hizo aún mejor no solo que el
0:48
la calidad es comparable si no mejor pero
0:51
es más de mil veces más rápido
0:53
con menos de dos años de investigación
0:56
este es el ritmo de la investigación en IA
0:58
ganancias exponenciales en calidad y
1:01
la eficiencia es un factor importante que hace que este
1:03
campo tan increíble que te perderás
1:06
con las nuevas técnicas y calidad de
1:07
los resultados si te pierdes sólo un par de
1:10
días, por eso primero creé esto
1:12
canal y por qué tú también deberías
1:14
suscríbete solo mira esos modelos 3d
1:17
estos geniales modelos solo necesitaban una docena
1:19
imágenes y el ai adivinó la falta
1:22
lugar y creó esta belleza en segundos
1:24
algo como esto tomó horas para
1:26
producir con nerf, profundicemos en cómo
1:29
hicieron tanto progreso en tantos
1:31
frentes en tan poco tiempo, pero primero
1:34
quisiera tomarme unos segundos para hablar de
1:36
bucle activo una compañía increíble i
1:38
recientemente tropecé y ahora están
1:40
patrocinar este bucle activo de video es
1:43
haciéndose popular con su código abierto
1:45
formato de conjunto de datos para ai hub uno de los mejores
1:48
10 paquetes de python en 2021 con activo
1:52
loop hub puede tratar sus conjuntos de datos como
1:54
numpy como matrices como resultado tienes un
1:57
api de conjunto de datos simple para crear almacenamiento
2:00
control de versiones y consulta de datos ai
2:02
conjuntos de cualquier tamaño es perfecto para
2:05
colaborar con su equipo e iterar
2:07
en sus conjuntos de datos, la función que me gusta
2:09
la mayoría es poder transmitir mis datos
2:11
conjuntos mientras entrena modelos en pytorch o
2:14
tensorflow esto significa que cualquiera puede acceder
2:16
cualquier porción de los datos y comenzar a entrenar
2:19
modelos en segundos sin importar cuán grande sea
2:21
el conjunto de datos así es genial
2:24
que con todas estas características ingeniosas hub
2:27
definitivamente me libera de construir datos
2:29
tuberías para que pueda entrenar mis modelos
2:31
el bucle activo más rápido acaba de lanzarse
2:34
más de 100 imágenes de video y datos de audio
2:37
conjuntos disponibles casi al instante con un
2:39
sola línea de código, pruébelos en su
2:41
flujos de trabajo y hágamelo saber en el
2:43
comentarios a continuación cómo funciona me encantaría
2:45
saber lo que construyes con ellos
2:49
nerf instantáneo ataca la tarea de inversa
2:51
renderizado que consiste en renderizar un
2:54
Representación 3d de imágenes una docena.
2:57
en este caso aproximando el real
2:59
la forma del objeto y cómo la luz
3:01
compórtate para que parezca realista
3:04
en cualquier escena nueva aquí nerf significa
3:07
campos de radiación neuronal solo haré un
3:10
descripción general rápida de cómo funcionan los nerfs como yo
3:12
ya cubrimos este tipo de red en
3:14
varios videos a los que te invito
3:16
Esté atento a más detalles y una mejor
3:18
comprender rápidamente los nerfs es un tipo de
3:21
red neuronal toman imágenes y
3:23
ajustes de la cámara como entradas y aprenda cómo
3:26
para producir una representación 3d inicial
3:28
de los objetos o escenas en la imagen
3:31
ajustar esta representación utilizando
3:33
aprender parámetros de un supervisado
3:35
entornos de aprendizaje esto significa que
3:37
necesito un objeto 3d y algunas imágenes de él
3:40
en diferentes ángulos conocidos para entrenarlo
3:42
y la red aprenderá a recrear
3:44
el objeto para hacer los mejores resultados
3:46
como sea posible necesitamos una imagen de
3:48
múltiples puntos de vista como este para estar seguro
3:51
capturamos todos o la mayoría de los lados de la
3:54
objetos y entrenamos esta red para
3:56
comprender las formas generales de los objetos y
3:58
resplandor de luz le estamos pidiendo que aprenda
4:01
cómo llenar las partes que faltan en base a
4:04
lo que ha visto antes y lo ligero
4:06
reacciona a ellos en el mundo 3d básicamente
4:09
será como pedirte que dibujes un
4:11
humano sin dar ningún detalle sobre el
4:13
manos que asumirías automáticamente
4:15
persona tiene cinco dedos en base a su
4:18
conocimiento esto es fácil para nosotros ya que tenemos
4:20
muchos años de experiencia detrás del cinturón
4:23
y una cosa esencial son las ais actuales
4:25
careciendo de nuestra inteligencia podemos crear
4:28
enlaces donde no los hay y hacer muchos
4:30
cosas increíbles en el lado opuesto
4:33
ai necesita reglas específicas o al menos
4:36
ejemplos a seguir por lo que necesitamos
4:38
para darle el aspecto que tiene un objeto en
4:40
el mundo real durante su fase de entrenamiento
4:42
para mejorar luego de tal entrenamiento
4:45
proceso solo alimentas las imágenes con
4:47
los ángulos de la cámara en el momento de la inferencia y
4:50
produce el modelo final en unos pocos
4:52
horas vi algunas horas lo siento yo
4:56
todavía estaba en 2021. ahora lo hace en un
4:59
unos segundos esta nueva version de nvidia
5:02
llamado nerf instantáneo es de hecho 1000 veces
5:05
más rápido que su predecesor nerf de un
5:08
hace un año por qué debido a la resolución múltiple
5:11
codificación hash grid multi-qué
5:13
Codificación de cuadrícula hash de resolución múltiple que
5:16
lo explica muy claro con esto
5:18
frase
5:19
reducimos el costo con un nuevo y versátil
5:23
codificación de entrada que permite el uso de un
5:25
red más pequeña sin sacrificar
5:28
calidad reduciendo así significativamente la
5:31
número de coma flotante y memoria
5:33
operaciones de acceso
5:35
en fin cambian como esta el nerf
5:37
la red verá las entradas, por lo que nuestro
5:40
la predicción inicial del modelo 3D lo hace
5:42
más digerible e información
5:45
eficiente usar una red más pequeña mientras
5:47
manteniendo la calidad de los resultados
5:50
mismo mantener una calidad tan alta usando un
5:53
una red más pequeña es posible porque
5:55
no sólo están aprendiendo los pesos de los
5:57
red nerf durante el entrenamiento pero también
5:59
la forma en que estamos transformando esos insumos
6:02
de antemano para que la entrada se transforme
6:04
usando funciones entrenadas aquí paso uno para
6:08
cuatro comprimidos en una tabla hash para enfocar
6:10
en información valiosa extremadamente
6:12
rápidamente y luego enviado a un mucho más pequeño
6:15
red en el paso 5 ya que las entradas son
6:18
igualmente mucho más pequeños ahora son
6:20
almacenar los valores de cualquier tipo en el
6:23
mesa con llaves que indican dónde
6:25
se almacenan para un paralelo súper eficiente
6:27
modificaciones y eliminación de la búsqueda
6:30
tiempo para grandes arreglos durante el entrenamiento y
6:32
inferir esta transformación y mucho más
6:35
una red más pequeña es la razón por la cual el nerf instantáneo es
6:37
mucho más rápido y por qué se convirtió en
6:40
este video y listo asi es nvidia
6:44
ahora es capaz de generar modelos 3D como
6:46
estos en segundos
6:49
si esto no fuera lo suficientemente bueno, dije eso
6:51
puede almacenar valores de cualquier tipo que
6:54
significa que esta técnica no sólo puede
6:56
usarse con nerfs pero también con otros
6:58
aplicaciones súper geniales como gigapixel
7:01
imágenes que se vuelven igual de increíblemente
7:03
eficiente, por supuesto, esto era solo un
7:06
descripción general de este nuevo artículo que ataca
7:08
esta super interesante tarea en una novela
7:10
manera te invito a leer su excelente
7:12
papel para obtener más detalles técnicos sobre
7:14
la codificación de cuadrícula hash de resolución múltiple
7:17
enfoque y su implementación un enlace
7:19
al papel y su código está en el
7:21
descripción a continuación gracias por ver
7:23
el video completo por favor toma un segundo para
7:26
déjame saber lo que piensas de la
7:27
calidad general de los videos y nuevos
7:29
edición nos vemos la semana que viene con
otro papel increíble