¿Cómo ven los vehículos autónomos?
Probablemente hayas oído hablar de los sensores LiDAR u otras cámaras extrañas que están usando. Pero, ¿cómo funcionan, cómo pueden ver el mundo y qué ven exactamente en comparación con nosotros? Comprender cómo funcionan es esencial si queremos ponerlos en marcha, principalmente si trabajas en el gobierno o construyes las próximas regulaciones. Pero también como cliente de estos servicios.
Anteriormente cubrimos cómo ve y funciona el piloto automático de Tesla , pero son diferentes de los vehículos autónomos convencionales. Tesla solo usa cámaras para comprender el mundo, mientras que la mayoría, como Waymo , usa cámaras normales y sensores 3D LiDAR. Estos sensores LiDAR son bastante simples de entender: no producirán imágenes como las cámaras normales, sino nubes de puntos 3D. Las cámaras LiDAR miden la distancia entre objetos, calculando el tiempo de viaje del láser de pulso que proyectan hacia el objeto.
Aún así, ¿cómo podemos combinar eficientemente esta información y hacer que el vehículo la entienda? ¿Y qué termina viendo el vehículo? ¿Solo puntos en todas partes? ¿Es suficiente para circular por nuestras carreteras? Veremos esto en el video con un nuevo trabajo de investigación de Waymo y Google Research...
► Lea el artículo completo: https://www.louisbouchard.ai/waymo-lidar/ ►Piergiovanni, AJ, Casser, V., Ryoo, MS and Angelova, A., 2021.
4d-net para alineación multimodal aprendida. En Actas del IEEE/CVF
Conferencia internacional sobre visión artificial (págs. 15435–15445). https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf
►Publicación de blog de Google Research: https://ai.googleblog.com/2022/02/4d-net-learning-multi-modal-alignment.html?m=1
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/
0:00
¿Cómo ven los vehículos autónomos que has
0:02
probablemente haya oído hablar de sensores lidar u otros
0:05
cámaras extrañas que están usando, pero ¿cómo
0:07
trabajan cómo pueden ver el mundo y
0:09
que ven comparados con nosotros
0:11
entender cómo funcionan es esencial
0:13
si queremos ponerlos en el camino
0:15
especialmente si trabajas en el gobierno
0:17
o construir las próximas regulaciones pero también
0:20
como cliente de estos servicios
0:22
cubierto anteriormente cómo el piloto automático de tesla
0:24
ve y trabaja pero son diferentes
0:26
de vehículos autónomos convencionales
0:28
tesla solo usa cámaras para entender
0:31
el mundo mientras que a la mayoría les gusta waymo
0:33
use cámaras regulares y sensores lidar 3d
0:38
estos sensores lidar son bastante simples de
0:40
entender que no producirán imágenes
0:42
como cámaras regulares pero nubes de puntos 3d
0:46
las cámaras lidar miden la distancia
0:48
entre objetos calculando el pulso
0:50
láseres que viajan en el tiempo que proyectan
0:52
al objeto de esta manera producirán
0:54
muy pocos puntos de datos con información valiosa y
0:57
información de distancia exacta como puedas
1:00
ver aquí estos puntos de datos se llaman
1:02
nubes de puntos y solo significa que lo que
1:04
veremos son solo muchos puntos en el
1:06
posiciones correctas creando una especie de 3d
1:09
modelo del mundo aqui puedes ver como
1:12
lidar a la derecha no es tan preciso para
1:14
entiende lo que ve pero es bonito
1:16
bueno entender que con muy poco
1:18
información que es perfecta para
1:20
calcular eficientemente los datos en tiempo real
1:22
tiempo un criterio esencial para
1:25
vehículos autónomos esta cantidad mínima
1:27
de datos y alta precisión espacial es
1:30
perfecto porque junto con imágenes rgb
1:33
como se muestra a la izquierda tenemos ambos
1:35
información precisa de la distancia y la
1:37
información precisa del objeto que nos falta con
1:40
datos lidar solos, especialmente desde lejos
1:43
alejar objetos o personas
1:44
por eso waymo y otros autónomos
1:47
Las empresas de vehículos utilizan ambos tipos de
1:49
sensores para entender el mundo todavía
1:52
¿Cómo podemos combinar esto de manera eficiente?
1:53
información y tener el vehículo
1:55
entenderlo y lo que hace el vehículo
1:58
terminar viendo solo puntos en todas partes es
2:01
es suficiente para conducir en las carreteras que
2:03
investigará esto con una nueva investigación
2:05
artículo de waymo y google research
2:08
para lanzar muchos avances como este
2:10
uno que los investigadores necesitaban para ejecutar muchos
2:13
muchos experimentos y ser súper organizado
2:16
además, su código debe ser fácilmente
2:18
reproducible y casi perfecto como muchos
2:21
la gente va a depender de ello en la vida o
2:23
situaciones de muerte afortunadamente estas son
2:26
dos puntos fuertes de este episodio
2:28
patrocina pesos y sesgos si quieres
2:31
publicar artículos en grandes congresos o
2:33
crear el futuro de los vehículos autónomos
2:36
creo que usar ponderaciones y sesgos
2:38
ciertamente ayudó a que cambiara mi vida como
2:40
investigador y por mi trabajo en diseño
2:42
los pesos y sesgos de la franja
2:44
realiza un seguimiento automático de cada ejecución del hiper
2:46
parámetros la versión de github hardware
2:48
y os usados, entonces puedes crear fácilmente
2:51
su propio espacio de trabajo usando grupos de filtros
2:54
y sus propios paneles para mostrar cualquier cosa
2:56
necesitas analizar como no vas a estar
2:59
bien organizado con tal herramienta
3:01
básicamente contiene todo lo que necesitas
3:03
para que su código sea reproducible sin
3:06
Incluso estás intentando por tu futuro
3:08
colegas y personas que
3:09
implementar su increíble trabajo por favor tome
3:12
el tiempo para asegurarse de que su trabajo es
3:14
reproducible y si desea ayuda con
3:16
que prueban pesos y sesgos con el
3:18
lo primero que hacemos
3:21
creo que no pude resumir el artículo
3:23
mejor que la frase que usaron en
3:25
su artículo presentamos fortinet que
3:28
aprende a combinar nubes de puntos 3d en
3:31
tiempo e imágenes de cámara rgb a tiempo para
3:34
la aplicación generalizada de objetos 3d
3:37
detección en conducción autónoma espero
3:39
disfrutaste el video por favor suscríbete
3:41
y solo estoy bromeando, buceemos un poco
3:43
más profundo en esta oración esto es lo que
3:45
la detección de objetos 3d estamos hablando
3:47
sobre parece y es también lo que el
3:50
coche terminará viendo que es un muy
3:52
representación precisa del mundo
3:54
alrededor del vehículo con todos los objetos
3:56
apareciendo e identificando con precisión cómo
3:59
genial se ve eso y mas interesante
4:02
¿Cómo terminaron con este resultado?
4:04
produjeron esta vista usando datos LIDAR
4:07
llamadas nubes de puntos en el tiempo o pcit y
4:10
Las cámaras normales se llaman aquí rgb
4:13
videos ambos son de cuatro dimensiones
4:16
entradas al igual que los humanos vemos y
4:19
entender el mundo las cuatro dimensiones
4:21
vienen del video siendo tomado en el tiempo
4:24
para que el vehículo tenga acceso a fotogramas anteriores
4:26
para ayudar a comprender el contexto y los objetos
4:28
adivinar comportamientos futuros al igual que nosotros
4:31
hacer la creación de la cuarta dimensión la
4:34
otros tres son el espacio 3d que somos
4:36
familiarizado con lo que llamamos escena de tarea
4:39
comprensión y ha sido ampliamente
4:41
estudió visión artificial y ha visto
4:43
muchos avances con los recientes
4:45
progreso del campo y la máquina
4:46
algoritmos de aprendizaje también es crucial en
4:49
vehículos autónomos donde queremos
4:51
tener una comprensión casi perfecta de la
4:54
escenas aquí se puede ver que los dos
4:56
Las redes siempre hablan entre sí con
4:59
conexiones esto se debe principalmente a que cuando
5:01
tomamos imágenes tenemos objetos en
5:03
varios rangos en el tiro y con
5:05
diferentes proporciones el coche de delante
5:08
se verá mucho más grande que el coche lejos
5:10
lejos, pero todavía tenemos que considerar ambos
5:13
como nosotros cuando vemos a alguien lejos y
5:15
Siento que es nuestro amigo, pero todavía espera.
5:17
más cerca para estar seguro antes de llamar a su
5:19
el nombre del auto carecerá de detalles para tal
5:22
objetos lejanos para parchear para eso nosotros
5:24
extraerá y compartirá información de
5:26
diferentes niveles en la red compartida
5:29
información a través de la red es un
5:31
solución poderosa porque neural
5:33
redes utilizan pequeños detectores de fijo
5:36
tamaño para condensar la imagen cuanto más profundo
5:38
entrar en la red, lo que significa que temprano
5:41
capas podrán detectar pequeñas
5:42
objetos y en los bordes o partes del
5:45
los objetos más grandes las capas más profundas perderán
5:48
los objetos pequeños pero ser capaz de detectar
5:50
objetos grandes con gran precisión la
5:52
El principal desafío con este enfoque es
5:54
combinando estos dos tipos muy diferentes
5:56
de información a través de estas conexiones
5:58
los datos espaciales lidar 3d y más regulares
6:01
marcos rgb usando ambas informaciones en absoluto
6:04
pasos de red como se describió anteriormente es
6:07
mejor para entender toda la escena
6:08
mejor pero como podemos fusionar dos
6:10
diferentes flujos de información y uso
6:13
la dimensión del tiempo eficientemente estos datos
6:15
la traducción entre las dos ramas es
6:17
lo que la red aprende durante el entrenamiento
6:20
de forma supervisada con un
6:22
proceso como en la autoatención
6:24
mecanismos que cubrí en videos anteriores
6:26
tratando de recrear el modelo real de
6:29
el mundo pero para facilitar estos datos
6:31
traducción utilizan un modelo llamado
6:33
apiladores de puntos que toman nubes de puntos
6:36
y da dos dimensiones
6:37
representación se puede ver esto como una
6:40
pseudo imagen de la nube de puntos a medida que
6:42
llámalo crear algo así como un
6:44
imagen que representa la nube de puntos con
6:46
las mismas propiedades que las imágenes rgb que
6:49
tener en la otra rama en lugar de la
6:51
los píxeles son colores rojo, verde y azul.
6:54
simplemente representar la profundidad y las posiciones
6:56
del objeto xyz coordina este
6:59
la pseudo imagen también es muy escasa
7:01
lo que significa que la información sobre este
7:03
la representación es sólo densa alrededor
7:05
objetos importados y muy probablemente
7:07
útil para el modelo con respecto al tiempo como yo
7:10
dijo que simplemente tenemos la cuarta dimensión
7:12
en la imagen de entrada para realizar un seguimiento de la
7:14
enmarca estas dos ramas que vemos son
7:16
redes neuronales convolucionales que
7:18
codificar las imágenes como se describe en
7:20
varios de mis videos y luego decodificar
7:23
esta información codificada para recrear el
7:25
representación 3D que tenemos aquí por lo que
7:28
utiliza un codificador muy similar para ambos
7:30
sucursales comparte información con cada
7:33
otra y reconstruye un modelo 3d de la
7:35
mundo usando un decodificador y listo, esto es
7:39
cómo los vehículos weimo ven nuestro mundo
7:42
puede procesar 32 nubes de puntos a tiempo y
7:45
16 marcos rgb dentro
7:47
164 milisegundos produciendo mejor
7:50
resultados que otros métodos esto podría
7:53
no suena nada para que podamos compararlo
7:55
con el siguiente mejor enfoque que es menos
7:58
preciso y toma 300 milisegundos
8:00
casi el doble del tiempo de procesamiento
8:03
por supuesto, esto fue solo una descripción general de
8:05
este nuevo artículo de google research y
8:07
weymouth recomendaría leer el periódico
8:10
para saber más sobre sus modelos
8:11
arquitectura y otras características que no
8:14
sumergirse en información similar al tiempo
8:16
problema de eficiencia está vinculado en el
8:18
descripción abajo espero que hayas disfrutado el
8:20
video y si lo hizo por favor considere
8:22
suscribiéndote al canal y
8:24
comentando lo que piensas de esto
8:26
resumen me encantaría leer lo que piensas
8:29
gracias por mirar y voy a ver
8:31
la semana que viene con otro papel increíble
8:35
[Música]