TLDR: Reconstruyen el sonido usando cámaras y un rayo láser en cualquier superficie vibrante, lo que les permite aislar instrumentos musicales, enfocarse en un altavoz específico, eliminar ruidos ambientales y muchas más aplicaciones sorprendentes.
►Lea el artículo completo: https://www.louisbouchard.ai/cvpr-2022-best-paper /
►Sheinin, Mark y Chan, Dorian y O'Toole, Matthew y Narasimhan,
Srinivasa G., 2022, Detección de vibración óptica de doble obturador, Proc. IEEE
CVPR.
►Página del proyecto: https://imaging.cs.cmu.edu/vibration/
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/
0:00
este año tuve la oportunidad de estar en cvpr
0:02
en persona y asistir a la increíble mejor
0:05
presentación de premios en papel con este
0:07
papel fantástico que tuve que cubrir en el
0:09
canal llamado doble obturador óptico
0:12
detección de vibraciones por mark shanin dorian
0:15
chan mathew o'toole y srinivasa
0:18
narasimhan en una oración ellos
0:21
reconstruir el sonido usando cámaras en un
0:23
rayo láser en cualquier superficie vibrante
0:26
permitiéndoles aislar la música
0:28
los instrumentos se enfocan en un hablante específico
0:30
eliminar ruidos ambientales y muchos más
0:33
aplicaciones asombrosas profundicemos en cómo
0:35
logran eso y escuchan unos locos
0:37
resultados, pero primero permítanme un minuto de
0:40
tu tiempo para presentarte a un
0:41
fantástica empresa el patrocinador de este
0:44
video montaje ai montaje ai es un
0:47
empresa que ofrece apis precisas para
0:49
voz a texto e inteligencia de audio
0:52
puedes usar sus apis para automáticamente
0:54
transcribir y comprender audio y
0:56
datos de video en solo unas pocas líneas de código
0:58
y convertir automáticamente asíncrono
1:00
y transmisiones de audio en vivo en texto
1:03
algo extremadamente difícil de hacer
1:05
y por lo general requieren robusta y
1:07
modelos costosos, por supuesto, no se detiene
1:10
aquí ensamblar ai también procesará su
1:12
datos de audio y tienen función informativa
1:15
representaciones que le permiten fácilmente
1:17
agregue características basadas en texto como
1:19
tema de moderación de contenido de resumen
1:21
detección y más, todo en uno si
1:24
necesita entender o transcribir audio
1:26
o datos de video intente ensamblar ai con el
1:29
primer enlace a continuación
1:33
empecemos escuchando este ejemplo
1:35
de lo que el método puede lograr
1:38
[Música]
1:53
podías escuchar claramente a los dos
1:54
guitarras individuales en cada pista de audio
1:57
esto fue hecho usando no un sonido grabado
2:00
pero un láser y dos cámaras equipadas
2:02
con sensores de persiana global y de balanceo
2:05
respectivamente, parece abordar esto
2:08
la tarea a través de la visión hace que sea mucho más fácil
2:10
que intentar dividir las pistas de audio
2:12
después de grabar también significa que podemos
2:15
grabar cualquier cosa a través de gafas y de
2:18
cualquier objeto vibrante aquí que usaron
2:21
su método en los propios altavoces
2:23
para aislar los altavoces izquierdo y derecho
2:25
mientras que un micrófono automáticamente
2:27
grabar ambos y mezclar las pistas de audio
2:41
[Música]
2:45
típicamente este tipo de tecnología de espionaje
2:48
llamada vibrometría visual requiere
2:51
perfectas condiciones de iluminación y
2:52
cámaras de alta velocidad que parecen un
2:54
francotirador camuflado para capturar a alta velocidad
2:56
vibraciones de hasta 63 kilohercios aquí
3:00
logran resultados similares con
3:02
sensores construidos para solo 60 y 130 hercios
3:06
y aún mejor pueden procesar
3:08
múltiples objetos a la vez todavía esto es un
3:11
tarea muy desafiante que requiere mucho
3:13
ingeniería y grandes ideas para hacerlo
3:16
sucede que no simplemente registran el
3:18
instrumentos y enviar el video a un
3:20
modelo que automáticamente crea y
3:22
separa el audio que primero necesitan
3:24
comprender el láser que reciben y
3:26
procesarlo correctamente orientan un láser
3:29
en la superficie para escuchar entonces esto
3:32
el láser rebota desde la superficie hacia un
3:34
plano de enfoque este plano de enfoque es donde
3:37
tomará nuestra información de no el
3:39
instrumentos u objetos en sí mismos, por lo que
3:42
analizará las diminutas vibraciones del
3:44
objetos de interés a través del láser
3:46
respuesta creando una representación como
3:49
este
3:50
esta respuesta láser bidimensional
3:52
patrón cortado por nuestras cámaras llamado
3:54
Luego, el moteado se procesa globalmente
3:58
y localmente usando nuestras dos cámaras nuestra
4:01
cámara local o la persiana enrollable
4:03
la cámara capturará fotogramas a solo 60
4:06
fps por lo que tomará varias fotos
4:08
y gírelos en el eje y para obtener un
4:11
muy ruidoso e impreciso 63 kilohercios
4:14
representación aquí es donde el mundo
4:16
la cámara con obturador es necesaria debido a
4:18
la aleatoriedad en la imagen moteada
4:21
debido a la rugosidad del objeto
4:23
superficie y sus movimientos se
4:25
básicamente tomar una captura de pantalla global de
4:27
la misma imagen moteada que usamos con nuestro
4:29
primera cámara y utilizó esta nueva imagen como
4:32
un marco de referencia para aislar solamente
4:34
vibraciones relevantes de la laminación
4:37
capturas de obturador
4:38
la cámara de obturador rodante tomará una muestra
4:40
la escena fila por fila con un alto
4:42
frecuencia mientras el obturador global
4:44
la cámara muestreará toda la escena en
4:47
una vez para servir como marco de referencia y
4:49
repetimos este proceso para todo el
4:51
video
4:52
y voila así es como son capaces de
4:55
dividir el sonido de un extracto de grabación
4:57
solo un solo instrumento elimina el ambiente
5:00
ruido o incluso reconstruir el habla a partir de
5:02
las vibraciones de una bolsa de patatas fritas
5:05
maria tenia un corderito esta hoja era
5:08
blanco como la nieve, por supuesto, esto es solo un
5:10
simple resumen de este gran artículo y
5:12
te invito encarecidamente a leerlo para
5:14
más información felicidades a la
5:16
autoridades por la mención de honor i
5:18
estaba contento de asistir al evento y ver el
5:21
presentación en vivo estoy muy emocionada de
5:23
las futuras publicaciones de este documento
5:25
motívate yo también te invito a doblar
5:27
revisa todas las bolsas de papas fritas que puedas
5:29
dejar cerca de una ventana o de lo contrario algunos
5:31
la gente puede escuchar lo que dices gracias
5:34
por ver todo el video y dejar
5:36
sé cómo aplicarías esta tecnología
5:38
y si ve algún riesgo potencial o
5:40
emocionantes casos de uso que me encantaría discutir
5:42
estos con usted y un agradecimiento especial a
5:45
cvpr por invitarme al evento fue
5:47
realmente genial estar allí en nueva orleans
5:49
con todos los investigadores y empresas i
5:52
nos vemos la próxima semana con otro
papel asombroso