Reconstruyen el sonido usando cámaras y un rayo láser en cualquier superficie vibrante, lo que les permite aislar instrumentos musicales, enfocarse en un altavoz específico, eliminar ruidos ambientales y muchas más aplicaciones sorprendentes. TLDR: ¡Mira el video para obtener más información y escuchar algunos resultados increíbles! Referencias ►Lea el artículo completo: / ►Sheinin, Mark y Chan, Dorian y O'Toole, Matthew y Narasimhan, Srinivasa G., 2022, Detección de vibración óptica de doble obturador, Proc. IEEE CVPR. ►Página del proyecto: ►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/cvpr-2022-best-paper https://imaging.cs.cmu.edu/vibration/ https://www.louisbouchard.ai/newsletter/ Transcripción del vídeo 0:00 este año tuve la oportunidad de estar en cvpr 0:02 en persona y asistir a la increíble mejor 0:05 presentación de premios en papel con este 0:07 papel fantástico que tuve que cubrir en el 0:09 canal llamado doble obturador óptico 0:12 detección de vibraciones por mark shanin dorian 0:15 chan mathew o'toole y srinivasa 0:18 narasimhan en una oración ellos 0:21 reconstruir el sonido usando cámaras en un 0:23 rayo láser en cualquier superficie vibrante 0:26 permitiéndoles aislar la música 0:28 los instrumentos se enfocan en un hablante específico 0:30 eliminar ruidos ambientales y muchos más 0:33 aplicaciones asombrosas profundicemos en cómo 0:35 logran eso y escuchan unos locos 0:37 resultados, pero primero permítanme un minuto de 0:40 tu tiempo para presentarte a un 0:41 fantástica empresa el patrocinador de este 0:44 video montaje ai montaje ai es un 0:47 empresa que ofrece apis precisas para 0:49 voz a texto e inteligencia de audio 0:52 puedes usar sus apis para automáticamente 0:54 transcribir y comprender audio y 0:56 datos de video en solo unas pocas líneas de código 0:58 y convertir automáticamente asíncrono 1:00 y transmisiones de audio en vivo en texto 1:03 algo extremadamente difícil de hacer 1:05 y por lo general requieren robusta y 1:07 modelos costosos, por supuesto, no se detiene 1:10 aquí ensamblar ai también procesará su 1:12 datos de audio y tienen función informativa 1:15 representaciones que le permiten fácilmente 1:17 agregue características basadas en texto como 1:19 tema de moderación de contenido de resumen 1:21 detección y más, todo en uno si 1:24 necesita entender o transcribir audio 1:26 o datos de video intente ensamblar ai con el 1:29 primer enlace a continuación 1:33 empecemos escuchando este ejemplo 1:35 de lo que el método puede lograr 1:38 [Música] 1:53 podías escuchar claramente a los dos 1:54 guitarras individuales en cada pista de audio 1:57 esto fue hecho usando no un sonido grabado 2:00 pero un láser y dos cámaras equipadas 2:02 con sensores de persiana global y de balanceo 2:05 respectivamente, parece abordar esto 2:08 la tarea a través de la visión hace que sea mucho más fácil 2:10 que intentar dividir las pistas de audio 2:12 después de grabar también significa que podemos 2:15 grabar cualquier cosa a través de gafas y de 2:18 cualquier objeto vibrante aquí que usaron 2:21 su método en los propios altavoces 2:23 para aislar los altavoces izquierdo y derecho 2:25 mientras que un micrófono automáticamente 2:27 grabar ambos y mezclar las pistas de audio 2:41 [Música] 2:45 típicamente este tipo de tecnología de espionaje 2:48 llamada vibrometría visual requiere 2:51 perfectas condiciones de iluminación y 2:52 cámaras de alta velocidad que parecen un 2:54 francotirador camuflado para capturar a alta velocidad 2:56 vibraciones de hasta 63 kilohercios aquí 3:00 logran resultados similares con 3:02 sensores construidos para solo 60 y 130 hercios 3:06 y aún mejor pueden procesar 3:08 múltiples objetos a la vez todavía esto es un 3:11 tarea muy desafiante que requiere mucho 3:13 ingeniería y grandes ideas para hacerlo 3:16 sucede que no simplemente registran el 3:18 instrumentos y enviar el video a un 3:20 modelo que automáticamente crea y 3:22 separa el audio que primero necesitan 3:24 comprender el láser que reciben y 3:26 procesarlo correctamente orientan un láser 3:29 en la superficie para escuchar entonces esto 3:32 el láser rebota desde la superficie hacia un 3:34 plano de enfoque este plano de enfoque es donde 3:37 tomará nuestra información de no el 3:39 instrumentos u objetos en sí mismos, por lo que 3:42 analizará las diminutas vibraciones del 3:44 objetos de interés a través del láser 3:46 respuesta creando una representación como 3:49 este 3:50 esta respuesta láser bidimensional 3:52 patrón cortado por nuestras cámaras llamado 3:54 Luego, el moteado se procesa globalmente 3:58 y localmente usando nuestras dos cámaras nuestra 4:01 cámara local o la persiana enrollable 4:03 la cámara capturará fotogramas a solo 60 4:06 fps por lo que tomará varias fotos 4:08 y gírelos en el eje y para obtener un 4:11 muy ruidoso e impreciso 63 kilohercios 4:14 representación aquí es donde el mundo 4:16 la cámara con obturador es necesaria debido a 4:18 la aleatoriedad en la imagen moteada 4:21 debido a la rugosidad del objeto 4:23 superficie y sus movimientos se 4:25 básicamente tomar una captura de pantalla global de 4:27 la misma imagen moteada que usamos con nuestro 4:29 primera cámara y utilizó esta nueva imagen como 4:32 un marco de referencia para aislar solamente 4:34 vibraciones relevantes de la laminación 4:37 capturas de obturador 4:38 la cámara de obturador rodante tomará una muestra 4:40 la escena fila por fila con un alto 4:42 frecuencia mientras el obturador global 4:44 la cámara muestreará toda la escena en 4:47 una vez para servir como marco de referencia y 4:49 repetimos este proceso para todo el 4:51 video 4:52 y voila así es como son capaces de 4:55 dividir el sonido de un extracto de grabación 4:57 solo un solo instrumento elimina el ambiente 5:00 ruido o incluso reconstruir el habla a partir de 5:02 las vibraciones de una bolsa de patatas fritas 5:05 maria tenia un corderito esta hoja era 5:08 blanco como la nieve, por supuesto, esto es solo un 5:10 simple resumen de este gran artículo y 5:12 te invito encarecidamente a leerlo para 5:14 más información felicidades a la 5:16 autoridades por la mención de honor i 5:18 estaba contento de asistir al evento y ver el 5:21 presentación en vivo estoy muy emocionada de 5:23 las futuras publicaciones de este documento 5:25 motívate yo también te invito a doblar 5:27 revisa todas las bolsas de papas fritas que puedas 5:29 dejar cerca de una ventana o de lo contrario algunos 5:31 la gente puede escuchar lo que dices gracias 5:34 por ver todo el video y dejar 5:36 sé cómo aplicarías esta tecnología 5:38 y si ve algún riesgo potencial o 5:40 emocionantes casos de uso que me encantaría discutir 5:42 estos con usted y un agradecimiento especial a 5:45 cvpr por invitarme al evento fue 5:47 realmente genial estar allí en nueva orleans 5:49 con todos los investigadores y empresas i 5:52 nos vemos la próxima semana con otro papel asombroso