Reconstruyen el sonido usando cámaras y un rayo láser en cualquier superficie vibrante, lo que les permite aislar instrumentos musicales, enfocarse en un altavoz específico, eliminar ruidos ambientales y muchas más aplicaciones sorprendentes. TLDR:  ¡Mira el video para obtener más información y escuchar algunos resultados increíbles!   Referencias  ►Lea el artículo completo:   /  ►Sheinin, Mark y Chan, Dorian y O'Toole, Matthew y Narasimhan,  Srinivasa G., 2022, Detección de vibración óptica de doble obturador, Proc. IEEE  CVPR.  ►Página del proyecto:   ►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!):  https://www.louisbouchard.ai/cvpr-2022-best-paper https://imaging.cs.cmu.edu/vibration/ https://www.louisbouchard.ai/newsletter/  Transcripción del vídeo  0:00  este año tuve la oportunidad de estar en cvpr  0:02  en persona y asistir a la increíble mejor  0:05  presentación de premios en papel con este  0:07  papel fantástico que tuve que cubrir en el  0:09  canal llamado doble obturador óptico  0:12  detección de vibraciones por mark shanin dorian  0:15  chan mathew o'toole y srinivasa  0:18  narasimhan en una oración ellos  0:21  reconstruir el sonido usando cámaras en un  0:23  rayo láser en cualquier superficie vibrante  0:26  permitiéndoles aislar la música  0:28  los instrumentos se enfocan en un hablante específico  0:30  eliminar ruidos ambientales y muchos más  0:33  aplicaciones asombrosas profundicemos en cómo  0:35  logran eso y escuchan unos locos  0:37  resultados, pero primero permítanme un minuto de  0:40  tu tiempo para presentarte a un  0:41  fantástica empresa el patrocinador de este  0:44  video montaje ai montaje ai es un  0:47  empresa que ofrece apis precisas para  0:49  voz a texto e inteligencia de audio  0:52  puedes usar sus apis para automáticamente  0:54  transcribir y comprender audio y  0:56  datos de video en solo unas pocas líneas de código  0:58  y convertir automáticamente asíncrono  1:00  y transmisiones de audio en vivo en texto  1:03  algo extremadamente difícil de hacer  1:05  y por lo general requieren robusta y  1:07  modelos costosos, por supuesto, no se detiene  1:10  aquí ensamblar ai también procesará su  1:12  datos de audio y tienen función informativa  1:15  representaciones que le permiten fácilmente  1:17  agregue características basadas en texto como  1:19  tema de moderación de contenido de resumen  1:21  detección y más, todo en uno si  1:24  necesita entender o transcribir audio  1:26  o datos de video intente ensamblar ai con el  1:29  primer enlace a continuación  1:33  empecemos escuchando este ejemplo  1:35  de lo que el método puede lograr  1:38  [Música]  1:53  podías escuchar claramente a los dos  1:54  guitarras individuales en cada pista de audio  1:57  esto fue hecho usando no un sonido grabado  2:00  pero un láser y dos cámaras equipadas  2:02  con sensores de persiana global y de balanceo  2:05  respectivamente, parece abordar esto  2:08  la tarea a través de la visión hace que sea mucho más fácil  2:10  que intentar dividir las pistas de audio  2:12  después de grabar también significa que podemos  2:15  grabar cualquier cosa a través de gafas y de  2:18  cualquier objeto vibrante aquí que usaron  2:21  su método en los propios altavoces  2:23  para aislar los altavoces izquierdo y derecho  2:25  mientras que un micrófono automáticamente  2:27  grabar ambos y mezclar las pistas de audio  2:41  [Música]  2:45  típicamente este tipo de tecnología de espionaje  2:48  llamada vibrometría visual requiere  2:51  perfectas condiciones de iluminación y  2:52  cámaras de alta velocidad que parecen un  2:54  francotirador camuflado para capturar a alta velocidad  2:56  vibraciones de hasta 63 kilohercios aquí  3:00  logran resultados similares con  3:02  sensores construidos para solo 60 y 130 hercios  3:06  y aún mejor pueden procesar  3:08  múltiples objetos a la vez todavía esto es un  3:11  tarea muy desafiante que requiere mucho  3:13  ingeniería y grandes ideas para hacerlo  3:16  sucede que no simplemente registran el  3:18  instrumentos y enviar el video a un  3:20  modelo que automáticamente crea y  3:22  separa el audio que primero necesitan  3:24  comprender el láser que reciben y  3:26  procesarlo correctamente orientan un láser  3:29  en la superficie para escuchar entonces esto  3:32  el láser rebota desde la superficie hacia un  3:34  plano de enfoque este plano de enfoque es donde  3:37  tomará nuestra información de no el  3:39  instrumentos u objetos en sí mismos, por lo que  3:42  analizará las diminutas vibraciones del  3:44  objetos de interés a través del láser  3:46  respuesta creando una representación como  3:49  este  3:50  esta respuesta láser bidimensional  3:52  patrón cortado por nuestras cámaras llamado  3:54  Luego, el moteado se procesa globalmente  3:58  y localmente usando nuestras dos cámaras nuestra  4:01  cámara local o la persiana enrollable  4:03  la cámara capturará fotogramas a solo 60  4:06  fps por lo que tomará varias fotos  4:08  y gírelos en el eje y para obtener un  4:11  muy ruidoso e impreciso 63 kilohercios  4:14  representación aquí es donde el mundo  4:16  la cámara con obturador es necesaria debido a  4:18  la aleatoriedad en la imagen moteada  4:21  debido a la rugosidad del objeto  4:23  superficie y sus movimientos se  4:25  básicamente tomar una captura de pantalla global de  4:27  la misma imagen moteada que usamos con nuestro  4:29  primera cámara y utilizó esta nueva imagen como  4:32  un marco de referencia para aislar solamente  4:34  vibraciones relevantes de la laminación  4:37  capturas de obturador  4:38  la cámara de obturador rodante tomará una muestra  4:40  la escena fila por fila con un alto  4:42  frecuencia mientras el obturador global  4:44  la cámara muestreará toda la escena en  4:47  una vez para servir como marco de referencia y  4:49  repetimos este proceso para todo el  4:51  video  4:52  y voila así es como son capaces de  4:55  dividir el sonido de un extracto de grabación  4:57  solo un solo instrumento elimina el ambiente  5:00  ruido o incluso reconstruir el habla a partir de  5:02  las vibraciones de una bolsa de patatas fritas  5:05  maria tenia un corderito esta hoja era  5:08  blanco como la nieve, por supuesto, esto es solo un  5:10  simple resumen de este gran artículo y  5:12  te invito encarecidamente a leerlo para  5:14  más información felicidades a la  5:16  autoridades por la mención de honor i  5:18  estaba contento de asistir al evento y ver el  5:21  presentación en vivo estoy muy emocionada de  5:23  las futuras publicaciones de este documento  5:25  motívate yo también te invito a doblar  5:27  revisa todas las bolsas de papas fritas que puedas  5:29  dejar cerca de una ventana o de lo contrario algunos  5:31  la gente puede escuchar lo que dices gracias  5:34  por ver todo el video y dejar  5:36  sé cómo aplicarías esta tecnología  5:38  y si ve algún riesgo potencial o  5:40  emocionantes casos de uso que me encantaría discutir  5:42  estos con usted y un agradecimiento especial a  5:45  cvpr por invitarme al evento fue  5:47  realmente genial estar allí en nueva orleans  5:49  con todos los investigadores y empresas i  5:52  nos vemos la próxima semana con otro  papel asombroso

Assembly

Super

Watch more on YouTube: https://www.youtube.com/c/WhatsAI

I explain Artificial Intelligence terms and news to non-experts.

2021 - HackerNoon Contributor of the Year - FACEBOOK

2022 - Best Data Science Newsletter

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

2022 - HackerNoon Contributor of the Year - Computer Vision

2022 - HackerNoon Contributor of the Year - Data Science

2022 - HackerNoon Contributor of the Year - Google

2022 - HackerNoon Contributor of the Year - Innovation

2022 - HackerNoon Contributor of the Year - Machine Learning

2022 - HackerNoon Contributor of the Year - Natural Language Processing

2022 - Top Tech Youtuber

2021 - HackerNoon Contributor of the Year - DEEP-LEARNING

Nominated for 2022 - Best Data Science Newsletter

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Nominated for 2022 - Top Tech Youtuber

Nominated for 2022 - HackerNoon Contributor of the Year - Innovation

Nominated for 2022 - HackerNoon Contributor of the Year - Data Science

Nominated for 2022 - HackerNoon Contributor of the Year - Natural Language Processing

Nominated for 2022 - HackerNoon Contributor of the Year - Computer Vision

Nominated for 2022 - HackerNoon Contributor of the Year - Google

Nominated for 2022 - HackerNoon Contributor of the Year - Machine Learning

Este audio es producido en el idioma original de la historia!

Demasiado Largo; Para Leer

CVPR 2022 Mención de honor al mejor artículo: Detección de vibración óptica de doble obturador

CVPR 2022 Mención de honor al mejor artículo: Detección de vibración óptica de doble obturador

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Telegram: el puente de Crypto Island hacia el continente

Cómo mejorar su flujo de trabajo 10 veces: 17 aplicaciones esenciales

Una guía del arquitecto para crear una arquitectura de referencia para un lago de datos de IA/ML

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Telegram: el puente de Crypto Island hacia el continente

Cómo mejorar su flujo de trabajo 10 veces: 17 aplicaciones esenciales

Una guía del arquitecto para crear una arquitectura de referencia para un lago de datos de IA/ML

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps