Eles reconstroem o som usando câmeras e um feixe de laser em qualquer superfície vibrante, permitindo isolar instrumentos musicais, focar em um alto-falante específico, remover ruídos do ambiente e muitas outras aplicações incríveis. TLDR: Assista ao vídeo para saber mais e ouvir alguns resultados malucos! Referências ►Leia o artigo completo: / ►Sheinin, Mark e Chan, Dorian e O'Toole, Matthew e Narasimhan, Srinivasa G., 2022, sensor de vibração óptica de obturador duplo, Proc. IEEE CVPR. ►Página do projeto: ►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/cvpr-2022-best-paper https://imaging.cs.cmu.edu/vibration/ https://www.louisbouchard.ai/newsletter/ Transcrição de vídeo 0:00 esse ano tive a chance de estar na cvpr 0:02 pessoalmente e assistir ao incrível melhor 0:05 apresentação do prêmio de papel com este 0:07 papel fantástico que eu tive que cobrir no 0:09 canal chamado duplo obturador óptico 0:12 detecção de vibração por mark shanin dorian 0:15 chan mathew o'toole e srinivasa 0:18 narasimhan em uma frase eles 0:21 reconstruir o som usando câmeras em um 0:23 feixe de laser em qualquer superfície vibrante 0:26 permitindo-lhes isolar a música 0:28 instrumentos se concentram em um alto-falante específico 0:30 remover ruídos do ambiente e muito mais 0:33 aplicativos incríveis, vamos nos aprofundar em como 0:35 eles conseguem isso e ouvem alguns loucos 0:37 resultados, mas primeiro permita-me um minuto de 0:40 seu tempo para apresentá-lo a um 0:41 empresa fantástica o patrocinador deste 0:44 montagem de vídeo ai montagem ai é um 0:47 empresa que oferece APIs precisas para 0:49 fala para texto e inteligência de áudio 0:52 você pode usar suas APIs para automaticamente 0:54 transcrever e compreender áudio e 0:56 dados de vídeo em apenas algumas linhas de código 0:58 e converter automaticamente assíncrono 1:00 e transmissões de áudio ao vivo em texto 1:03 algo extremamente desafiador para fazer 1:05 e normalmente exigindo robustez e 1:07 modelos caros é claro que não para 1:10 aqui a montagem ai também vai processar o seu 1:12 dados de áudio e tem recurso informativo 1:15 representações que lhe permitem facilmente 1:17 adicionar recursos baseados em texto como 1:19 tópico de moderação de conteúdo de resumo 1:21 detecção e mais tudo em um se você 1:24 precisa entender ou transcrever áudio 1:26 ou dados de vídeo tente montar ai com o 1:29 primeiro link abaixo 1:33 vamos começar ouvindo este exemplo 1:35 do que o método pode alcançar 1:38 [Música] 1:53 você podia ouvir claramente os dois 1:54 guitarras individuais em cada faixa de áudio 1:57 isso foi feito usando um som não gravado 2:00 mas um laser e duas câmeras equipadas 2:02 com sensores de rolamento e obturador global 2:05 respectivamente, parece como lidar com isso 2:08 tarefa através da visão torna muito mais fácil 2:10 do que tentar dividir as faixas de áudio 2:12 após a gravação também significa que podemos 2:15 gravar qualquer coisa através de óculos e de 2:18 quaisquer objetos vibratórios aqui que eles usaram 2:21 seu método nos próprios palestrantes 2:23 para isolar os alto-falantes esquerdo e direito 2:25 Considerando que um microfone irá automaticamente 2:27 gravar ambos e misturar as faixas de áudio 2:41 [Música] 2:45 normalmente esse tipo de tecnologia de espionagem 2:48 chamada vibrometria visual requer 2:51 condições de iluminação perfeitas e 2:52 câmeras de alta velocidade que se parecem com um 2:54 franco-atirador camuflado para capturar alta velocidade 2:56 vibrações de até 63 quilohertz aqui 3:00 eles alcançam resultados semelhantes com 3:02 sensores construídos para apenas 60 e 130 hertz 3:06 e melhor ainda, eles podem processar 3:08 vários objetos ao mesmo tempo ainda este é um 3:11 tarefa muito desafiadora que exige muito 3:13 engenharia e grandes ideias para torná-lo 3:16 acontecer eles não simplesmente registram o 3:18 instrumentos e enviar o vídeo para um 3:20 modelo que automaticamente cria e 3:22 separa o áudio que eles primeiro precisam 3:24 entender o laser que recebem e 3:26 processá-lo corretamente eles orientam um laser 3:29 na superfície para ouvir então isso 3:32 laser salta da superfície em um 3:34 plano de foco este plano de foco é onde nós 3:37 retirará nossas informações não do 3:39 instrumentos ou objetos em si, então nós 3:42 irá analisar as minúsculas vibrações do 3:44 objetos de interesse através do laser 3:46 resposta criando uma representação como 3:49 isto 3:50 esta resposta laser bidimensional 3:52 padrão cortado por nossas câmeras chamado 3:54 speckle é então processado globalmente 3:58 e localmente usando nossas duas câmeras nosso 4:01 câmera local ou o obturador de rolamento 4:03 câmera irá capturar quadros em apenas 60 4:06 fps para que ele tire várias fotos 4:08 e role-os no eixo y para obter um 4:11 muito barulhento e impreciso 63 kilohertz 4:14 representação é aqui que o global 4:16 câmera do obturador é necessário por causa de 4:18 a aleatoriedade na imagem salpicada 4:21 devido à rugosidade do objeto 4:23 superfície e seus movimentos ela irá 4:25 basicamente tirar uma captura de tela global de 4:27 a mesma imagem speckle que usamos com o nosso 4:29 primeira câmera e usou essa nova imagem como 4:32 um quadro de referência para isolar apenas 4:34 vibrações relevantes do rolamento 4:37 capturas do obturador 4:38 a câmera do obturador irá amostrar 4:40 a cena linha por linha com um alto 4:42 frequência enquanto o obturador global 4:44 câmera irá amostrar toda a cena em 4:47 uma vez para servir como quadro de referência e 4:49 repetimos este processo para todo o 4:51 vídeo 4:52 e voila é assim que eles são capazes de 4:55 dividir o som de um extrato de gravação 4:57 apenas um único instrumento remove ambiente 5:00 ruído ou mesmo reconstruir a fala de 5:02 as vibrações de um saco de batatas fritas 5:05 maria tinha um cordeirinho esta folha era 5:08 branco como a neve, claro, isso é apenas um 5:10 visão geral simples deste grande papel e 5:12 convido-o vivamente a lê-lo para 5:14 mais informações parabéns ao 5:16 autoridades pela menção honrosa i 5:18 teve o prazer de participar do evento e ver o 5:21 apresentação ao vivo estou super animado para 5:23 as futuras publicações deste artigo 5:25 motivar também te convido a dobrar 5:27 verifique todos os sacos de batatas fritas que você pode 5:29 deixe perto de uma janela ou de outra forma algum 5:31 as pessoas podem ouvir o que você diz obrigado 5:34 você por assistir o vídeo inteiro e deixar 5:36 me saber como você aplicaria esta tecnologia 5:38 e se você vir quaisquer riscos potenciais ou 5:40 casos de uso interessantes que eu adoraria discutir 5:42 estes com você e um agradecimento especial a 5:45 cvpr por me convidar para o evento que foi 5:47 muito legal estar lá em new orleans 5:49 com todos os pesquisadores e empresas que 5:52 Vejo você na próxima semana com outro papel incrível