Ils reconstruisent le son à l'aide de caméras et d'un faisceau laser sur n'importe quelle surface vibrante, ce qui leur permet d'isoler des instruments de musique, de se concentrer sur un haut-parleur spécifique, de supprimer les bruits ambiants et de nombreuses autres applications étonnantes. TLDR : Regardez la vidéo pour en savoir plus et entendre des résultats fous ! Références ►Lire l'article complet : ►Sheinin, Mark et Chan, Dorian et O'Toole, Matthew et Narasimhan, Srinivasa G., 2022, Détection optique des vibrations à double obturateur, Proc. IEEE CVRP. ►Page du projet : ►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/cvpr-2022-best-paper/ https://imaging.cs.cmu.edu/vibration/ https://www.louisbouchard.ai/newsletter/ Transcription vidéo 0:00 cette année j'ai eu la chance d'être au cvpr 0:02 en personne et assistez au meilleur incroyable 0:05 présentation du prix du papier avec ceci 0:07 papier fantastique que j'ai dû couvrir sur le 0:09 canal appelé optique à double obturateur 0:12 Détection des vibrations par Mark Shanin Dorian 0:15 chan mathew o'toole et srinivasa 0:18 narasimhan en une phrase ils 0:21 reconstruire le son à l'aide de caméras dans un 0:23 faisceau laser sur toute surface vibrante 0:26 leur permettant d'isoler la musique 0:28 les instruments se concentrent sur un haut-parleur spécifique 0:30 supprimer les bruits ambiants et bien d'autres 0:33 applications étonnantes, plongeons dans la façon dont 0:35 ils y parviennent et entendent des fous 0:37 résultats, mais accordez-moi d'abord une minute de 0:40 votre temps pour vous présenter un 0:41 entreprise fantastique le sponsor de ce 0:44 vidéo assembly ai assembly ai est un 0:47 entreprise qui propose des API précises pour 0:49 parole au texte et intelligence audio 0:52 vous pouvez utiliser leur API pour automatiquement 0:54 transcrire et comprendre l'audio et 0:56 données vidéo en quelques lignes de code 0:58 et convertir automatiquement asynchrone 1:00 et flux audio en direct dans le texte 1:03 quelque chose d'extrêmement difficile à faire 1:05 et nécessitant généralement des 1:07 modèles coûteux bien sûr ça ne s'arrête pas 1:10 Ici, assembly ai traitera également votre 1:12 données audio et ont une fonction informative 1:15 des représentations vous permettant de facilement 1:17 ajouter des fonctionnalités textuelles telles que 1:19 sujet de modération de contenu de résumé 1:21 détection et plus tout en un si vous 1:24 besoin de comprendre ou de transcrire l'audio 1:26 ou des données vidéo, essayez l'assembly ai avec le 1:29 premier lien ci-dessous 1:33 commençons par écouter cet exemple 1:35 de ce que la méthode peut accomplir 1:38 [Musique] 1:53 vous pouviez clairement entendre les deux 1:54 guitares individuelles dans chaque piste audio 1:57 cela a été fait en utilisant pas un son enregistré 2:00 mais un laser et deux caméras équipés 2:02 avec capteurs de roulement et d'obturateur global 2:05 respectivement, il semble que l'on s'attaque à cela 2:08 tâche à travers la vision le rend beaucoup plus facile 2:10 que d'essayer de diviser les pistes audio 2:12 après l'enregistrement, cela signifie également que nous pouvons 2:15 enregistrer quoi que ce soit à travers des lunettes et de 2:18 tous les objets vibrants ici qu'ils ont utilisés 2:21 leur méthode sur les enceintes elles-mêmes 2:23 pour isoler les haut-parleurs gauche et droit 2:25 alors qu'un microphone sera automatiquement 2:27 enregistrer les deux et mélanger les pistes audio 2:41 [Musique] 2:45 généralement ce type de technologie d'espionnage 2:48 appelée vibrométrie visuelle nécessite 2:51 conditions d'éclairage parfaites et 2:52 caméras à grande vitesse qui ressemblent à un 2:54 tireur d'élite camouflé pour capturer à grande vitesse 2:56 vibrations jusqu'à 63 kilohertz ici 3:00 ils obtiennent des résultats similaires avec 3:02 capteurs construits pour seulement 60 et 130 hertz 3:06 et mieux encore, ils peuvent traiter 3:08 plusieurs objets à la fois c'est toujours un 3:11 tâche très difficile nécessitant beaucoup de 3:13 ingénierie et bonnes idées pour le faire 3:16 arriver, ils ne se contentent pas d'enregistrer le 3:18 instruments et envoyer la vidéo à un 3:20 modèle qui crée et 3:22 sépare l'audio dont ils ont d'abord besoin 3:24 comprendre le laser qu'ils reçoivent et 3:26 traitez-le correctement, ils orientent un laser 3:29 en surface pour écouter alors ça 3:32 le laser rebondit de la surface dans un 3:34 plan de mise au point ce plan de mise au point est l'endroit où nous 3:37 prendra nos informations de pas le 3:39 instruments ou objets eux-mêmes afin que nous 3:42 analysera les minuscules vibrations du 3:44 objets d'intérêt à travers le laser 3:46 réponse créant une représentation comme 3:49 cette 3:50 cette réponse laser bidimensionnelle 3:52 motif coupé par nos caméras appelé un 3:54 le chatoiement est ensuite traité à la fois globalement 3:58 et localement à l'aide de nos deux caméras 4:01 caméra locale ou volet roulant 4:03 la caméra capturera des images à seulement 60 4:06 fps donc il faudra prendre plusieurs photos 4:08 et faites-les rouler sur l'axe y pour obtenir un 4:11 vraiment bruyant et imprécis 63 kilohertz 4:14 représentation c'est là que le global 4:16 caméra à obturateur est nécessaire en raison de 4:18 le caractère aléatoire de l'imagerie mouchetée 4:21 en raison de la rugosité de l'objet 4:23 surface et ses mouvements, il 4:25 prendre une capture d'écran globale de 4:27 la même image de tache que nous avons utilisée avec notre 4:29 premier appareil photo et a utilisé cette nouvelle image comme 4:32 un référentiel pour isoler uniquement 4:34 vibrations pertinentes du roulement 4:37 l'obturateur capture 4:38 la caméra à volet roulant échantillonnera 4:40 la scène rangée par rangée avec un high 4:42 fréquence tandis que l'obturateur global 4:44 la caméra échantillonnera toute la scène à 4:47 une fois pour servir de cadre de référence et 4:49 nous répétons ce processus pour l'ensemble 4:51 vidéo 4:52 et voila c'est comme ça qu'ils sont capables de 4:55 séparer le son d'un extrait d'enregistrement 4:57 un seul instrument élimine la température ambiante 5:00 bruit ou même reconstruire la parole à partir 5:02 les vibrations d'un sac de chips 5:05 Marie avait un petit agneau cette feuille était 5:08 blanc comme neige bien sûr ce n'est qu'un 5:10 aperçu simple de ce grand papier et 5:12 je vous invite fortement à le lire pour 5:14 plus d'informations félicitations à la 5:16 autorités pour la mention honorable i 5:18 était heureux d'assister à l'événement et de voir le 5:21 présentation en direct je suis super excité de 5:23 les futures publications que cet article 5:25 motiver je vous invite aussi à doubler 5:27 vérifiez tous les sacs de chips que vous pouvez 5:29 laisser près d'une fenêtre ou sinon certains 5:31 les gens peuvent écouter ce que vous dites merci 5:34 vous d'avoir regardé toute la vidéo et laissez 5:36 Je sais comment vous appliqueriez cette technologie 5:38 et si vous voyez des risques potentiels ou 5:40 cas d'utilisation passionnants dont j'aimerais discuter 5:42 ceux-ci avec vous et un merci spécial à 5:45 cvpr pour m'avoir invité à l'événement que c'était 5:47 vraiment cool d'être là à la nouvelle orléans 5:49 avec tous les chercheurs et entreprises que je 5:52 à la semaine prochaine avec un autre papier incroyable