TLDR : Ils reconstruisent le son à l'aide de caméras et d'un faisceau laser sur n'importe quelle surface vibrante, ce qui leur permet d'isoler des instruments de musique, de se concentrer sur un haut-parleur spécifique, de supprimer les bruits ambiants et de nombreuses autres applications étonnantes.
►Lire l'article complet : https://www.louisbouchard.ai/cvpr-2022-best-paper/
►Sheinin, Mark et Chan, Dorian et O'Toole, Matthew et Narasimhan,
Srinivasa G., 2022, Détection optique des vibrations à double obturateur, Proc. IEEE
CVRP.
►Page du projet : https://imaging.cs.cmu.edu/vibration/
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/
0:00
cette année j'ai eu la chance d'être au cvpr
0:02
en personne et assistez au meilleur incroyable
0:05
présentation du prix du papier avec ceci
0:07
papier fantastique que j'ai dû couvrir sur le
0:09
canal appelé optique à double obturateur
0:12
Détection des vibrations par Mark Shanin Dorian
0:15
chan mathew o'toole et srinivasa
0:18
narasimhan en une phrase ils
0:21
reconstruire le son à l'aide de caméras dans un
0:23
faisceau laser sur toute surface vibrante
0:26
leur permettant d'isoler la musique
0:28
les instruments se concentrent sur un haut-parleur spécifique
0:30
supprimer les bruits ambiants et bien d'autres
0:33
applications étonnantes, plongeons dans la façon dont
0:35
ils y parviennent et entendent des fous
0:37
résultats, mais accordez-moi d'abord une minute de
0:40
votre temps pour vous présenter un
0:41
entreprise fantastique le sponsor de ce
0:44
vidéo assembly ai assembly ai est un
0:47
entreprise qui propose des API précises pour
0:49
parole au texte et intelligence audio
0:52
vous pouvez utiliser leur API pour automatiquement
0:54
transcrire et comprendre l'audio et
0:56
données vidéo en quelques lignes de code
0:58
et convertir automatiquement asynchrone
1:00
et flux audio en direct dans le texte
1:03
quelque chose d'extrêmement difficile à faire
1:05
et nécessitant généralement des
1:07
modèles coûteux bien sûr ça ne s'arrête pas
1:10
Ici, assembly ai traitera également votre
1:12
données audio et ont une fonction informative
1:15
des représentations vous permettant de facilement
1:17
ajouter des fonctionnalités textuelles telles que
1:19
sujet de modération de contenu de résumé
1:21
détection et plus tout en un si vous
1:24
besoin de comprendre ou de transcrire l'audio
1:26
ou des données vidéo, essayez l'assembly ai avec le
1:29
premier lien ci-dessous
1:33
commençons par écouter cet exemple
1:35
de ce que la méthode peut accomplir
1:38
[Musique]
1:53
vous pouviez clairement entendre les deux
1:54
guitares individuelles dans chaque piste audio
1:57
cela a été fait en utilisant pas un son enregistré
2:00
mais un laser et deux caméras équipés
2:02
avec capteurs de roulement et d'obturateur global
2:05
respectivement, il semble que l'on s'attaque à cela
2:08
tâche à travers la vision le rend beaucoup plus facile
2:10
que d'essayer de diviser les pistes audio
2:12
après l'enregistrement, cela signifie également que nous pouvons
2:15
enregistrer quoi que ce soit à travers des lunettes et de
2:18
tous les objets vibrants ici qu'ils ont utilisés
2:21
leur méthode sur les enceintes elles-mêmes
2:23
pour isoler les haut-parleurs gauche et droit
2:25
alors qu'un microphone sera automatiquement
2:27
enregistrer les deux et mélanger les pistes audio
2:41
[Musique]
2:45
généralement ce type de technologie d'espionnage
2:48
appelée vibrométrie visuelle nécessite
2:51
conditions d'éclairage parfaites et
2:52
caméras à grande vitesse qui ressemblent à un
2:54
tireur d'élite camouflé pour capturer à grande vitesse
2:56
vibrations jusqu'à 63 kilohertz ici
3:00
ils obtiennent des résultats similaires avec
3:02
capteurs construits pour seulement 60 et 130 hertz
3:06
et mieux encore, ils peuvent traiter
3:08
plusieurs objets à la fois c'est toujours un
3:11
tâche très difficile nécessitant beaucoup de
3:13
ingénierie et bonnes idées pour le faire
3:16
arriver, ils ne se contentent pas d'enregistrer le
3:18
instruments et envoyer la vidéo à un
3:20
modèle qui crée et
3:22
sépare l'audio dont ils ont d'abord besoin
3:24
comprendre le laser qu'ils reçoivent et
3:26
traitez-le correctement, ils orientent un laser
3:29
en surface pour écouter alors ça
3:32
le laser rebondit de la surface dans un
3:34
plan de mise au point ce plan de mise au point est l'endroit où nous
3:37
prendra nos informations de pas le
3:39
instruments ou objets eux-mêmes afin que nous
3:42
analysera les minuscules vibrations du
3:44
objets d'intérêt à travers le laser
3:46
réponse créant une représentation comme
3:49
cette
3:50
cette réponse laser bidimensionnelle
3:52
motif coupé par nos caméras appelé un
3:54
le chatoiement est ensuite traité à la fois globalement
3:58
et localement à l'aide de nos deux caméras
4:01
caméra locale ou volet roulant
4:03
la caméra capturera des images à seulement 60
4:06
fps donc il faudra prendre plusieurs photos
4:08
et faites-les rouler sur l'axe y pour obtenir un
4:11
vraiment bruyant et imprécis 63 kilohertz
4:14
représentation c'est là que le global
4:16
caméra à obturateur est nécessaire en raison de
4:18
le caractère aléatoire de l'imagerie mouchetée
4:21
en raison de la rugosité de l'objet
4:23
surface et ses mouvements, il
4:25
prendre une capture d'écran globale de
4:27
la même image de tache que nous avons utilisée avec notre
4:29
premier appareil photo et a utilisé cette nouvelle image comme
4:32
un référentiel pour isoler uniquement
4:34
vibrations pertinentes du roulement
4:37
l'obturateur capture
4:38
la caméra à volet roulant échantillonnera
4:40
la scène rangée par rangée avec un high
4:42
fréquence tandis que l'obturateur global
4:44
la caméra échantillonnera toute la scène à
4:47
une fois pour servir de cadre de référence et
4:49
nous répétons ce processus pour l'ensemble
4:51
vidéo
4:52
et voila c'est comme ça qu'ils sont capables de
4:55
séparer le son d'un extrait d'enregistrement
4:57
un seul instrument élimine la température ambiante
5:00
bruit ou même reconstruire la parole à partir
5:02
les vibrations d'un sac de chips
5:05
Marie avait un petit agneau cette feuille était
5:08
blanc comme neige bien sûr ce n'est qu'un
5:10
aperçu simple de ce grand papier et
5:12
je vous invite fortement à le lire pour
5:14
plus d'informations félicitations à la
5:16
autorités pour la mention honorable i
5:18
était heureux d'assister à l'événement et de voir le
5:21
présentation en direct je suis super excité de
5:23
les futures publications que cet article
5:25
motiver je vous invite aussi à doubler
5:27
vérifiez tous les sacs de chips que vous pouvez
5:29
laisser près d'une fenêtre ou sinon certains
5:31
les gens peuvent écouter ce que vous dites merci
5:34
vous d'avoir regardé toute la vidéo et laissez
5:36
Je sais comment vous appliqueriez cette technologie
5:38
et si vous voyez des risques potentiels ou
5:40
cas d'utilisation passionnants dont j'aimerais discuter
5:42
ceux-ci avec vous et un merci spécial à
5:45
cvpr pour m'avoir invité à l'événement que c'était
5:47
vraiment cool d'être là à la nouvelle orléans
5:49
avec tous les chercheurs et entreprises que je
5:52
à la semaine prochaine avec un autre
papier incroyable