paint-brush
CVPR 2022 Best Paper Mention honorable : Détection optique des vibrations à double obturateurpar@whatsai
351 lectures
351 lectures

CVPR 2022 Best Paper Mention honorable : Détection optique des vibrations à double obturateur

par Louis Bouchard5m2022/07/13
Read on Terminal Reader
Read this story w/o Javascript

Trop long; Pour lire

Une nouvelle application d'IA expliquée chaque semaine à vos e-mails ! Rejoignez-nous pour en savoir plus et entendre des résultats fous. Ils reconstruisent le son à l'aide de caméras et d'un faisceau laser sur n'importe quelle surface vibrante, ce qui leur permet d'isoler des instruments de musique, de se concentrer sur un haut-parleur spécifique, de supprimer les bruits ambiants et bien d'autres applications étonnantes. La société à l'origine du projet s'appelle la détection de vibrations optiques à double obturateur par Mark Shanin Dorian et Chan Dorian et Dorian O'Toole, Matthew et Narasimhan.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - CVPR 2022 Best Paper Mention honorable : Détection optique des vibrations à double obturateur
Louis Bouchard HackerNoon profile picture

TLDR : Ils reconstruisent le son à l'aide de caméras et d'un faisceau laser sur n'importe quelle surface vibrante, ce qui leur permet d'isoler des instruments de musique, de se concentrer sur un haut-parleur spécifique, de supprimer les bruits ambiants et de nombreuses autres applications étonnantes.

Regardez la vidéo pour en savoir plus et entendre des résultats fous !

Références

►Lire l'article complet : https://www.louisbouchard.ai/cvpr-2022-best-paper/
►Sheinin, Mark et Chan, Dorian et O'Toole, Matthew et Narasimhan,
Srinivasa G., 2022, Détection optique des vibrations à double obturateur, Proc. IEEE
CVRP.
►Page du projet : https://imaging.cs.cmu.edu/vibration/
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/

Transcription vidéo

0:00

cette année j'ai eu la chance d'être au cvpr

0:02

en personne et assistez au meilleur incroyable

0:05

présentation du prix du papier avec ceci

0:07

papier fantastique que j'ai dû couvrir sur le

0:09

canal appelé optique à double obturateur

0:12

Détection des vibrations par Mark Shanin Dorian

0:15

chan mathew o'toole et srinivasa

0:18

narasimhan en une phrase ils

0:21

reconstruire le son à l'aide de caméras dans un

0:23

faisceau laser sur toute surface vibrante

0:26

leur permettant d'isoler la musique

0:28

les instruments se concentrent sur un haut-parleur spécifique

0:30

supprimer les bruits ambiants et bien d'autres

0:33

applications étonnantes, plongeons dans la façon dont

0:35

ils y parviennent et entendent des fous

0:37

résultats, mais accordez-moi d'abord une minute de

0:40

votre temps pour vous présenter un

0:41

entreprise fantastique le sponsor de ce

0:44

vidéo assembly ai assembly ai est un

0:47

entreprise qui propose des API précises pour

0:49

parole au texte et intelligence audio

0:52

vous pouvez utiliser leur API pour automatiquement

0:54

transcrire et comprendre l'audio et

0:56

données vidéo en quelques lignes de code

0:58

et convertir automatiquement asynchrone

1:00

et flux audio en direct dans le texte

1:03

quelque chose d'extrêmement difficile à faire

1:05

et nécessitant généralement des

1:07

modèles coûteux bien sûr ça ne s'arrête pas

1:10

Ici, assembly ai traitera également votre

1:12

données audio et ont une fonction informative

1:15

des représentations vous permettant de facilement

1:17

ajouter des fonctionnalités textuelles telles que

1:19

sujet de modération de contenu de résumé

1:21

détection et plus tout en un si vous

1:24

besoin de comprendre ou de transcrire l'audio

1:26

ou des données vidéo, essayez l'assembly ai avec le

1:29

premier lien ci-dessous

1:33

commençons par écouter cet exemple

1:35

de ce que la méthode peut accomplir

1:38

[Musique]

1:53

vous pouviez clairement entendre les deux

1:54

guitares individuelles dans chaque piste audio

1:57

cela a été fait en utilisant pas un son enregistré

2:00

mais un laser et deux caméras équipés

2:02

avec capteurs de roulement et d'obturateur global

2:05

respectivement, il semble que l'on s'attaque à cela

2:08

tâche à travers la vision le rend beaucoup plus facile

2:10

que d'essayer de diviser les pistes audio

2:12

après l'enregistrement, cela signifie également que nous pouvons

2:15

enregistrer quoi que ce soit à travers des lunettes et de

2:18

tous les objets vibrants ici qu'ils ont utilisés

2:21

leur méthode sur les enceintes elles-mêmes

2:23

pour isoler les haut-parleurs gauche et droit

2:25

alors qu'un microphone sera automatiquement

2:27

enregistrer les deux et mélanger les pistes audio

2:41

[Musique]

2:45

généralement ce type de technologie d'espionnage

2:48

appelée vibrométrie visuelle nécessite

2:51

conditions d'éclairage parfaites et

2:52

caméras à grande vitesse qui ressemblent à un

2:54

tireur d'élite camouflé pour capturer à grande vitesse

2:56

vibrations jusqu'à 63 kilohertz ici

3:00

ils obtiennent des résultats similaires avec

3:02

capteurs construits pour seulement 60 et 130 hertz

3:06

et mieux encore, ils peuvent traiter

3:08

plusieurs objets à la fois c'est toujours un

3:11

tâche très difficile nécessitant beaucoup de

3:13

ingénierie et bonnes idées pour le faire

3:16

arriver, ils ne se contentent pas d'enregistrer le

3:18

instruments et envoyer la vidéo à un

3:20

modèle qui crée et

3:22

sépare l'audio dont ils ont d'abord besoin

3:24

comprendre le laser qu'ils reçoivent et

3:26

traitez-le correctement, ils orientent un laser

3:29

en surface pour écouter alors ça

3:32

le laser rebondit de la surface dans un

3:34

plan de mise au point ce plan de mise au point est l'endroit où nous

3:37

prendra nos informations de pas le

3:39

instruments ou objets eux-mêmes afin que nous

3:42

analysera les minuscules vibrations du

3:44

objets d'intérêt à travers le laser

3:46

réponse créant une représentation comme

3:49

cette

3:50

cette réponse laser bidimensionnelle

3:52

motif coupé par nos caméras appelé un

3:54

le chatoiement est ensuite traité à la fois globalement

3:58

et localement à l'aide de nos deux caméras

4:01

caméra locale ou volet roulant

4:03

la caméra capturera des images à seulement 60

4:06

fps donc il faudra prendre plusieurs photos

4:08

et faites-les rouler sur l'axe y pour obtenir un

4:11

vraiment bruyant et imprécis 63 kilohertz

4:14

représentation c'est là que le global

4:16

caméra à obturateur est nécessaire en raison de

4:18

le caractère aléatoire de l'imagerie mouchetée

4:21

en raison de la rugosité de l'objet

4:23

surface et ses mouvements, il

4:25

prendre une capture d'écran globale de

4:27

la même image de tache que nous avons utilisée avec notre

4:29

premier appareil photo et a utilisé cette nouvelle image comme

4:32

un référentiel pour isoler uniquement

4:34

vibrations pertinentes du roulement

4:37

l'obturateur capture

4:38

la caméra à volet roulant échantillonnera

4:40

la scène rangée par rangée avec un high

4:42

fréquence tandis que l'obturateur global

4:44

la caméra échantillonnera toute la scène à

4:47

une fois pour servir de cadre de référence et

4:49

nous répétons ce processus pour l'ensemble

4:51

vidéo

4:52

et voila c'est comme ça qu'ils sont capables de

4:55

séparer le son d'un extrait d'enregistrement

4:57

un seul instrument élimine la température ambiante

5:00

bruit ou même reconstruire la parole à partir

5:02

les vibrations d'un sac de chips

5:05

Marie avait un petit agneau cette feuille était

5:08

blanc comme neige bien sûr ce n'est qu'un

5:10

aperçu simple de ce grand papier et

5:12

je vous invite fortement à le lire pour

5:14

plus d'informations félicitations à la

5:16

autorités pour la mention honorable i

5:18

était heureux d'assister à l'événement et de voir le

5:21

présentation en direct je suis super excité de

5:23

les futures publications que cet article

5:25

motiver je vous invite aussi à doubler

5:27

vérifiez tous les sacs de chips que vous pouvez

5:29

laisser près d'une fenêtre ou sinon certains

5:31

les gens peuvent écouter ce que vous dites merci

5:34

vous d'avoir regardé toute la vidéo et laissez

5:36

Je sais comment vous appliqueriez cette technologie

5:38

et si vous voyez des risques potentiels ou

5:40

cas d'utilisation passionnants dont j'aimerais discuter

5:42

ceux-ci avec vous et un merci spécial à

5:45

cvpr pour m'avoir invité à l'événement que c'était

5:47

vraiment cool d'être là à la nouvelle orléans

5:49

avec tous les chercheurs et entreprises que je

5:52

à la semaine prochaine avec un autre

papier incroyable