paint-brush
CVPR 2022 最佳论文荣誉奖:双快门光学振动传感经过@whatsai
351 讀數
351 讀數

CVPR 2022 最佳论文荣誉奖:双快门光学振动传感

经过 Louis Bouchard5m2022/07/13
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

每周向您的电子邮件解释一个新的 AI 应用程序!加入以了解更多信息并听到一些疯狂的结果。他们使用摄像头和激光束在任何振动表面上重建声音,使他们能够隔离乐器、专注于特定扬声器、消除环境噪音以及更多令人惊叹的应用。该项目背后的公司被 mark shanin dorian 和 Chan Dorian 以及 Dorian O'Toole、Matthew 和 Narasimhan 称为双快门光学振动传感。

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - CVPR 2022 最佳论文荣誉奖:双快门光学振动传感
Louis Bouchard HackerNoon profile picture

TLDR:他们使用摄像头和激光束在任何振动表面上重建声音,使他们能够隔离乐器、专注于特定扬声器、消除环境噪音以及更多令人惊叹的应用。

观看视频以了解更多信息并听到一些疯狂的结果!

参考

►阅读全文: https ://www.louisbouchard.ai/cvpr-2022-best-paper/
►Sheinin、Mark 和 Chan、Dorian 和 O'Toole、Matthew 和 Narasimhan,
Srinivasa G.,2022,双快门光学振动传感,PROC。 IEEE
CVPR。
►项目页面: https ://imaging.cs.cmu.edu/vibration/
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): https ://www.louisbouchard.ai/newsletter/

视频记录

0:00

今年我有机会在 cvpr

0:02

亲自参加并参加最精彩的表演

0:05

论文颁奖典礼与此

0:07

我必须在上面盖上很棒的纸

0:09

通道称为双快门光学

0:12

mark shanin dorian 的振动感应

0:15

chan mathew o'toole 和 srinivasa

0:18

narasimhan 在一句话中他们

0:21

使用摄像机重建声音

0:23

任何振动表面上的激光束

0:26

让他们隔离音乐

0:28

乐器专注于特定的扬声器

0:30

消除环境噪音等等

0:33

惊人的应用让我们深入了解如何

0:35

他们实现了这一目标并听到了一些疯狂的声音

0:37

结果,但首先请允许我一分钟

0:40

你是时候向你介绍一个

0:41

很棒的公司,这个赞助商

0:44

视频汇编 AI 汇编 AI 是一个

0:47

提供准确 API 的公司

0:49

语音到文本和音频智能

0:52

您可以使用他们的 api 自动

0:54

转录和理解音频和

0:56

只需几行代码即可获得视频数据

0:58

并自动转换异步

1:00

并将实时音频流转换为文本

1:03

极具挑战性的事情

1:05

并且通常需要稳健且

1:07

昂贵的模型当然不会停止

1:10

在这里组装 ai 也将处理您的

1:12

音频数据并具有信息丰富的功能

1:15

表示让您轻松

1:17

添加基于文本的功能,例如

1:19

摘要内容审核主题

1:21

检测和多合一,如果你

1:24

需要理解或转录音频

1:26

或视频数据尝试组装 ai 与

1:29

下面的第一个链接

1:33

让我们从听这个例子开始

1:35

该方法可以实现什么

1:38

[音乐]

1:53

你可以清楚地听到这两个

1:54

每个音轨中的单独吉他

1:57

这是使用未录制的声音制作的

2:00

但配备了激光和两个摄像头

2:02

带有滚动和全局快门传感器

2:05

分别似乎要解决这个问题

2:08

通过视觉完成任务使其变得更加容易

2:10

而不是试图分割音轨

2:12

录制后也意味着我们可以

2:15

通过眼镜记录任何东西

2:18

他们在这里使用的任何振动物体

2:21

他们对扬声器本身的方法

2:23

隔离左右扬声器

2:25

而麦克风会自动

2:27

录制并混合音轨

2:41

[音乐]

2:45

通常这种间谍技术

2:48

称为视觉测振需要

2:51

完美的照明条件和

2:52

看起来像一个高速摄像机

2:54

伪装狙击手捕捉高速

2:56

这里的振动高达 63 千赫兹

3:00

他们取得了类似的结果

3:02

仅适用于 60 和 130 赫兹的传感器

3:06

甚至更好,他们可以处理

3:08

一次有多个对象,这仍然是一个

3:11

非常具有挑战性的任务,需要很多

3:13

工程和伟大的想法,使它

3:16

碰巧他们不只是记录

3:18

仪器并将视频发送到

3:20

模型自动创建和

3:22

分离他们首先需要的音频

3:24

了解他们收到的激光和

3:26

正确处理它他们定位激光

3:29

表面上听然后这个

3:32

激光从表面反弹成

3:34

焦点平面这个焦点平面是我们

3:37

将获取我们的信息,而不是

3:39

仪器或物体本身,所以我们

3:42

将分析的微小振动

3:44

通过激光感兴趣的对象

3:46

响应创建一个表示

3:49

这个

3:50

这种二维激光响应

3:52

我们的相机切割的图案称为

3:54

然后全局处理散斑

3:58

并在本地使用我们的两台相机

4:01

本地相机或卷帘快门

4:03

相机将仅以 60 帧捕获帧

4:06

fps 所以它会拍多张照片

4:08

并在 y 轴上滚动它们以获得

4:11

真的很吵而且不准确 63 千赫兹

4:14

表示这是全球

4:16

快门相机是必要的,因为

4:18

斑点成像的随机性

4:21

由于物体的粗糙度

4:23

表面及其运动,它将

4:25

基本上是全局截图

4:27

我们使用的相同散斑图像

4:29

第一台相机并将这张新图像用作

4:32

仅用于隔离的参考框架

4:34

滚动产生的相关振动

4:37

快门捕捉

4:38

卷帘快门相机将采样

4:40

现场一排排高

4:42

频率,而全局快门

4:44

相机将对整个场景进行采样

4:47

一次作为参考框架和

4:49

我们在整个过程中重复这个过程

4:51

视频

4:52

瞧,这就是他们能够做到的

4:55

从录音提取中分离声音

4:57

只有一个仪器去除环境

5:00

噪声甚至重建语音

5:02

一袋薯片的振动

5:05

玛丽有一只小羊羔,这片叶子是

5:08

白如雪当然这只是一个

5:10

这篇伟大论文的简单概述和

5:12

我强烈邀请您阅读它

5:14

更多信息祝贺

5:16

获得荣誉奖的当局我

5:18

很高兴参加活动并看到

5:21

现场演示我非常兴奋

5:23

本文将在未来的出版物中

5:25

激励我也邀请你加倍

5:27

检查所有可能的薯片袋

5:29

留在窗户或其他地方附近

5:31

人们可能会听你说什么谢谢

5:34

您观看了整个视频并让

5:36

我知道你会如何应用这项技术

5:38

如果您发现任何潜在风险或

5:40

我很想讨论令人兴奋的用例

5:42

这些和你在一起,特别感谢

5:45

cvpr 邀请我参加活动

5:47

去新奥尔良真的很酷

5:49

我与所有研究人员和公司

5:52

下周再见

惊人的纸