他们使用摄像头和激光束在任何振动表面上重建声音,使他们能够隔离乐器、专注于特定扬声器、消除环境噪音以及更多令人惊叹的应用。 TLDR: 观看视频以了解更多信息并听到一些疯狂的结果! 参考 ►阅读全文: ://www.louisbouchard.ai/cvpr-2022-best-paper/ ►Sheinin、Mark 和 Chan、Dorian 和 O'Toole、Matthew 和 Narasimhan, Srinivasa G.,2022,双快门光学振动传感,PROC。 IEEE CVPR。 ►项目页面: ://imaging.cs.cmu.edu/vibration/ ►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): ://www.louisbouchard.ai/newsletter/ https https https 视频记录 0:00 今年我有机会在 cvpr 0:02 亲自参加并参加最精彩的表演 0:05 论文颁奖典礼与此 0:07 我必须在上面盖上很棒的纸 0:09 通道称为双快门光学 0:12 mark shanin dorian 的振动感应 0:15 chan mathew o'toole 和 srinivasa 0:18 narasimhan 在一句话中他们 0:21 使用摄像机重建声音 0:23 任何振动表面上的激光束 0:26 让他们隔离音乐 0:28 乐器专注于特定的扬声器 0:30 消除环境噪音等等 0:33 惊人的应用让我们深入了解如何 0:35 他们实现了这一目标并听到了一些疯狂的声音 0:37 结果,但首先请允许我一分钟 0:40 你是时候向你介绍一个 0:41 很棒的公司,这个赞助商 0:44 视频汇编 AI 汇编 AI 是一个 0:47 提供准确 API 的公司 0:49 语音到文本和音频智能 0:52 您可以使用他们的 api 自动 0:54 转录和理解音频和 0:56 只需几行代码即可获得视频数据 0:58 并自动转换异步 1:00 并将实时音频流转换为文本 1:03 极具挑战性的事情 1:05 并且通常需要稳健且 1:07 昂贵的模型当然不会停止 1:10 在这里组装 ai 也将处理您的 1:12 音频数据并具有信息丰富的功能 1:15 表示让您轻松 1:17 添加基于文本的功能,例如 1:19 摘要内容审核主题 1:21 检测和多合一,如果你 1:24 需要理解或转录音频 1:26 或视频数据尝试组装 ai 与 1:29 下面的第一个链接 1:33 让我们从听这个例子开始 1:35 该方法可以实现什么 1:38 [音乐] 1:53 你可以清楚地听到这两个 1:54 每个音轨中的单独吉他 1:57 这是使用未录制的声音制作的 2:00 但配备了激光和两个摄像头 2:02 带有滚动和全局快门传感器 2:05 分别似乎要解决这个问题 2:08 通过视觉完成任务使其变得更加容易 2:10 而不是试图分割音轨 2:12 录制后也意味着我们可以 2:15 通过眼镜记录任何东西 2:18 他们在这里使用的任何振动物体 2:21 他们对扬声器本身的方法 2:23 隔离左右扬声器 2:25 而麦克风会自动 2:27 录制并混合音轨 2:41 [音乐] 2:45 通常这种间谍技术 2:48 称为视觉测振需要 2:51 完美的照明条件和 2:52 看起来像一个高速摄像机 2:54 伪装狙击手捕捉高速 2:56 这里的振动高达 63 千赫兹 3:00 他们取得了类似的结果 3:02 仅适用于 60 和 130 赫兹的传感器 3:06 甚至更好,他们可以处理 3:08 一次有多个对象,这仍然是一个 3:11 非常具有挑战性的任务,需要很多 3:13 工程和伟大的想法,使它 3:16 碰巧他们不只是记录 3:18 仪器并将视频发送到 3:20 模型自动创建和 3:22 分离他们首先需要的音频 3:24 了解他们收到的激光和 3:26 正确处理它他们定位激光 3:29 表面上听然后这个 3:32 激光从表面反弹成 3:34 焦点平面这个焦点平面是我们 3:37 将获取我们的信息,而不是 3:39 仪器或物体本身,所以我们 3:42 将分析的微小振动 3:44 通过激光感兴趣的对象 3:46 响应创建一个表示 3:49 这个 3:50 这种二维激光响应 3:52 我们的相机切割的图案称为 3:54 然后全局处理散斑 3:58 并在本地使用我们的两台相机 4:01 本地相机或卷帘快门 4:03 相机将仅以 60 帧捕获帧 4:06 fps 所以它会拍多张照片 4:08 并在 y 轴上滚动它们以获得 4:11 真的很吵而且不准确 63 千赫兹 4:14 表示这是全球 4:16 快门相机是必要的,因为 4:18 斑点成像的随机性 4:21 由于物体的粗糙度 4:23 表面及其运动,它将 4:25 基本上是全局截图 4:27 我们使用的相同散斑图像 4:29 第一台相机并将这张新图像用作 4:32 仅用于隔离的参考框架 4:34 滚动产生的相关振动 4:37 快门捕捉 4:38 卷帘快门相机将采样 4:40 现场一排排高 4:42 频率,而全局快门 4:44 相机将对整个场景进行采样 4:47 一次作为参考框架和 4:49 我们在整个过程中重复这个过程 4:51 视频 4:52 瞧,这就是他们能够做到的 4:55 从录音提取中分离声音 4:57 只有一个仪器去除环境 5:00 噪声甚至重建语音 5:02 一袋薯片的振动 5:05 玛丽有一只小羊羔,这片叶子是 5:08 白如雪当然这只是一个 5:10 这篇伟大论文的简单概述和 5:12 我强烈邀请您阅读它 5:14 更多信息祝贺 5:16 获得荣誉奖的当局我 5:18 很高兴参加活动并看到 5:21 现场演示我非常兴奋 5:23 本文将在未来的出版物中 5:25 激励我也邀请你加倍 5:27 检查所有可能的薯片袋 5:29 留在窗户或其他地方附近 5:31 人们可能会听你说什么谢谢 5:34 您观看了整个视频并让 5:36 我知道你会如何应用这项技术 5:38 如果您发现任何潜在风险或 5:40 我很想讨论令人兴奋的用例 5:42 这些和你在一起,特别感谢 5:45 cvpr 邀请我参加活动 5:47 去新奥尔良真的很酷 5:49 我与所有研究人员和公司 5:52 下周再见 惊人的纸