TLDR:彼らは、振動する表面上でカメラとレーザー ビームを使用して音を再構築し、楽器を分離したり、特定のスピーカーに焦点を合わせたり、周囲のノイズを除去したり、その他多くの素晴らしいアプリケーションを可能にします。
►記事全文を読む: https://www.louisbouchard.ai/cvpr-2022-best-paper /
►Sheinin、Mark と Chan、Dorian と O'Toole、Matthew と Narasimhan、
Srinivasa G.、2022 年、デュアルシャッター光振動センシング、Proc. IEEE
CVPR。
►プロジェクトページ: https ://imaging.cs.cmu.edu/vibration/
►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/newsletter/
0:00
今年はcvprに参加する機会がありました
0:02
直接参加し、素晴らしい最高の
0:05
これで論文賞発表
0:07
私がカバーしなければならなかった素晴らしい紙
0:09
デュアルシャッターオプティカルと呼ばれるチャネル
0:12
マーク・シャニン・ドリアンによる振動感知
0:15
チャン・マシュー・オトゥールとスリニヴァサ
0:18
ナラシンハン一文で彼ら
0:21
カメラを使って音を再構築する
0:23
あらゆる振動面にレーザービーム
0:26
彼らが音楽を分離できるようにする
0:28
特定のスピーカーに焦点を当てたインストゥルメント
0:30
周囲のノイズなどを除去
0:33
素晴らしいアプリケーションの方法を詳しく見てみましょう
0:35
彼らはそれを達成し、いくつかのクレイジーを聞きます
0:37
結果ですが、最初に1分間許可してください
0:40
あなたを紹介するあなたの時間
0:41
素晴らしい会社がこれのスポンサーです
0:44
ビデオ アセンブリ ai アセンブリ ai は a
0:47
の正確な API を提供する会社
0:49
スピーチからテキストへの変換とオーディオ インテリジェンス
0:52
それらのAPIを使用して自動的に
0:54
音声を転写して理解する
0:56
わずか数行のコードで動画データを
0:58
自動的に非同期に変換します
1:00
ライブ オーディオ ストリームをテキストに変換
1:03
非常にやりがいのあること
1:05
通常は堅牢で、
1:07
もちろん高価なモデルは止まりません
1:10
ここでは、アセンブリ ai も処理します
1:12
オーディオデータと有益な機能を持っています
1:15
簡単にできる表現
1:17
次のようなテキストベースの機能を追加します
1:19
要約コンテンツ モデレート トピック
1:21
検出とそれ以上のオールインワンなら
1:24
音声を理解または書き起こす必要がある
1:26
またはビデオデータを使用してアセンブリ ai を試してください
1:29
下の最初のリンク
1:33
この例を聞くことから始めましょう
1:35
メソッドが達成できること
1:38
[音楽]
1:53
二人の声がはっきりと聞こえた
1:54
各オーディオトラックの個々のギター
1:57
これは録音された音を使用して作成されたものではありません
2:00
しかし、レーザーと2台のカメラが装備されています
2:02
ローリングシャッターセンサーとグローバルシャッターセンサーを搭載
2:05
それぞれ、これに取り組むようです
2:08
ビジョンを介したタスクにより、はるかに簡単になります
2:10
オーディオトラックを分割しようとするよりも
2:12
記録した後、それはまた、私たちができることを意味します
2:15
メガネを通して何でも記録する
2:18
ここで彼らが使用した振動する物体
2:21
スピーカー自体に対する彼らの方法
2:23
左右のスピーカーを分離する
2:25
一方、マイクは自動的に
2:27
両方を録音し、オーディオ トラックをブレンドします。
2:41
[音楽]
2:45
通常、この種のスパイ技術
2:48
視覚振動測定と呼ばれる必要があります
2:51
完璧な照明条件と
2:52
のように見える高速度カメラ
2:54
高速をキャプチャするカモフラージュ スナイパー
2:56
ここでは最大 63 キロヘルツの振動
3:00
彼らは同様の結果を達成します
3:02
60 ヘルツと 130 ヘルツ専用に構築されたセンサー
3:06
さらに優れた処理が可能です
3:08
複数のオブジェクトを一度に
3:11
多くのことを必要とする非常に困難なタスク
3:13
それを作るためのエンジニアリングと素晴らしいアイデア
3:16
たまたま、彼らは単に記録していません
3:18
ビデオを
3:20
モデルを自動的に作成し、
3:22
最初に必要なオーディオを分離します
3:24
彼らが受けるレーザーを理解し、
3:26
それを正しく処理します 彼らはレーザーを向けます
3:29
表面的に聞くと、これ
3:32
レーザーが表面から反射して
3:34
フォーカス プレーン このフォーカス プレーンは、
3:37
からではなく、私たちの情報を取得します
3:39
楽器や物自体
3:42
の小さな振動を分析します
3:44
レーザーを通して興味のあるオブジェクト
3:46
のような表現を作成する応答
3:49
これ
3:50
この二次元レーザー応答
3:52
と呼ばれる当社のカメラでカットされたパターン
3:54
斑点は、両方のグローバルに処理されます
3:58
ローカルで 2 台のカメラを使用して
4:01
ローカル カメラまたはローリング シャッター
4:03
カメラはわずか 60 でフレームをキャプチャします
4:06
fpsなので、複数の写真を撮ります
4:08
y 軸上でロールして、
4:11
本当にうるさくて不正確な 63 キロヘルツ
4:14
表現 これはグローバルな場所です
4:16
シャッターカメラが必要な理由
4:18
斑点のある画像のランダム性
4:21
オブジェクトの粗さによる
4:23
表面とその動き
4:25
基本的に全体のスクリーンショットを撮ります
4:27
で使用したのと同じスペックル画像
4:29
最初のカメラで、この新しい画像を
4:32
分離する参照フレームのみ
4:34
ローリングからの関連する振動
4:37
シャッターキャプチャー
4:38
ローリングシャッターカメラがサンプリングします
4:40
シーンの行ごとに高い
4:42
グローバルシャッター中の周波数
4:44
カメラはシーン全体をサンプリングします
4:47
一度参照フレームとして機能し、
4:49
このプロセスを全体で繰り返します
4:51
ビデオ
4:52
ほら、これが彼らができる方法です
4:55
録音抽出物からの音の分割
4:57
単一の機器のみが周囲を削除します
5:00
ノイズから音声を再構築することさえできます
5:02
ポテトチップスの袋の振動
5:05
メアリーは子羊を飼っていましたが、この葉は
5:08
雪のように白い もちろんこれはただの
5:10
この素晴らしい論文の簡単な概要と
5:12
私はあなたにそれを読むことを強く勧めます
5:14
詳細情報 おめでとうございます
5:16
名誉ある言及の機関 i
5:18
イベントに参加して見てよかった
5:21
プレゼンテーションライブ、とても楽しみです
5:23
この論文が将来出版するもの
5:25
私もあなたをダブルに招待します
5:27
可能性のあるチップの袋をすべてチェックしてください
5:29
窓の近くに残すか、そうでなければいくつか
5:31
人々はあなたの言うことを聞くかもしれません
5:34
あなたはビデオ全体を見てくれて、
5:36
あなたがこの技術をどのように応用するか知っています
5:38
潜在的なリスクや
5:40
議論したいエキサイティングなユースケース
5:42
これらとあなたとの特別な感謝
5:45
イベントに招待してくれたcvpr
5:47
ニューオーリンズに来て本当に良かった
5:49
私はすべての研究者と企業と
5:52
来週また会いましょう
素晴らしい紙