彼らは、振動する表面上でカメラとレーザー ビームを使用して音を再構築し、楽器を分離したり、特定のスピーカーに焦点を合わせたり、周囲のノイズを除去したり、その他多くの素晴らしいアプリケーションを可能にします。 TLDR: ビデオを見て詳細を確認し、驚くべき結果を聞いてください! 参考文献 ►記事全文を読む: / ►Sheinin、Mark と Chan、Dorian と O'Toole、Matthew と Narasimhan、 Srinivasa G.、2022 年、デュアルシャッター光振動センシング、Proc. IEEE CVPR。 ►プロジェクトページ: ://imaging.cs.cmu.edu/vibration/ ►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/cvpr-2022-best-paper https https://www.louisbouchard.ai/newsletter/ ビデオトランスクリプト 0:00 今年はcvprに参加する機会がありました 0:02 直接参加し、素晴らしい最高の 0:05 これで論文賞発表 0:07 私がカバーしなければならなかった素晴らしい紙 0:09 デュアルシャッターオプティカルと呼ばれるチャネル 0:12 マーク・シャニン・ドリアンによる振動感知 0:15 チャン・マシュー・オトゥールとスリニヴァサ 0:18 ナラシンハン一文で彼ら 0:21 カメラを使って音を再構築する 0:23 あらゆる振動面にレーザービーム 0:26 彼らが音楽を分離できるようにする 0:28 特定のスピーカーに焦点を当てたインストゥルメント 0:30 周囲のノイズなどを除去 0:33 素晴らしいアプリケーションの方法を詳しく見てみましょう 0:35 彼らはそれを達成し、いくつかのクレイジーを聞きます 0:37 結果ですが、最初に1分間許可してください 0:40 あなたを紹介するあなたの時間 0:41 素晴らしい会社がこれのスポンサーです 0:44 ビデオ アセンブリ ai アセンブリ ai は a 0:47 の正確な API を提供する会社 0:49 スピーチからテキストへの変換とオーディオ インテリジェンス 0:52 それらのAPIを使用して自動的に 0:54 音声を転写して理解する 0:56 わずか数行のコードで動画データを 0:58 自動的に非同期に変換します 1:00 ライブ オーディオ ストリームをテキストに変換 1:03 非常にやりがいのあること 1:05 通常は堅牢で、 1:07 もちろん高価なモデルは止まりません 1:10 ここでは、アセンブリ ai も処理します 1:12 オーディオデータと有益な機能を持っています 1:15 簡単にできる表現 1:17 次のようなテキストベースの機能を追加します 1:19 要約コンテンツ モデレート トピック 1:21 検出とそれ以上のオールインワンなら 1:24 音声を理解または書き起こす必要がある 1:26 またはビデオデータを使用してアセンブリ ai を試してください 1:29 下の最初のリンク 1:33 この例を聞くことから始めましょう 1:35 メソッドが達成できること 1:38 [音楽] 1:53 二人の声がはっきりと聞こえた 1:54 各オーディオトラックの個々のギター 1:57 これは録音された音を使用して作成されたものではありません 2:00 しかし、レーザーと2台のカメラが装備されています 2:02 ローリングシャッターセンサーとグローバルシャッターセンサーを搭載 2:05 それぞれ、これに取り組むようです 2:08 ビジョンを介したタスクにより、はるかに簡単になります 2:10 オーディオトラックを分割しようとするよりも 2:12 記録した後、それはまた、私たちができることを意味します 2:15 メガネを通して何でも記録する 2:18 ここで彼らが使用した振動する物体 2:21 スピーカー自体に対する彼らの方法 2:23 左右のスピーカーを分離する 2:25 一方、マイクは自動的に 2:27 両方を録音し、オーディオ トラックをブレンドします。 2:41 [音楽] 2:45 通常、この種のスパイ技術 2:48 視覚振動測定と呼ばれる必要があります 2:51 完璧な照明条件と 2:52 のように見える高速度カメラ 2:54 高速をキャプチャするカモフラージュ スナイパー 2:56 ここでは最大 63 キロヘルツの振動 3:00 彼らは同様の結果を達成します 3:02 60 ヘルツと 130 ヘルツ専用に構築されたセンサー 3:06 さらに優れた処理が可能です 3:08 複数のオブジェクトを一度に 3:11 多くのことを必要とする非常に困難なタスク 3:13 それを作るためのエンジニアリングと素晴らしいアイデア 3:16 たまたま、彼らは単に記録していません 3:18 ビデオを 3:20 モデルを自動的に作成し、 3:22 最初に必要なオーディオを分離します 3:24 彼らが受けるレーザーを理解し、 3:26 それを正しく処理します 彼らはレーザーを向けます 3:29 表面的に聞くと、これ 3:32 レーザーが表面から反射して 3:34 フォーカス プレーン このフォーカス プレーンは、 3:37 からではなく、私たちの情報を取得します 3:39 楽器や物自体 3:42 の小さな振動を分析します 3:44 レーザーを通して興味のあるオブジェクト 3:46 のような表現を作成する応答 3:49 これ 3:50 この二次元レーザー応答 3:52 と呼ばれる当社のカメラでカットされたパターン 3:54 斑点は、両方のグローバルに処理されます 3:58 ローカルで 2 台のカメラを使用して 4:01 ローカル カメラまたはローリング シャッター 4:03 カメラはわずか 60 でフレームをキャプチャします 4:06 fpsなので、複数の写真を撮ります 4:08 y 軸上でロールして、 4:11 本当にうるさくて不正確な 63 キロヘルツ 4:14 表現 これはグローバルな場所です 4:16 シャッターカメラが必要な理由 4:18 斑点のある画像のランダム性 4:21 オブジェクトの粗さによる 4:23 表面とその動き 4:25 基本的に全体のスクリーンショットを撮ります 4:27 で使用したのと同じスペックル画像 4:29 最初のカメラで、この新しい画像を 4:32 分離する参照フレームのみ 4:34 ローリングからの関連する振動 4:37 シャッターキャプチャー 4:38 ローリングシャッターカメラがサンプリングします 4:40 シーンの行ごとに高い 4:42 グローバルシャッター中の周波数 4:44 カメラはシーン全体をサンプリングします 4:47 一度参照フレームとして機能し、 4:49 このプロセスを全体で繰り返します 4:51 ビデオ 4:52 ほら、これが彼らができる方法です 4:55 録音抽出物からの音の分割 4:57 単一の機器のみが周囲を削除します 5:00 ノイズから音声を再構築することさえできます 5:02 ポテトチップスの袋の振動 5:05 メアリーは子羊を飼っていましたが、この葉は 5:08 雪のように白い もちろんこれはただの 5:10 この素晴らしい論文の簡単な概要と 5:12 私はあなたにそれを読むことを強く勧めます 5:14 詳細情報 おめでとうございます 5:16 名誉ある言及の機関 i 5:18 イベントに参加して見てよかった 5:21 プレゼンテーションライブ、とても楽しみです 5:23 この論文が将来出版するもの 5:25 私もあなたをダブルに招待します 5:27 可能性のあるチップの袋をすべてチェックしてください 5:29 窓の近くに残すか、そうでなければいくつか 5:31 人々はあなたの言うことを聞くかもしれません 5:34 あなたはビデオ全体を見てくれて、 5:36 あなたがこの技術をどのように応用するか知っています 5:38 潜在的なリスクや 5:40 議論したいエキサイティングなユースケース 5:42 これらとあなたとの特別な感謝 5:45 イベントに招待してくれたcvpr 5:47 ニューオーリンズに来て本当に良かった 5:49 私はすべての研究者と企業と 5:52 来週また会いましょう 素晴らしい紙