あなたの発言を正確に理解して書き留める優れた文字起こしツールを夢見たことがありますか? YouTube の自動翻訳ツールとは異なります…つまり、それらは優れていますが、完璧にはほど遠いということです。試してみて、ビデオの機能をオンにすると、私が話していることがわかります。 幸いなことに、OpenAI はそのためだけに非常に強力な AI モデルをリリースし、オープンソース化しました: Whisper. 英語のネイティブ スピーカーではない私には理解できないことも理解してくれますし (ビデオで聞いてください)、言語翻訳にも対応しています!以下のビデオで詳細をご覧ください... 参考文献 ►記事全文を読む: ► Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. および Sutskever, I.、大規模な Weak によるロバスト音声認識 監督。 ►プロジェクトリンク: ://openai.com/blog/whisper/ ►コード: ►Google Colab ノート: ►YouTube Whisperer アプリ: ►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/whisper/ https https://github.com/openai/whisper https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb https://huggingface.co/spaces/jeffistyping/Youtube-Whisperer https://www.louisbouchard.ai/newsletter/ ビデオトランスクリプト 0:00 良いことを夢見たことがありますか 0:01 正確に 0:03 見たことを理解し、それを書く 0:05 自動YouTubeのようにダウンしません 0:07 翻訳ツールは良いという意味です 0:09 完璧にはほど遠いですが、試してみてください 0:12 このビデオの機能をオンにして、 0:14 あなたは私が話していることをよく見るでしょう 0:16 オープン AI がオープン ソースをリリースしました 0:18 非常に強力な AI モデル 0:21 それはささやきさえも理解します 0:24 ネイティブじゃないことすら理解できない 0:26 英語を話す人 0:28 これがマイクロマシンマンの発表です 0:29 最も小型の車列 0:30 マイクロマシンひとつひとつがドラマチック 0:32 詳細 素晴らしいトリム 精密ページ アート 0:33 さらに驚異のマイクロマシンポケット 0:34 プレイステーションがそれを発射すると言う場所 0:36 言語翻訳にも対応 0:38 一貫した液体をささやく 0:41 オルタネーターが自動的に鳴ります 0:48 結果と精度は信じられないほどです 0:51 しかし、さらに優れているのは、それがどのように機能するかです 0:53 飛び込みましょう でも最初に私にさせてください 0:56 このエピソードのスポンサーを紹介 0:58 本研究会との関連性が高い 1:00 AI アセンブリ AI は、 1:03 スタートアップからの最先端の AI モデル 1:06 フォーチュン 500 企業の開発者および 1:08 世界中の製品チームが活用 1:10 より良いAIベースを構築するためのアセンブリAI 1:13 製品と機能 1:15 会議要約ポッドキャストの作成 1:17 アナライザーまたは実際に関連するもの 1:19 オーディオまたはビデオで AI を活用したい 1:22 トランスクリプションまたはインサイトを強化する 1:24 スケールは間違いなく彼らのAPIをチェックしてください 1:26 プラットフォーム より具体的には、私がしたかった 1:29 私が要約モデルを共有する 1:31 名前が示すように、本当にクールです 1:34 このモデルを使用すると、次のツールを構築できます。 1:36 音声を自動的に要約し、 1:38 ビデオ ファイル モデルは柔軟に適合します 1:41 あなたのユースケースとにカスタマイズすることができます 1:44 さまざまな要約の種類の箇条書き 1:46 段落の見出しまたはすべてを調整する 1:48 シンプルな API 呼び出しで機能し、 1:51 必要なすべての情報を見つけることができます 1:53 要約モデルとアセンブリ用 1:55 以下の最初のリンクを持つ AI 1:59 モデル自体に関して言えば 2:01 ささやきは非常に古典的であり、その上に構築されています 2:04 Transformer アーキテクチャのスタッキング 2:06 エンコーダーブロックとデコーダーブロック 2:08 注意メカニズムの伝播 2:10 両方の間の情報が必要です 2:13 オーディオ録音はそれを30に分割しました 2:16 2 番目のチャンクを 1 つずつ処理する 2:18 30秒ごとに1つ録音します 2:21 エンコーダーを使用してオーディオをエンコードします 2:23 セクションとそれぞれの位置を保存します 2:25 言葉は言った、そしてこのエンコードされたものを活用する 2:28 使用して言われたことを見つけるための情報 2:30 デコーダーが予測するデコーダー 2:33 これらすべてから私たちがトークンと呼ぶもの 2:34 基本的にそれぞれの情報 2:37 言われた言葉は繰り返される 2:39 すべてを使用して次の単語のこのプロセス 2:41 同じ情報と 2:43 それを助ける前の単語を予測した 2:46 より多くを作る次のものを推測します 2:48 私が言ったように全体的なアーキテクチャ 2:50 は古典的なエンコーダーとデコーダーであり、私は 2:53 に似た複数のビデオでそれをカバーしました 2:55 私が gpt3 と他の言語モデル 2:58 詳細を確認するように招待します 3:00 アーキテクチャの詳細 これはそのまま機能します 3:02 600,000 時間以上のトレーニングを受けた 3:05 多言語およびマルチタスクの監督 3:08 ウェブから収集されたデータは、 3:11 彼らはオーディオモデルを 3:12 データが利用可能な gpt3 と同様の方法 3:15 インターネット上でそれを大きくし、 3:18 一般的なオーディオモデルも作ります 3:20 他のモデルよりもロバストなモデル方法 3:23 彼らがそのささやきに言及した事実 3:24 人間レベルのロバスト性に近づく 3:27 そのような多様なセットでトレーニングされています 3:29 Clips TED Talks に至るまでのデータ 3:32 ポッドキャストのインタビューなど 3:34 実世界のようなデータを表現する 3:36 それらのうち、機械を使用して転写されたもの 3:38 人間ではなく学習ベースのモデル 3:40 そのような不完全なデータを確実に使用する 3:43 可能な精度を低下させますが、私は 3:45 堅牢性に役立つと主張します 3:47 純粋な人間に比べてまばらに使用される 3:49 精選されたオーディオ データ セットと完璧な 3:52 そのような一般的な書き起こし 3:54 モデル自体はそれほど強力ではありません。 3:57 ほとんどのタスクで打ち負かされます 3:58 より小さく、より具体的なモデルの適応 4:01 目の前のタスクに、しかしそれには他のものがあります 4:03 こんな使い方ができるメリット 4:05 事前に訓練されたモデルとそれらを微調整する 4:08 あなたの仕事はあなたが取ることを意味します 4:10 この強力なモデルとパーツの再トレーニング 4:13 それの、または全体を自分で 4:15 この技術が示されたデータ 4:17 開始するよりもはるかに優れたモデルを作成する 4:19 データを使用してゼロからトレーニングし、 4:21 さらにクールなことは、openai が開いていることです。 4:24 彼らのコードとすべてを調達しました 4:25 ささやきを使用できるようにAPIの代わりに 4:28 事前トレーニング済みの基盤アーキテクチャとして 4:30 構築し、より強力なものを作成する 4:33 自分用のモデルを持っている人もいます 4:35 のようなツールをすでにリリースしています。 4:37 YouTube ウィスパラーが抱きしめていない顔 by ジェフ 4:39 YouTube のリンクを取得して入力していて、 4:42 私が見つけた文字起こしの生成 4:44 ヤニック・キルターのおかげで彼らも 4:46 に Google コラボ ノートをリリースしました 4:48 何かをしながらすぐに遊ぶ 4:50 競争が鍵です openai が嬉しいです 4:53 作品の一部を公開 4:54 このようなコラボレーションは、 4:57 私たちの分野で前進するための最良の方法 5:00 あなたがしたいのなら、私はあなたがどう思うか知っています 5:01 openai の公開リリースをもっと見るか、 5:04 あなたは彼らが作る最終製品が好きです 5:06 いつものようにダリーのように、もっと見つけることができます 5:08 論文のささやきに関する情報 5:11 コードは以下にリンクされています。 5:13 このビデオを楽しんだ 次はまた会いましょう 5:15 別の素晴らしい論文との週