あなたの発言を正確に理解して書き留める優れた文字起こしツールを夢見たことがありますか? YouTube の自動翻訳ツールとは異なります…つまり、それらは優れていますが、完璧にはほど遠いということです。試してみて、ビデオの機能をオンにすると、私が話していることがわかります。
幸いなことに、OpenAI はそのためだけに非常に強力な AI モデルをリリースし、オープンソース化しました: Whisper.
英語のネイティブ スピーカーではない私には理解できないことも理解してくれますし (ビデオで聞いてください)、言語翻訳にも対応しています!以下のビデオで詳細をご覧ください...
►記事全文を読む: https://www.louisbouchard.ai/whisper/
► Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. および
Sutskever, I.、大規模な Weak によるロバスト音声認識
監督。
►プロジェクトリンク: https ://openai.com/blog/whisper/
►コード: https://github.com/openai/whisper
►Google Colab ノート: https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb
►YouTube Whisperer アプリ: https://huggingface.co/spaces/jeffistyping/Youtube-Whisperer
►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/newsletter/
0:00
良いことを夢見たことがありますか
0:01
正確に
0:03
見たことを理解し、それを書く
0:05
自動YouTubeのようにダウンしません
0:07
翻訳ツールは良いという意味です
0:09
完璧にはほど遠いですが、試してみてください
0:12
このビデオの機能をオンにして、
0:14
あなたは私が話していることをよく見るでしょう
0:16
オープン AI がオープン ソースをリリースしました
0:18
非常に強力な AI モデル
0:21
それはささやきさえも理解します
0:24
ネイティブじゃないことすら理解できない
0:26
英語を話す人
0:28
これがマイクロマシンマンの発表です
0:29
最も小型の車列
0:30
マイクロマシンひとつひとつがドラマチック
0:32
詳細 素晴らしいトリム 精密ページ アート
0:33
さらに驚異のマイクロマシンポケット
0:34
プレイステーションがそれを発射すると言う場所
0:36
言語翻訳にも対応
0:38
一貫した液体をささやく
0:41
オルタネーターが自動的に鳴ります
0:48
結果と精度は信じられないほどです
0:51
しかし、さらに優れているのは、それがどのように機能するかです
0:53
飛び込みましょう でも最初に私にさせてください
0:56
このエピソードのスポンサーを紹介
0:58
本研究会との関連性が高い
1:00
AI アセンブリ AI は、
1:03
スタートアップからの最先端の AI モデル
1:06
フォーチュン 500 企業の開発者および
1:08
世界中の製品チームが活用
1:10
より良いAIベースを構築するためのアセンブリAI
1:13
製品と機能
1:15
会議要約ポッドキャストの作成
1:17
アナライザーまたは実際に関連するもの
1:19
オーディオまたはビデオで AI を活用したい
1:22
トランスクリプションまたはインサイトを強化する
1:24
スケールは間違いなく彼らのAPIをチェックしてください
1:26
プラットフォーム より具体的には、私がしたかった
1:29
私が要約モデルを共有する
1:31
名前が示すように、本当にクールです
1:34
このモデルを使用すると、次のツールを構築できます。
1:36
音声を自動的に要約し、
1:38
ビデオ ファイル モデルは柔軟に適合します
1:41
あなたのユースケースとにカスタマイズすることができます
1:44
さまざまな要約の種類の箇条書き
1:46
段落の見出しまたはすべてを調整する
1:48
シンプルな API 呼び出しで機能し、
1:51
必要なすべての情報を見つけることができます
1:53
要約モデルとアセンブリ用
1:55
以下の最初のリンクを持つ AI
1:59
モデル自体に関して言えば
2:01
ささやきは非常に古典的であり、その上に構築されています
2:04
Transformer アーキテクチャのスタッキング
2:06
エンコーダーブロックとデコーダーブロック
2:08
注意メカニズムの伝播
2:10
両方の間の情報が必要です
2:13
オーディオ録音はそれを30に分割しました
2:16
2 番目のチャンクを 1 つずつ処理する
2:18
30秒ごとに1つ録音します
2:21
エンコーダーを使用してオーディオをエンコードします
2:23
セクションとそれぞれの位置を保存します
2:25
言葉は言った、そしてこのエンコードされたものを活用する
2:28
使用して言われたことを見つけるための情報
2:30
デコーダーが予測するデコーダー
2:33
これらすべてから私たちがトークンと呼ぶもの
2:34
基本的にそれぞれの情報
2:37
言われた言葉は繰り返される
2:39
すべてを使用して次の単語のこのプロセス
2:41
同じ情報と
2:43
それを助ける前の単語を予測した
2:46
より多くを作る次のものを推測します
2:48
私が言ったように全体的なアーキテクチャ
2:50
は古典的なエンコーダーとデコーダーであり、私は
2:53
に似た複数のビデオでそれをカバーしました
2:55
私が gpt3 と他の言語モデル
2:58
詳細を確認するように招待します
3:00
アーキテクチャの詳細 これはそのまま機能します
3:02
600,000 時間以上のトレーニングを受けた
3:05
多言語およびマルチタスクの監督
3:08
ウェブから収集されたデータは、
3:11
彼らはオーディオモデルを
3:12
データが利用可能な gpt3 と同様の方法
3:15
インターネット上でそれを大きくし、
3:18
一般的なオーディオモデルも作ります
3:20
他のモデルよりもロバストなモデル方法
3:23
彼らがそのささやきに言及した事実
3:24
人間レベルのロバスト性に近づく
3:27
そのような多様なセットでトレーニングされています
3:29
Clips TED Talks に至るまでのデータ
3:32
ポッドキャストのインタビューなど
3:34
実世界のようなデータを表現する
3:36
それらのうち、機械を使用して転写されたもの
3:38
人間ではなく学習ベースのモデル
3:40
そのような不完全なデータを確実に使用する
3:43
可能な精度を低下させますが、私は
3:45
堅牢性に役立つと主張します
3:47
純粋な人間に比べてまばらに使用される
3:49
精選されたオーディオ データ セットと完璧な
3:52
そのような一般的な書き起こし
3:54
モデル自体はそれほど強力ではありません。
3:57
ほとんどのタスクで打ち負かされます
3:58
より小さく、より具体的なモデルの適応
4:01
目の前のタスクに、しかしそれには他のものがあります
4:03
こんな使い方ができるメリット
4:05
事前に訓練されたモデルとそれらを微調整する
4:08
あなたの仕事はあなたが取ることを意味します
4:10
この強力なモデルとパーツの再トレーニング
4:13
それの、または全体を自分で
4:15
この技術が示されたデータ
4:17
開始するよりもはるかに優れたモデルを作成する
4:19
データを使用してゼロからトレーニングし、
4:21
さらにクールなことは、openai が開いていることです。
4:24
彼らのコードとすべてを調達しました
4:25
ささやきを使用できるようにAPIの代わりに
4:28
事前トレーニング済みの基盤アーキテクチャとして
4:30
構築し、より強力なものを作成する
4:33
自分用のモデルを持っている人もいます
4:35
のようなツールをすでにリリースしています。
4:37
YouTube ウィスパラーが抱きしめていない顔 by ジェフ
4:39
YouTube のリンクを取得して入力していて、
4:42
私が見つけた文字起こしの生成
4:44
ヤニック・キルターのおかげで彼らも
4:46
に Google コラボ ノートをリリースしました
4:48
何かをしながらすぐに遊ぶ
4:50
競争が鍵です openai が嬉しいです
4:53
作品の一部を公開
4:54
このようなコラボレーションは、
4:57
私たちの分野で前進するための最良の方法
5:00
あなたがしたいのなら、私はあなたがどう思うか知っています
5:01
openai の公開リリースをもっと見るか、
5:04
あなたは彼らが作る最終製品が好きです
5:06
いつものようにダリーのように、もっと見つけることができます
5:08
論文のささやきに関する情報
5:11
コードは以下にリンクされています。
5:13
このビデオを楽しんだ 次はまた会いましょう
5:15
別の素晴らしい論文との週