paint-brush
OpenAI のウィスパー モデルとは?by@whatsai
5,263
5,263

OpenAI のウィスパー モデルとは?

Louis Bouchard5m2022/10/06
Read on Terminal Reader
Read this story w/o Javascript

あなたの発言を正確に理解して書き留める優れた文字起こしツールを夢見たことがありますか? YouTube の自動翻訳ツールとは異なります… つまり、それらは優れていますが、完璧にはほど遠いということです。試してみて、ビデオの機能をオンにすると、私が話していることがわかります。 幸いなことに、OpenAI はそのためだけに非常に強力な AI モデルをリリースし、オープンソース化しました: Whisper. 英語のネイティブ スピーカーではない私には理解できないことも理解してくれますし (ビデオで聞いてください)、言語翻訳にも対応しています!以下のビデオで詳細をご覧ください...

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - OpenAI のウィスパー モデルとは?
Louis Bouchard HackerNoon profile picture
0-item

あなたの発言を正確に理解して書き留める優れた文字起こしツールを夢見たことがありますか? YouTube の自動翻訳ツールとは異なります…つまり、それらは優れていますが、完璧にはほど遠いということです。試してみて、ビデオの機能をオンにすると、私が話していることがわかります。

幸いなことに、OpenAI はそのためだけに非常に強力な AI モデルをリリースし、オープンソース化しました: Whisper.

英語のネイティブ スピーカーではない私には理解できないことも理解してくれますし (ビデオで聞いてください)、言語翻訳にも対応しています!以下のビデオで詳細をご覧ください...

参考文献

►記事全文を読む: https://www.louisbouchard.ai/whisper/
► Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. および
Sutskever, I.、大規模な Weak によるロバスト音声認識
監督。
►プロジェクトリンク: https ://openai.com/blog/whisper/
►コード: https://github.com/openai/whisper
►Google Colab ノート: https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb
►YouTube Whisperer アプリ: https://huggingface.co/spaces/jeffistyping/Youtube-Whisperer
►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/newsletter/

ビデオトランスクリプト

0:00

良いことを夢見たことがありますか

0:01

正確に

0:03

見たことを理解し、それを書く

0:05

自動YouTubeのようにダウンしません

0:07

翻訳ツールは良いという意味です

0:09

完璧にはほど遠いですが、試してみてください

0:12

このビデオの機能をオンにして、

0:14

あなたは私が話していることをよく見るでしょう

0:16

オープン AI がオープン ソースをリリースしました

0:18

非常に強力な AI モデル

0:21

それはささやきさえも理解します

0:24

ネイティブじゃないことすら理解できない

0:26

英語を話す人

0:28

これがマイクロマシンマンの発表です

0:29

最も小型の車列

0:30

マイクロマシンひとつひとつがドラマチック

0:32

詳細 素晴らしいトリム 精密ページ アート

0:33

さらに驚異のマイクロマシンポケット

0:34

プレイステーションがそれを発射すると言う場所

0:36

言語翻訳にも対応

0:38

一貫した液体をささやく

0:41

オルタネーターが自動的に鳴ります

0:48

結果と精度は信じられないほどです

0:51

しかし、さらに優れているのは、それがどのように機能するかです

0:53

飛び込みましょう でも最初に私にさせてください

0:56

このエピソードのスポンサーを紹介

0:58

本研究会との関連性が高い

1:00

AI アセンブリ AI は、

1:03

スタートアップからの最先端の AI モデル

1:06

フォーチュン 500 企業の開発者および

1:08

世界中の製品チームが活用

1:10

より良いAIベースを構築するためのアセンブリAI

1:13

製品と機能

1:15

会議要約ポッドキャストの作成

1:17

アナライザーまたは実際に関連するもの

1:19

オーディオまたはビデオで AI を活用したい

1:22

トランスクリプションまたはインサイトを強化する

1:24

スケールは間違いなく彼らのAPIをチェックしてください

1:26

プラットフォーム より具体的には、私がしたかった

1:29

私が要約モデルを共有する

1:31

名前が示すように、本当にクールです

1:34

このモデルを使用すると、次のツールを構築できます。

1:36

音声を自動的に要約し、

1:38

ビデオ ファイル モデルは柔軟に適合します

1:41

あなたのユースケースとにカスタマイズすることができます

1:44

さまざまな要約の種類の箇条書き

1:46

段落の見出しまたはすべてを調整する

1:48

シンプルな API 呼び出しで機能し、

1:51

必要なすべての情報を見つけることができます

1:53

要約モデルとアセンブリ用

1:55

以下の最初のリンクを持つ AI

1:59

モデル自体に関して言えば

2:01

ささやきは非常に古典的であり、その上に構築されています

2:04

Transformer アーキテクチャのスタッキング

2:06

エンコーダーブロックとデコーダーブロック

2:08

注意メカニズムの伝播

2:10

両方の間の情報が必要です

2:13

オーディオ録音はそれを30に分割しました

2:16

2 番目のチャンクを 1 つずつ処理する

2:18

30秒ごとに1つ録音します

2:21

エンコーダーを使用してオーディオをエンコードします

2:23

セクションとそれぞれの位置を保存します

2:25

言葉は言った、そしてこのエンコードされたものを活用する

2:28

使用して言われたことを見つけるための情報

2:30

デコーダーが予測するデコーダー

2:33

これらすべてから私たちがトークンと呼ぶもの

2:34

基本的にそれぞれの情報

2:37

言われた言葉は繰り返される

2:39

すべてを使用して次の単語のこのプロセス

2:41

同じ情報と

2:43

それを助ける前の単語を予測した

2:46

より多くを作る次のものを推測します

2:48

私が言ったように全体的なアーキテクチャ

2:50

は古典的なエンコーダーとデコーダーであり、私は

2:53

に似た複数のビデオでそれをカバーしました

2:55

私が gpt3 と他の言語モデル

2:58

詳細を確認するように招待します

3:00

アーキテクチャの詳細 これはそのまま機能します

3:02

600,000 時間以上のトレーニングを受けた

3:05

多言語およびマルチタスクの監督

3:08

ウェブから収集されたデータは、

3:11

彼らはオーディオモデルを

3:12

データが利用可能な gpt3 と同様の方法

3:15

インターネット上でそれを大きくし、

3:18

一般的なオーディオモデルも作ります

3:20

他のモデルよりもロバストなモデル方法

3:23

彼らがそのささやきに言及した事実

3:24

人間レベルのロバスト性に近づく

3:27

そのような多様なセットでトレーニングされています

3:29

Clips TED Talks に至るまでのデータ

3:32

ポッドキャストのインタビューなど

3:34

実世界のようなデータを表現する

3:36

それらのうち、機械を使用して転写されたもの

3:38

人間ではなく学習ベースのモデル

3:40

そのような不完全なデータを確実に使用する

3:43

可能な精度を低下させますが、私は

3:45

堅牢性に役立つと主張します

3:47

純粋な人間に比べてまばらに使用される

3:49

精選されたオーディオ データ セットと完璧な

3:52

そのような一般的な書き起こし

3:54

モデル自体はそれほど強力ではありません。

3:57

ほとんどのタスクで打ち負かされます

3:58

より小さく、より具体的なモデルの適応

4:01

目の前のタスクに、しかしそれには他のものがあります

4:03

こんな使い方ができるメリット

4:05

事前に訓練されたモデルとそれらを微調整する

4:08

あなたの仕事はあなたが取ることを意味します

4:10

この強力なモデルとパーツの再トレーニング

4:13

それの、または全体を自分で

4:15

この技術が示されたデータ

4:17

開始するよりもはるかに優れたモデルを作成する

4:19

データを使用してゼロからトレーニングし、

4:21

さらにクールなことは、openai が開いていることです。

4:24

彼らのコードとすべてを調達しました

4:25

ささやきを使用できるようにAPIの代わりに

4:28

事前トレーニング済みの基盤アーキテクチャとして

4:30

構築し、より強力なものを作成する

4:33

自分用のモデルを持っている人もいます

4:35

のようなツールをすでにリリースしています。

4:37

YouTube ウィスパラーが抱きしめていない顔 by ジェフ

4:39

YouTube のリンクを取得して入力していて、

4:42

私が見つけた文字起こしの生成

4:44

ヤニック・キルターのおかげで彼らも

4:46

に Google コラボ ノートをリリースしました

4:48

何かをしながらすぐに遊ぶ

4:50

競争が鍵です openai が嬉しいです

4:53

作品の一部を公開

4:54

このようなコラボレーションは、

4:57

私たちの分野で前進するための最良の方法

5:00

あなたがしたいのなら、私はあなたがどう思うか知っています

5:01

openai の公開リリースをもっと見るか、

5:04

あなたは彼らが作る最終製品が好きです

5:06

いつものようにダリーのように、もっと見つけることができます

5:08

論文のささやきに関する情報

5:11

コードは以下にリンクされています。

5:13

このビデオを楽しんだ 次はまた会いましょう

5:15

別の素晴らしい論文との週