paint-brush
テキスト埋め込みの説明: AI が単語を理解する方法@whatsai
2,797 測定値
2,797 測定値

テキスト埋め込みの説明: AI が単語を理解する方法

Louis Bouchard8m2022/12/03
Read on Terminal Reader

長すぎる; 読むには

大規模な言語モデル。 これらの言葉を聞いたことがあるはずです。これらは、言語を理解して生成できる特定の種類の機械学習ベースのアルゴリズムを表しており、自然言語処理または NLP と呼ばれることが多い分野です。 最も有名で強力な言語モデル、GPT-3 について聞いたことがあるでしょう。 GPT-3 について説明したビデオで説明したように、GPT-3 は言語を受け取り、それを理解し、代わりに言語を生成することができます。ただし、ここでは注意してください。それは本当にそれを理解していません。実際、それは理解にはほど遠いです。 GPT-3 やその他の言語ベースのモデルは、私たちが単語の辞書と呼んでいるものを使用して単語を数字として表現し、文内の位置を覚えているだけです。 これらの強力な機械学習モデルに飛び込んで、単語埋め込みと呼ばれる単語の代わりに見えるものと、Cohere が提供する例を使用してそれらを生成する方法を理解しようとしましょう。
featured image - テキスト埋め込みの説明: AI が単語を理解する方法
Louis Bouchard HackerNoon profile picture

大規模な言語モデル。

これらの言葉を聞いたことがあるはずです。それらは、言語を理解して生成できる特定のタイプの機械学習ベースのアルゴリズムを表しており、自然言語処理または NLP と呼ばれることが多い分野です。

最も有名で強力な言語モデルであるについて聞いたことがあるでしょう。

ビデオで説明したように、GPT-3 は言語を受け取り、理解し、代わりに言語を生成することができます。ただし、ここでは注意してください。それは本当に理解していません。実際、理解にはほど遠い。 GPT-3 やその他の言語ベースのモデルは、単語の辞書と呼ばれるものを使用して、単語を数字として表現し、文内の位置を覚えているだけです。

これらの強力な機械学習モデルに飛び込んで、単語埋め込みと呼ばれる単語の代わりに見えるものと、Cohere が提供する例を使用してそれらを生成する方法を理解しようとしましょう。

動画で詳しく...

参考文献

►記事全文を読む: https://www.louisbouchard.ai/text-embedding/
►BERT Word Embeddings チュートリアル: https://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/#why-bert-embeddings
►コード例からの Cohere のノートブック: https://colab.research.google.com/github/cohere-ai/notebooks/blob/main/notebooks/Basic_Semantic_Search.ipynb
►埋め込みに特化した Cohere リポジトリ: https://github.com/cohere-ai/notebooks
►マイ ニュースレター (新しい AI アプリケーションについて毎週メールで説明します!): https://www.louisbouchard.ai/newsletter/

ビデオトランスクリプト

0:07

あなたが聞いたことがあるはずの言語モデル

0:10

これらの単語は、

0:13

特定の種類の機械学習

0:14

理解し、できるアルゴリズム

0:16

しばしば呼ばれる分野の言語を生成する

0:19

自然言語処理または NLP

0:22

あなたは確かに最もよく知られていることを聞いたことがあります

0:24

gpt3 のような強力な言語モデル

0:26

ビデオで説明した gpt3

0:28

それをカバーすることは言語を取ることができます

0:30

それを理解し、言語を生成する

0:33

戻りますが、ここではそうではないことに注意してください

0:35

本当にわかるよ 実は遠い

0:38

gbd3などを理解することから

0:41

言語ベースのモデルは、

0:44

表現する単語の辞書を呼び出す

0:46

数字がその位置を覚えているように

0:49

文の中で、それはそれを使用しています

0:52

少数の数字と位置番号

0:53

彼らができる埋め込みと呼ばれる

0:55

同様の文を再グループ化します。

0:58

彼らは一種のことができることを意味します

1:00

比較して文章を理解する

1:02

私たちのデータセットのような既知の文に

1:05

画像文も同じ処理です

1:07

あなたの文を取るモデル

1:10

彼らが実際に持っていないイメージを生成する

1:11

それを理解するが、彼らはそれを比較することができます

1:13

類似の画像は、ある種の

1:16

あなたの概念の理解

1:18

このビデオの文には、

1:20

それらの強力なマシンを見てください

1:22

学習モデルは言葉の代わりに見る

1:24

と呼ばれる単語の埋め込みとその方法

1:27

によって提供された例でそれらを生成します

1:29

このビデオのスポンサーは素晴らしい

1:31

私がNLP分野の会社に所属している

1:35

動画の最後で話します

1:36

彼らは素晴らしいプラットフォームを持っているので

1:39

埋め込みについて説明した NLP と

1:42

gpt3しかし、2つの間のリンクは何ですか

1:44

放出は、モデルによって見られるものです

1:47

そして、彼らが私たちが知っている言葉をどのように処理するか

1:50

そして、なぜ埋め込みをうまく使うのか

1:53

現在、機械は言葉を処理できず、

1:56

それらを訓練するには数が必要です

1:59

大型モデルのおかげで慎重に

2:01

数学を使用して構築されたデータセット

2:04

埋め込み間の距離を測定する

2:06

これに基づいてネットワークを修正します

2:08

距離を繰り返し取得する

2:10

本当の意味に近い予測

2:12

結果と会議の改善

2:15

また、モデルのようなクリップです

2:17

安定した拡散またはダリはに使用されます

2:19

文章を理解して画像を生成する

2:21

これは、両方の画像を比較することによって行われます

2:24

および同じ埋め込みスペース内のテキスト

2:26

つまり、モデルはそうではありません

2:28

テキストまたは画像のどちらかは理解できますが、

2:31

画像が似ているかどうかを理解できます

2:33

特定のテキストまたはそうでない場合

2:36

トレーニングできる十分な画像キャプションのペア

2:38

ダリのような巨大でパワフルなモデル

2:41

文を取る 埋め込む それを見つける

2:43

最も近いイメージのクローンを作成し、

2:46

戻りますので、テキストによる機械学習は

2:48

埋め込みの比較についてですが、どのように

2:51

それらを取得する埋め込みを取得しますか

2:53

を見つけるために訓練された別のモデルを使用して

2:56

同様の埋め込みを生成する最良の方法

2:58

を保ちながら類似の文を

3:01

似た言葉の意味の違い

3:03

1対1のストレートを使用する場合と比較して

3:06

辞書の文は通常

3:08

特別なトークン マーキングで表される

3:10

私たちのテキストの最初と最後

3:13

私が言ったように、私たちはすべてから私たちのポーズを持っています

3:15

位置を示す埋め込み

3:17

相互に関連する各単語の

3:19

正弦関数をよく使う I

3:22

これに関する素晴らしい記事を

3:25

詳細を知りたい場合は説明

3:26

最後に、単語の埋め込みがあります

3:29

すべての単語が分割されていることから始めます

3:31

単語の表のように配列に

3:34

今からもう言葉はない

3:36

それらは単なるトークンまたは数字です

3:40

あなたが見ることができる英語辞書全体

3:42

ここにすべての言葉が今ある

3:44

場所を示す数字で表される

3:46

それらは辞書にあるため、

3:49

Bank even という単語の同じ番号

3:51

それらの意味は異なりますが

3:53

私たちが今持っている文を追加する必要があります

3:56

それには少し知性がありますが、

3:58

のおかげでこれが行われることはあまりありません

4:00

この新しいリストを取るように訓練されたモデル

4:03

数値に変換し、さらにエンコードします

4:05

より良い数字の別のリスト

4:08

文を表す、例えば it

4:10

同じ埋め込みはもうありません

4:13

ここの銀行の2つの単語はこれです

4:15

モデルが以前に行っていたため、可能です

4:17

多くの訓練を受けている

4:19

テキストデータに注釈をつけて学んだ

4:21

の隣に同様の意味の文をエンコードする

4:24

お互いに反対の文

4:27

お互いからこうして私たちを可能にします

4:29

埋め込みの偏りを少なくする

4:31

単語の選択、最初のシンプル

4:34

1 対 1 の単語の埋め込み

4:37

イメージングを使用すると、次のようになります

4:39

非常に短いNLPの例のように

4:42

詳細については、以下のリンクを参照してください。

4:44

埋め込みとそれを自分でコーディングする方法

4:46

ここでは、Hacker News の投稿を取り上げます。

4:49

モデル ラベルを作成して、

4:51

新しい入力の最も類似した投稿

4:53

文を開始するには、データセットが必要です

4:56

この場合、事前に埋め込まれたセットです

4:58

すでに 3000 件の Hacker News 投稿

5:01

数値に放出されてから構築します

5:04

これらすべての埋め込みを保存するメモリ

5:07

将来の比較 私たちは基本的にただ

5:09

これらの埋め込みを効率的な方法で保存しました

5:11

たとえば、新しいクエリが実行されたときの方法

5:13

ここであなたの最も深遠なものは何かを尋ねます

5:16

あなたの内側の生命は、その生成することができます

5:18

同じ埋め込みを使用した埋め込み

5:20

ネットワーク 通常は鳥またはバージョン

5:23

距離を比較します

5:25

埋め込みスペースと他のすべてのスペースの間

5:27

Hacker News のメモリノートへの投稿

5:30

ここで重要なのは

5:32

常に同じネットワークを使用するかどうか

5:34

データセットの生成またはクエリ用

5:36

私が言ったように、それは本物ではありません

5:38

ここでの知性も、それが実際に

5:40

今までの言葉を理解する

5:42

同様の文を埋め込むように訓練された

5:45

無人スペースで近くに何もない

5:47

あなたの文章を

5:50

生成する別のネットワーク

5:51

埋め込みと埋め込みを比較する

5:53

別のネットワークから持っていたもの

5:55

何も機能しません

5:58

私に話しかけようとする素敵な人々

5:59

先週のeccvでヘブライ語で

6:02

私の脳の埋め込み空間にはありませんでした

6:04

幸いなことに、私たちの

6:06

脳は1つから転送することを学ぶことができます

6:08

私ができるようにスペースを別のものに埋め込む

6:11

フランス語と英語ですが、多くのことが必要です

6:13

仕事も練習も同じ

6:16

とにかく私たちに戻ってくるマシンのために

6:18

最も類似した問題を見つけることができました

6:21

かなりクールな投稿ですが、どうすればできますか

6:23

私が述べたように、私たちはこれを達成します

6:25

これでネットワークが誕生したため

6:28

同様のものを作成することを学習する場合

6:30

可能な類似文からの埋め込み

6:32

のように 2 次元で視覚化することもできます

6:35

ここで、2 つの類似点を確認できます

6:37

ポイントは、あなたが類似した主題を表します

6:39

あなたが持っていると、他の多くのことができます

6:41

抽出のような埋め込み

6:43

セマンティック検索を実行するキーワード

6:45

感情分析を行ったり、

6:47

私たちが言ったように画像を生成し、

6:49

私が持っている以前のビデオで実証

6:52

それらをカバーし、リストされている多くのビデオ

6:55

学ぶべきいくつかの興味深いノートブック

6:57

cohere のおかげでエンコーディングで遊ぶ

6:59

チームについて少し話させてください

7:02

kohilu との関連性が高いため

7:05

このビデオクックはここで提供します

7:07

あなたが働いている場合に必要なものすべて

7:09

スーパーを含むNLP分野で

7:11

埋め込みモデルを使用する簡単な方法

7:14

あなたのアプリケーションは文字通り

7:16

なしでテキストを埋め込むことができる API 呼び出し

7:18

埋め込み方法について何でも知っている

7:21

モデルはAPIがあなたのためにそれを行います

7:23

ここで背景を見ることができます

7:25

を使用するセマンティック検索ノートブック

7:27

の埋め込みを作成する cohere API

7:30

質問と質問のアーカイブ

7:32

後で検索を実行するクエリ

7:34

ここでクックを使用して同様の質問をします

7:37

テキストに関することなら何でも簡単にできる

7:39

生成する 分類して整理する

7:42

統合できるほぼすべてのスケール

7:44

訓練された大規模な言語モデル

7:46

数行の数十億の単語

7:48

コードであり、どのライブラリでも機能します

7:51

機械学習のスキルも必要ありません

7:53

始めるために、彼らは学習さえしています

7:55

最近の cohere のようなリソース

7:57

私が本当に好きなaiの色プログラム

8:00

このプログラムは素晴らしいです

8:01

NLP の新たな才能の機会

8:04

選ばれたら世界中をリサーチ

8:06

あなたは彼らのチームと一緒に働きます

8:08

大規模な

8:10

実験的枠組みと一貫性

8:12

私もかなりクールな専門家

8:15

彼らの偉大な Discord に参加するようにあなたを招待します

8:17

Co Unity I と名付けられたコミュニティ

8:21

このビデオを楽しんでいただければ幸いです。

8:23

で cohere を試してみてください

8:25

以下の最初のリンク

8:27

ご利用いただきありがとうございます。

8:29

ビデオ全体を見て、ありがとう

8:31

を残して私の仕事をサポートしてくれる人

8:33

コメントのように、またはスポンサーを試してみてください

8:36

私がこれらのビデオのために厳選した