paint-brush
Giải thích về nhúng văn bản: Cách AI hiểu các từtừ tác giả@whatsai
2,797 lượt đọc
2,797 lượt đọc

Giải thích về nhúng văn bản: Cách AI hiểu các từ

từ tác giả Louis Bouchard8m2022/12/03
Read on Terminal Reader

dài quá đọc không nổi

Các mô hình ngôn ngữ lớn. Chắc hẳn bạn đã từng nghe những từ này trước đây. Chúng đại diện cho một loại thuật toán dựa trên máy học cụ thể hiểu và có thể tạo ra ngôn ngữ, một lĩnh vực thường được gọi là xử lý ngôn ngữ tự nhiên hoặc NLP. Bạn chắc chắn đã nghe nói về mô hình ngôn ngữ mạnh mẽ và nổi tiếng nhất: GPT-3. GPT-3, như tôi đã mô tả trong video về nó, có thể nhận ngôn ngữ, hiểu ngôn ngữ đó và đổi lại tạo ra ngôn ngữ. Nhưng hãy cẩn thận ở đây; nó không thực sự hiểu nó. Trên thực tế, nó còn lâu mới hiểu được. GPT-3 và các mô hình dựa trên ngôn ngữ khác chỉ sử dụng cái mà chúng tôi gọi là từ điển từ để biểu thị chúng dưới dạng số, ghi nhớ vị trí của chúng trong câu và chỉ có thế. Hãy đi sâu vào các mô hình máy học mạnh mẽ đó và cố gắng hiểu những gì chúng nhìn thấy thay vì các từ, được gọi là nhúng từ và cách tạo ra chúng bằng một ví dụ do Cohere cung cấp.
featured image - Giải thích về nhúng văn bản: Cách AI hiểu các từ
Louis Bouchard HackerNoon profile picture

Các mô hình ngôn ngữ lớn.

Bạn phải đã nghe những từ này trước đây. Chúng đại diện cho một loại thuật toán dựa trên máy học cụ thể hiểu và có thể tạo ra ngôn ngữ, một lĩnh vực thường được gọi là xử lý ngôn ngữ tự nhiên hoặc NLP.

Bạn chắc chắn đã nghe nói về mô hình ngôn ngữ mạnh mẽ và nổi tiếng nhất: .

GPT-3, như tôi đã mô tả trong video giới thiệu, nó có thể nhận ngôn ngữ, hiểu ngôn ngữ đó và đổi lại là tạo ra ngôn ngữ. Nhưng hãy cẩn thận ở đây; nó không thực sự hiểu nó. Trên thực tế, nó còn lâu mới hiểu được. GPT-3 và các mô hình dựa trên ngôn ngữ khác chỉ sử dụng cái mà chúng tôi gọi là từ điển từ để biểu thị chúng dưới dạng số, ghi nhớ vị trí của chúng trong câu và chỉ có thế.

Hãy đi sâu vào các mô hình máy học mạnh mẽ đó và cố gắng hiểu những gì chúng nhìn thấy thay vì các từ, được gọi là nhúng từ và cách tạo ra chúng bằng một ví dụ do Cohere cung cấp.

Tìm hiểu thêm trong video...

Người giới thiệu

►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/text-embedding/
►BERT Hướng dẫn nhúng Word: https://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/#why-bert-embeddings
►Cohere's Notebook từ ví dụ mã: https://colab.research.google.com/github/cohere-ai/notebooks/blob/main/notebooks/Basic_Semantic_Search.ipynb
►Cohere Repos tập trung vào nhúng: https://github.com/cohere-ai/notebooks
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): https://www.louisbouchard.ai/newsletter/

Bản ghi video

0:07

mô hình ngôn ngữ bạn phải đã nghe

0:10

những từ này trước khi chúng đại diện cho một

0:13

loại máy học cụ thể

0:14

các thuật toán hiểu và có thể

0:16

tạo ngôn ngữ một trường thường được gọi là

0:19

xử lý ngôn ngữ tự nhiên hoặc NLP

0:22

bạn chắc chắn đã nghe nói về điều được biết đến nhiều nhất

0:24

và các mô hình ngôn ngữ mạnh mẽ như gpt3

0:26

gpt3 như tôi đã mô tả trong video

0:28

che nó là có thể lấy ngôn ngữ

0:30

hiểu nó và tạo ra ngôn ngữ trong

0:33

trở lại nhưng hãy cẩn thận ở đây nó không

0:35

thực sự hiểu nó trong thực tế nó là xa

0:38

từ sự hiểu biết gbd3 và khác

0:41

các mô hình dựa trên ngôn ngữ chỉ sử dụng những gì chúng ta

0:44

gọi từ điển các từ để đại diện

0:46

chúng như những con số ghi nhớ vị trí của chúng

0:49

trong câu và đó là nó sử dụng một

0:52

số ít và số vị trí

0:53

được gọi là nhúng họ có thể

0:55

tập hợp lại các câu tương tự mà cũng

0:58

có nghĩa là họ có thể loại

1:00

hiểu câu bằng cách so sánh chúng

1:02

đến các câu đã biết như tập dữ liệu của chúng tôi

1:05

đó là quá trình tương tự cho câu hình ảnh

1:07

các mô hình đưa câu của bạn đến

1:10

tạo ra một hình ảnh họ không thực sự

1:11

hiểu nó nhưng họ có thể so sánh nó với

1:13

hình ảnh tương tự tạo ra một số loại

1:16

sự hiểu biết về các khái niệm trong

1:18

câu trong video này chúng ta sẽ có một

1:20

nhìn xem những cỗ máy mạnh mẽ đó là gì

1:22

mô hình học tập xem thay lời nói

1:24

được gọi là nhúng từ và làm thế nào để

1:27

sản xuất chúng với một ví dụ được cung cấp bởi

1:29

nhà tài trợ của video này rất tuyệt

1:31

công ty trong lĩnh vực NLP cohere mà tôi

1:35

sẽ nói về cuối video

1:36

vì họ có một nền tảng tuyệt vời cho

1:39

NLP chúng ta đã nói về nhúng và

1:42

gpt3 nhưng liên kết giữa hai cái là gì

1:44

phát ra là những gì được nhìn thấy bởi các mô hình

1:47

và cách họ xử lý những từ mà chúng ta biết

1:50

và tại sao nên sử dụng nhúng tốt vì như

1:53

của bây giờ máy không thể xử lý các từ và

1:56

chúng ta cần những con số để đào tạo những

1:59

mô hình lớn nhờ cẩn thận của chúng tôi

2:01

tập dữ liệu được xây dựng, chúng ta có thể sử dụng toán học để

2:04

đo khoảng cách giữa các lần nhúng

2:06

và sửa Mạng của chúng tôi dựa trên điều này

2:08

khoảng cách lặp đi lặp lại nhận được của chúng tôi

2:10

dự đoán gần với ý nghĩa thực

2:12

và cải thiện kết quả và các cuộc họp

2:15

cũng là điều mà các người mẫu thích clip

2:17

khuếch tán ổn định hoặc Dali được sử dụng để

2:19

hiểu câu và tạo ra hình ảnh

2:21

điều này được thực hiện bằng cách so sánh cả hai hình ảnh

2:24

và văn bản trong cùng một không gian nhúng

2:26

nghĩa là mô hình không

2:28

hiểu văn bản hoặc hình ảnh nhưng nó

2:31

có thể hiểu nếu một hình ảnh tương tự như

2:33

một văn bản cụ thể hay không nếu chúng ta tìm thấy

2:36

đủ các cặp chú thích hình ảnh chúng ta có thể đào tạo

2:38

một mô hình khổng lồ và mạnh mẽ như Dali để

2:41

lấy một câu nhúng nó tìm thấy nó

2:43

sao chép hình ảnh gần nhất và tạo nó trong

2:46

trở lại để máy học với văn bản là

2:48

tất cả về so sánh nhúng nhưng làm thế nào

2:51

chúng ta có nhận được những phần nhúng đó không, chúng ta có được chúng không

2:53

sử dụng một mô hình khác được đào tạo để tìm

2:56

cách tốt nhất để tạo các nhúng tương tự

2:58

cho các câu tương tự trong khi vẫn giữ

3:01

sự khác biệt về ý nghĩa cho các từ tương tự

3:03

so với việc sử dụng một thẳng cho một

3:06

từ điển các câu thường là

3:08

đại diện với đánh dấu mã thông báo đặc biệt

3:10

phần đầu và phần cuối của văn bản của chúng tôi sau đó

3:13

như tôi đã nói chúng tôi có tư thế của chúng tôi từ tất cả

3:15

nhúng chỉ ra vị trí

3:17

của mỗi từ liên quan đến nhau

3:19

thường sử dụng hàm sin I

3:22

liên kết một bài viết tuyệt vời về điều này trong

3:25

mô tả nếu bạn muốn tìm hiểu thêm

3:26

cuối cùng chúng tôi có từ nhúng chúng tôi

3:29

bắt đầu với tất cả các từ của chúng tôi được chia

3:31

thành một mảng giống như một bảng từ

3:34

bắt đầu từ bây giờ không còn từ nào nữa

3:36

chúng chỉ là mã thông báo hoặc số từ

3:40

toàn bộ từ điển tiếng Anh bạn có thể xem

3:42

ở đây tất cả các từ bây giờ là

3:44

đại diện bởi một số cho biết nơi

3:46

họ đang ở trong từ điển do đó có

3:49

cùng một số cho từ Ngân hàng chẵn

3:51

mặc dù ý nghĩa của chúng là khác nhau trong

3:53

câu chúng ta có bây giờ chúng ta cần thêm

3:56

một chút thông minh cho điều đó nhưng

3:58

không quá nhiều điều này được thực hiện nhờ một

4:00

mô hình được đào tạo để nhận danh sách mới này

4:03

số và tiếp tục mã hóa nó thành

4:05

một danh sách các số khác tốt hơn

4:08

đại diện cho câu ví dụ nó

4:10

sẽ không còn có cùng nhúng

4:13

đối với hai từ ngân hàng ở đây đây là

4:15

có thể bởi vì mô hình được sử dụng để làm

4:17

mà đã được đào tạo trên rất nhiều

4:19

dữ liệu văn bản được chú thích và học cách

4:21

mã hóa các câu có nghĩa tương tự bên cạnh

4:24

nhau và đối nhau câu xa

4:27

từ nhau do đó cho phép chúng tôi

4:29

nhúng ít bị sai lệch hơn bởi chúng tôi

4:31

lựa chọn từ sau đó đơn giản ban đầu

4:34

ban đầu chúng tôi nhúng một cho một từ

4:37

đây là những gì sử dụng hình ảnh trông

4:39

như trong một ví dụ NLP rất ngắn ở đó

4:42

có nhiều liên kết dưới đây để tìm hiểu thêm về

4:44

nhúng và cách tự viết mã

4:46

ở đây chúng tôi sẽ lấy một số bài đăng của Hacker News

4:49

và xây dựng nhãn mô hình để truy xuất

4:51

bài đăng tương tự nhất của một đầu vào mới

4:53

câu để bắt đầu chúng ta cần một bộ dữ liệu trong

4:56

trường hợp này nó là một bộ nhúng sẵn

4:58

3000 bài đăng Hacker News đã có

5:01

được phát ra thành số sau đó chúng tôi xây dựng

5:04

một bộ nhớ lưu tất cả các phần nhúng đó cho

5:07

so sánh trong tương lai chúng tôi về cơ bản chỉ

5:09

đã lưu các phần nhúng này một cách hiệu quả

5:11

cách khi một truy vấn mới được thực hiện chẳng hạn

5:13

ở đây hỏi điều sâu sắc nhất của bạn là gì

5:16

cuộc sống bên trong bạn có thể tạo ra nó

5:18

nhúng sử dụng cùng một nhúng

5:20

Mạng thường nó là con chim hay bản

5:23

của nó và chúng tôi so sánh khoảng cách

5:25

giữa không gian nhúng với tất cả các không gian khác

5:27

Hacker News đăng bài trong ghi chú bộ nhớ của chúng tôi

5:30

rằng nó thực sự quan trọng ở đây để

5:32

luôn sử dụng cùng một mạng dù cho

5:34

tạo tập dữ liệu của bạn hoặc để truy vấn

5:36

nó như tôi đã nói không có thật

5:38

trí thông minh ở đây cũng không phải là nó thực sự

5:40

hiểu những lời vừa rồi

5:42

được đào tạo để nhúng các câu tương tự

5:45

gần đó trong không gian không người lái không có gì

5:47

nhiều hơn nếu bạn gửi câu của bạn đến một

5:50

mạng khác nhau để tạo ra một

5:51

nhúng và so sánh nhúng với

5:53

những cái bạn có từ một Mạng khác

5:55

không có gì sẽ làm việc nó sẽ giống như

5:58

những người tốt bụng cố nói chuyện với tôi

5:59

bằng tiếng Do Thái tại eccv tuần trước nó chỉ

6:02

không ở trong một không gian nhúng bộ não của tôi

6:04

có thể hiểu may mắn thay cho chúng tôi

6:06

não có thể học cách chuyển từ một

6:08

nhúng không gian vào không gian khác như tôi có thể với

6:11

tiếng Pháp và tiếng Anh nhưng nó đòi hỏi rất nhiều

6:13

của công việc và thực hành và nó giống nhau

6:16

cho các máy dù sao cũng quay trở lại với chúng tôi

6:18

vấn đề chúng ta có thể tìm thấy tương tự nhất

6:21

bài viết khá hay nhưng sao có thể

6:23

chúng tôi đạt được điều này như tôi đã đề cập

6:25

vì mạng sanh trong này

6:28

trường hợp nó học cách tạo ra tương tự

6:30

nhúng từ các câu tương tự chúng ta có thể

6:32

thậm chí hình dung nó trong hai chiều như

6:35

đây là nơi bạn có thể thấy hai người giống nhau như thế nào

6:37

điểm đại diện cho các đối tượng tương tự bạn

6:39

có thể làm nhiều việc khác một khi bạn có

6:41

những phần nhúng đó như giải nén

6:43

từ khóa thực hiện tìm kiếm ngữ nghĩa

6:45

làm phân tích tình cảm hoặc thậm chí

6:47

tạo ra hình ảnh như chúng ta đã nói và

6:49

đã chứng minh trong các video trước tôi có một

6:52

rất nhiều video bao gồm những điều đó và được liệt kê

6:55

một vài cuốn sổ tay thú vị để học

6:57

chơi với mã hóa nhờ sự gắn kết

6:59

nhóm bây giờ hãy để tôi nói một chút về

7:02

kohilu vì chúng rất phù hợp với

7:05

video nấu ăn này ở đây cung cấp một

7:07

mọi thứ bạn cần nếu bạn đang làm việc

7:09

trong lĩnh vực NLP bao gồm một siêu

7:11

cách đơn giản để sử dụng các mô hình nhúng trong

7:14

ứng dụng của bạn theo nghĩa đen chỉ với một

7:16

lệnh gọi API, bạn có thể nhúng văn bản mà không cần

7:18

biết bất cứ điều gì về cách nhúng

7:21

mô hình hoạt động API sẽ làm điều đó cho bạn trong

7:23

nền ở đây bạn có thể thấy

7:25

sổ ghi chép tìm kiếm ngữ nghĩa sử dụng

7:27

cohere API để tạo nhúng của một

7:30

kho lưu trữ các câu hỏi và câu hỏi

7:32

truy vấn để sau này thực hiện tìm kiếm của

7:34

câu hỏi tương tự sử dụng cook ở đây bạn

7:37

có thể dễ dàng làm bất cứ điều gì liên quan đến văn bản

7:39

tạo phân loại và tổ chức tại

7:42

gần như bất kỳ quy mô nào bạn có thể tích hợp

7:44

mô hình ngôn ngữ lớn được đào tạo trên

7:46

hàng tỷ từ với một vài dòng

7:48

mã và nó hoạt động trong bất kỳ Thư viện nào bạn

7:51

thậm chí không cần kỹ năng học máy

7:53

để bắt đầu họ thậm chí còn phải học

7:55

tài nguyên như cohere gần đây cho

7:57

chương trình màu sắc của ai mà tôi thực sự thích

8:00

chương trình này là một điều đáng kinh ngạc

8:01

cơ hội cho những tài năng mới nổi trong NLP

8:04

nghiên cứu trên toàn thế giới nếu được chọn

8:06

bạn sẽ làm việc cùng với nhóm của họ

8:08

và có quyền truy cập vào một quy mô lớn

8:10

khuôn khổ thử nghiệm và sự gắn kết

8:12

các chuyên gia khá tuyệt, tôi cũng vậy

8:15

mời bạn tham gia Discord tuyệt vời của họ

8:17

Cộng đồng khéo léo gọi là Co Unity I

8:21

hy vọng bạn thích video này và sẽ

8:23

thử kết hợp cho chính mình với

8:25

liên kết đầu tiên bên dưới tôi chắc chắn bạn sẽ

8:27

được hưởng lợi từ nó cảm ơn bạn rất nhiều vì

8:29

xem toàn bộ video và cảm ơn

8:31

bất cứ ai hỗ trợ công việc của tôi bằng cách để lại một

8:33

thích bình luận hoặc thử các nhà tài trợ của chúng tôi

8:36

mà tôi chọn lọc cẩn thận cho những video này