paint-brush
AI làm trung tâm dữ liệu là gì?từ tác giả@whatsai
932 lượt đọc
932 lượt đọc

AI làm trung tâm dữ liệu là gì?

từ tác giả Louis Bouchard6m2022/07/09
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

Dữ liệu rất quan trọng trong lĩnh vực của chúng tôi và các mô hình của chúng tôi cực kỳ ngốn dữ liệu. Việc cung cấp hình ảnh không đại diện cho thế giới thực sẽ không có ích lợi gì và làm giảm khả năng khái quát hóa của mô hình. Đây là nơi mà trung tâm dữ liệu phát huy tác dụng ... Tìm hiểu thêm trong video: Bạn càng có nhiều dữ liệu thì càng tốt. Vì vậy, bạn cần mở rộng quy mô các mô hình đó, đặc biệt là đối với các ứng dụng trong thế giới thực, đặc biệt là áp dụng trong thế giới thực.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - AI làm trung tâm dữ liệu là gì?
Louis Bouchard HackerNoon profile picture

Điều làm cho GPT-3Dalle trở nên mạnh mẽ giống hệt nhau: Dữ liệu.

Dữ liệu rất quan trọng trong lĩnh vực của chúng tôi và các mô hình của chúng tôi cực kỳ ngốn dữ liệu. Các mô hình lớn này, mô hình ngôn ngữ cho GPT hoặc mô hình hình ảnh cho Dalle, đều yêu cầu giống nhau: quá nhiều dữ liệu.

Bạn càng có nhiều dữ liệu thì càng tốt. Vì vậy, bạn cần mở rộng quy mô các mô hình đó, đặc biệt là đối với các ứng dụng trong thế giới thực.

Các mô hình lớn hơn có thể sử dụng bộ dữ liệu lớn hơn để cải thiện chỉ khi dữ liệu có chất lượng cao.

Việc cung cấp những hình ảnh không đại diện cho thế giới thực sẽ không có tác dụng gì và thậm chí còn làm xấu đi khả năng khái quát của mô hình. Đây là lúc AI tập trung vào dữ liệu phát huy tác dụng ...

Tìm hiểu thêm trong video:

Người giới thiệu

►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/data-centric-ai/
► AI tập trung vào dữ liệu: https://snorkel.ai/data-centric-ai
► Giám sát yếu: https://snorkel.ai/weak-supervision/
► Ghi nhãn theo chương trình: https://snorkel.ai/programmatic-labeling/
►Danh sách tài nguyên bão hòa cho AI làm trung tâm dữ liệu: https://github.com/hazyresearch/data-centric-ai
►Tìm hiểu thêm về Snorkel: https://snorkel.ai/company/
►Từ lấy mô hình làm trung tâm đến AI làm trung tâm dữ liệu - Andrew Ng:
►Software 2.0: https://hazyresearch.stanford.edu/blog/2020-02-28-software2
►Paper 1: Ratner, AJ, De Sa, CM, Wu, S., Selsam, D. and Ré, C.,
2016. Lập trình dữ liệu: Tạo các tập huấn luyện lớn, nhanh chóng. Những tiến bộ
trong hệ thống xử lý thông tin thần kinh, 29.
►Paper 2: Ratner, A., Bach, SH, Ehrenberg, H., Fries, J., Wu, S. và
Ré, C., 2017, tháng 11. Ống thở: Tạo dữ liệu đào tạo nhanh chóng nhưng yếu
sự giám sát. Trong Kỷ yếu VLDB Endowment. Quốc tế
Hội nghị về Cơ sở Dữ liệu Rất lớn (Tập 11, Số 3, trang 269). NIH Public
Truy cập.
►Paper 3: Ré, C. (2018). Phần mềm 2.0 và ống thở: Beyond Hand-Labeled
Dữ liệu. Kỷ yếu Hội nghị Quốc tế ACM SIGKDD lần thứ 24 về
Khám phá kiến thức & Khai thác dữ liệu.
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/

Bản ghi video

0:00

điều gì làm cho gpt3 và delhi trở nên mạnh mẽ là

0:03

chính xác thì dữ liệu dữ liệu giống nhau

0:06

quan trọng trong lĩnh vực của chúng tôi và các mô hình của chúng tôi là

0:08

cực kỳ đói dữ liệu những mô hình lớn này

0:11

mô hình ngôn ngữ cho gpt hoặc hình ảnh

0:13

các mô hình cho delhi đều yêu cầu giống nhau

0:15

Điều

0:16

quá nhiều dữ liệu tiếc là càng nhiều

0:19

dữ liệu bạn có càng tốt vì vậy bạn

0:21

đặc biệt cần mở rộng quy mô các mô hình đó

0:24

cho các ứng dụng trong thế giới thực lớn hơn

0:26

các mô hình có thể sử dụng bộ dữ liệu lớn hơn để

0:28

chỉ cải thiện nếu dữ liệu cao

0:30

hình ảnh cho ăn chất lượng không

0:32

đại diện cho thế giới thực sẽ không có

0:34

sử dụng và thậm chí làm xấu đi khả năng của mô hình

0:37

để khái quát hóa, đây là nơi tập trung dữ liệu

0:39

ai cũng tham gia chơi dữ liệu làm trung tâm

0:43

được gọi là phần mềm 2.0 chỉ là một

0:46

cách nói ưa thích rằng chúng tôi tối ưu hóa

0:48

dữ liệu để tối đa hóa mô hình

0:50

biểu diễn thay vì lấy người mẫu làm trung tâm

0:52

nơi bạn sẽ chỉ chỉnh sửa mô hình

0:54

tất nhiên là các tham số trên một tập dữ liệu cố định

0:57

cả hai đều cần phải được thực hiện để có những điều tốt nhất

0:59

kết quả khả thi nhưng dữ liệu cho đến nay là

1:02

trình phát lớn hơn ở đây trong video này trong

1:04

hợp tác với ống thở, tôi sẽ bao gồm

1:06

trung tâm dữ liệu ai là gì và xem xét một số

1:09

những tiến bộ lớn trong lĩnh vực bạn sẽ

1:11

nhanh chóng hiểu tại sao dữ liệu lại như vậy

1:13

quan trọng trong học máy là

1:15

nhiệm vụ của snorkel lấy một trích dẫn từ

1:17

bài đăng trên blog của họ được liên kết bên dưới các đội sẽ

1:19

thường dành thời gian viết các mô hình mới

1:21

thay vì hiểu vấn đề của họ

1:23

và biểu hiện của nó trong dữ liệu sâu hơn

1:26

viết một mô hình mới là một cái đẹp

1:28

nơi ẩn náu để trốn khỏi mớ hỗn độn của

1:30

hiểu các vấn đề thực tế và điều này

1:33

là mục đích của video này để chống lại một

1:36

câu mục tiêu của trung tâm dữ liệu ai là

1:38

để mã hóa kiến thức từ dữ liệu của chúng tôi thành

1:40

mô hình bằng cách tối đa hóa dữ liệu

1:42

chất lượng và hiệu suất của mô hình tất cả

1:45

bắt đầu vào năm 2016 tại stanford với một bài báo

1:48

được gọi là lập trình dữ liệu tạo ra

1:51

bộ đào tạo nhanh chóng giới thiệu một

1:54

mô hình để dán nhãn tập dữ liệu đào tạo

1:56

lập trình thay vì bằng tay

1:58

đây là một sự vĩnh cửu trước đây về mặt ai

2:01

tuổi nghiên cứu mà bạn biết rõ nhất

2:04

phương pháp tiếp cận sử dụng ngày được giám sát

2:05

tìm hiểu một quy trình trong đó các mô hình đào tạo

2:08

trên dữ liệu và nhãn và học cách

2:10

tái tạo các nhãn khi được cung cấp dữ liệu

2:13

ví dụ, bạn sẽ cung cấp cho một mô hình nhiều

2:15

hình ảnh của vịt và mèo với

2:17

các nhãn tương ứng và yêu cầu mô hình

2:20

tìm hiểu những gì trong hình ảnh sau đó sử dụng

2:23

tuyên truyền trở lại để đào tạo mô hình

2:25

dựa trên mức độ thành công của nó nếu bạn

2:27

không quen với việc truyền lại tôi

2:29

mời các bạn tạm dừng video để xem

2:31

lời giải thích một phút của tôi và trở lại

2:33

nơi bạn đã dừng lại với tư cách là tập dữ liệu

2:35

lớn hơn và lớn hơn nó trở nên

2:37

ngày càng khó quản lý chúng

2:39

và xóa dữ liệu có hại để cho phép

2:41

mô hình để chỉ tập trung vào dữ liệu có liên quan bạn

2:44

không muốn đào tạo mô hình của bạn để phát hiện

2:46

một con mèo khi nó là một con chồn hôi nó có thể kết thúc

2:48

thật tệ khi tôi tham khảo dữ liệu, hãy ghi nhớ

2:51

rằng nó có thể là bất kỳ loại dữ liệu nào được lập bảng

2:53

hình ảnh, video văn bản, v.v. bây giờ bạn có thể

2:57

dễ dàng tải xuống một phương thức cho bất kỳ tác vụ nào

2:59

chuyển sang cải tiến dữ liệu và

3:01

tối ưu hóa là động cơ không thể tránh khỏi

3:03

tính khả dụng của quy mô dữ liệu gần đây

3:05

bộ và các mô hình cds phụ thuộc vào dữ liệu

3:08

có là lý do tại sao một mô hình như vậy cho

3:10

dán nhãn tập dữ liệu đào tạo

3:12

lập trình trở nên cần thiết

3:14

bây giờ vấn đề chính là có

3:17

nhãn cho dữ liệu của chúng tôi thật dễ dàng để có

3:19

hàng ngàn hình ảnh của mèo và chó nhưng

3:22

khó hơn nhiều để biết hình ảnh nào

3:24

có một con mèo và những hình ảnh nào có một con mèo

3:26

và thậm chí khó có chính xác

3:28

các vị trí trong hình ảnh để phân đoạn

3:31

nhiệm vụ chẳng hạn

3:32

bài báo đầu tiên giới thiệu một dữ liệu

3:34

khung lập trình nơi người dùng

3:36

kỹ sư ml hoặc nhà khoa học dữ liệu

3:38

thể hiện các chiến lược giám sát yếu kém như

3:41

ghi nhãn các chức năng bằng cách sử dụng

3:43

mô hình gắn nhãn các tập con dữ liệu

3:46

và nhận thấy rằng lập trình dữ liệu có thể

3:48

một cách dễ dàng hơn cho những người không phải là chuyên gia

3:51

mô hình học máy khi đào tạo

3:53

dữ liệu bị hạn chế hoặc không có sẵn trong thời gian ngắn

3:56

họ cho thấy cách cải thiện dữ liệu mà không có

3:58

nhiều công việc bổ sung trong khi vẫn giữ

4:00

mô hình hóa các kết quả cải thiện giống nhau, đó là

4:03

một bước đi hiển nhiên nhưng cần thiết

4:05

đá nó thực sự thú vị

4:07

bài báo nền tảng trong lĩnh vực này và giá trị

4:09

đọc

4:10

bài báo thứ hai mà chúng tôi đề cập ở đây được gọi là

4:12

snorkel tạo dữ liệu đào tạo nhanh chóng

4:15

với sự giám sát yếu kém bài báo này

4:17

xuất bản một năm sau đó cũng từ

4:19

đại học stanford trình bày một

4:22

lớp giao diện để viết nhãn

4:24

các chức năng dựa trên kinh nghiệm tiếp tục

4:27

với ý tưởng rằng dữ liệu đào tạo là

4:28

ngày càng lớn và khó

4:30

nhãn gây tắc nghẽn trong các mô hình

4:33

biểu diễn họ giới thiệu ống thở một

4:36

hệ thống thực hiện trước đó

4:37

giấy trong một hệ thống end-to-end hệ thống

4:40

cho phép các chuyên gia kiến thức mọi người

4:42

hiểu rõ nhất về dữ liệu để dễ dàng

4:44

xác định các chức năng ghi nhãn để

4:46

tự động gắn nhãn dữ liệu thay vì

4:48

làm chú thích bằng tay xây dựng mô hình

4:51

nhanh hơn 2,8 lần trong khi cũng

4:54

tăng hiệu suất dự đoán bằng cách

4:56

trung bình là 45,5 phần trăm như vậy một lần nữa

5:00

ghi nhãn mà người dùng hoặc kiến thức

5:03

các chuyên gia viết các chức năng ghi nhãn những

5:05

chỉ đơn giản là cung cấp thông tin chi tiết về

5:07

mô hình trên các mẫu để tìm kiếm hoặc

5:10

bất cứ thứ gì chuyên gia sẽ sử dụng để phân loại

5:12

dữ liệu giúp mô hình tuân theo

5:14

cùng một quy trình sau đó hệ thống áp dụng

5:17

chức năng ghi nhãn mới được viết trên

5:19

dữ liệu chưa được gắn nhãn của chúng tôi và tìm hiểu

5:21

mô hình tổng hợp để kết hợp đầu ra

5:24

nhãn thành nhãn xác suất

5:26

sau đó được sử dụng để đào tạo sâu cuối cùng của chúng tôi

5:29

ống thở mạng thần kinh thực hiện tất cả điều này bằng cách

5:32

chính nó tạo điều kiện cho toàn bộ quá trình này

5:35

lần đầu tiên

5:36

bài báo cuối cùng của chúng tôi cũng từ stanford

5:39

một năm sau giới thiệu phần mềm

5:42

2.0 tờ giấy một trang này lại một lần nữa

5:45

đẩy về phía trước với cùng độ sâu

5:47

học cách tiếp cận tập trung vào dữ liệu bằng cách sử dụng

5:49

chức năng ghi nhãn để sản xuất đào tạo

5:51

nhãn cho các tập dữ liệu lớn không được gắn nhãn và

5:54

đào tạo mô hình cuối cùng của chúng tôi là

5:56

đặc biệt hữu ích cho internet khổng lồ

5:59

các tập dữ liệu cóp nhặt như tập dữ liệu được sử dụng trong

6:01

ứng dụng google chẳng hạn như quảng cáo google

6:03

gmail youtube, vv khắc phục sự thiếu

6:06

dữ liệu được gắn nhãn tay tất nhiên đây chỉ là

6:09

tổng quan về tiến trình và

6:10

hướng của trung tâm dữ liệu ai và tôi

6:13

mạnh mẽ mời bạn đọc

6:14

thông tin trong mô tả bên dưới để

6:16

có một cái nhìn đầy đủ về trung tâm dữ liệu ai

6:19

nó đến từ đâu và nó ở đâu

6:21

tiêu đề tôi cũng muốn cảm ơn ống thở vì

6:24

tài trợ cho video này và tôi mời bạn

6:26

để xem trang web của họ để biết thêm

6:28

thông tin nếu bạn chưa nghe nói về

6:30

lặn với ống thở trước khi bạn vẫn sử dụng

6:32

cách tiếp cận của họ trong nhiều sản phẩm như

6:35

youtube google ads gmail và các ứng dụng lớn khác

6:37

các ứng dụng

6:39

cảm ơn bạn đã xem video cho đến khi

6:41

kết thúc

[Âm nhạc]