paint-brush
DALL · E 2 Giảm nhẹ trước khi đào tạotừ tác giả@whatsai
515 lượt đọc
515 lượt đọc

DALL · E 2 Giảm nhẹ trước khi đào tạo

từ tác giả Louis Bouchard6m2022/07/18
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

Hầu hết các mô hình trí tuệ nhân tạo không phải là mã nguồn mở, có nghĩa là chúng tôi, những người bình thường như chúng tôi, không thể sử dụng chúng một cách tự do. Đây là những gì chúng ta sẽ đi sâu vào trong video này ... Nổi tiếng nhất, Dall-e 2, có thể được sử dụng để tạo hình ảnh từ các lời nhắc ngẫu nhiên. Dữ liệu được sử dụng để đào tạo các mô hình như vậy cũng đến từ các hình ảnh ngẫu nhiên trên internet khá đẹp. Chúng tôi sẽ xem xét những gì họ đang cố gắng giảm thiểu rủi ro và cách họ lọc ra những hình ảnh bạo lực và tình dục từ internet.

Company Mentioned

Mention Thumbnail
featured image - DALL · E 2 Giảm nhẹ trước khi đào tạo
Louis Bouchard HackerNoon profile picture

Tất cả các bạn đã từng thấy những hình ảnh tuyệt đẹp như thế này, hoàn toàn được tạo ra bởi một mô hình trí tuệ nhân tạo. Tôi đã đề cập đến nhiều phương pháp tiếp cận trên kênh của mình, như Craiyon, Imagen và nổi tiếng nhất, Dall-e 2.

Hầu hết mọi người muốn thử chúng và tạo hình ảnh từ các lời nhắc ngẫu nhiên, nhưng phần lớn các mô hình này không phải là mã nguồn mở, có nghĩa là chúng tôi, những người bình thường như chúng tôi, không thể sử dụng chúng một cách tự do. Tại sao? Đây là những gì chúng ta sẽ đi sâu vào trong video này ...

Người giới thiệu

►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/how-openai-reduces-risks-for-dall-e-2/
►Bài viết của OpenAI: https://openai.com/blog/dall-e-2-pre-training-mitigations/
►Dalle 2 video:
►Craiyon video:
►Sử dụng Craiyon: https://www.craiyon.com/
►Bản tin hàng ngày của tôi: https://www.getrevue.co/profile/whats_ai

Bản ghi video

0:00

tất cả các bạn đã thấy những hình ảnh tuyệt vời

0:02

như những thứ này hoàn toàn được tạo ra bởi một

0:05

mô hình trí tuệ nhân tạo tôi đã đề cập

0:07

nhiều cách tiếp cận trên kênh của tôi như

0:09

bút chì màu imogen và cái nổi tiếng nhất

0:12

đồ nguội 2. hầu hết mọi người muốn thử chúng và

0:15

tạo hình ảnh từ lời nhắc ngẫu nhiên nhưng

0:18

phần lớn các mô hình này không mở

0:20

nguồn có nghĩa là những người thường xuyên thích

0:23

chúng tôi không thể sử dụng chúng một cách tự do tại sao đây là

0:26

những gì chúng ta sẽ đi sâu vào video này

0:29

tôi đã nói hầu hết chúng không phải là mã nguồn mở

0:32

tốt crayon là và mọi người đã tạo ra

0:35

các meme tuyệt vời khi sử dụng nó, bạn có thể xem cách

0:38

một mô hình như vậy có thể trở nên nguy hiểm

0:40

cho phép bất kỳ ai tạo ra bất cứ điều gì không

0:43

chỉ dành cho những trường hợp lạm dụng có thể xảy ra liên quan đến

0:45

các thế hệ nhưng dữ liệu được sử dụng để

0:47

đào tạo các mô hình như vậy cũng đến từ

0:50

hình ảnh ngẫu nhiên trên internet khá đẹp

0:52

nhiều thứ có nội dung đáng nghi vấn

0:55

và tạo ra một số hình ảnh bất ngờ

0:58

dữ liệu đào tạo cũng có thể được truy xuất

1:00

thông qua kỹ thuật nghịch đảo của mô hình

1:02

mà rất có thể là openai không mong muốn

1:05

cũng sử dụng điều này để biện minh cho việc không phát hành

1:08

mô hình daily2 cho công chúng ở đây chúng tôi

1:10

sẽ xem xét chúng là gì

1:12

điều tra những rủi ro tiềm ẩn và cách thức

1:14

họ đang cố gắng giảm thiểu họ, tôi đi

1:16

thông qua một bài báo rất thú vị họ

1:18

đã viết về việc xử lý trước dữ liệu của họ

1:21

các bước khi đào tạo dalit ii nhưng trước đó

1:24

vì vậy hãy cho phép tôi một vài giây để là của riêng tôi

1:26

tài trợ và chia sẻ dự án gần đây nhất của tôi

1:28

điều này có thể khiến bạn quan tâm, tôi gần đây

1:31

đã tạo một bản tin hàng ngày chia sẻ ai

1:34

tin tức và nghiên cứu đơn giản và

1:36

rõ ràng một lớp lót để biết nếu giấy

1:38

mã hoặc tin tức có giá trị thời gian của bạn mà bạn có thể

1:41

đăng ký nó trên linkedin hoặc với của bạn

1:43

gửi email liên kết có trong mô tả

1:45

phía dưới

1:46

vậy openai thực sự có ý nghĩ gì

1:48

khi họ nói rằng họ đang làm

1:50

nỗ lực giảm thiểu rủi ro

1:52

đầu tiên và điều rõ ràng nhất là

1:55

họ đang lọc ra bạo lực và

1:57

hình ảnh tình dục từ hàng trăm

1:59

hàng triệu hình ảnh trên internet cái này

2:02

là ngăn cản phương thức học tập

2:04

làm thế nào để tạo ra bạo lực và tình dục

2:06

nội dung hoặc thậm chí trả lại bản gốc

2:08

hình ảnh như nhiều thế hệ nó giống như không

2:11

dạy con bạn cách chiến đấu nếu bạn

2:13

không muốn anh ấy đánh nhau với nó

2:15

có thể hữu ích nhưng nó không phải là một sự hoàn hảo

2:17

vẫn sửa tôi tin rằng nó cần thiết để

2:20

có các bộ lọc như vậy trong tập dữ liệu của chúng tôi và

2:22

chắc chắn hữu ích trong trường hợp này nhưng làm thế nào để

2:25

họ làm điều đó chính xác là họ xây dựng một số

2:27

các mô hình được đào tạo để phân loại dữ liệu được

2:30

lọc hay không bằng cách cho họ một vài

2:32

các ví dụ tích cực và tiêu cực khác nhau

2:34

và cải tiến lặp đi lặp lại các bộ phân loại

2:37

với phản hồi của con người, mỗi bộ phân loại đã đi

2:39

thông qua toàn bộ tập dữ liệu của chúng tôi, xóa thêm

2:42

hình ảnh hơn mức cần thiết chỉ trong trường hợp nó

2:44

tốt hơn nhiều để mô hình không bị xấu

2:47

dữ liệu ở vị trí đầu tiên thay vì

2:48

cố gắng sửa lại cú đánh sau đó

2:51

mỗi bộ phân loại sẽ có một

2:53

hiểu nội dung nào cần lọc

2:56

và tất cả sẽ tự bổ sung

2:57

đảm bảo lọc tốt nếu chúng tôi tốt

3:00

có nghĩa là không có hình ảnh tiêu cực sai nào đi

3:02

thông qua quá trình lọc

3:04

Tuy nhiên, nó đi kèm với những nhược điểm đầu tiên

3:07

tập dữ liệu rõ ràng là nhỏ hơn và có thể không

3:10

đại diện chính xác thế giới thực

3:12

cái nào có thể tốt hoặc xấu tùy thuộc vào

3:14

trường hợp sử dụng họ cũng tìm thấy một

3:16

tác dụng phụ không mong đợi của dữ liệu này

3:18

quá trình lọc nó đã khuếch đại

3:21

thành kiến của mô hình đối với một số

3:23

nhân khẩu học giới thiệu thứ hai

3:25

điều openai đang làm như là một khóa đào tạo trước

3:28

giảm thiểu làm giảm các thành kiến gây ra bởi

3:31

bộ lọc này, ví dụ sau

3:33

lọc một trong những thành kiến mà họ nhận thấy

3:36

là phương thức tạo ra nhiều hình ảnh hơn

3:38

nam và nữ ít hơn so với

3:41

các phương thức được đào tạo trên tập dữ liệu gốc

3:44

họ giải thích rằng một trong những lý do

3:46

có thể là phụ nữ xuất hiện thường xuyên hơn

3:48

đàn ông trong nội dung tình dục có thể thiên vị

3:50

bộ phân loại của họ để loại bỏ thêm sai

3:53

hình ảnh tiêu cực có phụ nữ từ

3:55

tập dữ liệu tạo ra khoảng trống trong

3:57

tỷ lệ giới tính mà mô hình quan sát được

4:00

đào tạo và nhân rộng để khắc phục rằng họ

4:02

cân nhắc lại trọng số của tập dữ liệu đã lọc để phù hợp

4:05

sự phân phối của ban đầu

4:07

bộ dữ liệu lọc trước đây là một ví dụ

4:10

họ bảo hiểm bằng cách sử dụng mèo và chó, nơi

4:12

bộ lọc sẽ loại bỏ nhiều dugs hơn sau đó mèo

4:14

vì vậy cách khắc phục sẽ là tăng gấp đôi

4:16

huấn luyện mất hình ảnh của những con chó

4:19

sẽ giống như gửi hai hình ảnh của dugs

4:21

thay vì một và bù đắp cho

4:23

thiếu hình ảnh, điều này một lần nữa chỉ là

4:26

proxy cho thiên vị lọc thực tế nhưng nó

4:29

vẫn giảm khoảng cách phân phối hình ảnh

4:31

giữa bộ lọc trước và

4:33

bộ dữ liệu đã lọc

4:35

vấn đề cuối cùng là vấn đề

4:36

ghi nhớ một cái gì đó mà các mô hình có vẻ

4:39

trở nên mạnh mẽ hơn nhiều so với tôi cũng như chúng ta

4:42

cho biết có thể làm trào ngược

4:44

dữ liệu đào tạo từ việc tạo hình ảnh như vậy

4:46

những mô hình không được mong muốn trong hầu hết các trường hợp

4:49

ở đây chúng tôi cũng muốn tạo tiểu thuyết

4:51

hình ảnh chứ không chỉ sao chép, dán hình ảnh

4:54

từ internet nhưng làm thế nào chúng ta có thể ngăn chặn

4:56

giống như ký ức của chúng tôi, bạn không thể

4:59

thực sự quyết định những gì bạn nhớ và những gì

5:01

biến đi khi bạn nhìn thấy thứ gì đó

5:03

hoặc dính hoặc họ không tìm thấy

5:05

giống như con người học một cái mới

5:07

khái niệm nếu mô hình nhìn thấy cùng một hình ảnh

5:10

nhiều lần trong tập dữ liệu nó có thể

5:12

tình cờ biết nó bằng trái tim cuối cùng

5:15

đào tạo của nó và tạo ra nó một cách chính xác

5:17

cho một lời nhắc văn bản tương tự hoặc giống hệt nhau

5:20

đây là một sửa chữa dễ dàng và đáng tin cậy

5:23

chỉ cần tìm ra những hình ảnh quá

5:25

tương tự và xóa các bản sao dễ dàng

5:28

làm điều này sẽ có nghĩa là so sánh từng

5:30

hình ảnh với mọi ý nghĩa hình ảnh khác

5:33

hàng trăm nghìn tỷ cặp hình ảnh

5:36

để so sánh thay vì họ chỉ bắt đầu bằng

5:38

nhóm các hình ảnh tương tự lại với nhau và

5:41

sau đó so sánh các hình ảnh với tất cả các hình ảnh khác

5:43

những hình ảnh giống nhau và một vài hình ảnh khác

5:46

các cụm xung quanh nó giảm đáng kể

5:48

sự phức tạp trong khi vẫn tìm thấy 97 trong số

5:52

tất cả các cặp trùng lặp lại một bản sửa lỗi khác cho

5:55

làm trong tập dữ liệu trước khi đào tạo

5:57

openai mô hình hàng ngày của chúng tôi cũng đề cập đến

6h00

một số bước tiếp theo họ đang điều tra

6:02

và nếu bạn thích video này, tôi

6:04

chắc chắn mời bạn đọc

6:06

bài viết chuyên sâu để xem tất cả các chi tiết

6:08

của công việc giảm thiểu trước khi đào tạo này

6:11

nó rất thú vị và được viết tốt

6:13

bài báo cho tôi biết bạn nghĩ gì

6:15

những nỗ lực giảm thiểu của họ và

6:17

lựa chọn để giới hạn quyền truy cập của mô hình vào

6:19

Công cộng

6:20

để lại bình luận hoặc tham gia thảo luận

6:22

trong cộng đồng của chúng tôi về mối bất hòa cảm ơn bạn

6:24

để xem cho đến khi kết thúc và tôi sẽ

6:26

hẹn gặp lại bạn vào tuần sau với một điều tuyệt vời khác

6:29

giấy

[Âm nhạc]