paint-brush
DALL · E mini hoạt động như thế nào?by@whatsai
24,731
24,731

DALL · E mini hoạt động như thế nào?

Louis Bouchard3m2022/06/19
Read on Terminal Reader
Read this story w/o Javascript

Dalle mini là một AI mã nguồn mở miễn phí tạo ra những hình ảnh tuyệt vời từ đầu vào văn bản. AI được gọi là DALL · E mini và có thể được sử dụng để kiểm tra kiến thức của bạn về khả năng tạo hình ảnh của Dall-e mini. Dalle Mini là một AI mã nguồn mở có thể được chơi bằng một công cụ đơn giản đơn giản có tên là DALimini. DALIMini là một dự án cộng đồng do openai tạo ra trong năm qua và đã không ngừng phát triển kể từ đó với kết quả đáng kinh ngạc.

Company Mentioned

Mention Thumbnail
featured image - DALL · E mini hoạt động như thế nào?
Louis Bouchard HackerNoon profile picture

Dalle mini thật tuyệt vời - và BẠN có thể sử dụng nó!

Tôi chắc rằng bạn đã nhìn thấy những bức ảnh như thế trong nguồn cấp dữ liệu Twitter của mình trong vài ngày qua. Nếu bạn tự hỏi chúng là gì, chúng là những hình ảnh được tạo ra bởi một AI có tên là DALL · E mini. Nếu bạn chưa từng xem những cái đó, bạn cần phải xem video này vì bạn đang bỏ lỡ. Nếu bạn tự hỏi làm thế nào điều này có thể thực hiện được, thì bạn đang xem video hoàn hảo và sẽ biết câu trả lời trong vòng chưa đầy năm phút.

Dalle mini là một AI mã nguồn mở miễn phí tạo ra những hình ảnh tuyệt vời từ đầu vào văn bản. Đây là cách nó hoạt động:

Xem video

Người giới thiệu:

►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/dalle-mini/
►DALL · E mini so với DALL · E 2: https://youtu.be/0Eu9SDd-95E
►Weirdest / Funniest DALL · E mini results: https://youtu.be/9LHkNt2cH_w
► Chơi với DALL · E mini: https://huggingface.co/spaces/dalle-mini/dalle-mini
►DALL · E mini Code: https://github.com/borisdayma/dalle-mini
►Boris Dayma's Twitter: https://twitter.com/borisdayma
►Báo cáo kỹ thuật tuyệt vời và đầy đủ của Boris Dayma và cộng sự: https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA#the-clip- mô hình mạng nơron
►Chủ đề tuyệt vời về Dall-e mini của Tanishq Mathew Abraham:
https://twitter.com/iScienceLuvr/status/1536294746041114624/photo/1?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1536294746041114624%7Ctwgr%5E%7_twconps%5Es1% com% 2Fmediaembed% 2Fvbqh2s% 3Fresponsive% 3Dtrueis_nightmode% 3Dtrue
►VQGAN giải thích: https://youtu.be/JfUTd8fjtX8
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/

Bản ghi video

0:00

tôi chắc rằng bạn đã xem những bức ảnh như thế

0:02

trong nguồn cấp dữ liệu twitter của bạn trong vài ngày qua

0:04

ngày nếu bạn thắc mắc họ mặc gì

0:06

là những hình ảnh được tạo ra bởi một ai được gọi là

0:08

dali mini nếu bạn chưa bao giờ nhìn thấy những người bạn

0:11

cần xem video này vì bạn

0:12

bỏ lỡ nếu bạn tự hỏi làm thế nào đây là

0:14

có thể bạn đang ở trên hoàn hảo

0:16

video và sẽ biết câu trả lời trong thời gian ngắn hơn

0:18

hơn 5 phút tên này dali phải

0:21

đã rung chuông khi tôi che hai

0:23

phiên bản của mô hình này được thực hiện bởi openai trong

0:26

năm qua với những kết quả đáng kinh ngạc

0:28

nhưng cái này khác dalimini là một

0:31

cộng đồng nguồn mở tạo dự án

0:33

lấy cảm hứng từ phiên bản đầu tiên của delhi

0:35

và đã tiếp tục phát triển kể từ đó với

0:38

bây giờ kết quả đáng kinh ngạc nhờ boris

0:41

daima và tất cả những người đóng góp có điều này

0:43

có nghĩa là bạn có thể chơi với nó ngay lập tức

0:46

nhờ ôm mặt mà liên kết ở trong

0:48

mô tả bên dưới nhưng đưa ra cái này

0:49

video vài giây nữa trước khi phát

0:51

với nó, nó sẽ đáng giá và bạn sẽ

0:54

biết nhiều hơn về điều này ai hơn

0:55

mọi người xung quanh bạn tại dali cốt lõi

0:58

mini rất giống với delhi nên của tôi

1:00

video ban đầu về mô hình là một điều tuyệt vời

1:02

giới thiệu về cái này nó có hai chính

1:04

các thành phần khi bạn nghi ngờ một ngôn ngữ và

1:07

một mô-đun hình ảnh trước tiên nó phải

1:10

hiểu lời nhắc văn bản và sau đó

1:12

tạo hình ảnh theo sau nó hai rất

1:14

những thứ khác nhau đòi hỏi hai rất

1:17

các mô hình khác nhau sự khác biệt chính

1:18

với lời nói dối delhi trong các mô hình

1:20

kiến trúc và dữ liệu đào tạo nhưng

1:22

quá trình end-to-end là khá nhiều

1:24

tương tự ở đây, chúng tôi có một mô hình ngôn ngữ

1:27

được gọi là bart bart là một mô hình được đào tạo để

1:29

chuyển đổi đầu vào văn bản thành một ngôn ngữ

1:32

dễ hiểu cho mô hình tiếp theo trong

1:34

đào tạo chúng tôi cung cấp các cặp hình ảnh với

1:36

chú thích cho dalemini bart lấy văn bản

1:39

chú thích và biến nó thành rời rạc

1:42

mã thông báo sẽ có thể đọc được bởi

1:44

mô hình tiếp theo và chúng tôi điều chỉnh nó dựa trên

1:46

sự khác biệt giữa hình ảnh được tạo

1:48

và hình ảnh được gửi dưới dạng đầu vào nhưng sau đó

1:51

cái gì ở đây tạo ra

1:54

hình ảnh mà chúng tôi gọi đây là bộ giải mã nó sẽ

1:57

lấy đại diện chú thích mới

1:59

được sản xuất bởi bart mà chúng tôi gọi là

2:01

mã hóa và sẽ giải mã nó thành một

2:04

hình ảnh trong trường hợp này bộ giải mã hình ảnh là

2:07

vqgan một mô hình tôi đã bao gồm trên

2:10

kênh nên tôi chắc chắn mời bạn

2:11

xem video nếu bạn quan tâm

2:14

vkugen ngắn là một kiến trúc tuyệt vời để

2:16

làm ngược lại nó học cách đi từ

2:19

một ánh xạ mã hóa như vậy và tạo ra một

2:22

hình ảnh ra khỏi nó như bạn nghi ngờ gpt3 và

2:25

các mô hình tạo ngôn ngữ khác làm một

2:27

những thứ rất giống nhau mã hóa văn bản và

2:29

giải mã ánh xạ mới được tạo

2:32

thành một văn bản mới mà nó sẽ gửi lại cho bạn

2:35

ở đây nó giống như vậy nhưng với pixel

2:37

tạo thành một hình ảnh thay vì các chữ cái

2:40

hình thành một câu mà nó học được thông qua

2:42

hàng triệu cặp hình ảnh mã hóa từ

2:45

Internet về cơ bản đã xuất bản của bạn

2:47

hình ảnh có chú thích và kết thúc là

2:50

khá chính xác trong việc tái tạo lại

2:52

hình ảnh ban đầu sau đó bạn có thể cung cấp nó mới

2:54

mã hóa trông giống như mã hóa trong

2:56

đào tạo nhưng có một chút khác biệt và nó

2:59

sẽ tạo ra một hoàn toàn mới nhưng

3:01

hình ảnh tương tự, chúng tôi thường thêm vào

3:04

chỉ là một chút nhiễu cho các bảng mã này

3:06

để tạo một hình ảnh mới đại diện cho

3:08

cùng một lời nhắc văn bản và thì đây là cách

3:12

dali mini học cách tạo hình ảnh từ

3:14

chú thích văn bản của bạn như tôi đã đề cập

3:17

mã nguồn mở và bạn thậm chí có thể chơi với

3:19

nó ngay lập tức nhờ ôm mặt

3:22

tất nhiên đây chỉ là một đơn giản

3:24

tổng quan và tôi đã bỏ qua một số quan trọng

3:26

các bước để rõ ràng nếu bạn muốn biết thêm

3:29

chi tiết về mô hình tôi đã liên kết tuyệt vời

3:31

tài nguyên trong mô tả bên dưới tôi

3:34

gần đây cũng đã xuất bản hai video ngắn

3:36

giới thiệu một số kết quả vui nhộn cũng như

3:38

kết quả so sánh với ngày 2 cho

3:40

cùng một văn bản nhắc nhở nó khá tuyệt

3:42

để xem tôi hy vọng bạn thích video này

3:45

và nếu vậy, vui lòng dành vài giây để

3:47

cho tôi biết trong các ý kiến và để lại một

3:50

giống như tôi sẽ gặp bạn không phải vào tuần tới mà ở

3:52

hai tuần với một bài báo tuyệt vời khác

3:55

[Âm nhạc]

4:14

[Âm nhạc]