paint-brush
Mô hình khuếch tán tiềm ẩn là gì? Kiến trúc đằng sau sự khuếch tán ổn địnhby@whatsai
11,745
11,745

Mô hình khuếch tán tiềm ẩn là gì? Kiến trúc đằng sau sự khuếch tán ổn định

Louis Bouchard6m2022/08/29
Read on Terminal Reader
Read this story w/o Javascript

Tất cả các mẫu hình ảnh siêu mạnh gần đây như DALLE, Imagen hoặc Midjourney có điểm gì chung? Ngoài chi phí tính toán cao, thời gian đào tạo lớn và sự cường điệu được chia sẻ, chúng đều dựa trên cùng một cơ chế: khuếch tán. Các mô hình khuếch tán gần đây đã đạt được kết quả hiện đại cho hầu hết các tác vụ hình ảnh bao gồm chuyển văn bản thành hình ảnh với DALLE nhưng nhiều tác vụ khác liên quan đến tạo hình ảnh, như in màu hình ảnh, chuyển kiểu hoặc siêu độ phân giải hình ảnh. Nhưng họ làm việc bằng cách nào? Tìm hiểu thêm trong video ...

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Mô hình khuếch tán tiềm ẩn là gì? Kiến trúc đằng sau sự khuếch tán ổn định
Louis Bouchard HackerNoon profile picture

Tất cả các mẫu hình ảnh siêu mạnh gần đây như DALLE , Imagen hoặc Midjourney có điểm gì chung? Ngoài chi phí tính toán cao, thời gian đào tạo lớn và sự cường điệu được chia sẻ, tất cả chúng đều dựa trên cùng một cơ chế: khuếch tán.

Các mô hình khuếch tán gần đây đã đạt được kết quả hiện đại cho hầu hết các tác vụ hình ảnh bao gồm chuyển văn bản thành hình ảnh với DALLE nhưng nhiều tác vụ khác liên quan đến tạo hình ảnh, như in màu hình ảnh, chuyển kiểu hoặc siêu độ phân giải hình ảnh. Nhưng họ làm việc bằng cách nào? Tìm hiểu thêm trong video ...

Người giới thiệu

►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/latent-diffusion-models/
►Rombach, R., Blattmann, A., Lorenz, D., Esser, P. và Ommer, B., 2022.
Tổng hợp hình ảnh độ phân giải cao với các mô hình khuếch tán tiềm ẩn. Trong
Kỷ yếu của Hội nghị IEEE / CVF về Thị giác và Mẫu máy tính
Recognition (trang 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
►Latent Diffusion Code: https://github.com/CompVis/latent-diffusion
► Mã khuếch tán ổn định (văn bản thành hình ảnh dựa trên LD): https://github.com/CompVis/stable-diffusion
► Hãy tự mình thử: https://huggingface.co/spaces/stabilityai/stable-diffusion
► Ứng dụng web:
https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/

Bản ghi video

0:00

tất cả hình ảnh siêu mạnh gần đây làm gì

0:02

các mô hình như delhi Tưởng tượng hoặc hành trình giữa

0:05

có điểm chung khác ngoài tính toán cao

0:08

tốn rất nhiều thời gian đào tạo và cường điệu được chia sẻ

0:10

tất cả chúng đều dựa trên cùng một cơ chế

0:13

phổ biến các mô hình nhiệt hạch gần đây

0:15

đạt được kết quả hiện đại cho

0:17

hầu hết các tác vụ hình ảnh bao gồm cả văn bản thành hình ảnh

0:19

với delhi nhưng nhiều hình ảnh khác

0:21

các tác vụ liên quan đến thế hệ như hình ảnh và

0:23

chuyển phong cách sơn hoặc hình ảnh siêu

0:25

giải quyết mặc dù có một số

0:27

nhược điểm là chúng hoạt động tuần tự trên

0:30

toàn bộ hình ảnh có nghĩa là cả hai

0:31

thời gian đào tạo và suy luận là siêu

0:34

đắt đây là lý do tại sao bạn cần hàng trăm

0:36

của gpus để đào tạo một mô hình như vậy và tại sao

0:38

bạn đợi một vài phút để lấy

0:40

kết quả không có gì ngạc nhiên khi chỉ có

0:42

các công ty lớn nhất như google hoặc openai

0:45

đang phát hành những mô hình đó

0:47

nhưng chúng là gì mà tôi đã đề cập đến sự khuếch tán

0:49

mô hình trong một vài video mà tôi

0:51

mời bạn kiểm tra cho tốt hơn

0:52

hiểu chúng là các mô hình lặp đi lặp lại

0:55

lấy nhiễu ngẫu nhiên làm đầu vào

0:57

có thể được điều chỉnh bằng một văn bản hoặc một

0:59

hình ảnh vì vậy nó không hoàn toàn ngẫu nhiên

1:02

lặp đi lặp lại học cách loại bỏ tiếng ồn này

1:04

bằng cách tìm hiểu các thông số của mô hình

1:06

nên áp dụng cho tiếng ồn này để kết thúc

1:08

với hình ảnh cuối cùng nên cơ bản

1:10

mô hình khuếch tán sẽ ngẫu nhiên

1:12

nhiễu với kích thước của hình ảnh và

1:14

học cách áp dụng tiếng ồn hơn nữa cho đến khi

1:17

chúng ta quay lại một hình ảnh thực, đây là

1:19

có thể vì mô hình sẽ có

1:21

truy cập vào những hình ảnh thực tế trong

1:23

đào tạo và sẽ có thể học

1:25

thông số phù hợp bằng cách áp dụng tiếng ồn như vậy

1:27

đến hình ảnh lặp đi lặp lại cho đến khi nó

1:29

đạt đến tiếng ồn hoàn toàn và là

1:31

không thể nhận ra

1:33

sau đó khi chúng tôi hài lòng với

1:35

tiếng ồn chúng tôi nhận được từ tất cả các hình ảnh của chúng tôi có ý nghĩa

1:37

rằng chúng giống nhau và tạo ra tiếng ồn

1:40

từ một bản phân phối tương tự, chúng tôi đã sẵn sàng

1:42

để sử dụng ngược lại mô hình của chúng tôi và cung cấp cho nó

1:45

tiếng ồn tương tự theo thứ tự ngược lại

1:48

mong đợi một hình ảnh tương tự như những hình ảnh được sử dụng

1:50

trong quá trình đào tạo nên vấn đề chính ở đây

1:53

là bạn đang làm việc trực tiếp với

1:54

pixel và dữ liệu đầu vào lớn như

1:57

hình ảnh hãy xem cách chúng tôi có thể khắc phục điều này

1:59

vấn đề tính toán trong khi giữ

2:02

chất lượng của kết quả giống như được hiển thị

2:04

ở đây được so sánh với delhi nhưng lần đầu tiên đưa ra

2:07

cho tôi vài giây để giới thiệu với bạn về

2:09

bạn bè ở lang băm tài trợ cho video này

2:11

như bạn chắc chắn biết đa số

2:13

trong số các doanh nghiệp hiện báo cáo ai và ml

2:15

áp dụng trong các quy trình của họ nhưng phức tạp

2:18

các hoạt động như triển khai phương thức

2:20

kiểm tra đào tạo và cửa hàng tính năng

2:22

quản lý dường như cản trở

2:24

Tiến trình triển khai mô hình ml là một trong những

2:26

các quy trình phức tạp nhất, nó là một

2:29

quy trình nghiêm ngặt mà nhà khoa học dữ liệu

2:31

các nhóm dành quá nhiều thời gian để giải quyết

2:33

các nhiệm vụ kỹ thuật và back-end trước đây

2:35

có thể đẩy mô hình vào

2:37

sản xuất một cái gì đó cá nhân tôi

2:39

kinh nghiệm nó cũng đòi hỏi rất

2:42

các bộ kỹ năng khác nhau thường đòi hỏi hai

2:44

các nhóm khác nhau làm việc chặt chẽ với nhau

2:46

may mắn thay cho chúng tôi quack cung cấp một

2:48

nền tảng được quản lý hoàn toàn hợp nhất ml

2:50

hoạt động kỹ thuật và dữ liệu

2:53

cung cấp cơ sở hạ tầng nhanh

2:55

cho phép sản xuất liên tục

2:57

mô hình ml ở quy mô bạn không cần phải

2:59

học cách làm mọi thứ từ đầu đến cuối

3:01

nữa nhờ họ quack trao quyền

3:04

tổ chức giao máy

3:06

học tập mô hình vào sản xuất quy mô

3:08

nếu bạn muốn tăng tốc mô hình của mình

3:10

giao hàng tận nơi sản xuất vui lòng lấy một ít

3:12

phút và nhấp vào liên kết đầu tiên bên dưới

3:14

để kiểm tra những gì họ cung cấp vì tôi chắc chắn điều đó

3:16

sẽ đáng giá nhờ bất cứ ai

3:18

hãy xem và ủng hộ tôi và của tôi

3:20

bạn bè ở lang băm

3:23

làm thế nào những mô hình khuếch tán mạnh mẽ này có thể

3:25

hiệu quả về mặt tính toán bằng cách

3:27

biến chúng thành sự khuếch tán tiềm ẩn

3:30

mô hình hóa điều này có nghĩa là quay trở lại robin và

3:32

các đồng nghiệp của anh ấy đã thực hiện điều này

3:34

cách tiếp cận khuếch tán mà chúng tôi vừa đề cập

3:36

trong một biểu diễn hình ảnh nén

3:38

thay vì chính hình ảnh và sau đó

3:41

đã làm việc để tái tạo lại hình ảnh để họ

3:43

không hoạt động với không gian pixel hoặc

3:45

hình ảnh thông thường còn hoạt động trong một

3:48

không gian nén không chỉ cho phép

3:50

các thế hệ hiệu quả hơn và nhanh hơn như

3:52

kích thước dữ liệu nhỏ hơn nhiều nhưng cũng

3:54

cho phép làm việc với

3:56

phương thức vì chúng đang mã hóa

3:58

đầu vào bạn có thể cung cấp cho nó bất kỳ loại đầu vào nào

4:00

như hình ảnh hoặc văn bản và mô hình sẽ

4:03

học cách mã hóa các đầu vào này trong cùng một

4:05

không gian phụ mà mô hình khuếch tán sẽ

4:07

sử dụng để tạo một hình ảnh vì vậy có chỉ

4:10

như mô hình clip một mô hình sẽ hoạt động

4:13

với văn bản hoặc hình ảnh để hướng dẫn các thế hệ

4:16

mô hình tổng thể sẽ giống như thế này

4:18

bạn sẽ có hình ảnh ban đầu của bạn ở đây x

4:21

và mã hóa nó thành một thông tin sau đó

4:23

không gian được gọi là không gian tiềm ẩn hoặc z này

4:26

rất giống với một khẩu súng mà bạn sẽ

4:29

sử dụng mô hình bộ mã hóa để chụp ảnh

4:31

và trích xuất những gì có liên quan nhất

4:32

thông tin về nó trong một không gian con

4:35

bạn có thể xem như một nhiệm vụ lấy mẫu xuống

4:37

giảm kích thước của nó trong khi vẫn giữ được nhiều

4:39

thông tin càng tốt bạn hiện đang ở

4:42

không gian tiềm ẩn với cô đọng của bạn

4:44

đầu vào, sau đó bạn làm điều tương tự với

4:46

điều kiện của bạn nhập hình ảnh văn bản

4:49

hoặc bất kỳ thứ gì khác và hợp nhất chúng với

4:50

đại diện hình ảnh hiện tại của bạn bằng cách sử dụng

4:53

sự chú ý mà tôi đã mô tả trong một

4:55

video cơ chế chú ý này sẽ

4:57

tìm hiểu cách tốt nhất để kết hợp đầu vào

4:59

và điều hòa các yếu tố đầu vào tiềm ẩn này

5:01

không gian thêm sự chú ý một máy biến áp

5:04

tính năng khuếch tán các mô hình đã hợp nhất này

5:07

đầu vào bây giờ là tiếng ồn ban đầu của bạn cho

5:09

quá trình khuếch tán

5:11

sau đó bạn có cùng một mô hình khuếch tán tôi

5:13

được bao phủ trong hình ảnh và video của tôi nhưng vẫn

5:16

trong không gian con này cuối cùng bạn cũng tạo lại

5:19

hình ảnh sử dụng bộ giải mã mà bạn có thể

5:21

xem như bước đảo ngược của bước đầu tiên của bạn

5:23

bộ mã hóa lấy điều này đã sửa đổi và

5:25

đầu vào được ký hiệu trong không gian tiềm ẩn để

5:28

tạo ra một hình ảnh có độ phân giải cao cuối cùng

5:31

về cơ bản lấy mẫu kết quả của bạn và

5:34

Thì đây là cách bạn có thể sử dụng tính năng khuếch tán

5:36

các mô hình cho nhiều nhiệm vụ khác nhau như

5:39

siêu phân giải trong bức tranh và thậm chí

5:41

văn bản thành hình ảnh với ổn định gần đây

5:44

khuếch tán mô hình nguồn mở thông qua

5:46

quá trình điều hòa trong khi được nhiều

5:49

hiệu quả hơn và cho phép bạn chạy

5:51

chúng trên gpus của bạn thay vì yêu cầu

5:54

hàng trăm người trong số họ bạn đã nghe điều đó đúng

5:56

cho tất cả các nhà phát triển ngoài kia muốn có

5:58

văn bản của riêng họ thành hình ảnh và hình ảnh

6h00

mô hình tổng hợp tự chạy

6:02

gpus mã có sẵn với

6:04

mô hình quay trước tất cả các liên kết là

6:06

bên dưới nếu bạn sử dụng mô hình xin vui lòng

6:08

chia sẻ id và kết quả kiểm tra của bạn hoặc bất kỳ

6:10

phản hồi của bạn với tôi tôi rất muốn

6:13

trò chuyện về điều đó tất nhiên đây chỉ là

6:15

tổng quan về sự khuếch tán tiềm ẩn

6:17

mô hình và tôi mời bạn đọc

6:19

bài báo tuyệt vời được liên kết bên dưới cũng như

6:21

tìm hiểu thêm về mô hình và cách tiếp cận

6:24

rất cảm ơn những người bạn của tôi tại lang băm vì

6:26

tài trợ cho video này và thậm chí còn lớn hơn

6:28

cảm ơn bạn đã xem toàn bộ

6:30

video tôi sẽ gặp bạn vào tuần tới với

6:33

một tờ giấy tuyệt vời khác