eDiffi, mô hình gần đây nhất của NVIDIA, tạo ra hình ảnh đẹp hơn và chính xác hơn tất cả các phương pháp tiếp cận trước đây như DALLE 2 hoặc Ổn định khuếch tán. eDiffi hiểu rõ hơn văn bản bạn gửi và có thể tùy chỉnh nhiều hơn, bổ sung một tính năng mà chúng tôi đã thấy trong một bài báo trước của NVIDIA: công cụ họa sĩ. Tìm hiểu thêm trong video ...
►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/ediffi/
► Balaji, Y. và cộng sự, 2022, eDiffi: Mô hình khuếch tán văn bản thành hình ảnh với một nhóm các chuyên gia Denoiser, https://arxiv.org/abs/2211.01324
► Trang dự án: https://deepimagination.cc/eDiffi/
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/
0:06
phương pháp tiếp cận hiện đại mới cho
0:08
tổng hợp hình ảnh nó tạo ra tốt hơn
0:10
hình ảnh tìm kiếm và chính xác hơn
0:13
tất cả các cách tiếp cận trước đây như Delhi 2 hoặc
0:15
khuếch tán ổn định hoặc nếu anh ta tốt hơn
0:17
hiểu văn bản bạn gửi và
0:19
có thể tùy chỉnh nhiều hơn bằng cách thêm một tính năng mới
0:21
chúng ta đã thấy trong một bài báo trước của Nvidia
0:23
công cụ họa sĩ khi họ thấy bạn có thể
0:26
vẽ bằng những từ ngắn gọn, điều này có nghĩa là bạn
0:29
có thể nhập một vài chủ đề và vẽ
0:32
hình ảnh những gì sẽ xuất hiện ở đây và
0:34
ở đó cho phép bạn tạo ra nhiều hơn nữa
0:36
hình ảnh tùy chỉnh so với một hình ảnh ngẫu nhiên
0:39
thế hệ sau một lời nhắc, đây là
0:41
cấp độ tiếp theo cho phép bạn trở nên xinh đẹp
0:43
nhiều để có được hình ảnh chính xác mà bạn có
0:45
tâm trí bằng cách vẽ một cách nhanh chóng khủng khiếp
0:47
phác thảo một cái gì đó ngay cả khi tôi có thể làm
0:50
đề cập kết quả không chỉ là Sota
0:52
và đẹp hơn sự khuếch tán ổn định
0:55
nhưng chúng cũng dễ kiểm soát hơn
0:57
tất nhiên đó là một trường hợp sử dụng khác như
0:59
nó cần nhiều công việc hơn và rõ ràng hơn
1:02
Lưu ý đến ID để tạo một bản nháp như vậy nhưng
1:04
nó chắc chắn rất thú vị và
1:06
thú vị, đó cũng là lý do tại sao tôi muốn
1:08
bao gồm nó trên kênh của tôi vì nó không phải
1:11
chỉ đơn thuần là một mô hình tốt hơn mà còn
1:13
cách tiếp cận khác với nhiều hơn nữa
1:15
kiểm soát đầu ra mà công cụ không
1:17
rất tiếc là có sẵn nhưng tôi chắc chắn
1:19
hy vọng nó sẽ sớm bằng cách bạn
1:22
chắc chắn nên đăng ký
1:23
kênh và theo dõi tôi trên Twitter tại những gì
1:25
nói xin chào nếu bạn thích loại video này
1:27
và muốn có quyền truy cập dễ dàng
1:30
tin tức dễ hiểu về điều này
1:32
lĩnh vực phức tạp khác giành chiến thắng mà họ
1:34
cho phép bạn kiểm soát nhiều hơn trong việc này
1:37
mô hình mới bằng cách sử dụng cùng một tính năng
1:39
chúng tôi đã thấy nhưng mô hình thực sự khác
1:42
tạo hình ảnh được hướng dẫn bởi một câu
1:44
nhưng nó cũng có thể bị ảnh hưởng bằng cách sử dụng
1:47
phác thảo nhanh vì vậy về cơ bản nó cần một
1:49
hình ảnh và văn bản làm đầu vào, điều này có nghĩa là
1:52
bạn có thể làm những việc khác khi nó hiểu
1:54
hình ảnh ở đây họ tận dụng điều này
1:56
khả năng bằng cách phát triển một phong cách
1:58
chuyển phương pháp tiếp cận nơi bạn có thể
2:00
ảnh hưởng đến phong cách của hình ảnh
2:02
quá trình tạo ra một hình ảnh với
2:04
một phong cách cụ thể cùng với
2:06
nhập văn bản, điều này cực kỳ thú vị và đơn giản
2:09
nhìn vào kết quả họ nói
2:11
bản thân họ thật đáng kinh ngạc khi đánh bại cả hai
2:14
Hình ảnh và mô hình chuyển kiểu Sota
2:16
mô hình tổng hợp với một cách tiếp cận duy nhất
2:18
bây giờ câu hỏi là làm thế nào Nvidia có thể
2:22
phát triển một mô hình tạo ra tốt hơn
2:23
hình ảnh tìm kiếm cho phép kiểm soát nhiều hơn
2:26
cả phong cách và cấu trúc hình ảnh
2:29
cũng như hiểu rõ hơn và
2:31
đại diện cho những gì bạn thực sự muốn
2:34
văn bản của bạn tốt, họ thay đổi điển hình
2:36
kiến trúc khuếch tán theo hai cách đầu tiên
2:39
họ mã hóa văn bản bằng hai
2:41
các phương pháp tiếp cận mà tôi đã đề cập đến
2:43
kênh mà chúng tôi gọi là clip và T5
2:46
bộ mã hóa điều này có nghĩa là họ sẽ sử dụng
2:48
các mô hình được đào tạo trước để lấy văn bản và
2:50
tạo các nhúng khác nhau tập trung vào
2:52
các tính năng khác nhau khi chúng được đào tạo
2:55
và cư xử khác nhau và ý nghĩa là
2:57
chỉ là những đại diện tối đa hóa những gì
3:00
câu thực sự có nghĩa cho
3:01
thuật toán hoặc máy móc để hiểu
3:04
nó liên quan đến hình ảnh đầu vào mà họ chỉ
3:06
cũng sử dụng các đoạn nhúng
3:08
về cơ bản mã hóa hình ảnh để
3:11
mô hình có thể hiểu nó mà bạn có thể
3:13
tìm hiểu thêm về các video khác của tôi
3:14
bao gồm các mô hình tổng quát như chúng vốn có
3:16
khá nhiều tất cả được xây dựng trên clip này là
3:19
điều gì cho phép họ kiểm soát nhiều hơn
3:21
qua đầu ra cũng như đã xử lý
3:23
văn bản và hình ảnh thay vì chỉ văn bản
3:25
sửa đổi thứ hai là sử dụng
3:28
Phân tầng các mô hình khuếch tán thay vì
3:31
tái sử dụng lặp đi lặp lại giống như chúng tôi
3:33
thường làm với các mô hình dựa trên khuếch tán
3:35
ở đây, các mô hình sử dụng được đào tạo cho
3:38
một phần cụ thể của quá trình phát triển
3:39
nghĩa là mỗi mô hình không phải
3:42
chung chung như sự khuếch tán thông thường
3:44
bộ khử nhiễu vì mỗi mô hình phải tập trung
3:46
về một phần cụ thể của quy trình, nó có thể
3:49
giỏi hơn nhiều khi họ sử dụng cái này
3:51
tiếp cận bởi vì họ quan sát thấy rằng
3:52
các mô hình làm giảm giá trị dường như sử dụng văn bản
3:55
nhúng nhiều hơn nữa để định hướng
3:57
thế hệ đầu của
3:59
xử lý và sau đó sử dụng nó ngày càng ít hơn để
4:02
tập trung vào chất lượng đầu ra và độ trung thực
4:05
điều này tự nhiên mang đến giả thuyết
4:07
sử dụng lại cùng một mô hình làm giảm giá trị
4:09
trong toàn bộ quá trình có thể không
4:11
là ID tốt nhất vì nó tự động
4:13
tập trung vào các nhiệm vụ khác nhau và chúng tôi biết
4:15
rằng một nhà chung chung khác xa với chuyên gia
4:18
ở tất cả các nhiệm vụ tại sao không sử dụng một vài
4:20
các chuyên gia thay vì một nhà chung chung để có được
4:23
kết quả tốt hơn nhiều vì vậy đây là những gì họ
4:25
đã làm và tại sao họ gọi chúng là làm giảm giá trị
4:28
các chuyên gia và lý do chính cho điều này
4:30
cải thiện hiệu suất về chất lượng và
4:32
trung thành phần còn lại của
4:34
kiến trúc khá giống với
4:36
phương pháp tiếp cận mở rộng kết quả cuối cùng
4:38
với các mô hình khác để đạt được mức cao
4:40
định nghĩa hình ảnh cuối cùng hình ảnh và
4:43
các trường tổng hợp video chỉ đang nhận được
4:45
ngày nay điên rồ và chúng ta đang thấy
4:47
kết quả ấn tượng xuất hiện hàng tuần
4:49
Tôi rất vui mừng cho các bản phát hành tiếp theo
4:51
và tôi thích xem các cách tiếp cận khác nhau
4:53
với cả hai cách giải quyết sáng tạo
4:55
vấn đề và cũng sẽ khác
4:57
sử dụng các trường hợp như một người vĩ đại đã từng nói
5:01
thật là một thời gian để được sống, tôi hy vọng bạn thích
5:04
tổng quan nhanh này về cách tiếp cận
5:06
cao hơn một chút so với mức tôi thường
5:08
làm như nó mất hầu hết các Phần tôi đã
5:10
được bao gồm trong nhiều video và đã thay đổi
5:12
họ hành động khác tôi mời bạn
5:15
xem video khuếch tán ổn định của tôi để học hỏi
5:17
thêm một chút về cách tiếp cận khuếch tán
5:19
chính nó và đọc bài báo của nvidia để
5:21
tìm hiểu thêm về cách tiếp cận cụ thể này
5:23
và việc triển khai nó, tôi sẽ gặp bạn
5:26
tuần tới với một bài báo tuyệt vời khác
5:32
ngoại quốc
5:36
[Âm nhạc]