Nếu bạn nghĩ rằng có kết quả tuyệt vời, hãy đợi cho đến khi bạn xem mô hình mới này của Google Brain có thể làm được gì.
Dalle-e rất tuyệt vời nhưng thường thiếu tính hiện thực, và đây là điều mà nhóm nghiên cứu đã tấn công với mô hình mới có tên Imagen này.
Họ chia sẻ rất nhiều kết quả trên trang dự án của mình cũng như một điểm chuẩn mà họ đã giới thiệu để so sánh các mô hình văn bản thành hình ảnh, nơi chúng rõ ràng vượt trội hơn và các phương pháp tạo hình ảnh trước đó. Tìm hiểu thêm trong video ...
►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/google-brain-imagen/
►Paper: Saharia và cộng sự, 2022, Imagen - Google Brain, https://gweb-research-imagen.appspot.com/paper.pdf
► Liên kết dự án: https://gweb-research-imagen.appspot.com/
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/
0:00
nếu bạn nghĩ dali 2 có kết quả tuyệt vời
0:02
đợi cho đến khi bạn thấy mô hình mới này
0:04
từ google não có thể làm được delhi là
0:07
tuyệt vời nhưng thường thiếu chủ nghĩa hiện thực và điều này
0:10
là thứ mà nhóm đã tấn công với cái mới này
0:12
mô hình gọi là imogen mà họ chia sẻ rất nhiều
0:14
kết quả trên trang dự án của họ cũng như
0:16
một điểm chuẩn mà họ đã giới thiệu cho
0:18
so sánh văn bản với mô hình hình ảnh trong đó
0:20
rõ ràng chúng hoạt động tốt hơn daily2 và
0:23
cách tiếp cận thế hệ hình ảnh trước đó
0:25
điểm chuẩn này cũng rất tuyệt vì chúng tôi
0:27
xem ngày càng nhiều văn bản cho các mô hình hình ảnh
0:29
và khá khó để so sánh
0:31
kết quả trừ khi chúng tôi giả định kết quả là
0:34
thực sự tồi tệ mà chúng tôi thường làm nhưng điều này
0:36
mô hình và le2 chắc chắn bất chấp tỷ lệ cược
0:40
tldr đó là một mô hình chuyển văn bản thành hình ảnh mới
0:43
bạn có thể so sánh với dali với hơn
0:45
chủ nghĩa hiện thực theo người thử nghiệm nên chỉ
0:48
giống như dali mà tôi thậm chí không bao gồm một
0:50
tháng trước, mô hình này có các văn bản giống như một
0:53
con chó tha mồi vàng mặc áo xanh
0:56
barrette ca rô và một chấm đỏ
0:58
cao cổ và cố gắng tạo ra một
1:00
hình ảnh thực tế ra khỏi điều kỳ lạ này
1:02
câu điểm chính ở đây là
1:05
imogen không chỉ có thể hiểu văn bản mà còn
1:08
nó cũng có thể hiểu những hình ảnh nó
1:10
tạo ra vì chúng thực tế hơn
1:12
tất nhiên hơn tất cả các cách tiếp cận trước đây
1:15
khi tôi nói hiểu ý tôi là của riêng nó
1:17
sự hiểu biết thực sự là
1:20
khác với chúng ta, phương thức không
1:22
thực sự hiểu văn bản hoặc hình ảnh
1:24
nó tạo ra nó chắc chắn có một số loại
1:27
kiến thức về nó nhưng chủ yếu là
1:28
hiểu làm thế nào loại đặc biệt này
1:31
câu với những đối tượng này nên
1:33
được thể hiện bằng cách sử dụng các pixel trên một hình ảnh nhưng
1:36
tôi sẽ thừa nhận rằng nó chắc chắn trông giống như nó
1:38
hiểu những gì chúng tôi gửi nó khi chúng tôi thấy
1:41
những kết quả đó rõ ràng là bạn có thể lừa nó
1:43
với một số câu thực sự kỳ lạ
1:45
không thể trông thực tế như thế này
1:48
nhưng đôi khi nó đánh bại cả chính bạn
1:50
tưởng tượng và chỉ tạo ra một cái gì đó
1:53
tuyệt vời vẫn còn điều gì tuyệt vời hơn
1:56
nó hoạt động như thế nào khi sử dụng thứ mà tôi không bao giờ
1:58
thảo luận trên kênh một sự lan tỏa
2:00
nhưng trước khi sử dụng sự khuếch tán này
2:03
mô hình trước tiên chúng ta cần hiểu
2:05
nhập văn bản và đây cũng là
2:07
sự khác biệt với dali họ đã sử dụng
2:10
mô hình văn bản tương tự như gpt3 để hiểu
2:13
văn bản tốt nhất như một hệ thống ai có thể như vậy
2:16
thay vì đào tạo một mô hình văn bản cùng
2:18
với mô hình tạo hình ảnh họ
2:21
chỉ cần sử dụng một mô hình lớn được đào tạo trước và
2:23
đóng băng nó để nó không thay đổi
2:25
trong quá trình đào tạo hình ảnh
2:27
mô hình thế hệ từ nghiên cứu này của họ
2:30
dẫn đến kết quả tốt hơn nhiều và có vẻ như
2:32
giống như mô hình hiểu văn bản tốt hơn vì vậy
2:35
mô-đun văn bản này là cách mô hình
2:37
hiểu văn bản và sự hiểu biết này
2:40
được thể hiện trong những gì chúng tôi gọi là mã hóa
2:42
đó là những gì mô hình đã được đào tạo
2:44
thực hiện trên bộ dữ liệu khổng lồ để chuyển văn bản
2:47
nhập vào một không gian thông tin mà
2:50
nó có thể sử dụng và hiểu
2:52
bây giờ chúng ta cần sử dụng văn bản biến đổi này
2:54
dữ liệu để tạo ra hình ảnh và như tôi đã nói
2:57
họ đã sử dụng một mô hình khuếch tán để đạt được
3:00
đó nhưng mô hình khuếch tán là gì
3:02
mô hình khuếch tán là mô hình phát triển
3:04
chuyển đổi tiếng ồn gaussian ngẫu nhiên như
3:07
điều này thành hình ảnh bằng cách học cách
3:10
đảo ngược tiếng ồn gaussian lặp đi lặp lại họ
3:13
là những mô hình mạnh mẽ cho độ phân giải siêu cao
3:15
hoặc hình ảnh khác sang bản dịch hình ảnh và
3:18
trong trường hợp này, hãy sử dụng một đơn vị đã sửa đổi
3:20
kiến trúc mà tôi đã bao gồm rất nhiều
3:22
lần trong các video trước nên tôi sẽ không
3:24
nhập vào các chi tiết kiến trúc
3:26
ở đây về cơ bản, mô hình được đào tạo để
3:29
khử nhiễu hình ảnh khỏi nhiễu tinh khiết
3:31
định hướng bằng cách sử dụng mã hóa văn bản và
3:34
một kỹ thuật được gọi là phân loại miễn phí
3:36
hướng dẫn mà họ nói là cần thiết và
3:38
giải thích rõ ràng trong bài báo của họ, tôi sẽ
3:40
hãy để bạn đọc nó để biết thêm thông tin về
3:42
kỹ thuật này nên bây giờ chúng ta có một mô hình
3:45
có thể lấy tiếng ồn gaussian ngẫu nhiên và
3:47
mã hóa văn bản của chúng tôi và biểu thị nó bằng
3:49
hướng dẫn từ mã hóa văn bản đến
3:51
tạo hình ảnh của chúng tôi nhưng như bạn thấy ở đây
3:54
nó không đơn giản như nó nghe có vẻ
3:56
hình ảnh chúng tôi vừa tạo là một hình ảnh rất nhỏ
3:58
hình ảnh như một hình ảnh lớn hơn sẽ yêu cầu
4:00
tính toán nhiều hơn và lớn hơn nhiều
4:02
mô hình không khả thi thay vào đó chúng tôi
4:05
đầu tiên tạo ra một hình ảnh thực tế
4:07
sử dụng mô hình khuếch tán mà chúng tôi chỉ
4:09
thảo luận và sau đó sử dụng sự khuếch tán khác
4:12
mô hình để cải thiện chất lượng của
4:14
hình ảnh lặp đi lặp lại tôi đã bao gồm
4:16
các mô hình siêu phân giải trong các video trước đây
4:19
vì vậy tôi sẽ không đi vào chi tiết ở đây
4:21
nhưng chúng ta hãy làm tổng quan nhanh một lần nữa
4:24
chúng tôi muốn có tiếng ồn chứ không phải hình ảnh
4:26
vì vậy chúng tôi che đậy điều này được tạo ra ban đầu
4:28
hình ảnh có độ phân giải thấp với một số
4:31
tiếng ồn gaussian và chúng tôi đào tạo thứ hai của chúng tôi
4:33
mô hình khuếch tán để thực hiện điều này đã sửa đổi
4:35
hình ảnh và cải thiện nó sau đó chúng tôi lặp lại
4:38
hai bước này với một mô hình khác nhưng
4:40
lần này chỉ sử dụng các bản vá lỗi của
4:43
hình ảnh thay vì hình ảnh đầy đủ để làm
4:45
cùng một tỷ lệ nâng cấp và giữ nguyên
4:47
khả thi về mặt tính toán và thì chúng ta kết thúc
4:51
lên với mức cao quang học của chúng tôi
4:53
hình ảnh độ phân giải
4:55
tất nhiên đây chỉ là một cái nhìn tổng quan về
4:56
mô hình mới thú vị này với
4:59
kết quả tôi chắc chắn mời bạn đọc
5:01
bài báo tuyệt vời của họ để hiểu sâu hơn
5:03
hiểu biết về cách tiếp cận của họ và
5:05
phân tích kết quả chi tiết
5:07
và bạn có nghĩ rằng kết quả là
5:09
so sánh với delhi họ cũng tốt hơn
5:12
hoặc tệ hơn tôi chắc chắn rằng nó là chính của dally
5:15
đối thủ cạnh tranh kể từ bây giờ cho tôi biết những gì
5:17
bạn nghĩ về bộ não google mới này
5:19
công bố và lời giải thích mà tôi hy vọng
5:21
bạn thích video này và nếu bạn đã làm
5:24
vui lòng dành một chút thời gian để lại một lượt thích và
5:26
đăng ký để luôn cập nhật với
5:27
tin tức thú vị về ai nếu bạn đã đăng ký tôi
5:30
Hẹn gặp lại bạn vào tuần sau với một người khác
giấy tuyệt vời