paint-brush
DreamFusion: AI tạo mô hình 3D từ văn bảntừ tác giả@whatsai
22,007 lượt đọc
22,007 lượt đọc

DreamFusion: AI tạo mô hình 3D từ văn bản

từ tác giả Louis Bouchard6m2022/10/16
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

DreamFusion là một mô hình Nghiên cứu mới của Google có thể hiểu một câu đủ để tạo ra mô hình 3D của nó. Kết quả vẫn chưa hoàn hảo, nhưng những tiến bộ mà chúng tôi đã đạt được trong lĩnh vực này kể từ năm ngoái thật đáng kinh ngạc. Chúng tôi thực sự không thể làm cho nó mát hơn nhiều nhưng điều thú vị hơn nữa là cách nó hoạt động. Hãy đi sâu vào nó ... đây là Dream Fusion, một mô hình thị giác máy tính mới có thể hiểu một câu đủ để tạo ra các mô hình 3D.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - DreamFusion: AI tạo mô hình 3D từ văn bản
Louis Bouchard HackerNoon profile picture

Trước đây, chúng tôi đã từng thấy những người mẫu có thể lấy câu và .

Chúng tôi cũng đã thấy các bằng cách học các khái niệm cụ thể như một đối tượng hoặc một phong cách cụ thể.

Tuần trước, Meta đã xuất bản mà tôi đã đề cập, cho phép bạn tạo một video ngắn cũng từ một câu văn bản. Kết quả vẫn chưa hoàn hảo, nhưng những tiến bộ mà chúng tôi đã đạt được trong lĩnh vực này kể từ năm qua thật đáng kinh ngạc.

Tuần này chúng tôi tiến thêm một bước nữa.

Đây là DreamFusion, một mô hình Nghiên cứu mới của Google có thể hiểu một câu đủ để tạo mô hình 3D của nó.

Bạn có thể xem đây là sự hoặc nhưng ở dạng 3D.

Điều đó thật tuyệt làm sao ?! Chúng tôi thực sự không thể làm cho nó mát hơn nhiều.

Nhưng điều hấp dẫn hơn nữa là nó hoạt động như thế nào. Hãy đi sâu vào nó ...

Người giới thiệu

►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/dreamfusion/
►Poole, B., Jain, A., Barron, JT và Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. arXiv bản in trước arXiv: 2209.14988.
► Trang web dự án: https://dreamfusion3d.github.io/
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/

Bản ghi video

0:02

chúng tôi đã thấy các mô hình có thể lấy một

0:04

câu và tạo hình ảnh sau đó khác

0:07

các phương pháp tiếp cận để thao tác với

0:09

hình ảnh bằng cách học các khái niệm cụ thể

0:11

như một đối tượng hoặc một phong cách cụ thể

0:13

tuần trước meta đã xuất bản

0:16

mô hình video mà tôi đã đề cập cho phép

0:18

bạn tạo một video ngắn cũng từ

0:20

một câu văn bản không có kết quả

0:22

hoàn hảo nhưng sự tiến bộ mà chúng tôi đã đạt được

0:24

trong lĩnh vực này từ năm ngoái chỉ là

0:26

không thể tin được trong tuần này, chúng tôi thực hiện một

0:28

bước về phía trước đây là giấc mơ Fusion một mới

0:32

Mô hình nghiên cứu của Google có thể

0:34

hiểu một câu đủ để tạo ra

0:36

một mô hình 3D từ nó, bạn có thể thấy đây là

0:39

khuếch tán dally hoặc ổn định nhưng ở dạng 3D

0:41

thật tuyệt làm sao mà chúng ta không thể kiếm được nhiều

0:44

mát hơn nhưng còn gì hấp dẫn hơn

0:46

nó hoạt động như thế nào, chúng ta hãy đi sâu vào nó nhưng

0:49

trước tiên hãy cho tôi vài giây để nói chuyện

0:51

về một chủ đề liên quan đến thị giác máy tính

0:53

bạn sẽ muốn nghe điều đó nếu bạn đang ở

0:55

lĩnh vực này cũng cho video này, tôi

0:57

hợp tác với encord trực tuyến

1:00

nền tảng học tập cho thị giác máy tính

1:01

dữ liệu là một trong những phần quan trọng nhất

1:04

tạo ra tầm nhìn máy tính sáng tạo

1:06

đó là lý do tại sao nền tảng mã hóa có

1:09

được xây dựng từ đầu để làm

1:10

việc tạo ra dữ liệu đào tạo và

1:12

thử nghiệm các mô hình học máy

1:14

nhanh hơn bao giờ hết

1:17

điều này theo hai cách đầu tiên nó làm cho nó

1:19

quản lý chú thích và đánh giá dễ dàng hơn

1:22

dữ liệu đào tạo thông qua một loạt các

1:24

các công cụ chú thích cộng tác và

1:25

tính năng tự động hóa mã hóa thứ hai

1:28

cung cấp quyền truy cập vào apis quy trình công việc QA của nó

1:31

và SDK để bạn có thể tạo

1:33

Tăng tốc đường ống Active Learning

1:35

phát triển mô hình và bằng cách sử dụng mã hóa

1:38

bạn không cần phải mất thời gian xây dựng

1:39

các công cụ chú thích của riêng bạn cho phép bạn

1:41

tập trung vào việc đưa đúng dữ liệu vào

1:44

mô hình của bạn nếu điều đó nghe có vẻ thú vị

1:46

vui lòng nhấp vào liên kết đầu tiên bên dưới để có được

1:48

bản dùng thử miễn phí 28 ngày dành riêng cho mã hóa

1:51

cho cộng đồng của chúng tôi

1:54

nếu bạn đang theo đuổi giấc mơ công việc của tôi

1:56

Fusion khá đơn giản về cơ bản nó sử dụng

1:59

hai mô hình tôi đã đề cập đến Nerfs và

2:02

một trong những mô hình văn bản thành hình ảnh trong

2:04

trường hợp đó là mô hình Imogen nhưng và bạn

2:07

sẽ làm như khuếch tán ổn định hoặc Dolly

2:09

như bạn biết nếu bạn là một người tốt

2:11

sinh viên và đã xem các video trước đó

2:12

Nerfs là một loại mô hình được sử dụng để kết xuất

2:15

Cảnh 3D bằng cách tạo Độ sáng thần kinh

2:18

trường từ một hoặc nhiều hình ảnh của một

2:21

nhưng sau đó làm thế nào bạn có thể tạo một

2:23

Kết xuất 3D từ văn bản nếu mô hình Nerf

2:26

chỉ hoạt động tốt với những hình ảnh mà chúng tôi sử dụng

2:29

bắt chước AI khác để tạo hình ảnh

2:31

các biến thể từ cái cần và tại sao

2:34

chúng tôi làm điều đó thay vì trực tiếp

2:36

tạo mô hình 3D từ văn bản vì

2:38

nó sẽ yêu cầu tập dữ liệu 3D khổng lồ

2:41

dữ liệu cùng với dữ liệu được Liên kết của họ

2:43

chú thích cho mô hình của chúng tôi để được đào tạo về

2:46

sẽ rất khó để có

2:48

thay vào đó, chúng tôi sử dụng một văn bản được đào tạo trước để

2:50

mô hình hình ảnh với dữ liệu ít phức tạp hơn nhiều

2:53

cùng nhau và chúng tôi điều chỉnh nó thành 3D để nó

2:56

không yêu cầu bất kỳ dữ liệu 3D nào

2:57

được đào tạo chỉ về một AI có sẵn cho

3:00

tạo ra hình ảnh nó thực sự tuyệt vời làm thế nào

3:03

chúng ta có thể sử dụng lại các Công nghệ mạnh mẽ để

3:05

các nhiệm vụ mới như thế này khi thông dịch

3:07

vấn đề theo cách khác nên nếu chúng ta bắt đầu

3:09

ngay từ đầu chúng tôi đã có một mô hình Nerf

3:12

như tôi đã giải thích trong các video trước, điều này

3:14

loại mô hình lấy hình ảnh để dự đoán

3:17

các pixel trong mỗi chế độ xem mới lạ tạo ra một

3:20

Mô hình 3D bằng cách học hỏi từ các cặp hình ảnh của

3:22

cùng một đối tượng với khác nhau

3:24

quan điểm trong trường hợp của chúng tôi, chúng tôi không bắt đầu

3:26

với hình ảnh trực tiếp, chúng tôi bắt đầu với

3:28

văn bản và Mẫu một chế độ xem ngẫu nhiên

3:30

định hướng mà chúng tôi muốn tạo ra một hình ảnh

3:33

về cơ bản, chúng tôi đang cố gắng tạo ra một

3:35

Mô hình 3D bằng cách tạo ra hình ảnh của tất cả

3:38

các góc có thể mà máy ảnh có thể bao quát

3:40

nhìn xung quanh đối tượng và đoán

3:42

các pixel màu sắc mật độ ánh sáng

3:45

Phản ánh vv mọi thứ cần thiết để

3:48

làm cho nó trông thực tế, do đó chúng tôi bắt đầu

3:50

với chú thích và thêm một chỉnh sửa nhỏ cho

3:52

nó tùy thuộc vào máy ảnh ngẫu nhiên

3:54

quan điểm mà chúng tôi muốn tạo ra cho

3:56

ví dụ, chúng tôi có thể muốn tạo một mặt trước

3:58

xem vì vậy chúng tôi sẽ thêm chế độ xem trước vào

4:01

chú thích ở phía bên kia, chúng tôi sử dụng

4:03

cùng các thông số góc và camera cho

4:05

mô hình Nerf ban đầu không được đào tạo để

4:09

dự đoán lần hiển thị đầu tiên sau đó chúng tôi

4:11

tạo một phiên bản hình ảnh do chúng tôi hướng dẫn

4:13

chú thích và kết xuất ban đầu có thêm

4:17

tiếng ồn bằng cách sử dụng tưởng tượng văn bản được đào tạo trước của chúng tôi

4:20

sang mô hình hình ảnh mà tôi đã giải thích thêm

4:22

trong hình ảnh và video của tôi nếu bạn tò mò

4:24

để xem nó làm điều đó như thế nào để hình ảnh của chúng tôi và

4:26

mô hình sẽ được hướng dẫn bởi đầu vào văn bản

4:28

cũng như kết xuất hiện tại của

4:30

đối tượng có thêm tiếng ồn ở đây chúng tôi thêm

4:33

nhiễu vì đây là hình ảnh và

4:36

mô-đun có thể coi là đầu vào mà nó cần

4:38

một phần của sự phân bố tiếng ồn nó

4:40

hiểu rằng chúng tôi sử dụng mô hình để tạo

4:43

một hình ảnh chất lượng cao hơn thêm hình ảnh

4:45

được sử dụng để tạo ra nó và loại bỏ tiếng ồn

4:48

Chúng tôi đã thêm theo cách thủ công để sử dụng kết quả này cho

4:51

hướng dẫn và cải thiện mô hình Nerf của chúng tôi cho

4:54

bước tiếp theo chúng tôi làm tất cả những điều đó để tốt hơn

4:55

hiểu vị trí trong hình ảnh Nerf

4:57

mô hình nên tập trung sự chú ý của nó vào

4:59

tạo ra kết quả tốt hơn cho bước tiếp theo

5:01

và chúng tôi lặp lại điều đó cho đến khi mô hình 3D

5:05

đủ thỏa mãn rồi bạn có thể xuất

5:07

mô hình này để chia lưới và sử dụng nó trong một cảnh

5:10

sự lựa chọn của bạn và trước một số bạn

5:12

hỏi không bạn không cần phải đào tạo lại

5:15

mô hình trình tạo hình ảnh khi họ nói như vậy

5:17

trong bài báo, nó chỉ hoạt động như một

5:19

nhà phê bình đông lạnh dự đoán không gian hình ảnh

5:21

chỉnh sửa và voira đây là cách Fusion mơ ước

5:25

tạo kết xuất 3D từ đầu vào văn bản

5:28

nếu bạn muốn có một cái sâu hơn

5:30

hiểu biết về cách tiếp cận có một

5:32

nhìn vào các video của tôi bao trùm lên sự lo lắng và

5:34

Imogen Tôi cũng mời bạn đọc

5:36

giấy để biết thêm chi tiết về điều này cụ thể

5:39

phương pháp cảm ơn bạn đã xem toàn bộ

5:41

video và tôi sẽ gặp bạn vào tuần tới với

5:44

một tờ giấy tuyệt vời khác