Chúng tôi đã nghe nói về deepfakes , chúng tôi đã nghe nói về và chúng tôi đã thấy những loại ứng dụng này cho phép bạn tạo lại khuôn mặt của ai đó và gần như khiến họ nói bất cứ điều gì bạn muốn.
Những gì bạn có thể không biết là những phương pháp đó kém hiệu quả như thế nào và chúng yêu cầu bao nhiêu tính toán và thời gian. Ngoài ra, chúng tôi chỉ thấy kết quả tốt nhất. Hãy nhớ rằng những gì chúng ta thấy trực tuyến là kết quả liên quan đến các khuôn mặt mà chúng ta có thể tìm thấy hầu hết các ví dụ, vì vậy về cơ bản, các tính cách trên internet và các mô hình tạo ra những kết quả đó được đào tạo bằng nhiều máy tính, nghĩa là các tài nguyên đắt tiền như nhiều card đồ họa. Tuy nhiên, kết quả thực sự ấn tượng và chỉ trở nên tốt hơn.
May mắn thay, một số người như Jiaxian Tang và các đồng nghiệp đang nghiên cứu để làm cho các phương pháp đó trở nên khả dụng và hiệu quả hơn với một mô hình mới gọi là RAD-NeRF.
Từ một video duy nhất, họ có thể tổng hợp người nói gần như bất kỳ từ hoặc câu nào trong thời gian thực với chất lượng tốt hơn. Bạn có thể tạo hoạt ảnh cho một cái đầu biết nói theo bất kỳ bản âm thanh nào trong thời gian thực. Điều này vừa tuyệt vời vừa đáng sợ cùng một lúc ...
►Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. và Wang, J., 2022. Real- thời gian Tổng hợp chân dung nói chuyện bức xạ thần kinh thông qua phân tách không gian âm thanh. in sẵn arXiv arXiv:2211.12368 .
►Trang kết quả/dự án: https://me.kiui.moe/radnerf/
0:02
[Âm nhạc]
0:07
chúng tôi đã nghe nói về hàng giả sâu chúng tôi đã nghe nói về
0:09
Nerfs và chúng tôi đã thấy những loại này
0:11
các ứng dụng cho phép bạn tạo lại
0:13
khuôn mặt của ai đó và khá nhiều làm cho anh ta
0:15
nói bất cứ điều gì bạn muốn những gì bạn có thể không
0:17
biết là những phương pháp đó không hiệu quả như thế nào
0:20
là bao nhiêu Máy tính và thời gian chúng
0:22
yêu cầu cộng với chúng tôi chỉ thấy tốt nhất
0:24
kết quả hãy ghi nhớ rằng những gì chúng ta thấy
0:26
trực tuyến là kết quả liên quan đến
0:29
những khuôn mặt chúng ta có thể tìm thấy hầu hết các ví dụ về
0:31
về cơ bản tính cách internet và
0:34
các mô hình tạo ra những kết quả đó là
0:36
được đào tạo bằng cách sử dụng nhiều ý nghĩa máy tính
0:38
tài nguyên đắt tiền như nhiều đồ họa
0:41
thẻ vẫn là kết quả thực sự
0:43
ấn tượng và chỉ trở nên tốt hơn
0:45
may mắn thay một số người như Jackson
0:47
tang và các đồng nghiệp đang làm việc trên
0:49
làm cho các phương pháp đó trở nên khả dụng hơn và
0:52
hiệu quả với một mô hình mới gọi là màu đỏ
0:54
Nerf nhưng hãy nghe điều đó từ chính họ
0:57
người mẫu xin chào cảm ơn đã xem
0:59
video bổ sung cho bài viết của chúng tôi
1:00
đầu nói chuyện Radiance thần kinh thời gian thực
1:03
tổng hợp thông qua không gian âm thanh bị phân tách
1:05
mã hóa
1:06
phương pháp của chúng tôi là dành riêng cho từng người và chỉ
1:08
cần ba đến năm phút bằng một mắt
1:10
video đào tạo
1:11
sau khi đào tạo mô hình có thể tổng hợp
1:14
Talking Heads thực tế được điều khiển bởi
1:15
âm thanh tùy ý trong thời gian thực trong khi
1:17
giữ kết xuất tương đương hoặc tốt hơn
1:19
chất lượng so với các phương pháp trước đây
1:21
bạn đã nghe điều đó ngay từ một video
1:23
họ có thể tổng hợp người nói chuyện
1:26
đối với hầu hết mọi từ hoặc câu trong
1:28
thời gian thực với chất lượng tốt hơn bạn có thể
1:30
làm sinh động một cái đầu biết nói sau bất kỳ
1:33
bản âm thanh trong thời gian thực, đây là cả hai
1:36
mát mẻ và rất đáng sợ cùng một lúc chỉ
1:39
tưởng tượng những gì có thể được thực hiện nếu chúng ta có thể
1:40
làm cho bạn nói bất cứ điều gì ít nhất họ
1:43
vẫn cần quyền truy cập vào video của bạn
1:45
nói trước máy quay trong 5
1:47
phút vì vậy thật khó để đạt được điều đó
1:48
mà bạn vẫn không biết ngay khi bạn
1:51
xuất hiện trực tuyến bất cứ ai cũng có thể sử dụng
1:53
một mô hình như vậy và tạo các video vô hạn
1:56
trong số bạn nói về bất cứ điều gì họ muốn
1:58
họ thậm chí có thể lưu trữ các luồng trực tiếp với
2:00
phương pháp này thậm chí còn nguy hiểm hơn
2:03
và khiến việc nói bộ đồ lặn thậm chí còn khó khăn hơn
2:05
hoặc không dù sao đi nữa mặc dù đây là
2:08
thú vị và tôi rất thích nghe bạn
2:10
suy nghĩ trong các ý kiến và giữ
2:11
câu hỏi thảo luận ở đây tôi muốn
2:13
để trang trải một cái gì đó chỉ là tích cực
2:15
và khoa học thú vị chính xác hơn như thế nào
2:19
họ đã đạt được để làm động Talking
2:20
Đứng đầu trong thời gian thực từ bất kỳ âm thanh nào bằng cách sử dụng
2:23
chỉ có một video về khuôn mặt khi họ nói
2:26
mô hình Nerf màu đỏ của họ có thể chạy 500 lần
2:29
nhanh hơn so với các công việc trước đây với
2:31
chất lượng kết xuất tốt hơn và hơn thế nữa
2:33
kiểm soát bạn có thể hỏi làm thế nào là có thể
2:36
chúng tôi thường đánh đổi chất lượng để lấy hiệu quả
2:39
nhưng họ đạt được để cải thiện cả hai
2:41
vô cùng những cải tiến to lớn này
2:43
có thể nhờ vào ba điểm chính
2:46
hai cái đầu tiên có liên quan đến
2:48
kiến trúc của mô hình hơn
2:50
cụ thể là cách họ điều chỉnh Nerf
2:52
cách tiếp cận để làm cho nó hiệu quả hơn và
2:54
với các chuyển động được cải thiện của Torso và
2:57
đầu bước đầu tiên là làm cho thần kinh
2:59
hiệu quả hơn, tôi sẽ không đi sâu vào cách
3:02
Nerfs hoạt động vì chúng tôi đã đề cập đến nó rất nhiều
3:04
thời gian về cơ bản đó là một cách tiếp cận dựa trên
3:06
mạng lưới thần kinh để tái tạo 3D
3:09
cảnh thể tích từ một loạt 2D trong
3:11
hình ảnh có nghĩa là hình ảnh thông thường này
3:14
là lý do tại sao họ sẽ lấy video làm đầu vào
3:17
vì về cơ bản nó mang lại cho bạn rất nhiều
3:19
hình ảnh của một người từ nhiều người khác nhau
3:21
góc để nó thường sử dụng một mạng để
3:24
dự đoán tất cả các màu và mật độ pixel
3:26
từ máy ảnh Quan điểm của bạn
3:28
hình dung và làm điều đó cho tất cả
3:31
quan điểm bạn muốn thể hiện khi
3:32
xoay quanh đối tượng đó là
3:34
cực kỳ đói tính toán như bạn
3:37
dự đoán nhiều tham số cho mỗi
3:39
phối hợp trong hình ảnh mọi lúc và
3:41
bạn đang học cách dự đoán tất cả chúng
3:43
Ngoài ra, trong trường hợp của họ, đó không chỉ là một Nerf
3:46
sản xuất hoặc cảnh 3D nó cũng phải
3:49
khớp với đầu vào âm thanh và khớp với môi
3:51
miệng mắt và cử động với những gì
3:53
người nói thay vì dự đoán tất cả
3:56
mật độ pixel và màu sắc phù hợp với
3:58
âm thanh cho một khung cụ thể họ sẽ
4:00
làm việc với hai mới và cô đọng riêng biệt
4:03
không gian được gọi là không gian lưới hoặc dựa trên lưới
4:06
Nerf họ sẽ dịch của họ
4:08
tọa độ thành một không gian lưới 3D nhỏ hơn
4:11
trans đặt âm thanh của họ thành 2D nhỏ hơn
4:13
không gian lưới và sau đó gửi chúng để hiển thị
4:16
cái đầu, điều này có nghĩa là chúng không bao giờ hợp nhất
4:19
dữ liệu âm thanh với dữ liệu không gian
4:22
sẽ tăng kích thước theo cấp số nhân
4:23
thêm đầu vào hai chiều cho mỗi
4:26
phối hợp để giảm kích thước của
4:29
các tính năng âm thanh cùng với việc giữ
4:31
các tính năng âm thanh và không gian riêng biệt là
4:34
điều gì làm cho cách tiếp cận trở nên nhiều hơn thế
4:36
hiệu quả nhưng kết quả như thế nào
4:38
tốt hơn nếu họ sử dụng không gian cô đọng mà
4:40
có ít thông tin thêm một vài
4:42
các tính năng có thể kiểm soát như mắt
4:44
điều khiển nhấp nháy vào lưới của chúng tôi Nerf the
4:47
mô hình sẽ học thực tế hơn
4:48
hành vi cho mắt so với
4:51
cách tiếp cận trước một cái gì đó thực sự
4:53
quan trọng đối với chủ nghĩa hiện thực thứ hai
4:55
Cải tiến mà họ đã thực hiện là mô hình hóa
4:57
Torso với một Nerf khác bằng cách sử dụng tương tự
5:00
cách tiếp cận thay vì cố gắng mô hình hóa nó
5:02
với cùng một Nerf được sử dụng thêm đầu
5:04
sẽ yêu cầu ít tham số hơn nhiều
5:07
và các nhu cầu khác nhau vì mục tiêu ở đây là
5:09
để làm sinh động những cái đầu chuyển động chứ không phải toàn bộ
5:12
cơ thể kể từ Torso là khá nhiều
5:14
tĩnh trong những trường hợp này họ sử dụng nhiều
5:16
dựa trên Nerf đơn giản và hiệu quả hơn
5:18
mô-đun chỉ hoạt động ở dạng 2D hoạt động ở
5:21
không gian hình ảnh trực tiếp thay vì
5:24
sử dụng mảng máy ảnh như chúng ta thường làm
5:26
với Nerf để tạo ra nhiều khác nhau
5:28
các góc không cần thiết cho thân
5:30
vì vậy về cơ bản nó hiệu quả hơn nhiều
5:32
bởi vì họ đã sửa đổi cách tiếp cận cho
5:35
trường hợp sử dụng rất cụ thể này của cứng nhắc
5:37
video thân và di chuyển đầu họ sau đó
5:40
sắp xếp lại đầu với Torso để
5:42
sản xuất video cuối cùng và thì đấy
5:45
là cách bạn sản xuất những video có đầu óc biết nói
5:47
trên mọi đầu vào âm thanh siêu hiệu quả
5:50
tất nhiên đây chỉ là một cái nhìn tổng quan về
5:53
ấn phẩm nghiên cứu thú vị mới này
5:55
và họ thực hiện các sửa đổi khác trong quá trình
5:57
việc đào tạo thuật toán của họ để thực hiện
5:59
nó hiệu quả hơn đó là cái thứ ba
6:01
điểm tôi đã đề cập ở đầu
6:03
video nếu bạn đang thắc mắc tôi mời
6:05
bạn đọc bài báo của họ để biết thêm
6:07
thông tin liên kết nằm trong
6:09
mô tả dưới đây trước khi bạn rời khỏi tôi
6:10
chỉ muốn cảm ơn những người
6:12
gần đây đã hỗ trợ kênh này thông qua
6:14
patreon điều này là không cần thiết và
6:16
nghiêm ngặt để hỗ trợ công việc tôi làm ở đây
6:18
rất cảm ơn artem vladiken Leopoldo
6:22
Alta Murano J Cole Michael carichao
6:25
Daniel gimness và một vài Anonymous
6:28
các nhà tài trợ hào phóng nó sẽ rất nhiều
6:30
đánh giá cao nếu bạn cũng muốn và có thể
6:33
đủ khả năng hỗ trợ tài chính cho công việc của tôi
6:35
liên kết đến trang patreon của tôi nằm trong
6:37
mô tả dưới đây là tốt nhưng không phải lo lắng
6:39
nếu không phải là một bình luận chân thành dưới này
6:42
video là tất cả những gì tôi cần để được hạnh phúc hơn tôi hy vọng
6:45
bạn thích video này và tôi sẽ thấy
6:47
bạn vào tuần tới với một bài báo tuyệt vời khác
6:51
[Âm nhạc]