我们听说过deepfakes ,我们听说过 ,我们也见过这些类型的应用程序,可以让你重现某人的脸,几乎可以让他或她说出你想说的任何话。
您可能不知道这些方法的效率有多低,以及它们需要多少计算和时间。另外,我们只看到最好的结果。请记住,我们在网上看到的是与我们可以找到的大多数示例的面孔相关的结果,因此基本上,互联网人物和产生这些结果的模型是使用大量计算进行训练的,这意味着像许多显卡这样的昂贵资源。尽管如此,结果确实令人印象深刻,而且只会越来越好。
幸运的是,像 Jiaxian Tang 及其同事这样的一些人正在致力于通过一种名为 RAD-NeRF 的新模型使这些方法更加可用和有效。
从一个视频中,他们可以实时合成出说话者几乎任何单词或句子的质量更高的视频。您可以实时跟随任何音轨制作说话的头部动画。这既酷又可怕……
►Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. and Wang, J., 2022. Real- time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition。 arXiv 预印本 arXiv:2211.12368 。
►成果/项目页面: https://me.kiui.moe/radnerf/
0:02
[音乐]
0:07
我们听说过我们听说过的深度造假
0:09
Nerfs,我们已经看到了这些
0:11
允许您重新创建的应用程序
0:13
某人的脸,几乎让他
0:15
想说什么就说什么
0:17
知道那些方法是多么低效
0:20
是多少计算和时间他们
0:22
require plus 我们只看到最好的
0:24
结果记住我们所看到的
0:26
在线是与相关联的结果
0:29
我们可以找到最多例子的面孔
0:31
所以基本上是互联网名人和
0:34
产生这些结果的模型是
0:36
使用大量计算意义训练
0:38
昂贵的资源,如许多图形
0:41
卡还是结果真的
0:43
令人印象深刻,只会变得更好
0:45
幸运的是有些人喜欢杰克逊
0:47
唐和同事们正在研究
0:49
使这些方法更可用
0:52
对称为红色的新模型有效
0:54
Nerf 但让我们从他们自己那里听到
0:57
模特你好谢谢收看
0:59
我们论文的补充视频
1:00
实时神经 Radiance 说话头
1:03
通过分解的音频空间合成
1:05
编码
1:06
我们的方法是因人而异的
1:08
需要三到五分钟的单眼
1:10
培训视频
1:11
训练后模型可以合成
1:14
逼真的会说话的头像由
1:15
实时任意音频,同时
1:17
保持可比或更好的渲染
1:19
与以前的方法相比质量如此
1:21
你是从一个视频中听到的
1:23
他们可以合成说话的人
1:26
对于几乎任何单词或句子
1:28
实时更好的质量你可以
1:30
动画一个说话的头跟随任何
1:33
实时音轨这两者都是如此
1:36
既酷又可怕
1:39
想象一下如果我们可以做什么
1:40
让你说什么至少他们
1:43
仍然需要访问您的视频
1:45
在镜头前讲话 5
1:47
分钟所以很难实现
1:48
在你还不知道的情况下
1:51
出现在网上任何人都可以使用
1:53
这样的模型并创建无限的视频
1:56
你们谈论他们想要的任何东西
1:58
他们甚至可以主持直播
2:00
这种方法更危险
2:03
并且更难说潜水衣
2:05
还是不管怎样,即使这是
2:08
有趣,我很想听听你的
2:10
评论中的想法并保留
2:11
我想要的讨论问题在这里
2:13
覆盖一些只有积极的东西
2:15
和令人兴奋的科学更准确地说是如何
2:19
他们有没有实现动画说话
2:20
实时从任何音频使用
2:23
只有他们所说的面部视频
2:26
他们的红色 Nerf 模型可以运行 500 次
2:29
比以前的作品更快
2:31
更好的渲染质量等等
2:33
控制你可能会问这怎么可能
2:36
我们通常以质量换取效率
2:39
但他们实现了改善
2:41
这些巨大的改进令人难以置信
2:43
有可能归功于三个要点
2:46
前两个与
2:48
模型架构 更多
2:50
特别是他们如何适应 Nerf
2:52
使它更有效和更有效的方法
2:54
随着躯干运动的改善和
2:57
头部第一步是制造神经
2:59
更有效率我不会深入探讨如何
3:02
Nerfs 工作,因为我们覆盖了很多
3:04
时间基本上是一种基于
3:06
重建 3D 的神经网络
3:09
来自一堆 2D 的体积场景
3:11
images 这意味着常规图像
3:14
这就是为什么他们会将视频作为输入
3:17
因为它基本上给了你很多
3:19
一个人来自许多不同的图像
3:21
角度,所以它通常使用网络来
3:24
预测所有像素的颜色和密度
3:26
从相机的角度来看你是
3:28
可视化并为所有人做到这一点
3:31
你想在什么时候展示的观点
3:32
围绕主题旋转
3:34
像你一样极度渴望计算
3:37
为每个预测多个参数
3:39
每次都在图像中坐标
3:41
你正在学习预测所有这些
3:43
另外,在他们的情况下,它不仅是 Nerf
3:46
制作或 3D 场景它也必须
3:49
匹配音频输入并贴合嘴唇
3:51
嘴巴眼睛和动作用什么
3:53
人说而不是预测所有
3:56
像素密度和颜色匹配
3:58
他们将针对特定帧的音频
4:00
使用两个独立的新的和压缩的
4:03
称为网格空间或基于网格的空间
4:06
Nerf 他们会翻译他们的
4:08
坐标到更小的 3D 网格空间
4:11
将他们的音频转换为较小的 2D
4:13
网格空间,然后将它们发送到渲染
4:16
头这意味着他们永远不会合并
4:19
具有空间数据的音频数据
4:22
将以指数方式增加大小
4:23
将二维输入添加到每个
4:26
协调,从而减少的大小
4:29
音频功能以及保持
4:31
音频和空间特征分开是
4:34
是什么让这种方法如此多
4:36
高效但结果如何
4:38
如果他们使用压缩空间会更好
4:40
有较少的信息添加一些
4:42
像眼睛这样的可控特征
4:44
闪烁控制我们的网格 Nerf the
4:47
模型会学得更真实
4:48
眼睛的行为与
4:51
以前的方法真的
4:53
第二个对现实主义很重要
4:55
他们所做的改进是模拟
4:57
躯干与另一个使用相同的 Nerf
5:00
方法而不是尝试对其建模
5:02
使用相同的 Nerf 使用更多的头部
5:04
这将需要更少的参数
5:07
和不同的需求,因为这里的目标是
5:09
为移动的头部而不是整个头部设置动画
5:12
身体因为躯干几乎是
5:14
static 在这些情况下他们使用了很多
5:16
基于 Nerf 的更简单和更高效的
5:18
仅在 2D 中工作的模块
5:21
图像空间直接代替
5:24
像往常一样使用相机阵列
5:26
用 Nerf 生成许多不同的
5:28
躯干不需要的角度
5:30
所以它基本上更有效率
5:32
因为他们修改了方法
5:35
刚性的这个非常具体的用例
5:37
躯干和摇头视频他们然后
5:40
用躯干重新组合头部
5:42
制作最终视频,瞧这个
5:45
是你如何制作会说话的头像视频
5:47
超高效地处理任何音频输入
5:50
当然这只是一个概述
5:53
这个新的令人兴奋的研究出版物
5:55
并且他们在此期间进行了其他修改
5:57
他们的算法训练
5:59
它更有效率,这是第三个
6:01
我在开头提到的一点
6:03
如果您想知道我邀请的视频
6:05
你阅读他们的论文了解更多
6:07
信息链接是在
6:09
在你离开之前下面的描述我
6:10
只是想感谢那些人
6:12
最近通过
6:14
patreon 这是没有必要的
6:16
严格支持我在这里所做的工作
6:18
非常感谢 artem vladiken Leopoldo
6:22
Alta Murano J Cole Michael carichao
6:25
Daniel gimness 和一些匿名者
6:28
慷慨的捐助者将是极大的
6:30
如果您也想要并且可以,我们将不胜感激
6:33
有能力在经济上支持我的工作
6:35
我的 patreon 页面的链接在
6:37
下面也有描述,但不用担心
6:39
如果不是在此下方的真诚评论
6:42
视频是我希望更快乐的全部
6:45
你喜欢这个视频,我会看到
6:47
你下周还有另一篇很棒的论文
6:51
[音乐]