Meta AI 的新模型 make-a-video 已经推出,只需一句话:它从文本中生成视频。它不仅能够生成视频,而且还是最先进的新方法,可以生成比以往更高质量和更连贯的视频!
您可以将此模型视为视频的稳定扩散模型。在能够生成图像之后肯定是下一步。这是您必须已经在新闻网站上或仅通过阅读文章标题看到的所有信息,但您还不知道它到底是什么以及它是如何工作的。
就是这样...
►阅读全文: https ://www.louisbouchard.ai/make-a-video/
► Meta 的博文: https ://ai.facebook.com/blog/generation-ai-text-to-video/
►辛格等人。 (Meta AI),2022,“制作视频:没有文本视频数据的文本到视频生成”, https://makeavideo.studio/Make-A-Video.pdf
►制作视频(官方页面): https ://makeavideo.studio/?fbclid=IwAR0tuL9Uc6kjZaMoJHCngAMUNp9bZbyhLmdOUveJ9leyyfL9awRy4seQGW4
► Pytorch 实现: https ://github.com/lucidrains/make-a-video-pytorch
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): https ://www.louisbouchard.ai/newsletter/
0:00
methias 新模型制作视频已发布
0:03
并在一个句子中生成
0:05
来自文本的视频它不是无法
0:07
生成视频,但它也是新的
0:09
最先进的方法产生更高的
0:11
质量和更连贯的视频比
0:14
您是否可以将此模型视为稳定的
0:16
视频的扩散模型肯定是
0:19
能够生成后的下一步
0:21
图片这是您必须提供的信息
0:23
已经在新闻网站上看过或
0:26
只需阅读视频的标题
0:28
但你还不知道的是什么
0:30
它的确切原理及其工作原理制作视频
0:33
是 met 的最新出版物
0:35
III 它允许你生成一个
0:37
仅来自文本输入的短视频
0:40
像这样,所以你增加了复杂性
0:42
图像生成测试不仅通过
0:45
必须生成多个帧
0:47
相同的主题和场景,但它也
0:49
必须及时连贯,你不能
0:51
只需使用 dally 生成 60 张图像
0:53
并生成一个看起来很简单的视频
0:56
坏的,没有什么现实的,你需要一个
0:58
理解世界的模型
1:00
更好的方法并利用这一水平的
1:02
理解产生一个连贯的
1:04
一系列融合得很好的图像
1:06
你基本上想一起模拟
1:08
一个世界,然后模拟录音
1:11
它,但你怎么能做到这一点通常你
1:14
将需要大量的文本视频对
1:16
训练您的模型以生成此类视频
1:18
来自文本输入,但在这种情况下不是
1:21
因为这种数据真的
1:23
难以获得和培训费用
1:25
非常昂贵,他们接近这个
1:27
不同的问题另一种方法是
1:30
采用最好的文本到图像模型和
1:32
将其改编为视频,这就是我遇到的
1:35
他们在一篇研究论文中做了
1:38
在他们的案例中发布文本到图像
1:40
model 是 meta 的另一个模型,称为
1:43
我在以前报道过的杂志
1:45
视频如果您想了解更多信息
1:47
但是你如何使这样的模型适应
1:50
花时间考虑你添加一个
1:53
模型的时空管道
1:55
能够处理视频这意味着
1:58
该模型不仅会生成一个
2:00
图像,但在这种情况下,其中 16 个处于低位
2:03
决议创建一个简短的连贯
2:06
视频以类似于文本的方式
2:08
图像模型,但添加了一维
2:11
卷积与常规
2:13
二维一的简单加法
2:15
允许他们保持预训练
2:17
二维卷积相同
2:19
并添加一个时间维度,他们
2:22
将从头开始训练重用大部分
2:25
代码和模型参数来自
2:27
他们也从我们开始的图像模型
2:30
想用文字指导我们的世代
2:32
输入将非常相似
2:34
使用剪辑嵌入的图像模型
2:37
过程我在我的马厩中详细介绍
2:39
不熟悉的扩散视频
2:41
他们的问题,但他们也会
2:43
添加时间维度时
2:45
将文本特征与
2:47
图像特征做同样的事情
2:49
保持我描述的注意力模块
2:52
在我制作场景视频并添加
2:55
一维注意力模块或
2:57
临时考虑复制粘贴
3:00
图像生成器模型和复制
3:02
多一个生成模块
3:04
维度拥有我们所有的 16 首字母
3:07
框架,但你能用 16 做什么
3:10
框架很好,没有什么真正有趣的
3:13
我们需要制作高清视频
3:16
在这些框架之外,模型会做
3:19
通过访问预览和
3:21
未来的框架和迭代
3:23
从它们中插值
3:27
时空维度
3:30
同时所以基本上产生新的
3:33
以及它们之间的更大框架
3:35
基于帧的初始 16 帧
3:38
在他们之前和之后
3:40
着迷于使运动连贯
3:43
整个视频都毁了
3:45
使用帧插值网络
3:47
我也在其他视频中描述过
3:50
但基本上会拍摄我们的图像
3:52
拥有并填补产生的空白
3:54
在信息之间它会做同样的事情
3:57
空间分量放大的东西
3:59
图像并填充像素间隙
4:02
让它更高清
4:04
所以总结微调文本
4:07
用于视频生成的图像模型 this
4:09
意味着他们已经采用了强大的模型
4:12
训练并适应和训练它
4:14
多一点习惯这个视频
4:16
再培训将在未标记的情况下完成
4:19
视频只是为了教模型
4:21
了解视频和视频帧
4:23
一致性使得数据集
4:25
构建过程比我们简单得多
4:27
再次使用图像优化模型
4:30
提高我们的空间分辨率
4:32
最后一帧插值组件
4:35
添加更多帧以使视频流畅
4:38
当然结果还不完美
4:40
就像文本到图像模型一样,但我们
4:43
知道进展有多快
4:45
只是概述我是如何认识的
4:47
成功解决了文字转视频
4:49
这篇伟大论文中的任务所有链接
4:52
如果你愿意,在下面的描述中
4:53
想更多地了解他们的方法
4:55
在 pytorch 实施也是
4:57
社区已经在开发
4:59
如果你愿意,请继续关注
5:02
喜欢自己实现谢谢
5:04
观看整个视频,我会
5:06
下次见
5:08
纸