本周的论文可能只是您迄今为止最喜欢的模型。
如果您认为最近的图像生成模型(如DALLE或Stable Diffusion )很酷,您将不会相信这个模型有多不可思议。
“这个”是意象。
Imagic 采用这种基于扩散的模型,能够提取文本并从中生成图像,并调整模型以编辑图像。看看那个......您可以生成图像,然后教模型以您想要的任何方式对其进行编辑。
在下面的视频中了解更多...
►阅读全文: https ://www.louisbouchard.ai/imagic/
►Kawar, B.、Zada, S.、Lang, O.、Tov, O.、Chang, H.、Dekel, T.、Mosseri, I. 和 Irani, M.,2022 年。Imagic:基于文本的真实图像使用扩散模型进行编辑。 arXiv 预印本 arXiv:2210.09276。
► 与稳定扩散一起使用: https ://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb
►我的时事通讯(一个新的 AI 应用程序每周向您的电子邮件解释!): https ://www.louisbouchard.ai/newsletter/
0:24
看看你可以生成图像
0:26
然后教模型编辑它
0:29
你想要的方式这是一个相当大的一步
0:31
拥有自己的 Photoshop
0:33
设计师免费模型不仅
0:36
了解您想要展示的内容,但
0:38
它也能够保持现实
0:41
作为保持初始的属性
0:43
图像只是看看狗是如何停留的
0:46
这里的所有图像都一样,这个任务是
0:49
称为文本条件图像编辑
0:51
这意味着仅使用
0:54
文本和初始图像
0:57
几乎不可能,甚至不到一年
0:59
以前现在看看它可以做什么是的
1:03
都是从单个输入图像完成的
1:05
和一个简短的句子,你看到了什么
1:07
你想知道这有多神奇
1:09
唯一更酷的是它是如何
1:12
工作让我们深入研究它,但首先如果
1:15
您目前正在学习 AI 或想要
1:17
开始学习吧,你会喜欢的
1:19
机会我知道它有多难
1:22
在学习 AI 时取得真正的进步
1:24
有时额外的结构和
1:26
问责制可能是您建议的
1:29
下一个级别,如果这听起来像你
1:31
加入此视频的赞助商 Delta
1:33
您在 Delta Academy 学习的学院
1:36
通过构建游戏进行强化学习
1:38
实时队列中的 AIS 从零变为
1:41
alphago 通过出口精心制作
1:43
互动教程 现场讨论
1:46
与这些专家和每周 AI
1:48
建设比赛不仅仅是
1:51
另一个课程垃圾邮件网站,它很激烈
1:53
亲力亲为,专注于高品质
1:56
由 deepmind Oxford 专家设计
1:58
剑桥是程序员去的地方
2:01
未来证明他们的承运人
2:03
人工智能的进步和乐趣加上
2:06
同行和专家的实时社区
2:08
推动你前进,你会写出标志性的
2:10
Python中的算法范围从dqn到
2:13
alphago 有史以来最酷的程序之一
2:16
现在通过我下面的链接加入他们
2:18
并使用促销代码什么是人工智能
2:21
10 折
2:23
那么 iMagic 是如何工作的,正如我们所说的那样
2:26
需要一张图片和一个标题来编辑
2:29
设置图像,你甚至可以生成
2:31
它的多种变体这个模型
2:33
像绝大多数论文一样
2:35
这些天发布的内容是基于
2:38
扩散模型更具体地说
2:41
采用图像生成器模型
2:43
已经受过训练以生成图像
2:45
文本并使其适应图像编辑
2:48
他们的案例它使用我的 Imogen
2:51
在之前的视频中介绍过
2:53
基于扩散的生成模型能够
2:55
之后创建高清图像
2:57
在庞大的数据集上进行训练
3:00
图像标题对的情况下
3:02
iMagic 他们只是把这个预先训练
3:05
imagen 模型作为基线并制作
3:08
对其进行修改以编辑
3:10
作为输入发送的图像保留图像
3:13
特定的外观,例如狗的
3:16
种族和身份并对其进行编辑
3:18
按照我们的文字开始,我们有
3:21
对文本和首字母进行编码
3:23
图像边缘,以便可以理解
3:25
完成后通过我们的成像模型
3:28
我们优化我们的文本编码 我们的文本
3:31
嵌入以更好地适应我们的初始
3:33
图像基本上是我们的文字
3:35
表示并为我们优化它
3:38
初始图像称为 e 优化为
3:41
确定它理解在这个例子中
3:43
我们想生成相同类型的
3:45
具有相似外观的鸟的图像和
3:48
背景然后我们把我们的预训练
3:51
图像生成器微调它的含义
3:53
我们将重新训练图像和模型
3:55
保持优化的文本嵌入,我们
3:58
只是产生了相同的所以这两个
4:01
步骤用于获取文本嵌入
4:03
更接近图像嵌入
4:06
冻结两者中的一个并获得
4:08
其他更接近,这将确保我们
4:10
优化文本和初始
4:12
图像不仅是两者之一
4:15
我们的模型理解初始图像
4:17
在我们的文本中并理解他们
4:19
是相似的,我们需要教它
4:21
为此生成新的图像变体
4:24
文字 这个火花超级简单 我们的文字
4:27
嵌入和图像优化
4:29
嵌入非常相似,但仍然
4:32
不完全一样我们唯一做的事
4:34
这是我们将图像嵌入
4:36
在我们的编码空间中并移动它一点
4:39
朝着此刻的文本嵌入
4:42
如果您要求 iMagic 模型生成
4:45
使用优化文本的图像
4:47
应该给您与您相同的图像
4:49
输入图像,所以如果你移动嵌入
4:52
有点向你的文本嵌入它
4:55
也会稍微编辑图像
4:58
你想要的东西越多
5:00
这个空间越多,编辑就会越大
5:02
你离得越远
5:05
你的初始形象,所以你唯一的
5:07
现在需要弄清楚的是大小
5:10
你想朝着你的方向迈出的这一步
5:12
当你找到你的文本和瞧
5:15
完美平衡你有一个新模型
5:17
能够产生尽可能多的变化
5:20
你想保存重要的图像
5:22
编辑方式时的属性视图
5:25
你当然想要结果不是
5:27
完美但你可以在这里看到
5:30
模型要么没有正确编辑
5:32
或对图像进行随机修改
5:35
初始图像,如裁剪或
5:37
缩放不当仍然存在
5:40
如果你问我,我觉得非常令人印象深刻
5:42
图像生成的速度
5:44
进步令人难以置信,这两者兼而有之
5:47
我会同时感到惊奇和可怕
5:50
很想知道你对这些类型的看法
5:52
图像生成和图像编辑
5:54
你觉得模特好还是
5:57
坏事你有什么样的后果
5:59
可以从这样的模型中想到
6:02
越来越强大你可以找到更多
6:04
他们的具体参数的详细信息
6:06
使用在他们的实现这些结果
6:08
我绝对邀请您阅读的论文
6:10
阅读我也邀请你看我的形象
6:13
和视频,如果您想了解更多信息
6:14
关于图像生成部分和
6:17
非常感谢它是如何工作的
6:20
我在 Delta Academy 工作的朋友
6:22
关于让学习人工智能变得有趣的事情
6:26
热情的请试一试
6:28
让我知道你的想法
6:30
个人很喜欢这种教学方式
6:33
我相信你也会感谢你
6:35
通过查看他们的支持来支持我的工作
6:37
网站并通过观看整个视频
6:39
我希望你喜欢它我会见到你
6:42
下周再写一篇惊人的论文