像 DALLE 或稳定扩散这样的文本到图像模型真的很酷,它允许我们通过简单的文本输入来生成精彩的图片。但是给他们一张你的照片,让他们把它变成一幅画,会不会更酷?想象一下,能够发送任何物体、人甚至你的猫的图片,并要求模型将其转换为另一种风格,比如将自己变成你喜欢的艺术风格的机器人或将其添加到新场景中。 基本上,如果有一个 DALLE 版本我们可以用来对我们的照片进行 Photoshop 处理而不是随机生成,那该有多酷?拥有一个个性化的 DALLE,同时让生成控制变得更加简单,因为“一张图片值一千个单词”。这就像拥有一个与 TikTok 算法一样个性化和令人上瘾的 DALLE 模型。 嗯,这就是特拉维夫大学和 NVIDIA 的研究人员所做的工作。他们开发了一种方法来调节文本到图像的模型,就像我上周介绍的稳定扩散一样,使用一些图像通过您将随图像发送的单词来表示任何对象或概念。将输入图像的对象转换为您想要的任何对象!在视频中了解更多... 参考 ►阅读全文: ://www.louisbouchard.ai/imageworthoneword/ ►论文:Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH, Chechik, G. 和 Cohen-Or, D.,2022 年。一个图像值得一个词: 使用文本反转个性化文本到图像的生成。 ►代码: ://textual-inversion.github.io/ ►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): ://www.louisbouchard.ai/newsletter/ https https://arxiv.org/pdf/2208.01618v1.pdf https https 视频记录 0:00 文本到图像的模型,如 dali 或 stable 0:02 扩散真的很酷,让我们 0:04 生成梦幻般的图片 0:07 简单的文本输入,但它会是偶数吗 0:09 给他们一张你的照片 0:11 请它把它变成一幅画 0:13 想象一下能够发送任何图片 0:15 对象的人,甚至你的猫, 0:18 要求模型将其转换为 0:20 另一种风格,比如把自己变成 0:22 一个半机械人变成你喜欢的艺术 0:24 样式甚至将其添加到新场景中 0:27 基本上拥有一个该有多酷 0:30 dali 的版本,我们可以用来 Photoshop 0:32 我们的照片而不是随机的 0:35 世代 0:36 在制作时拥有个性化的小车 0:39 控制起来要简单得多 0:41 几代人作为一个形象值得 0:44 千言万语就像拥有一个 0:46 dali模型同样个性化 0:49 和 tic tac 算法一样令人上瘾 0:52 好吧,这就是来自 tel 的研究人员 0:54 阿维夫大学和英伟达致力于 0:57 他们开发了一种方法 0:58 调节文本到图像的模型,例如 1:01 我上周报道的稳定扩散 1:03 用几张图片来代表任何 1:05 对象或概念通过你的话 1:08 将发送您的图像转换 1:11 您输入图像的对象 1:13 不管你想要什么当然结果 1:15 仍然需要工作,但这只是 1:17 第一篇处理如此惊人的论文 1:19 可以彻底改变设计的任务 1:22 行业作为出色的 youtuber 1:24 同事会说再想象两个 1:26 文件下线所以我们怎么能拿 1:29 一些物体的照片和 1:31 在文本之后生成新图像 1:33 条件输入以添加样式或 1:35 转换细节来回答这个问题 1:38 复杂的问题让我们看看 1:40 reynold gal 和他的团队想出了什么 1:42 输入图像被编码成 1:44 他们称之为荒谬的词,你可以 1:47 然后在您的文本生成中使用 1:50 因此图像的纸张名称值得 1:52 一个词,但他们如何得到这种 1:55 单词,它是什么 1:57 他们从三到五张图片开始 2:00 他们还使用一个特定的对象 2:02 在此预训练文本到图像模型 2:04 如果他们使用潜扩散模型 2:07 我一周前还没有报道过 2:09 接受任何类型的输入,如图像或 2:12 文本并生成新图像 2:15 他们你可以看到它作为一个冷却器和开放 2:18 如果你还没有看过我的,来源熟食店 2:20 视频但你应该暂停这个 2:23 了解这个模型并回来 2:25 在这里你会喜欢这个视频并学习 2:27 关于最热门的架构 2:29 时刻让你有你的输入图像和 2:32 生成图像的基本模型 2:34 条件和输入,如文本或 2:37 其他图像,但你做什么用 2:39 一个物体的三到五个图像 2:42 以及如何控制模型的 2:43 结果如此精确,以至于您的对象 2:46 出现在几代人中 这就是全部 2:48 在您的培训过程中完成 2:51 第二个模型文本编码器使用您的 2:54 预训练和固定的图像生成器 2:56 在这种情况下模拟潜扩散 2:59 已经可以拍照和 3:00 重建你想教你的 3:02 文本编码器模式以匹配荒谬 3:05 字到您的编码图像或其他 3:08 你的陈述取自的话 3:11 你的五张图片,这样你就可以喂饱你的 3:13 图像到您的图像生成器网络 3:16 并反向训练您的文本编码器 3:19 找出什么假词或某些 3:22 这个词最能代表你的所有 3:24 编码图像基本上找出如何 3:27 在 3:29 与生成图像的空间相同 3:32 我在上一个视频中描述的过程 3:34 发生 3:36 然后从中提取一个假词 3:38 用这种方式指导后代 3:41 可以将您的概念注入任何未来 3:44 几代人,再加上几句话 3:46 进一步调节一代 3:49 使用相同的预训练文本到图像 3:51 模型,所以你将只是训练一个 3:54 小模型来了解您的 3:56 图像位于潜在空间中 3:58 将它们转换为假词以用于 4:00 他们的常规图像生成模型你 4:03 甚至不必触摸图像 4:05 一代模型,这是一个相当大的 4:07 考虑到它们有多贵,交易 4:09 训练,瞧,这就是你的方法 4:12 教一个相似的模型生成图像 4:14 您喜欢的对象的变体或 4:17 执行强大的风格转移 4:19 当然这只是一个概述 4:21 这种新方法解决了一个非常非常 4:24 有趣的任务,我邀请你 4:26 阅读下面链接的他们的论文 4:28 更深入地了解方法和 4:30 挑战 这是一项非常复杂的任务 4:33 还有很多限制 4:35 就像理解所需要的时间 4:37 这样一个假词中的概念是 4:39 大约两个小时还没有 4:42 能够完全理解 4:44 概念,但离那里很近 4:47 也有很多风险在有这样的 4:49 我们需要的产品可访问 4:51 考虑想象一下能够嵌入 4:54 特定人的概念和 4:56 产生任何涉及该人的东西 4:58 几秒钟后,这很可怕,而且 5:01 这种技术就在身边 5:03 角落 5:04 我很想听听你的想法 5:06 评论部分或讨论这个 5:09 不和谐服务器 5:10 感谢您观看视频,我 5:12 下周再见 5:14 惊人的纸 5:22 [音乐]