本周的论文可能只是您迄今为止最喜欢的模型。 如果您认为最近的图像生成模型（如 或  ）很酷，您将不会相信这个模型有多不可思议。 DALLE Stable Diffusion  “这个”是意象。  Imagic 采用这种基于扩散的模型，能够提取文本并从中生成图像，并调整模型以编辑图像。看看那个......您可以生成图像，然后教模型以您想要的任何方式对其进行编辑。 在下面的视频中了解更多...  参考：  ►阅读全文：   ://www.louisbouchard.ai/imagic/  ►Kawar, B.、Zada, S.、Lang, O.、Tov, O.、Chang, H.、Dekel, T.、Mosseri, I. 和 Irani, M.，2022 年。Imagic：基于文本的真实图像使用扩散模型进行编辑。 arXiv 预印本 arXiv:2210.09276。  ► 与稳定扩散一起使用：   ://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb  ►我的时事通讯（一个新的 AI 应用程序每周向您的电子邮件解释！）：   ://www.louisbouchard.ai/newsletter/ https https https 视频记录 0:24 看看你可以生成图像 0:26 然后教模型编辑它 0:29 你想要的方式这是一个相当大的一步 0:31 拥有自己的 Photoshop  0:33 设计师免费模型不仅 0:36 了解您想要展示的内容，但 0:38 它也能够保持现实 0:41 作为保持初始的属性 0:43 图像只是看看狗是如何停留的 0:46 这里的所有图像都一样，这个任务是 0:49 称为文本条件图像编辑 0:51 这意味着仅使用 0:54 文本和初始图像 0:57 几乎不可能，甚至不到一年 0:59 以前现在看看它可以做什么是的 1:03 都是从单个输入图像完成的 1:05 和一个简短的句子，你看到了什么 1:07 你想知道这有多神奇 1:09 唯一更酷的是它是如何 1:12 工作让我们深入研究它，但首先如果 1:15 您目前正在学习 AI 或想要 1:17 开始学习吧，你会喜欢的 1:19 机会我知道它有多难 1:22 在学习 AI 时取得真正的进步 1:24 有时额外的结构和 1:26 问责制可能是您建议的 1:29 下一个级别，如果这听起来像你 1:31 加入此视频的赞助商 Delta  1:33 您在 Delta Academy 学习的学院 1:36 通过构建游戏进行强化学习 1:38 实时队列中的 AIS 从零变为 1:41  alphago 通过出口精心制作 1:43 互动教程 现场讨论 1:46 与这些专家和每周 AI  1:48 建设比赛不仅仅是 1:51 另一个课程垃圾邮件网站，它很激烈 1:53 亲力亲为，专注于高品质 1:56 由 deepmind Oxford 专家设计 1:58 剑桥是程序员去的地方 2:01 未来证明他们的承运人 2:03 人工智能的进步和乐趣加上 2:06 同行和专家的实时社区 2:08 推动你前进，你会写出标志性的 2:10  Python中的算法范围从dqn到 2:13  alphago 有史以来最酷的程序之一 2:16 现在通过我下面的链接加入他们 2:18 并使用促销代码什么是人工智能 2:21  10 折 2:23 那么 iMagic 是如何工作的，正如我们所说的那样 2:26 需要一张图片和一个标题来编辑 2:29 设置图像，你甚至可以生成 2:31 它的多种变体这个模型 2:33 像绝大多数论文一样 2:35 这些天发布的内容是基于 2:38 扩散模型更具体地说 2:41 采用图像生成器模型 2:43 已经受过训练以生成图像 2:45 文本并使其适应图像编辑 2:48 他们的案例它使用我的 Imogen  2:51 在之前的视频中介绍过 2:53 基于扩散的生成模型能够 2:55 之后创建高清图像 2:57 在庞大的数据集上进行训练 3:00 图像标题对的情况下 3:02  iMagic 他们只是把这个预先训练 3:05  imagen 模型作为基线并制作 3:08 对其进行修改以编辑 3:10 作为输入发送的图像保留图像 3:13 特定的外观，例如狗的 3:16 种族和身份并对其进行编辑 3:18 按照我们的文字开始，我们有 3:21 对文本和首字母进行编码 3:23 图像边缘，以便可以理解 3:25 完成后通过我们的成像模型 3:28 我们优化我们的文本编码 我们的文本 3:31 嵌入以更好地适应我们的初始 3:33 图像基本上是我们的文字 3:35 表示并为我们优化它 3:38 初始图像称为 e 优化为 3:41 确定它理解在这个例子中 3:43 我们想生成相同类型的 3:45 具有相似外观的鸟的图像和 3:48 背景然后我们把我们的预训练 3:51 图像生成器微调它的含义 3:53 我们将重新训练图像和模型 3:55 保持优化的文本嵌入，我们 3:58 只是产生了相同的所以这两个 4:01 步骤用于获取文本嵌入 4:03 更接近图像嵌入 4:06 冻结两者中的一个并获得 4:08 其他更接近，这将确保我们 4:10 优化文本和初始 4:12 图像不仅是两者之一 4:15 我们的模型理解初始图像 4:17 在我们的文本中并理解他们 4:19 是相似的，我们需要教它 4:21 为此生成新的图像变体 4:24 文字 这个火花超级简单 我们的文字 4:27 嵌入和图像优化 4:29 嵌入非常相似，但仍然 4:32 不完全一样我们唯一做的事 4:34 这是我们将图像嵌入 4:36 在我们的编码空间中并移动它一点 4:39 朝着此刻的文本嵌入 4:42 如果您要求 iMagic 模型生成 4:45 使用优化文本的图像 4:47 应该给您与您相同的图像 4:49 输入图像，所以如果你移动嵌入 4:52 有点向你的文本嵌入它 4:55 也会稍微编辑图像 4:58 你想要的东西越多 5:00 这个空间越多，编辑就会越大 5:02 你离得越远 5:05 你的初始形象，所以你唯一的 5:07 现在需要弄清楚的是大小 5:10 你想朝着你的方向迈出的这一步 5:12 当你找到你的文本和瞧 5:15 完美平衡你有一个新模型 5:17 能够产生尽可能多的变化 5:20 你想保存重要的图像 5:22 编辑方式时的属性视图 5:25 你当然想要结果不是 5:27 完美但你可以在这里看到 5:30 模型要么没有正确编辑 5:32 或对图像进行随机修改 5:35 初始图像，如裁剪或 5:37 缩放不当仍然存在 5:40 如果你问我，我觉得非常令人印象深刻 5:42 图像生成的速度 5:44 进步令人难以置信，这两者兼而有之 5:47 我会同时感到惊奇和可怕 5:50 很想知道你对这些类型的看法 5:52 图像生成和图像编辑 5:54 你觉得模特好还是 5:57 坏事你有什么样的后果 5:59 可以从这样的模型中想到 6:02 越来越强大你可以找到更多 6:04 他们的具体参数的详细信息 6:06 使用在他们的实现这些结果 6:08 我绝对邀请您阅读的论文 6:10 阅读我也邀请你看我的形象 6:13 和视频，如果您想了解更多信息 6:14 关于图像生成部分和 6:17 非常感谢它是如何工作的 6:20 我在 Delta Academy 工作的朋友 6:22 关于让学习人工智能变得有趣的事情 6:26 热情的请试一试 6:28 让我知道你的想法 6:30 个人很喜欢这种教学方式 6:33 我相信你也会感谢你 6:35 通过查看他们的支持来支持我的工作 6:37 网站并通过观看整个视频 6:39 我希望你喜欢它我会见到你 6:42 下周再写一篇惊人的论文

YouTube

Watch more on YouTube: https://www.youtube.com/c/WhatsAI

I explain Artificial Intelligence terms and news to non-experts.

2021 - HackerNoon Contributor of the Year - FACEBOOK

2022 - Best Data Science Newsletter

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

2022 - HackerNoon Contributor of the Year - Computer Vision

2022 - HackerNoon Contributor of the Year - Data Science

2022 - HackerNoon Contributor of the Year - Google

2022 - HackerNoon Contributor of the Year - Innovation

2022 - HackerNoon Contributor of the Year - Machine Learning

2022 - HackerNoon Contributor of the Year - Natural Language Processing

2022 - Top Tech Youtuber

2021 - HackerNoon Contributor of the Year - DEEP-LEARNING

Nominated for 2022 - Best Data Science Newsletter

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Nominated for 2022 - Top Tech Youtuber

Nominated for 2022 - HackerNoon Contributor of the Year - Innovation

Nominated for 2022 - HackerNoon Contributor of the Year - Data Science

Nominated for 2022 - HackerNoon Contributor of the Year - Natural Language Processing

imagic: 来自文本命令的人工智能图像编辑

About Author

註釋

標籤

这篇文章刊登在

Related Stories

如何将您的工作流程提高 10 倍：17 个必备应用程序

使用这 18 种开发工具来提高你的工作效率 🚀🔥

Claude Sonnet 3.5 系统提示泄漏：法医分析

释放人工智能的力量。前沿技术的系统评价：摘要与介绍

如何将您的工作流程提高 10 倍：17 个必备应用程序

使用这 18 种开发工具来提高你的工作效率 🚀🔥

Claude Sonnet 3.5 系统提示泄漏：法医分析

释放人工智能的力量。前沿技术的系统评价：摘要与介绍

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps