paint-brush
“就像《中途旅程》有一个 API”——看一看康定斯基 2.2经过@mikeyoung44
2,545 讀數
2,545 讀數

“就像《中途旅程》有一个 API”——看一看康定斯基 2.2

经过 Mike Young9m2023/08/24
Read on Terminal Reader

太長; 讀書

Kandinsky v2.2 是一种 Midjourney 替代方案,可通过 javascript API 从文本生成高质量图像。
featured image - “就像《中途旅程》有一个 API”——看一看康定斯基 2.2
Mike Young HackerNoon profile picture
0-item

人工智能驱动的图像生成模型正在彻底改变创意领域。 Midjourney 平台凭借其文本驱动的图像创建一直是这一创新领域的关键参与者。然而,其基于 Discord 的界面对专业用途提出了一些限制。


让我们看一下名为 Kandinsky 2.2 的新 AI 模型,这是一个对构建者更加友好的文本到图像模型,可通过多功能 API 获得。


与通过 Discord 运营的 Midjourney 不同,Kandinsky 使开发人员能够将 AI 图像生成集成到各种编程语言中,例如 Python、Node.js 和 cURL。


这意味着只需几行代码,康定斯基就可以自动化图像生成过程,使其成为创意专业人士更有效的工具。随着新的 v2.2 版本的发布,康定斯基的图像质量达到了前所未有的高水平。


订阅或关注我推特以获得更多这样的内容!


Kandinsky 2.2 为 AI 图像生成带来了新的可访问性和灵活性。它与多种编程语言和工具无缝集成,提供超越 Midjourney 平台的灵活性。


此外,康定斯基先进的扩散技术产生了令人印象深刻的逼真图像。其 API 优先的方法使专业人士更容易将人工智能驱动的可视化融入到他们现有的技术堆栈中。


Kandinsky v2.2 图像生成示例


在本指南中,我们将探讨康定斯基在可扩展性、自动化和集成方面的潜力,并讨论它如何为未来的创造力做出贡献。


加入我们,我们将深入研究使用这款高级人工智能助手将令人惊叹的人工智能艺术融入您的产品所需的工具和技术。

康定斯基 2.2 的主要优点

  • 开源- 康定斯基是完全开源的。直接使用代码或通过 Replicate 灵活的 API 访问它。
  • API 访问- 通过 Replicate API 将 Kandinsky 集成到 Python、Node.js、cURL 等中的工作流程中。
  • 自动化- 通过修改代码中的文本提示以编程方式调整图像以实现快速迭代。
  • 可扩展性- 通过简单的 API 调用生成数千张图像。创建故事板并大规模可视化概念。
  • 定制集成- 凭借 API 优先的设计,将 Kandinsky 融入您自己的工具和产品中。
  • ControlNet - 通过文本提示对图像属性(例如照明和角度)进行精细控制。
  • 多语言- 理解英语、中文、日语、韩语、法语等提示。
  • 高分辨率- 清晰、详细的 1024x1024 图像适合任何用例。
  • 照片写实主义- 最先进的扩散技术可产生与 Midjourney 相媲美的令人惊叹的逼真图像。

康定斯基如何创作?

Kandinsky 2.2 是一种文本到图像的扩散模型,可根据文本提示生成图像。它由几个关键组件组成:


  • 文本编码器:文本提示通过 XLM-Roberta-Large-Vit-L-14 编码器传递,以提取语义特征并将文本编码到潜在空间中。这会产生一个文本嵌入向量。


  • 图像编码器:预先训练的 CLIP-ViT-G 模型将图像编码到与文本嵌入相同的潜在空间中。这允许文本和图像表示之间的匹配。


  • 扩散先验:转换器在文本嵌入潜在空间和图像嵌入潜在空间之间进行映射。这建立了一个以概率方式链接文本和图像的扩散先验。


  • UNet:1.22B参数Latent Diffusion UNet作为主干网络。它将图像嵌入作为输入,并通过迭代去噪将输出图像样本从嘈杂变为干净。


  • ControlNet:一种附加的神经网络,可根据深度图等辅助输入调节图像生成。这使得可控的图像合成成为可能。


  • MoVQ 编码器/解码器:一种离散 VAE,将图像嵌入压缩为离散潜在代码,以实现更高效的采样。


在训练期间,文本-图像对被编码为链接的嵌入。扩散 UNet 经过训练,可以通过去噪将这些嵌入反转回图像。


为了进行推理,文本被编码为嵌入,在图像嵌入之前通过扩散进行映射,由 MoVQ 压缩,并由 UNet 反转以迭代生成图像。附加的 ControlNet 允许控制深度等属性。

相对于康定斯基早期版本的主要改进

显示康定斯基平台演变的图像。

显示康定斯基从 v2.0 到 v2.1 再到 v2.2 演变的示例。现实主义!

Kandinsky 2.2 的主要增强功能包括:


  1. 新图像编码器 - CLIP-ViT-G :关键升级之一是 CLIP-ViT-G 图像编码器的集成。此次升级显着增强了模型生成美观图像的能力。通过利用更强大的图像编码器,Kandinsky 2.2 可以更好地解释文本描述并将其转换为视觉上迷人的图像。


  2. ControlNet 支持:Kandinsky 2.2 引入了 ControlNet 机制,该功能允许精确控制图像生成过程。这一添加增强了生成输出的准确性和吸引力。借助 ControlNet,该模型获得了基于文本指导操作图像的能力,为创造性探索开辟了新途径。

如何使用康定斯基创作图像?

准备好开始使用这个强大的人工智能模型进行创作了吗?以下是使用 Replicate API 与 Kandinsky 2.2 交互的分步指南。在较高层面上,您需要:


  1. 身份验证- 获取您的复制 API 密钥并在您的环境中进行身份验证。


  2. 发送提示- 在prompt参数中传递您的文本描述。您可以用多种语言指定它。


  3. 自定义参数- 根据需要调整图像尺寸、输出数量等。请参阅型号规格了解更多详情,或继续阅读。


  4. 处理响应- Kandinsky 2.2 输出生成图像的 URL。下载此图像以在您的项目中使用。


为了方便起见,您可能还想尝试一下现场演示在编写代码之前了解模型的功能。

通过 Replicate API 使用 Kandinsky 2.2 的分步指南

在此示例中,我们将使用 Node 来处理模型。因此,您需要首先安装 Node.js 客户端。


 npm install replicate


然后,复制您的 API 令牌并将其设置为环境变量:

 export REPLICATE_API_TOKEN=r8_*************************************


接下来,使用 Node.js 脚本运行模型:

 import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "ai-forever/kandinsky-2.2:ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", { input: { prompt: "A moss covered astronaut with a black background" } } );


您还可以为预测设置一个 Webhook,以便在该过程完成时接收更新。


 const prediction = await replicate.predictions.create({ version: "ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", input: { prompt: "A moss covered astronaut with a black background" }, webhook: "https://example.com/your-webhook", webhook_events_filter: ["completed"] });


当您将此代码应用到您的应用程序中时,您将需要试验模型的参数。让我们看一下康定斯基的输入和输出。

康定斯基 2.2 代示例,来自提示:红猫照片,8k


康定斯基 2.2 的输入和输出

文字提示是指导康定斯基图像生成的核心输入。通过调整提示,您可以调整输出。


  • 提示- 文字描述,例如“宇航员在火星上下棋”。这是必需的。


  • 否定提示- 指定要排除的元素,例如“没有太空头盔”。选修的。


  • 宽度和高度- 图像尺寸(以像素为单位),从 384 到 2048。默认值为 512 x 512。


  • 推理步骤数- 扩散过程中的去噪步骤数,越高越慢,但质量可能越高。默认值为 75。


  • Num Outputs - 每个提示生成的图像数量,默认值为 1。


  • 种子- 用于随机化的整数种子。留空为随机。


将创意提示与这些调整参数相结合,您可以调出完美的图像。

康定斯基模型输出

康定斯基根据您的输入输出一个或多个图像 URL。 URL 指向后端托管的 1024x1024 JPG 图像。您可以下载这些图像以在您的创意项目中使用。输出的数量取决于“num_outputs”参数。


输出格式如下所示:


 { "type": "array", "items": { "type": "string", "format": "uri" }, "title": "Output" }


通过生成变化,您可以选择最佳结果或找到鼓舞人心的方向。

我可以与康定斯基一起构建哪些类型的应用程序或产品?

将文本转换为图像的能力是一项了不起的创新,Kandinsky 2.2 处于这项技术的最前沿。让我们探讨一下使用该模型的一些实际方法。


例如,在设计中,将文本想法快速转换为视觉概念可以显着简化创作过程。


设计师可以使用康定斯基立即可视化他们的想法,而不是依赖冗长的讨论和手工草图,从而加快客户的批准和修改。


在教育领域,将复杂的文本描述转化为视觉图表可以使学习变得更加有吸引力和易于理解。教师可以即时说明具有挑战性的概念,增强学生对生物或物理等学科的理解和兴趣。

例如康定斯基 2.2 代,从提示:水彩混合媒体杰作美丽的白色舒适的房子,有烟囱,紫色的门,装饰华丽的羽扇豆,长满青苔的花盆,普罗旺斯,金色口音,破旧别致的风格,隔离在白色,极其逼真细节,真实 高细节,高分辨率


电影和网页设计领域也可以从康定斯基 2.2 中受益。通过将书面脚本和概念转化为视觉效果,导演和设计师可以实时预览他们的作品。


这种即时可视化可以简化规划阶段并促进团队成员之间的协作。


此外,康定斯基制作高质量图像的能力可能为新的艺术表达形式和专业应用打开大门。从数字艺术画廊到印刷媒体,潜在用途广泛且令人兴奋。


但我们不要忽视实际的局限性。虽然这个概念很有希望,但现实世界的集成将面临挑战,并且生成的图像的质量可能会有所不同或需要人工监督。


与任何新兴技术一样,Kandinsky 2.2 可能需要改进和调整才能满足您的需求。

更进一步 - 使用 AIModels.fyi 发现类似模型

AIModels.fyi 是发现针对特定创意需求量身定制的 AI 模型的宝贵资源。您可以探索各种类型的型号,进行比较,甚至按价格排序。这是一个免费平台,提供摘要电子邮件,让您随时了解新型号。


要查找与 Kandinsky-2.2 类似的模型:


  1. 访问AI模型.fyi


  2. 使用搜索栏输入您的用例的描述。例如, ”写实肖像“ 或者 ”高质量文本到图像生成器


  3. 查看每个型号的型号卡并选择最适合您的用例的型号卡。


  4. 查看每个型号的型号详细信息页面并进行比较以找到您最喜欢的。

结论

在本指南中,我们探索了 Kandinsky-2.2(一种多语言文本到图像潜在扩散模型)的创新功能。


从了解其技术实现到通过分步说明来利用它,您现在已经准备好在您的创造性工作中利用人工智能的力量。


此外,AIModels.fyi 通过帮助您发现和比较相似的模型,打开了通往充满可能性的世界的大门。拥抱 AI 驱动的内容创建的潜力,并在 AIModels.fyi 上订阅更多教程、更新和灵感。快乐探索和创造!


订阅或关注我推特以获得更多这样的内容!

延伸阅读:探索人工智能模型和应用

对于那些对人工智能模型的功能及其多样化应用感兴趣的人,这里有一些相关文章,深入探讨了人工智能驱动的内容生成和操作的各个方面:


  1. AI 徽标生成器:Erlich :了解 AI 徽标生成器 Erlich 如何利用 AI 创建独特且具有视觉吸引力的徽标,扩展您对 AI 创造潜力的理解。


  2. 最佳升级者:全面概述最佳升级人工智能模型,提供有关增强图像分辨率和质量的见解。


  3. 如何在中途升级:分步指南:探索如何使用 Midjourney AI 模型有效升级图像的详细指南,丰富您对图像增强技术的了解。


  4. 告别图像噪声:如何使用 ScuNet GAN 增强旧图像:深入研究使用 ScuNet GAN 进行图像去噪和恢复的领域,深入了解随着时间的推移保持图像质量。


  5. 利用 AI 为旧照片注入新活力:GFpgan 初学者指南:了解 Gfpgan AI 模型如何为老照片注入新的生命,为您提供重振珍贵记忆的初学者指南。


  6. 比较 Gfpgan 和 Codeformer:深入探讨 AI 人脸恢复:通过比较 Gfpgan 和 Codeformer 模型,深入了解基于 AI 的面部恢复的细微差别。


  7. NightmareAI:最佳 AI 模型:查看 Nightmare AI 团队的最佳模型。


  8. ESRGAN 与 Real-ESRGAN:从理论到现实世界的人工智能超分辨率:了解 ESRGAN 和 Real-ESRGAN AI 模型之间的细微差别,阐明超分辨率技术。


  9. Real-ESRGAN 与 SwinIR:用于恢复和升级的 AI 模型:比较 Real-ESRGAN 和 SwinIR 模型,深入了解它们在图像恢复和升级方面的有效性。


也发布在这里