paint-brush
稳定的扩散推理基准 — 24 小时内 900 万张图像,价格为 1,872 美元经过@saladcloud
650 讀數
650 讀數

稳定的扩散推理基准 — 24 小时内 900 万张图像,价格为 1,872 美元

经过 Salad Technologies6m2023/08/31
Read on Terminal Reader

太長; 讀書

在此稳定扩散基准测试中,我们的目标是 750 个 GPU,至少具有 4 个 vCPU、至少 8GB RAM,以及 NVIDIA RTX 2000、3000 或 4000 系列 GPU,至少具有 8GB VRAM。 该基准测试是针对用于定制艺术品的 SaaS 风格的生成式 AI 图像生成工具运行的。 结果: 9,274,913 个图像生成请求 云总成本为 1872 美元 24小时图像生成 已使用 3.62TB 存储空间 平均 7 秒图像生成时间
featured image - 稳定的扩散推理基准 — 24 小时内 900 万张图像,价格为 1,872 美元
Salad Technologies HackerNoon profile picture
0-item
1-item
2-item

高端消费级 GPU 是否适合大规模稳定扩散推理?如果是这样,每天生成数百万张图像的成本是多少?您真的需要 A10、A100 还是 H100?


在此基准测试中,我们通过在 SaladCloud 上启动一个经过微调、基于稳定扩散的应用程序来回答这些问题。


结果:我们扩展到 750 个副本 (GPU),并在24 小时内使用 3.62 TB 存储生成了超过920 万张图像,总成本为1,872 美元


通过每美元生成 4,954 张图像,该基准测试表明,在消费级 GPU 上大规模生成 AI 推理是实用的、经济实惠的,并且是降低云成本的途径。在这篇文章中,我们将回顾应用程序架构和模型详细信息、SaladCloud 上的部署以及提示详细信息和基准的推理结果。在后续文章中,我们将提供技术演练和参考代码,您可以使用它们来复制此基准测试。

图像生成的应用程序架构

该基准测试是针对用于定制艺术品的 SaaS 风格的生成式 AI 图像生成工具运行的。最终用户浏览经过微调的模型类别,选择模型,自定义提示和参数,然后提交作业以生成一张或多张图像。生成后,图像将呈现给最终用户。我们帮助开发了推理容器,以展示 SaladCloud 节点在此用例中的潜力。下图提供了系统架构的高级描述:


稳定扩散基准的系统架构


主要组件包括基于 Web 的应用程序(前端和后端)、专用作业队列、推理容器和块存储服务。 Azure 队列存储用于作业队列并提供 FIFO 调度。 Azure Blob 存储用于提供块存储。下图提供了推理容器架构的高级描述:

稳定扩散推理容器及部件


该容器基于Automatic1111 的Stable Diffusion Web UI 。我们创建了一个自定义工作程序并将其添加到用 Go 编写的容器中,该容器实现了作业处理管道。该工作人员利用 Azure SDK for Go 与 Azure 队列存储和 Azure Blob 存储服务进行通信。 Worker 按顺序轮询队列中的作业,使用 Stable Diffusion Web UI 服务器提供的 text2img API 端点生成图像,并将图像上传到 blob 容器。

在 SaladCloud 上部署

构建推理容器映像后,我们使用基于 Web 的门户创建了 SaladCloud 托管容器部署。


在 SaladCloud 上部署


该部署的目标是 750 个独特节点,这些节点至少具有 4 个 vCPU、至少 8GB RAM 以及至少 8GB VRAM 的 NVIDIA RTX 2000、3000 或 4000 系列 GPU。尽管 SaladCloud 允许更有针对性的节点选择,但我们决定允许调度程序根据未使用的网络容量采用具有兼容 GPU 的第一个可用节点。另外值得注意的是,我们没有限制部署的地理分布。


作业队列中充满了10,000,000 个可变图像生成提示。以下是其中一项作业的示例:


 {"prompt": "photo of a jump rope, lora:magic-fantasy-forest-v2:0.35, magic-fantasy-forest, digital art, most amazing artwork in the world, ((no humans)), volumetric light, soft balanced colours, forest scenery, vines, uhd, 8k octane render, magical, amazing, ethereal, intricate, intricate design, ultra sharp, shadows, cooler colors, trending on cgsociety, ((best quality)), ((masterpiece)), (detailed)","negative_prompt": "oversaturation, oversaturated colours, (deformed, distorted, disfigured:1.3), distorted iris, poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation, human, man, woman", "sampler_name": "k_euler_a", "steps": 15, "cfg_scale": 7}


每个作业都包含嵌入在文本提示中的 LoRA 定义,并且每个作业使用的具体名词和环境描述略有不同。生成的图像大小固定为 512x512 像素,采样器固定为 Euler Ancestral,步数固定为 15,CFG 比例固定为 7。

结果 - 24 小时内拍摄超过 900 万张图像,售价 1872 美元

在 24 小时内,我们总共处理了9,274,913 个图像生成请求,生成了 3.62 TB 的内容。处理故障(例如暂时性网络问题)极少,并且只有 523 个作业被第二次重新处理。平均而言,我们实现了7 秒的图像生成周期时间。以下马赛克是生成的一些图像的示例:


替代文本:三个生成图像的马赛克,第一个包含洗衣机,第二个包含汽车,第三个包含袋鼠,所有图像都存在于奇幻风格的森林中


从稳定扩散推理基准生成的图像样本。提示包括在幻想风格的森林中设置的不同名词。


考虑到没有时间调整和优化参数,浏览生成的图像并观察相对质量是很有趣的。

未来的改进

该演示产生了令人兴奋的结果,表明对于大规模稳定扩散推理,消费级 GPU 不仅有能力,而且更具成本效益。也就是说,它还远未优化。我们可以执行许多技术任务来提高性能。值得注意的是,我们很快实现了工作程序并确定了一个循环,该循环依次拉取作业、生成图像并上传图像。通过此实现,当我们等待网络 I/O 时,GPU 处于空闲状态。

GPU 利用率图表显示处理作业时至少有 10% 的 GPU 空闲时间


如果我们采用一种管道化作业的方法,从队列中急切地拉出一个额外的作业,并将网络 I/O 与另一个图像生成请求并行化,我们估计总体作业吞吐量至少会提高 10%。如果不调整总成本,这将使我们一天生成的图像数量超过 1000 万张。

生成式人工智能和推理成本

生成式人工智能是一种人工智能,可以创造新的内容,如绘画、音乐和写作。它通过从现有信息中学习来开发模式和关系模型,并且在生成独特和个性化的内容方面具有实际应用。由于许多开源基础模型的发布,它已成为一种越来越流行的技术,其中许多模型是在超大规模数据集上开发的。结合开发和应用微调的相对容易性以及大规模运行推理的低成本,生成式人工智能的民主化正在以令人难以置信的速度释放新的应用程序。


特别与推理相关,许多模型仍然需要大量的计算资源来有效地生成内容。然而,消费级GPU处理能力和资源容量的飞跃已经赶上了生成式AI模型的许多应用。


越来越多的客户不再求助于大型云计算提供商并争夺 A10、A100 或 H100 等企业级 GPU 的稀缺资源,而是转向 SaladCloud,这是一个由世界上最强大的游戏 PC 组成的分布式云计算环境。


生成式人工智能的快速扩展应用包括根据文本描述创建图像。 “文本到图像”工作流程可用于生成游戏、广告和营销活动、故事板等资产。稳定扩散是“文本到图像”领域中一种流行的开源基础模型。


我们目前正在计划“图像到图像”和“音频到文本”工作流程演示和基准测试,我们希望在不久的将来通过我们的博客分享更多结果。

SaladCloud - 用于生成 AI 的最实惠的 GPU 云

该基准测试在 SaladCloud 上运行,SaladCloud 是世界上最实惠的 GPU 云,适用于生成式 AI 推理和其他计算密集型应用程序。 SaladCloud 拥有超过 10k+ GPU,起价为 0.10 美元/小时,拥有市场上最低的 GPU 价格。


如果高昂的云费用和 GPU 可用性阻碍了您的增长和盈利能力,SaladCloud 可以帮助您提供低廉的价格和按需可用性。


最近,我们的产品主管Daniel Sarfati与来自LLM Utils (强烈推荐的 LLM 资源)的 Clay Pascal 坐下来讨论如何选择合适的 GPU 来实现稳定扩散。要了解有关稳定扩散的 GPU 选择的更多信息,您可以收听完整的音频采访


联系我们获取个性化演示。要运行您自己的模型或流行模型的预配置配方(Stable Diffusion、Whisper、BERT 等),请查看SaladCloud 门户进行免费试用。


也发布在这里