paint-brush
这个人工智能可以将任何输入转化为任何输出:这就是为什么它很重要经过@mikeyoung44
2,535 讀數
2,535 讀數

这个人工智能可以将任何输入转化为任何输出:这就是为什么它很重要

经过 Mike Young6m2023/05/27
Read on Terminal Reader

太長; 讀書

CoDi 是一种改变游戏规则的生成模型,可以处理混合输入。它可以处理文本、音频、视频、图像并将它们转换为任何其他输出组合。 CoDi 使用多阶段训练方案,这意味着它可以针对各种任务进行训练。
featured image - 这个人工智能可以将任何输入转化为任何输出:这就是为什么它很重要
Mike Young HackerNoon profile picture
0-item

AI 变得越来越聪明,伙计们。人工智能只能处理的日子已经一去不复返了单一类型的输入并吐出单一类型的输出.这是一个时代CoDi :一个改变游戏规则的生成模型,可以处理混合输入(想想文本、音频、视频、图像)并将它们转换为任何其他输出组合。


我偶然发现了这个大胆的项目鸣叫作者是 Avi Schiffmann,他是一位 AI 爱好者,他的好奇心是无限的。


所以,很自然地,我觉得有必要深入研究详细介绍了这一激动人心的突破。系好安全带,因为这是一次疯狂的旅程。

欢迎来到派对,CoDi

那么,CoDi 有什么特别之处?首先,这个 AI 发电厂比我们迄今为止看到的任何生成模型都更加通用。它不受图像到图像或文本到文本等特定模式的束缚。哦不,CoDi 是一种自由精神,因为它是一种“任意对任意”模型。


这个坏男孩接受你给它的任何东西——语言、图像、视频、音频——并将其转化为不同的形式。


北卡罗来纳大学教堂山分校和微软 Azure 认知服务研究中心的研究人员精心设计了 CoDi,不仅可以同时管理多种模式,还可以生成原始训练数据中没有的输出。


现在,这就是我们所说的超越你的体重。


更酷的是,这一切都是通过一种新颖的可组合生成策略实现的,它可以同步生成相互交织的模态。想象一段由一台机器制作的带有完美同步音频的视频,而这台机器基本上只是在猜测它们是如何组合在一起的。


这就像某种 AI 混音艺术家。

但它是如何工作的?

对于那些渴望了解技术细节的人,CoDi 使用多阶段训练方案,这意味着它可以训练各种任务,同时推断各种输入和输出的组合。就像它具有多任务处理能力一样。

来自论文:“可组合扩散使用多阶段训练方案,能够仅训练线性数量的任务,但推断输入和输出模式的所有组合。”


该模型的实用性体现在其架构中。以下部分是对创建者用来使模型按他们想要的方式工作的关键方法的技术性总结。

初步:潜在扩散模型

CoDi 的基础是扩散模型,特别是潜在扩散模型 (LDM)。这种形式的生成式 AI 通过模仿信息随时间的传播来学习数据分布。


在训练过程中,它不断地向输入数据添加随机噪声,学习逆转这个过程并将数据清理回其原始形式。当它生成新数据时,它会采用简单的噪声并将其降噪以生成看起来像训练数据的东西。


在 LDM 的情况下,自动编码器——一种可以重新创建其输入的 AI 模型——用于将数据压缩成更小的“潜在”形式,然后随着时间的推移扩散。这个过程大大降低了计算成本并提高了模型的效率。

可组合的多模态调节

CoDi 的独特之处在于其可组合的多模态调节。该组件允许它接受任何形式的组合——文本、图像、视频和音频——作为输入。


这是通过将来自所有这些模态的输入对齐到同一空间来实现的,这可以通过插值它们的表示来方便地进行调节。


为了确保有效的计算操作,使用了一种称为“桥接对齐”的简单技术。文本被选为“桥接”模态,因为它通常与其他模态配对,例如文本-图像、文本-视频和文本-音频对。


这种方法允许模型在特征空间中对齐所有四种模态,即使像图像-音频对这样的双模态是稀疏的。

可组合扩散

训练可以将任何输入转换为任何输出的模型是一项艰巨的任务,需要对各种数据资源进行大量学习。


为了解决这个问题,CoDi 被设计为可组合和集成的,这意味着每个模态的单独模型可以独立构建,然后在以后顺利集成。


例如,图像扩散模型可用于传输在大规模、高质量图像数据集上训练的已建立模型的知识和生成保真度。


类似地,视频扩散模型可以使用时间模块扩展图像扩散器以对视频的时间属性进行建模。


此外,音频扩散器查看梅尔谱图音频作为具有一个通道的图像,文本扩散模型使用变分自动编码器将文本数据压缩成更小的潜在形式,就像其他模型一样。

通过潜在对齐联合多模式生成

最后一个难题是让这些独立训练的模型协同工作,同时生成多种模态。这是通过向模型添加跨模态注意力子层来实现的。


这种“潜在对齐”技术让每个模态特定模型都关注其他模型,将它们的潜在变量投射到它们都可以访问的共享空间中。


这种设计允许无缝联合生成任何模式组合。例如,即使仅针对模态A和B、B和C的联合生成进行训练,CoDi也可以在不进行任何额外训练的情况下实现模态A和C的联合生成!


此外,它可以同时处理模式 A、B 和 C 的联合生成。这种多功能性是可能的,因为该模型已经学会了在不同模式之间交叉参与。


从本质上讲,通过这些方法,CoDi 可以有效地学习将任何形式的输入转换为任何其他形式的输出,从而为所有合成流程保持高质量的生成。因此,它为多模式 AI 交互开辟了一个全新的可能性领域。

展示 CoDi 工作原理的 gif - 来自论文。


例如,为CoDi提供文本输入“滑板上的泰迪熊,4k,高分辨率”,它可以输出一段视频并伴有声音。或者给它输入带有“Cyberpunk vibe”的文本和图像,它可以生成适合给定主题的文本和图像。


示例世代如下所示 -检查纸张对于交互式示例。

这对我们意味着什么?

CoDi 的任何对任何一代的影响是巨大的。在一个日益数字化的世界中,拥有像 CoDi 这样的工具意味着能够以更加灵活、自然和人性化的方式与技术进行交互。它可以改变一切,从虚拟助手到内容创建,从无障碍工具到娱乐。


但一如既往,其含义并非纯粹是乌托邦式的。随着 AI 越来越擅长生成逼真的多模式输出,从 AI 生成的内容中辨别真实内容的需求变得越来越重要。错误信息可能会变得更有说服力,深度造假可能会更加普遍。


但是,我们不要在游行中下雨。 CoDi 是人工智能技术向前迈出的重要一步,展示了我们在训练机器理解和重建丰富的人类交流方面取得的进展。


如果您想更深入地了解 CoDi 的机制,或者甚至自己尝试一下,您可以查看开源代码库在 GitHub 上。谁知道您可以使用 CoDi 想出什么样的疯狂转变?


最后,让 CoDi 真正具有革命性的是它能够无缝融合不同类型的数据并以以前认为不可能的方式生成输出。这就像看着炼金术士在工作,点石成金。


除了在这种情况下,它将任何类型的输入转换为任何类型的输出。我们生活在一个真正非凡的 AI 时代。