750 讀數

为您的业务注入人工智能驱动的创造力

经过 Fortuitapps6m2022/09/05

太長; 讀書

由计算机科学教授 Laurent Itti 和博士生葛云浩、Sami Abu-El-Haija 和 Gan Xin 领导的南加州大学 (USC) 研究小组开发了一种 AI 模型，该模型可以想象一个不同于以往任何事物的物体。其目的是部分模仿人类的直觉、想象力和创新。解缠结是一种机器学习模型（无监督学习），它分解（解开）任何对象的特征并将它们编码为单独的维度。

Companies Mentioned

将创造力注入您的业务的一种方法是创建人工智能驱动的创造力机器。给定一组对象（产品），这个 ML 引擎“想象”以前从未见过的对象（产品），每个对象（产品）都有几个不同和几个相似的特征。

本质上，这可以被认为是一种自动化的“跨领域创新”。几个世纪以来，跨领域创新旨在通过融合来自不同、不同领域的知识来产生创新的想法、经验和价值观。鸟类和火车就是一个很好的例子。日本的子弹头列车的灵感来自鸟喙。相似之处很明显。

日本的子弹头列车与翠鸟：为什么要重建空气动力学轮？

因此，为了实现上述目的，使用了一种称为“解缠结”的 AI 技术。其目的是部分模仿人类的直觉、想象力和创新。解缠结不是一个新想法，可以用于任何类型的知识，并应用于各种现实世界的问题。

究竟什么是解缠结？

解缠结是一种机器学习模型（无监督学习），它分解（解开）任何对象的特征并将它们编码为单独的维度。

为了用非技术术语解释这一点，想象一个网站开发人员需要将人物图像添加到网站：但不是真实的人，以避免任何类型的索赔。因此，一个 AI 模型提供了一个男人的照片，预期的输出是一个假想的人的照片，他看起来很相似，但要高得多。如果 AI 模型已经独立学习了“身高”维度，则可以进行相应调整，以获得长相相似但更高的人的照片。相反，如果将身高和性别编码在一起，那么该请求将产生一个更高女人的照片。

人工智能“想象力”模型最先进

由计算机科学教授 Laurent Itti 和博士领导的南加州大学 (USC) 研究小组。学生 Yunhao Ge、Sami Abu-El-Haija 和 Gan Xin 开发了一种人工智能模型，可以想象一个不同于以往任何事物的物体。

2021 年的论文Zero-shot Synthesis with Group-Supervised Learning （学习表示会议）详细介绍了这项工作。

OpenAI是一个人工智能 (AI) 研究实验室（由 Elon Musk 和 Sam Altman 于 2015 年在旧金山成立）创建了其他有趣的模型，该实验室进行人工智能研究，旨在促进和发展“以有益的方式友好的人工智能”人类作为一个整体”。

让我们探索一下这个人工智能“想象”类别的一些实际和潜在的应用领域。

消除 AI 偏见

让 AI 减少偏见总是值得关注的。在几年前的一次严重事件中，搜索词“大猩猩”在开始将一些非白种人标记为“大猩猩”后被谷歌的图像识别服务屏蔽。

同样，微软和 IBM 的面部分析服务在识别白人男性图片时表现近乎完美，但在分析黑人女性图片时表现不佳，这反映了训练图片集中的偏差。

解决这类问题的一种方法是使用解缠结技术从图像识别模型中完全提取种族和性别特征。

零售

亨氏拥有大量的产品和“品种”。 Disentanglement 模型可以获取有关所有产品的信息，并提出新产品、徽标甚至标语。然后，这些将被过滤、入围并考虑用于AI 驱动的产品开发。

卫生保健

在医学上，解开药物的特性，例如，将核心药用特性与其他特性相对，然后将它们重新组合以生成规范，可用于提出新的潜在药物或疫苗。

运动的

足球（或英国的足球）诞生于 1863 年，当时英格兰足球协会成立，同时为足球和橄榄球制定了一套规则。今天，数字产品代理公司 AKQA 已经通过在数百个现有的运动游戏上训练 AI 模型，教它如何创建一个新的运动游戏。

结果是一个名为“Speedgate”的游戏，由人工智能想象和创造。它将足球、橄榄球和飞盘（！）混合在一个以前从未想过或玩过的新游戏中。在这篇TechCrunch文章中了解更多信息。

借助 Speedgate，由 6 名球员组成的两支对立球队通过场地两端的 3 个门传球、踢球和/或投球，但不包括中间的门（受 AI 启发的转折）。

一个门只能由 3 名防守者中的 1 名防守。其他 3 名球员是前锋，他们试图将球穿过大门。与美式足球不同，不允许推倒或拉倒球员。除了创建游戏（以及所有相关规则）之外，模型还生成了 Speedgate 徽标和 Speedgate 标语文本（即开箱即用的“Face the ball to be the ball to be above the ball” ！）

但是，在 AI 模型提出的游戏中，有一些显然是非首发的。例如，该模型没有考虑飞盘不应该在半空中爆炸（一个疯狂的提议游戏），或者玩家不应该从杆子上晃来晃去。所以，这将永远是一个团队的努力：人工智能和研发部门。

音乐

OpenAI 的 MuseNet (2019) 是一个深度神经网络，可以预测音乐文件中的音符。它以十种不同的风格生成多达十种不同乐器的歌曲。

OpenAI 的 Jukebox (2020) 是一种开源算法，可生成带有人声的音乐。经过一百万个样本的训练，该系统被赋予了一个流派、一个艺术家和一段歌词，并从中输出歌曲样本。

这首 AI 生成的乡村歌曲Country music Alan Jackson Style怎么样？

图像处理

OpenAI 的 DALL-E2 和 CLIP

DALL-E2 是一个 Transformer 模型，可以从文本描述中创建图像。 CLIP 则相反：它为给定图像创建描述。

文本生成

OpenAI 的 Generative Pre-Trained Transformer 3 (GPT-3) 是一种自回归语言模型，它使用深度学习来生成类人文本。

GPT-3 生成的文本质量高得令人震惊，以至于很难确定它是由人还是机器编写的。但所写内容的背景是另一回事。

这就是人工智能创造力机器将介入的地方：确保 GPT-3 编写的内容在讨论的概念和想法方面具有真正的价值。更多内容请参阅《纽约时报》的这篇文章。