DeepMind 的 Gato 刚刚发布！它是一个可以玩 Atari 游戏、字幕图像、与人聊天、控制真正的机械臂等等的转换器！事实上，它只训练一次并使用相同的权重来完成所有这些任务。根据 Deepmind 的说法，这不仅是一个转换器，也是一个代理。当您将 Transformer 与多任务强化学习代理的进展混合使用时，就会发生这种情况。 正如我们所说，Gato 是一个多模式代理。这意味着它可以为图像创建标题或作为聊天机器人回答问题。你会说 GPT-3 已经可以做到这一点，但 Gato 可以做得更多……多模态来自于 Gato 也可以在人类水平上玩 Atari 游戏，甚至可以执行现实世界的任务，例如控制机械臂精确移动物体。它理解文字、图像，甚至物理…… 在视频中了解更多信息 参考 ►阅读全文：   ://www.louisbouchard.ai/deepmind-gato/  ►Deepmind 的博文：   ://www.deepmind.com/publications/a-generalist-agent  ►论文：Reed S. 等人，2022 年，Deemind：Gato，   ://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf  ►My Newsletter（每周在您的电子邮件中解释的新 AI 应用程序！）：   ://www.louisbouchard.ai/newsletter/ https https https https 视频脚本 0:00 来自 deepmind 的 Gato 刚刚发布 0:02 这是一个可以播放的变压器 0:04 雅达利游戏标题图片聊天 0:07 人们控制一个真正的机械臂和 0:09  more 确实被训练过一次并使用 0:12 相同的权重来完成所有这些任务 0:15 根据 deepmind 的说法，这不仅是一个 0:17 变压器也是一个代理这是 0:20 混合变压器时会发生什么 0:22 在多任务上取得进展 0:23 正如我们所说的强化学习代理 0:26  gato 是一种多模式代理，这意味着 0:29 它可以为图像创建标题或 0:31 以聊天机器人的身份回答问题 0:34  gpt3 已经可以做到这一点，但 ghetto  0:36 可以做更多的多模态来自 0:39  ghetto 也可以玩 atari 的事实 0:41 人类水平的游戏甚至是真实的 0:44 控制机器人等世界任务 0:46 手臂精确地移动物体 0:48 理解文字图像甚至 0:51 物理贫民窟是第一个通才 0:54 在很多人身上表现如此出色的模型 0:56 不同的任务，这是非常 0:58 对受过训练的领域很有希望 1:00 在 604 个不同的任务上 1:03 方式 意见和行动 1:06 规格使其完美 1:08 通才，正如我所说的那样 1:11 具有相同网络和权重的 1:13 在你问之前它只需要 1.2  1:15 十亿个参数与 gpt3 相比 1:18 需要 1:19 其中1750亿不是陷阱 1:22 你必须重新训练或战斗单位 1:24 对于所有任务，您都可以发送图像 1:27 和文字，它会起作用，你甚至可以 1:29 加入机器人手臂的一些动作 1:32 模型可以决定哪种类型 1:34 根据上下文提供的输出 1:36 从文本到离散动作 1:38 一个环境，如果你喜欢这个视频 1:41 请考虑订阅并让我 1:43 知道你喜不喜欢这种新闻视频 1:46 我肯定会做更多这是可能的 1:48 因为他们的代币化过程 1:50 标记化是当你准备你的 1:52 模态的输入，因为它们没有 1:55 自己理解文字或图像 1:57 语言模型和 ghetto 占据了 1:59 子词的总数，例如 32  2:02  000，每个单词都有一个编号 2:05 他们跟随 vit 的图片 2:08 使用广泛使用的补丁嵌入 2:10  resnet 块，正如我们在之前介绍的 2:12 视频我们还标记了按钮 2:14 按下作为 atari 的整数 2:16 游戏或离散值最终为 2:19 连续值，如本体感受 2:21 我们与机器人讨论过的输入 2:23 他们对不同的轨道进行了编码 2:25 将矩阵转换为浮点数并将它们相加 2:27 在使用所有这些的文本标记之后 2:30 代理适应的不同输入 2:32 当前任务生成适当的 2:34 他们在训练期间使用提示输出 2:36 与先前在 gpt3 中一样进行调节 2:39 抽样行动和观察 2:42 多面手 rl 代理的进展 2:44 去年是不可思议的，来了 2:47 主要从 deepmind 可以看出 2:49 他们正在将针头移近 2:51 通用人工智能或人类水平的智能 2:55 如果我们最终可以定义它，我喜欢如何 2:57 他们在论文中提供了许多细节 2:59 我很高兴看到他们会做什么 3:01 或者其他人会用这个做什么 3:03 模型的架构链接到 3:06 纸了解更多信息 3:07 型号在描述中我希望你 3:09 喜欢这个短视频我刚看到这个 3:12 当我醒来时的消息，我做不到 3:13 除了制作这个视频之外 3:15 在开始我的一天之前 3:17 令人兴奋的，我下周再见 另一篇惊人的论文

Google

Watch more on YouTube: https://www.youtube.com/c/WhatsAI

I explain Artificial Intelligence terms and news to non-experts.

2021 - HackerNoon Contributor of the Year - FACEBOOK

2022 - Best Data Science Newsletter

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

2022 - HackerNoon Contributor of the Year - Computer Vision

2022 - HackerNoon Contributor of the Year - Data Science

2022 - HackerNoon Contributor of the Year - Google

2022 - HackerNoon Contributor of the Year - Innovation

2022 - HackerNoon Contributor of the Year - Machine Learning

2022 - HackerNoon Contributor of the Year - Natural Language Processing

2022 - Top Tech Youtuber

2021 - HackerNoon Contributor of the Year - DEEP-LEARNING

Nominated for 2022 - Best Data Science Newsletter

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Nominated for 2022 - Top Tech Youtuber

Nominated for 2022 - HackerNoon Contributor of the Year - Innovation

Nominated for 2022 - HackerNoon Contributor of the Year - Data Science

Nominated for 2022 - HackerNoon Contributor of the Year - Natural Language Processing

Deepmind 可能刚刚创造了世界上第一个通用 AI

About Author

註釋

標籤

这篇文章刊登在

Related Stories

想赢得 HackerNoon 写作比赛吗？以下是 #crypto-api 比赛获奖者的推荐

从论坛到信息流：社交媒体算法如何塑造数字互动

架构师指南：构建 AI/ML 数据湖参考架构

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

想赢得 HackerNoon 写作比赛吗？以下是 #crypto-api 比赛获奖者的推荐

从论坛到信息流：社交媒体算法如何塑造数字互动

架构师指南：构建 AI/ML 数据湖参考架构

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps