paint-brush
Galactica 是一个经过 1200 亿个参数训练的 AI 模型经过@whatsai
2,622 讀數
2,622 讀數

Galactica 是一个经过 1200 亿个参数训练的 AI 模型

经过 Louis Bouchard6m2022/11/26
Read on Terminal Reader

太長; 讀書

MetaAI 和 Papers with Code 宣布发布 Galactica,这是一种改变游戏规则的开源大型语言模型,使用 1200 亿个参数对科学知识进行训练。该模型可以编写白皮书、评论、维基百科页面和代码。它知道如何引用以及如何编写方程式。这对人工智能和科学来说是一件大事。 11 月 17 日,Galactica 被关闭,因为它不了解手头的任务并且在很多情况下都是错误的。尽管如此,该模型仍可供研究人员使用,我认为保持开源很重要。
featured image - Galactica 是一个经过 1200 亿个参数训练的 AI 模型
Louis Bouchard HackerNoon profile picture

11 月 15 日,MetaAI 和 Papers with Code 宣布发布 Galactica,这是一种改变游戏规则的开源大型语言模型,使用 1200 亿个参数对科学知识进行训练。

正如我的一位朋友在 Twitter 上分享的那样,该模型可以编写白皮书、评论、维基百科页面和代码。它知道如何引用以及如何编写方程式。这对人工智能和科学来说是一件大事。

11 月 17 日,卡拉狄加停产。

为什么?因为,与所有深度学习模型一样,它不理解手头的任务,而且在很多情况下都是错误的。这应该不是问题,特别是如果我们添加警告说模型可能是错误的并且不要盲目相信它。就像没有人信任维基百科一样,我们不能将其作为高中项目的参考。问题是卡拉狄加是错误的或有偏见的,但听起来是正确和权威的。

不过,该模型可供研究人员使用,我认为保持开源很重要。

正如我的另一位朋友所分享的那样,围绕新模型的所有戏剧性事件似乎都有些过分。当然,该模型并不完美,就像目前在线提供的所有其他模型一样。我们需要在线测试它的局限性,对其进行研究和改进。我们应该将这类出版物视为学生,允许错误和改进,而不用担心被关闭或取消。

不管怎样,我们不是来讨论这个的。希望它很快就会重新上线

我们来这里是为了看看卡拉狄加是什么,或者曾经是什么,以及它如何实现撰写论文、评论、代码等等……

在视频中了解更多信息

参考

►阅读全文: https ://www.louisbouchard.ai/galactica/
►Taylor 等人,2022 年:卡拉狄加, https ://galactica.org/
►我的时事通讯(每周向您的电子邮件解释一个新的 AI 应用程序!): https ://www.louisbouchard.ai/newsletter/

视频成绩单

0:00

11 月 15 日梅泰里和论文

0:03

用代码宣布发布

0:04

galatica 改变游戏规则的开源

0:07

训练有素的大型语言模型

0:09

拥有1200亿的科学知识

0:12

我的一位朋友分享的参数

0:14

在推特上模特可以写白色

0:16

论文评论维基百科页面和代码

0:19

它知道如何引用和写作

0:22

方程式它真的有点大

0:24

11 月 17 日人工智能和科学交易

0:28

卡拉狄加被关闭的原因是因为

0:31

对于所有深度学习模型,它都没有

0:34

了解手头的任务,并且

0:36

在很多情况下这是错误的,这不应该是

0:39

特别是如果我们添加警告

0:41

说模型可能是错误的而不是

0:43

像没人一样盲目相信它

0:45

可信的维基百科,我们不能把它当作

0:48

高中项目的参考

0:50

问题是卡拉狄加错了

0:52

有偏见但听起来是正确的和重复的

0:55

该模型仍然可用

0:57

研究人员和我相信这很重要

0:59

保持位开源作为另一个

1:02

我的朋友们分享了周围所有的戏剧

1:04

这个新模型似乎有点过分

1:06

当然这个模型并不完美

1:08

所有其他当前可用的

1:10

在线我们需要它在线测试它

1:13

限制对它起作用并改进它,我们

1:16

应该看看这些捏造

1:18

作为学生并允许错误和

1:21

改进而不必担心

1:22

无论如何我们都不会关闭或取消

1:26

在这里讨论希望它会

1:28

很快恢复在线我们在这里看到

1:30

卡拉狄加是什么或曾经是什么以及它如何

1:33

可以实现写论文评论

1:35

代码数学和更基本的卡拉狄加

1:39

是一个具有大小的大型语言模型

1:41

可与 gpt3 相媲美,但专注于

1:44

科学知识更准确地说

1:46

接受过大型策划的培训

1:48

科学知识语料库包括

1:50

超过 4800 万篇论文教科书和

1:54

讲义数百万种化合物和

1:56

蛋白质科学网站

1:58

百科全书和更多,因为他们强调

2:00

数据质量高且高度

2:03

策划这是最大的之一

2:05

与gpt3的区别所以理论上

2:08

卡拉狄加几乎包含所有

2:10

人类的科学知识想象

2:12

拥有惊人的记忆力和时间

2:15

阅读数以百万计的研究 记住

2:18

大部分很好,这是卡拉狄加

2:21

好像记忆力不太好

2:23

毕竟它甚至混合了一切

2:25

尽管我们可以假设大部分信息

2:27

出现在训练数据集中的是

2:29

即使考虑所有设备也是准确的

2:31

和失败卡拉狄加保持漂亮

2:34

功能强大,几乎胜过所有

2:36

科学相关的其他方法

2:39

任务对于一个产品来说是不够的

2:41

我们可以相信它仍然是

2:44

值得了解它是如何工作的

2:46

特别是因为它会回来

2:48

我们很快就会变得更加强大

2:51

提到卡拉狄加是一种大语言

2:53

类似于 gpt3 或 Bloom 的模型

2:55

正如他们所说,专门受过训练

2:58

组织科学也有很多

3:01

该模型中正在进行的工程

3:03

允许如此多的多功能性

3:05

输入和输出像特殊

3:07

引文或蛋白质的标记化

3:09

您可以在其中了解更多信息的序列

3:11

他们的论文链接在他们的下方

3:13

标记化工作是迄今为止

3:15

这项工作的最大贡献

3:17

令牌化基本上意味着

3:20

模型将看到数据而不是文字

3:23

我们理解的数学或形状

3:26

实际上分享了一个关于嵌入的视频和

3:28

本周晚些时候标记化,所以如果

3:30

听起来很有趣,敬请期待

3:33

并订阅不要错过所以接受

3:35

这个奇怪的标记和

3:37

预处理步骤什么是卡拉狄加

3:39

服用后它做了什么

3:42

单词或不同的科学输入和

3:44

为模型做准备

3:46

代币化不足为奇卡拉狄加是

3:50

另一个基于 Transformer 的

3:52

像 gpt3 这样的架构有几个

3:55

包括标记化在内的变化

3:57

差异,所以我绝对邀请你

3:59

只是我或一些视频中的一个

4:02

我的朋友做了报道

4:04

我不会得到的变压器架构

4:06

第二次进入他们的工作方式

4:09

卡拉狄加和之间的主要区别

4:11

其他大型语言模型就是他们

4:13

调用提示预训练这个意思

4:16

他们将包括提取的提示

4:18

从训练数据集中

4:21

数据本身已被证明

4:23

最大化模型的通用性

4:25

同时提高某些任务的性能

4:28

感兴趣,仅此而已

4:31

我说架构很相似

4:33

到你已经知道的,主要是

4:35

训练和预处理方案各不相同

4:37

这表明该模型不是

4:39

除了我们如何通过

4:41

它的数据甚至可能实际上很重要

4:43

more 你基本上可以看到

4:45

gpt3和卡拉狄加之间的区别

4:48

科学不好的同一个学生

4:49

老师与好老师有

4:52

相同的能力和资源

4:55

老师只是让它更容易访问和

4:57

这对他来说当然是可以理解的

4:59

只是这篇论文的概述,我

5:02

强烈推荐阅读它有

5:04

关于倍数的大量细节

5:06

他们实施的工程技巧

5:08

连同结果分析细节

5:11

他们使用的所有任务

5:13

模型及其理解输入的方式

5:15

数据及其预测及其局限性

5:18

偏见和更多我希望你喜欢

5:21

这个视频,下周见

5:23

用另一篇惊人的论文和一个特别的

介绍什么是嵌入的视频