11 月 15 日,MetaAI 和 Papers with Code 宣布发布 Galactica,这是一种改变游戏规则的开源大型语言模型,使用 1200 亿个参数对科学知识进行训练。
正如我的一位朋友在 Twitter 上分享的那样,该模型可以编写白皮书、评论、维基百科页面和代码。它知道如何引用以及如何编写方程式。这对人工智能和科学来说是一件大事。
11 月 17 日,卡拉狄加停产。
为什么?因为,与所有深度学习模型一样,它不理解手头的任务,而且在很多情况下都是错误的。这应该不是问题,特别是如果我们添加警告说模型可能是错误的并且不要盲目相信它。就像没有人信任维基百科一样,我们不能将其作为高中项目的参考。问题是卡拉狄加是错误的或有偏见的,但听起来是正确和权威的。
不过,该模型可供研究人员使用,我认为保持开源很重要。
正如我的另一位朋友所分享的那样,围绕新模型的所有戏剧性事件似乎都有些过分。当然,该模型并不完美,就像目前在线提供的所有其他模型一样。我们需要在线测试它的局限性,对其进行研究和改进。我们应该将这类出版物视为学生,允许错误和改进,而不用担心被关闭或取消。
不管怎样,我们不是来讨论这个的。希望它很快就会重新上线。
我们来这里是为了看看卡拉狄加是什么,或者曾经是什么,以及它如何实现撰写论文、评论、代码等等……
►阅读全文: https ://www.louisbouchard.ai/galactica/
►Taylor 等人,2022 年:卡拉狄加, https ://galactica.org/
►我的时事通讯(每周向您的电子邮件解释一个新的 AI 应用程序!): https ://www.louisbouchard.ai/newsletter/
0:00
11 月 15 日梅泰里和论文
0:03
用代码宣布发布
0:04
galatica 改变游戏规则的开源
0:07
训练有素的大型语言模型
0:09
拥有1200亿的科学知识
0:12
我的一位朋友分享的参数
0:14
在推特上模特可以写白色
0:16
论文评论维基百科页面和代码
0:19
它知道如何引用和写作
0:22
方程式它真的有点大
0:24
11 月 17 日人工智能和科学交易
0:28
卡拉狄加被关闭的原因是因为
0:31
对于所有深度学习模型,它都没有
0:34
了解手头的任务,并且
0:36
在很多情况下这是错误的,这不应该是
0:39
特别是如果我们添加警告
0:41
说模型可能是错误的而不是
0:43
像没人一样盲目相信它
0:45
可信的维基百科,我们不能把它当作
0:48
高中项目的参考
0:50
问题是卡拉狄加错了
0:52
有偏见但听起来是正确的和重复的
0:55
该模型仍然可用
0:57
研究人员和我相信这很重要
0:59
保持位开源作为另一个
1:02
我的朋友们分享了周围所有的戏剧
1:04
这个新模型似乎有点过分
1:06
当然这个模型并不完美
1:08
所有其他当前可用的
1:10
在线我们需要它在线测试它
1:13
限制对它起作用并改进它,我们
1:16
应该看看这些捏造
1:18
作为学生并允许错误和
1:21
改进而不必担心
1:22
无论如何我们都不会关闭或取消
1:26
在这里讨论希望它会
1:28
很快恢复在线我们在这里看到
1:30
卡拉狄加是什么或曾经是什么以及它如何
1:33
可以实现写论文评论
1:35
代码数学和更基本的卡拉狄加
1:39
是一个具有大小的大型语言模型
1:41
可与 gpt3 相媲美,但专注于
1:44
科学知识更准确地说
1:46
接受过大型策划的培训
1:48
科学知识语料库包括
1:50
超过 4800 万篇论文教科书和
1:54
讲义数百万种化合物和
1:56
蛋白质科学网站
1:58
百科全书和更多,因为他们强调
2:00
数据质量高且高度
2:03
策划这是最大的之一
2:05
与gpt3的区别所以理论上
2:08
卡拉狄加几乎包含所有
2:10
人类的科学知识想象
2:12
拥有惊人的记忆力和时间
2:15
阅读数以百万计的研究 记住
2:18
大部分很好,这是卡拉狄加
2:21
好像记忆力不太好
2:23
毕竟它甚至混合了一切
2:25
尽管我们可以假设大部分信息
2:27
出现在训练数据集中的是
2:29
即使考虑所有设备也是准确的
2:31
和失败卡拉狄加保持漂亮
2:34
功能强大,几乎胜过所有
2:36
科学相关的其他方法
2:39
任务对于一个产品来说是不够的
2:41
我们可以相信它仍然是
2:44
值得了解它是如何工作的
2:46
特别是因为它会回来
2:48
我们很快就会变得更加强大
2:51
提到卡拉狄加是一种大语言
2:53
类似于 gpt3 或 Bloom 的模型
2:55
正如他们所说,专门受过训练
2:58
组织科学也有很多
3:01
该模型中正在进行的工程
3:03
允许如此多的多功能性
3:05
输入和输出像特殊
3:07
引文或蛋白质的标记化
3:09
您可以在其中了解更多信息的序列
3:11
他们的论文链接在他们的下方
3:13
标记化工作是迄今为止
3:15
这项工作的最大贡献
3:17
令牌化基本上意味着
3:20
模型将看到数据而不是文字
3:23
我们理解的数学或形状
3:26
实际上分享了一个关于嵌入的视频和
3:28
本周晚些时候标记化,所以如果
3:30
听起来很有趣,敬请期待
3:33
并订阅不要错过所以接受
3:35
这个奇怪的标记和
3:37
预处理步骤什么是卡拉狄加
3:39
服用后它做了什么
3:42
单词或不同的科学输入和
3:44
为模型做准备
3:46
代币化不足为奇卡拉狄加是
3:50
另一个基于 Transformer 的
3:52
像 gpt3 这样的架构有几个
3:55
包括标记化在内的变化
3:57
差异,所以我绝对邀请你
3:59
只是我或一些视频中的一个
4:02
我的朋友做了报道
4:04
我不会得到的变压器架构
4:06
第二次进入他们的工作方式
4:09
卡拉狄加和之间的主要区别
4:11
其他大型语言模型就是他们
4:13
调用提示预训练这个意思
4:16
他们将包括提取的提示
4:18
从训练数据集中
4:21
数据本身已被证明
4:23
最大化模型的通用性
4:25
同时提高某些任务的性能
4:28
感兴趣,仅此而已
4:31
我说架构很相似
4:33
到你已经知道的,主要是
4:35
训练和预处理方案各不相同
4:37
这表明该模型不是
4:39
除了我们如何通过
4:41
它的数据甚至可能实际上很重要
4:43
more 你基本上可以看到
4:45
gpt3和卡拉狄加之间的区别
4:48
科学不好的同一个学生
4:49
老师与好老师有
4:52
相同的能力和资源
4:55
老师只是让它更容易访问和
4:57
这对他来说当然是可以理解的
4:59
只是这篇论文的概述,我
5:02
强烈推荐阅读它有
5:04
关于倍数的大量细节
5:06
他们实施的工程技巧
5:08
连同结果分析细节
5:11
他们使用的所有任务
5:13
模型及其理解输入的方式
5:15
数据及其预测及其局限性
5:18
偏见和更多我希望你喜欢
5:21
这个视频,下周见
5:23
用另一篇惊人的论文和一个特别的
介绍什么是嵌入的视频