paint-brush
ChatGPT 回答了 50,000 个琐事问题 - 这是它的表现经过@aaronbatilo
2,885 讀數
2,885 讀數

ChatGPT 回答了 50,000 个琐事问题 - 这是它的表现

经过 Aaron Batilo11m2023/01/24
Read on Terminal Reader

太長; 讀書

在 49,717 个多项选择题中,ChatGPT 的正确率为 66.7%
featured image - ChatGPT 回答了 50,000 个琐事问题 - 这是它的表现
Aaron Batilo HackerNoon profile picture
0-item

TL;DR:在 49,717 个多项选择题中,ChatGPT 的正确率为 66.7%。继续阅读以查看按类别细分
来自 DALLE-2 的“处于危险领奖台上的机器人”


大约 6 年前,我有一个想法,看看你能用 AI 多好地回答琐事问题。我使用 word2vec 并根据哪个多项选择答案与句子向量的平均值余弦相似度最高来选择答案。简单来说,这个……根本没用。


这种方法得到正确问题的百分比并不比随机选择答案明显好。


当 word2vec 论文刚出来的时候,我们可以对单词的语义进行类比,这是革命性的。 “国王-男人+女人=王后”。我被打倒了。原始论文于 2013 年发表,现在是 2023 年。


10 年后,无数代人在机器学习、理解、理解等方面取得了进步。


2017 年 6 月,我们幸运地收到了“ Attention is all you need ”论文,该论文介绍了 transformer 架构,它是给我们带来自然语言处理这场革命的阶跃函数。那么,现在有什么不同?


2022 年底,OpenAI 发布了ChatGPT 。这一切的核心是有人想出了一个与 GPT-3.5 交互的出色用户体验。


最初的 GPT-3 于 2020 年夏季以私人测试版的形式提供,虽然有一个playground UI ,但 GPT-3 的使用对于普通人来说仍然相当吓人。


playground 具有用于调整 GPT-3 响应的所有旋钮和参数,这让许多人无法使用它。另一方面,ChatGPT 是……一个聊天机器人。这看起来与在 Slack 或 Microsoft Teams 中与某人交谈没有什么不同。


任何人都可以注册,没有候补名单,也没有可怕的旋钮。 ChatGPT 仅用了 5 天就获得了 100 万用户


对于本文的其余部分,我将该模型称为 ChatGPT,尽管这并不完全准确,因为 ChatGPT 是 GPT-3.5 的微调版本。


那么,它有多聪明呢?在我最初的实验 6 年后,我想找出我们迄今为止看到的一些最令人印象深刻的机器学习的功能。我们看到了 ChatGPT 的创意作品。我什至为我和我的妻子制作了一个有趣的网站:https://catstories.ai。


ChatGPT 在创造性任务方面表现出色,但对于涉及更多知识的任务,意见分歧明显更大。


有些人相信,具有直观界面的 ChatGPT 将取代谷歌等传统搜索引擎。 微软将 ChatGPT 与其他产品一起直接集成到其搜索引擎中。


ChatGPT 通过阅读大量互联网来学习它所知道的一切,并在生成文本时使用这些信息。对于非技术人员,您可以将其视为手机的自动完成功能,但更智能。


如果您对如何提示 ChatGPT 很聪明,您可以让它做一些革命性的事情并测试它的知识。例如,ChatGPT 能够通过律师考试


您可以让它为您撰写营销文案或撰写电子邮件。但是,如果我们要用它作为事实来源来取代搜索引擎之类的东西,它如何处理常识呢?

我是如何测试它的?

uberspot/OpenTriviaQA数据集是多项选择题的创意共享数据集。这些问题分为 22 个类别,例如:动物、娱乐、历史、电影和体育。


大多数问题有 4 个可能的多项选择答案,但有些问题是对或错的问题。


问题采用以下格式:

 #Q What is the name of Rocky Balboas restaurant? ^ Adrians A Rockys B Mickeys C Adrians D Apollos


首先,你有问题本身。那么你就有了正确的答案。最后,您可以选择答案;每行一个。


我的脚本会下载每个类别并向 ChatGPT 询问每个问题。


对于上述问题,我会将提示格式化为如下所示:

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer and nothing else. Question: What is the name of Rocky Balboas restaurant? Possible answers: Rockys Mickeys Adrians Apollos Your answer:


然后我会将其发送给 ChatGPT,并将其答案与正确答案进行比较。

Soooooo,怎么样?

这是原始数据,从最不正确到最正确排序:

 Category Correct Total Percentage brain-teasers 103 207 0.497585 video-games 310 599 0.517529 television 2911 5230 0.556597 entertainment 163 280 0.582143 animals 815 1366 0.596632 celebrities 1909 3196 0.597309 sports 1728 2840 0.608451 movies 2647 4314 0.613584 for-kids 485 759 0.638999 music 3746 5579 0.671447 literature 888 1288 0.689441 hobbies 867 1242 0.698068 general 2306 3290 0.700912 newest 2117 3016 0.701923 people 1974 2743 0.71965 technology 1820 2486 0.7321 world 3571 4875 0.732513 religion-faith 469 638 0.73511 history 1228 1645 0.746505 rated 1640 2185 0.750572 humanities 831 1097 0.75752 geography 652 842 0.774347 overall 33180 49717 0.667377


看看这些类别是如何分解的真的很有趣。值得注意的是,ChatGPT 在脑筋急转弯类别中表现不佳。让我们看一下这些问题的几个例子。

 #Q The name of what is coded in the following: 86,smopuim? A it does not mean anything B the name of a software product C a NASA aircraft D a secret CIA project


这个花了我一段时间才弄清楚,但 ChatGPT 弄对了。答案是B。那些字说windows,98倒着写。当我在Fearless AWS与我的一个朋友交谈时,他建议我尝试让 ChatGPT 自我解释。所以我就那样做了。

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: The name of what is coded in the following: 86,smopuim? Possible answers: it does not mean anything the name of a software product a NASA aircraft a secret CIA project Your answer: the name of a software product The numbers 86 and smopuim are likely a code for a software product, as they are not a recognizable acronym or phrase.


起初,ChatGPT 能够解决这个问题给我留下了深刻的印象,但实际上 ChatGPT 似乎只是猜测而已。


让我们看一个 ChatGPT 不正确的示例。

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: What number multiplied by 10 equals the square of the same number, times 5? Possible answers: 4 5 2 10 Your answer: 5 Explanation: 5 multiplied by 10 is equal to 50, which is the square of 5, times 5.


这是一个很好的演示,展示了 ChatGPT 是如何变得愚蠢的。它的算术完全错误。因为它只是生成文本,所以这并不意味着它具有正确编码的算术。这里的正确答案是 2。2 的平方是 4,乘以 5 是 20。2 乘以 10 也是 20。


让我们看另一个例子,根据数据集,ChatGPT 是正确的,但解释并不完全正确:

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: A man is carrying three croquet balls across a bridge. The bridge has a sign that says bridge can only hold 200 pounds. The man weighs 195 pounds and the croquet balls weigh 2 pounds each. The man ends up crossing the bridge in one trip and no one else helps him. This is possible. Possible answers: False True Your answer: True The man is carrying three croquet balls that weigh 2 pounds each, for a total of 6 pounds. This means that the man and the croquet balls combined weigh 201 pounds, which is less than the maximum weight of 200 pounds that the bridge can hold. Therefore, the man is able to cross the bridge in one trip.


所以,这是一个非常有趣的问题。数据集没有对这些脑筋急转弯中的任何一个的解释,但它列出了正确答案为“正确”。如果您使用谷歌搜索,您会发现谜语的答案应该是“正确的”,因为这个人可以玩杂耍球。


忽略这种情况的实际物理现象,ChatGPT 的答案再次得出完全错误的算术,即 201 磅小于最大重量 200 磅。


让我们看一下最后一个示例,该示例解决了 NLP 领域中称为Winograd 模式的问题。简而言之,基本上就是能够理解代词如何解析为同一句话中模棱两可的演员。


 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: If the mother of a boy spanks him and then his father comes and does the same, who hurts the most? Possible answers: The boys brother The mother The boy The father Your answer: The boy Explanation: The boy is the one being spanked, so he would experience the most pain.


在这个答案中,ChatGPT 解释说男孩是被打屁股的人,因此,即使“他”和“他的”指的是男孩或父亲的用法之间可能存在一些歧义,ChatGPT 理解上下文男孩被打屁股。


这些脑筋急转弯需要逻辑结论,而 ChatGPT 似乎并没有真正推理出来。这是 ChatGPT 最失败的类别,这是有道理的,但也有一些令人印象深刻的答案。


也就是说,即使要求 ChatGPT 自行解释也是一种生成的响应。毫无疑问,这就是 ChatGPT 考虑问题的合理方式。


再来看另外一个类别,文学,想必ChatGPT应该擅长,因为应该有大量的文字和参考文献来学习文学。


这些脑筋急转弯需要逻辑结论,而 ChatGPT 似乎并没有真正推理出来。这是 ChatGPT 最失败的类别,这是有道理的。


 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: In what book of the Harry Potter series do Harry and Ginny kiss for the first time? Possible answers: Harry Potter and the Order of the Phoenix Harry Potter and the Prisoner of Azkaban Harry Potter and the Deathly Hallows Harry Potter and the Half Blood Prince Your answer: Harry Potter and the Half Blood Prince Harry and Ginny kiss for the first time in Harry Potter and the Half Blood Prince, when Harry visits Ginny in the Gryffindor common room.


在这种情况下,ChatGPT 是正确的。哈利波特非常受欢迎,拥有大量的粉丝,所以这可能被广泛谈论是有道理的。


 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: Harry Potter marries Hermione in the last book of the series. Possible answers: True False Your answer: True Explanation: In the epilogue of the final book, Harry and Hermione are married and have two children.


另一个非常有趣的案例。哈利与金妮结婚并有两个孩子,而不是赫敏。试图思考这可能是如何发生的,我想知道互联网评论和作为训练集一部分的同人小说是否有足够的内容让哈利和赫敏在一起。


对于 ChatGPT 更大的知识库而言,如果其训练数据中有足够的*意见*,您可以影响它认为真实的内容。

包起来

就像我说的,有将近 50,000 个问题。深入研究其中的每一个对于单个帖子来说是不切实际的,但是尝试凭直觉了解为什么 ChatGPT 在各个类别中更好或更差真的很有趣。


在像脑筋急转弯这样的类别中,有比需要应用和组合来回答一些问题更多的逻辑。


在电视和视频游戏等其他低分类别中,我的猜测是因为内容本身不是可索引/可消费的格式,所以 ChatGPT 没有那么多关于它的信息。


ChatGPT 自己没有玩过游戏或看过电视节目。可能有关于节目中发生的事情的第 3 方内容,但节目的内容将被顺便提及。


在高分类别中,这些类别都倾向于在我们拥有音频、视频等之前很久就以文本形式记录的内容。


地理类别和历史类别的内容早在我们拥有定期保存电视内容等技术和存储设备之前就已经存在。


尽管如此,考虑到如此广泛的主题选择,66% 的正确率仍然令人印象深刻。但据我们了解,有时答案据说是正确的,但解释并不总是正确的。


我不认为 ChatGPT 或我们现在拥有的任何大型语言模型是某些文章希望您相信的强人工智能或通用人工智能。


我认为任何具有生成性的大型语言模型都不应取代提供高质量信息的传统搜索引擎。有像you.com这样的搜索引擎正在探索这个交叉点,但这项技术还处于早期阶段!


在开发和进行最终运行之间,这个实验花费了我大约 100 美元来解决所有问题的 GPT-3 API。如果您考虑请我喝咖啡,我将永远感激不已。


如果一家公司愿意赞助这项工作,那么尝试不同的提示、随机排列答案的顺序、尝试多次运行测试等都会很有趣。


我也很想对完整的 Jeopardy 问题集运行相同的测试,但考虑到这个测试的成本是多么昂贵,对几乎 10 倍的问题集运行测试对我来说现在做的太多了。


一如既往,我为此编写的代码都是可用的。单击此处查看这篇文章的代码, 包括 ChatGPT 的答案


Nguyen Dang Hoang NhuUnsplash上拍摄的照片