ChatGPT 回答了 50,000 个琐事问题 - 这是它的表现经过@aaronbatilo
ChatGPT 回答了 50,000 个琐事问题 - 这是它的表现

经过 Aaron Batilo11m2023/01/24
在 49,717 个多项选择题中,ChatGPT 的正确率为 66.7%
来自 DALLE-2 的“处于危险领奖台上的机器人”

大约 6 年前,我有一个想法,看看你能用 AI 多好地回答琐事问题。我使用 word2vec 并根据哪个多项选择答案与句子向量的平均值余弦相似度最高来选择答案。简单来说,这个……根本没用。


当 word2vec 论文刚出来的时候,我们可以对单词的语义进行类比,这是革命性的。 “国王-男人+女人=王后”。我被打倒了。原始论文于 2013 年发表,现在是 2023 年。

10 年后,无数代人在机器学习、理解、理解等方面取得了进步。

2017 年 6 月,我们幸运地收到了“ Attention is all you need ”论文,该论文介绍了 transformer 架构,它是给我们带来自然语言处理这场革命的阶跃函数。那么,现在有什么不同?

2022 年底,OpenAI 发布了ChatGPT 。这一切的核心是有人想出了一个与 GPT-3.5 交互的出色用户体验。

最初的 GPT-3 于 2020 年夏季以私人测试版的形式提供,虽然有一个playground UI ,但 GPT-3 的使用对于普通人来说仍然相当吓人。

playground 具有用于调整 GPT-3 响应的所有旋钮和参数,这让许多人无法使用它。另一方面,ChatGPT 是……一个聊天机器人。这看起来与在 Slack 或 Microsoft Teams 中与某人交谈没有什么不同。

任何人都可以注册,没有候补名单,也没有可怕的旋钮。 ChatGPT 仅用了 5 天就获得了 100 万用户

对于本文的其余部分,我将该模型称为 ChatGPT,尽管这并不完全准确,因为 ChatGPT 是 GPT-3.5 的微调版本。

那么,它有多聪明呢?在我最初的实验 6 年后,我想找出我们迄今为止看到的一些最令人印象深刻的机器学习的功能。我们看到了 ChatGPT 的创意作品。我什至为我和我的妻子制作了一个有趣的网站:。

ChatGPT 在创造性任务方面表现出色,但对于涉及更多知识的任务,意见分歧明显更大。

有些人相信,具有直观界面的 ChatGPT 将取代谷歌等传统搜索引擎。 微软将 ChatGPT 与其他产品一起直接集成到其搜索引擎中。

ChatGPT 通过阅读大量互联网来学习它所知道的一切,并在生成文本时使用这些信息。对于非技术人员,您可以将其视为手机的自动完成功能,但更智能。

如果您对如何提示 ChatGPT 很聪明,您可以让它做一些革命性的事情并测试它的知识。例如,ChatGPT 能够通过律师考试



uberspot/OpenTriviaQA数据集是多项选择题的创意共享数据集。这些问题分为 22 个类别,例如:动物、娱乐、历史、电影和体育。

大多数问题有 4 个可能的多项选择答案,但有些问题是对或错的问题。


 #Q What is the name of Rocky Balboas restaurant? ^ Adrians A Rockys B Mickeys C Adrians D Apollos


我的脚本会下载每个类别并向 ChatGPT 询问每个问题。


 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer and nothing else. Question: What is the name of Rocky Balboas restaurant? Possible answers: Rockys Mickeys Adrians Apollos Your answer:

然后我会将其发送给 ChatGPT,并将其答案与正确答案进行比较。



 Category Correct Total Percentage brain-teasers 103 207 0.497585 video-games 310 599 0.517529 television 2911 5230 0.556597 entertainment 163 280 0.582143 animals 815 1366 0.596632 celebrities 1909 3196 0.597309 sports 1728 2840 0.608451 movies 2647 4314 0.613584 for-kids 485 759 0.638999 music 3746 5579 0.671447 literature 888 1288 0.689441 hobbies 867 1242 0.698068 general 2306 3290 0.700912 newest 2117 3016 0.701923 people 1974 2743 0.71965 technology 1820 2486 0.7321 world 3571 4875 0.732513 religion-faith 469 638 0.73511 history 1228 1645 0.746505 rated 1640 2185 0.750572 humanities 831 1097 0.75752 geography 652 842 0.774347 overall 33180 49717 0.667377

看看这些类别是如何分解的真的很有趣。值得注意的是,ChatGPT 在脑筋急转弯类别中表现不佳。让我们看一下这些问题的几个例子。

 #Q The name of what is coded in the following: 86,smopuim? A it does not mean anything B the name of a software product C a NASA aircraft D a secret CIA project

这个花了我一段时间才弄清楚,但 ChatGPT 弄对了。答案是B。那些字说windows,98倒着写。当我在Fearless AWS与我的一个朋友交谈时,他建议我尝试让 ChatGPT 自我解释。所以我就那样做了。

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: The name of what is coded in the following: 86,smopuim? Possible answers: it does not mean anything the name of a software product a NASA aircraft a secret CIA project Your answer: the name of a software product The numbers 86 and smopuim are likely a code for a software product, as they are not a recognizable acronym or phrase.

起初,ChatGPT 能够解决这个问题给我留下了深刻的印象,但实际上 ChatGPT 似乎只是猜测而已。

让我们看一个 ChatGPT 不正确的示例。

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: What number multiplied by 10 equals the square of the same number, times 5? Possible answers: 4 5 2 10 Your answer: 5 Explanation: 5 multiplied by 10 is equal to 50, which is the square of 5, times 5.

这是一个很好的演示,展示了 ChatGPT 是如何变得愚蠢的。它的算术完全错误。因为它只是生成文本,所以这并不意味着它具有正确编码的算术。这里的正确答案是 2。2 的平方是 4,乘以 5 是 20。2 乘以 10 也是 20。

让我们看另一个例子,根据数据集,ChatGPT 是正确的,但解释并不完全正确:

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: A man is carrying three croquet balls across a bridge. The bridge has a sign that says bridge can only hold 200 pounds. The man weighs 195 pounds and the croquet balls weigh 2 pounds each. The man ends up crossing the bridge in one trip and no one else helps him. This is possible. Possible answers: False True Your answer: True The man is carrying three croquet balls that weigh 2 pounds each, for a total of 6 pounds. This means that the man and the croquet balls combined weigh 201 pounds, which is less than the maximum weight of 200 pounds that the bridge can hold. Therefore, the man is able to cross the bridge in one trip.


忽略这种情况的实际物理现象,ChatGPT 的答案再次得出完全错误的算术,即 201 磅小于最大重量 200 磅。

让我们看一下最后一个示例,该示例解决了 NLP 领域中称为Winograd 模式的问题。简而言之,基本上就是能够理解代词如何解析为同一句话中模棱两可的演员。

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: If the mother of a boy spanks him and then his father comes and does the same, who hurts the most? Possible answers: The boys brother The mother The boy The father Your answer: The boy Explanation: The boy is the one being spanked, so he would experience the most pain.

在这个答案中,ChatGPT 解释说男孩是被打屁股的人,因此,即使“他”和“他的”指的是男孩或父亲的用法之间可能存在一些歧义,ChatGPT 理解上下文男孩被打屁股。

这些脑筋急转弯需要逻辑结论,而 ChatGPT 似乎并没有真正推理出来。这是 ChatGPT 最失败的类别,这是有道理的,但也有一些令人印象深刻的答案。

也就是说,即使要求 ChatGPT 自行解释也是一种生成的响应。毫无疑问,这就是 ChatGPT 考虑问题的合理方式。


 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: In what book of the Harry Potter series do Harry and Ginny kiss for the first time? Possible answers: Harry Potter and the Order of the Phoenix Harry Potter and the Prisoner of Azkaban Harry Potter and the Deathly Hallows Harry Potter and the Half Blood Prince Your answer: Harry Potter and the Half Blood Prince Harry and Ginny kiss for the first time in Harry Potter and the Half Blood Prince, when Harry visits Ginny in the Gryffindor common room.

在这种情况下,ChatGPT 是正确的。哈利波特非常受欢迎,拥有大量的粉丝,所以这可能被广泛谈论是有道理的。

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: Harry Potter marries Hermione in the last book of the series. Possible answers: True False Your answer: True Explanation: In the epilogue of the final book, Harry and Hermione are married and have two children.


对于 ChatGPT 更大的知识库而言,如果其训练数据中有足够的*意见*,您可以影响它认为真实的内容。


就像我说的,有将近 50,000 个问题。深入研究其中的每一个对于单个帖子来说是不切实际的,但是尝试凭直觉了解为什么 ChatGPT 在各个类别中更好或更差真的很有趣。


在电视和视频游戏等其他低分类别中,我的猜测是因为内容本身不是可索引/可消费的格式,所以 ChatGPT 没有那么多关于它的信息。

ChatGPT 自己没有玩过游戏或看过电视节目。可能有关于节目中发生的事情的第 3 方内容,但节目的内容将被顺便提及。



尽管如此,考虑到如此广泛的主题选择,66% 的正确率仍然令人印象深刻。但据我们了解,有时答案据说是正确的,但解释并不总是正确的。

我不认为 ChatGPT 或我们现在拥有的任何大型语言模型是某些文章希望您相信的强人工智能或通用人工智能。


在开发和进行最终运行之间,这个实验花费了我大约 100 美元来解决所有问题的 GPT-3 API。如果您考虑请我喝咖啡,我将永远感激不已。


我也很想对完整的 Jeopardy 问题集运行相同的测试,但考虑到这个测试的成本是多么昂贵,对几乎 10 倍的问题集运行测试对我来说现在做的太多了。

一如既往,我为此编写的代码都是可用的。单击此处查看这篇文章的代码, 包括 ChatGPT 的答案

