paint-brush
Claude 3.5 Sonnet 与 GPT-4o 的对比——诚实的评价经过@aibites
45,548 讀數
45,548 讀數

Claude 3.5 Sonnet 与 GPT-4o 的对比——诚实的评价

经过 Shrinivasan Sankar5m2024/07/02
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

Claude 系列模型背后的公司 Anthropic 发布了 Claude 3.5 Sonnet。此时我们都已经接受 GPT-4o 是推理、总结等大多数任务的默认最佳模型。Anthropic 大胆宣称他们的模型为智能设定了新的“行业标准”。根据他们公布的结果,该模型在 5 项视觉任务中的 4 项上拥有最先进的性能。

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Claude 3.5 Sonnet 与 GPT-4o 的对比——诚实的评价
Shrinivasan Sankar HackerNoon profile picture
0-item

Claude 系列模型背后的公司 Anthropic 发布了 Claude 3.5 Sonnet。此时我们都已经接受 GPT-4o 是推理、总结等大多数任务的默认最佳模型。Anthropic 大胆宣称,他们的模型为智能设定了新的“行业标准”。

此外,如果您想试用,可以在 claude.ai 上免费获取。因此,我们非常兴奋,想要测试该模型并将其与 GPT-4o 进行比较。本文首先概述了 Claude 3.5 发布的新功能,并在代码生成以及逻辑和数学推理任务上将其与 GPT-4o 进行了测试。

主要特点

该模型具有三个主要特点或新颖性,使得他们声称它在大多数任务上击败了 GPT-4o。

  • 改进的视觉任务。根据以下公布的结果,该模型在 5 项视觉任务中的 4 项中拥有最先进的性能。

  • 2 倍速度。与 GPT-4o 或 Claude Opus 等前辈相比,Claude Sonnet 拥有 2 倍的生成速度。
  • Artifacts——用于代码生成和动画等任务的新 UI。

让我们深入了解这些功能,并将它们与长期占据 LLM 之王的 GPT-4o 进行比较。

入门

首先,我们必须登录 claude.ai 网站并启用工件功能。由于这是一项实验性功能,我们需要启用它。我们必须进入功能预览并从那里启用工件,如下所示。

一旦启用,模型将在侧面显示一个专用窗口,用于执行需要它们的任务,如编码或动画。

视觉任务——视觉推理

为了测试改进的视觉推理能力,我们将下面两个图上传到 Claude Sonnet 模型并提出问题:“你能从这些数据中得出什么结论?”。

用于测试视觉推理的图像绘图

Claude Sonnet 的回应令人震惊。它精确地总结了深度学习的进展,说:“这些数据表明深度学习架构和模型扩展的快速进步,显示出向更大、更强大的模型发展的趋势”。我们也从 GPT-4o 那里得到了类似的回应。因此,为了更好地了解哪个更好,我们开始在四个任务中系统地比较这两个模型——编码、带 UI 的编码、逻辑推理和数学推理。

与 GPT-4o 相比 — — 哪个最好?

现在我们已经了解了概述,让我们深入了解并试用该模型。让我们测试代码生成、逻辑推理和数学推理。

代码生成

对于代码生成,我将要求两个模型生成用于玩著名数独游戏的代码。我给这两个模型都提供了确切的提示,“编写 Python 代码来玩数独游戏”。有了这个提示,Claude 3.5 和 GPT-4o 都生成了我们只能从命令提示符交互的代码。这是意料之中的,因为我们没有指定如何生成 UI 代码。一些初步观察:

  • 两种模型都能生成无错误的代码。
  • Claude 生成的代码具有选择难度级别的功能。但 GPT-4o 没有!
  • 就代码生成速度而言,Claude 毫无疑问击败了 GPT-4o
  • GPT-4o 倾向于生成带有不必要包的代码

使用 UI 生成代码

由于与命令提示符交互并不适合所有人,我希望模型能够生成带有 UI 的代码。为此,我将提示修改为“编写代码来玩数独游戏”。这次,我从提示中删除了“python”,因为我觉得它会提示它只生成后端代码。正如预期的那样,Claude 3.5 这次确实生成了一个功能性 UI,如下所示。虽然 UI 并不完全强大和吸引人,但它还是很实用的。

但遗憾的是,GPT-4o 并没有产生类似的 UI。它仍然使用交互式命令提示符生成代码。

谜题 1 — 逻辑推理

对于第一个谜题,我问了以下问题:

简去看望吉尔。吉尔是简唯一的丈夫的婆婆的唯一丈夫的唯一女儿的唯一女儿。简和吉尔是什么关系?

这两个模型都提出了一系列推理步骤并正确回答了问题。因此,在这种情况下,Claude 3.5 和 GPT-4o 必定打成平手。

谜题 2 — 逻辑推理

对于第二个谜题,我提出了以下问题:

哪个单词与其他单词最不相似。差异与元音、辅音或音节无关。更多、成对、蚀刻、拉链\

对此,两个模型都想出了不同的逻辑推理步骤,得出了不同的答案。Claude 推断,zipper 是唯一一个既能充当名词又能充当动词的词。但其他词要么只是名词,要么是形容词。因此,它将 ZIPPER 确定为答案。另一方面,GPT-4o 则认为 MORE 推理是它不是一个具体的对象或特定类型的人。

所有这些都表明我们需要使提示更加具体,从而在这种情况下导致平局。

谜题 3 — 数学推理

让我们继续讨论一个众所周知的视觉推理难题,该难题可以通过公式计算。因此,我将下图以及以下提示作为两个模型的输入。

下面三个圆的圆周上都有蓝点,这些蓝点由直线连接。第一个圆有两个蓝点,将其分成两个区域。给定一个圆,圆周上任意位置有 7 个点,该圆最多可以分成多少个区域?

在这种情况下,GPT-4o 得出了完全正确的答案 57。但 Claude 3.5 得出的答案是 64,这并不完全正确。两个模型都给出了得出答案的逻辑推理步骤。GPT-4o 中的数学公式格式比 Claude 3.5 中的更好。

我们的判决

根据我们的测试,我们得出结论,无论是纯代码还是 GUI 代码,代码生成任务的赢家都是 Claude 3.5 sonnet。它在逻辑推理任务中的表现不相上下。但在数学推理任务方面,GPT-4o 仍然处于领先地位,而 Claude 尚未赶上。

就生成速度而言,Claude 无疑是赢家,因为它生成文本或代码的速度比 GPT-4o 快得多。查看我们的如果您希望实时比较文本生成的速度。

喊出来

如果你喜欢这篇文章,为什么不关注我呢推特我每周每天都会在哪里分享来自顶尖人工智能实验室的研究更新?

也请订阅我的YouTube 频道我在这里以直观的方式解释人工智能概念和论文。