我想,每天,我们都会听到关于生成人工智能“革命化”一切并取代每个人的一切。 要开始, 最近发现,诸如 ChatGPT-4o、GPT-o1, Gemini-2.0 和 Claude 3.5-Sonnet 等多式大型语言模型(MLLMs)在读时钟时遇到准确性问题。 爱丁堡大学的研究人员 当他们用罗马数字设计的手表测试时,事情变得更糟糕,彩色标记或装饰时钟手臂。 这一发现是在今天测试一系列顶级MLLM的过程中进行的,并认为双胞胎2.0在只有22.8%的精度下表现得“最佳”听起来很滑稽。 根据研究人员的说法,这些模型与一切相斗争,手是哪一手?手指向哪个方向?角度与哪个时间相符?数字是哪个?根据他们,手表面越有变异,测试的聊天机器人越有可能误读手表。 这些都是人们的基本技能,大多数六到七岁的孩子已经可以预测时间,但对于这些模型来说,这可能是最复杂的天体物理学。 在手表失败后,研究人员在年度日历上测试了机器人,你知道,在一个页面上有所有12个月的机器人。GPT-o1在这里表现出“最好的”,达到80%的准确性。 我从来没有想过人工智能模型会被一个常见的日历布局所困惑,但然后,发现这一点并不太令人震惊. 这一切仍然会导致人工智能开发中长期存在的差距。 人类可以看看一个扭曲的达利手表,但仍然可以大致弄清楚它应该显示什么时间,但人工智能模型会看到一个稍厚的时钟手和某种短路。 为什么这关系到 很容易(几乎令人满意)嘲笑ChatGPT,双胞胎,以及这些模型,因为你小时候学到的任务失败了,你做的事情很容易。 但是,尽管我想嘲笑它,但这里有一个更严肃的角度,这些MLLM正在被推向自动驾驶感知,医疗成像,机器人和可访问性工具,它们正在用于计划和自动化以及实时决策系统。 现在,钟表读错误是很有趣的,但医疗错误?导航错误?甚至计划错误?不是那么有趣。 如果一个模型无法可靠地读取一个手表,在高赌场环境中盲目地信任它,对我来说太危险了,这只是表明这些系统仍然远离实际的、基础上的智能,以及人类常识和微妙感仍然有多重要。 作为该研究的主要作者Rohit Saxena, 这些弱点“必须得到解决,如果人工智能系统要成功地集成到时间敏感的现实世界应用中。 把它