I mean, every day, we hear everything about generative AI “revolutionizing” everything and replacing everyone. Pretty genius little things. So imagine my shock when I learned that multimodal AI models cannot tell time. 어떻게 내가 알았는지, 당신은 물어보십니까? 시작하기 위해서는, 최근 ChatGPT-4o, GPT-o1, Gemini-2.0 및 Claude 3.5-Sonnet과 같은 멀티모델 대형 언어 모델 (MLLMs)이 시계 얼굴을 읽을 때 정확성 문제를 겪었다는 것을 발견했습니다. Edinburgh University의 연구원 시계는 로마 숫자, 컬러 디플레이 또는 장식 시계 손으로 디자인 된 시계로 테스트되었을 때 더 악화되었습니다.이 시계 중 일부는 분과 시간 외에 초를 추적하는 손을 가지고있었습니다. 이 발견은 오늘날 최고의 MLLM의 라인업을 테스트하는 동안 이루어졌으며 Gemini-2.0가 22.8%의 정확도로 "최고"를 수행했다고 생각하는 것은 재미있는 소리입니다. 연구자들에 따르면, 이 모델들은 모든 것에 어려움을 겪었다.어떤 손이 시계 손입니까?어떤 방향을 가리키고 있습니까?어떤 각도가 어떤 시간에 해당합니까?어떤 숫자가 있습니까?그들에 따르면 시계 얼굴에 더 많은 변동이 있었을수록 시계를 잘못 읽을 가능성이 더 높았습니다. 이것들은 말 그대로 사람들을위한 기본적인 기술입니다.대부분의 6 ~ 7 세의 아이들은 이미 시간을 알 수 있습니다.하지만 이러한 모델의 경우 가장 복잡한 천체 물리학 일 수 있습니다. 시계 실패 후, 연구자들은 연간 달력에 대한 봇을 테스트했습니다. 한 페이지에 12 개월을 모두 가진 봇을 알고 있습니다. GPT-o1은 여기에 "최고"를 수행했으며 80 %의 정확도를 달성했습니다.그러나 여전히 5 개 중 1 개의 답변이 틀렸다는 것을 의미합니다.주일의 간단한 질문을 포함하여 "어떤 날이 새해일입니까? 나는 AI 모델이 일반적인 달력 레이아웃에 의해 혼란스러워질 수 있다고 생각하지 않았을 것입니다.그러나, 그것을 발견하는 것은 매우 충격적이지 않습니다.이 모든 것은 여전히 AI 개발에서 오랫동안 지속되는 격차로 이어집니다.MLLM은 이미 보았던 패턴을 인식하고 시계, 달력 또는 공간적 추론을 필요로하는 모든 것이 적합하지 않습니다. 인간은 왜곡된 달리 시계를 볼 수 있고 아직도 그것이 표시해야 할 시간을 대략 알 수 있습니다.하지만 AI 모델은 약간 두꺼운 시계 손과 일종의 단축을 볼 수 있습니다. 왜 이것이 중요한가 ChatGPT, 쌍둥이, 그리고이 모델은 당신이 어렸을 때 배운 작업을 실패로 웃는 것이 쉽습니다.당신이 그렇게 쉽게 할 수있는 작업입니다.무료 작업을 위해 고객에 의해 흔들린 사람으로서 이러한 것들이 제공되는 것들, 비록 낮은 표준이지만, 나는 그것을 정말로 만족스럽게 생각합니다. 그러나 내가 그것을 웃고 싶을만큼, 이것에 더 심각한 각도가있다.이 같은 MLLM은 자율 주행 인식, 의료 이미징, 로봇 기술 및 접근성 도구로 밀려들고 있습니다.그들은 계획 및 자동화뿐만 아니라 실시간 의사 결정 시스템에 사용됩니다. 지금, 시계 읽기 오류는 재미있다.하지만 의료 오류? 탐색 오류? 심지어 일정 오류? 그렇게 재미있지 않습니다. 모델이 신뢰할 수없는 시계를 읽을 수 없다면, 높은 도박 환경에서 눈이 멀게 신뢰하는 것은 나에게 너무 위험한 도박입니다.이 시스템이 실제 지상 지능에서 아직도 얼마나 멀리 있는지 보여줍니다.그리고 얼마나 많은 인간의 합리성과 뉘앙스가 여전히 중요합니다.나는 인간 대 AI 사례를 만들기 위해이 기회를 잡는 것에서 멀리하려고 노력하고 있습니다.나는 확실히 "왜 I Hate AI and You Should Too"라고 설교하기 위해 그것을 사용하지 않을 것입니다. 이 연구의 주요 저자 인 Rohit Saxena는 이러한 약점은 AI 시스템이 시간 감각적 인 실시간 응용 프로그램에 성공적으로 통합되기 위해 해결되어야합니다." 그것을 넣어