Ako provjerite popularna mjerila koja se koriste za mjerenje performansi LLM-a, tada se vjerojatno osjećate kao da je umjetna inteligencija tako pametna.
Ovo je pošten dojam na razini površine; međutim, je li umjetna inteligencija doista bolja od prosječnog čovjeka za kognitivne zadatke?
Frontier modeli kao što su o1 iz OpenAI-ja i Claude 3.5 Sonnet iz Anthropica rade bolje od stručnjaka u brojnim područjima, uključujući pravo, kodiranje i matematiku. Zašto onda ChatGPT ne može riješiti neke jednostavne zadatke prostornog razmišljanja ili neka glupa trik pitanja? Pa, mi još uvijek govorimo o "velikim modelima jezika"—oni uzimaju gomilu slova i pokušavaju predvidjeti koja slova ispljunuti za određeni upit.
Primijetite da se nigdje u ovoj jednadžbi ne spominje stvarno "razmišljanje". Modeli su svojevrsne stohastičke papige jer pokušavaju dohvatiti prave informacije iz skupa podataka za obuku umjesto da stvarno razmotre vaše pitanje. Barem je tako bilo sve dok OpenAI nije izdao o1-preview, ali više o tome kasnije.
Među onima koji su počeli dovoditi u pitanje relevantnost postojećih LLM mjerila je autor popularnog YouTube kanala “AI Explained” čiji sam veliki obožavatelj. Phillip (ime YouTubera) primijetio je da standardna mjerila za industriju imaju jasan stil pitanja koja su također uglavnom javno dostupna. To znači da ne samo da ta točna pitanja mogu biti dio skupa podataka o obuci, već je zbog standardizacije modelima lakše uočiti i primijeniti uzorke iz ukupnih podataka o obuci.
Jednostavno rečeno, istraživači umjetne inteligencije koji stvaraju revolucionarnu složenu tehnologiju sigurno mogu pronaći način da svom modelu daju relevantna pitanja i odgovore koje treba "zapamtiti" prije usporedbe.
Gledajući rezultate tamošnjeg vrhunskog modela, o1 iz OpenAI-ja, može se zaključiti da daje rezultate iznad prosjeka u mnogim profesionalnim domenama. I to je točno, ali ovaj se rezultat oslanja na dostupnost relevantnih podataka o obuci i prošlih primjera iz tih specifičnih područja. Nemojte me krivo shvatiti, modeli su sada nevjerojatni u davanju udžbeničkih odgovora na udžbenička pitanja, a to je samo po sebi ludo impresivno.
Izraz "umjetna inteligencija", međutim, podrazumijeva nešto više od pukog pronalaženja informacija; trebalo bi biti uključeno nešto stvarnog razmišljanja. Dakle, logičan nastavak svih impresivnih brojeva iznad je može li takva "AI" odgovoriti na lukavo razmišljanje Pitanje. Ima li ikakvu prostornu inteligenciju ili se može dobro snalaziti u uobičajenim društvenim scenarijima?
Za razliku od pitanja specifičnih za područje s unaprijed definiranim odgovorima, problemi koje ljudi svakodnevno rješavaju često zahtijevaju razumijevanje konteksta izvan prirodnog jezika (što je jedino što LLM-ovi imaju).
Gore su navedeni najbolji rezultati na referentnoj točki SIMPLE, koja studentima LLM-a daje pitanja koja bi prosječna osoba smatrala trivijalnim, ali modeli još uvijek ne mogu nužno odgovoriti. Navikli smo vidjeti da AI radi mnogo bolje od prosječnog čovjeka na ispitima ili specijaliziranim mjerilima, ali ovdje je izvedba vrhunskog modela zapravo samo 41,7% (o1-preview) naspram 83,7% prosječnog čovjeka. Ovo mjerilo koristi 200 tekstualnih pitanja s višestrukim izborom usmjerenih na prostorno-vremensko razmišljanje, socijalnu inteligenciju i trik pitanja.
Najvažnija značajka mjerila je da ta pitanja nisu javno dostupna, tako da ih laboratoriji za umjetnu inteligenciju ne mogu samo dodati svojim podacima o obuci. Ovdje možete saznati više o ovom mjerilu.
Ovaj novi pristup mjerenju uspješnosti LLM-a pokazuje koliko su svi modeli još daleko od prosječne ljudske sposobnosti zaključivanja. Što se brže taj jaz zatvori u nadolazećim mjesecima, odgovor "da" na naš naslov postaje definitivniji. Zanimljiva nova metrika na koju treba obratiti pozornost ako ste entuzijastični, ali oprezni u vezi s umjetnom inteligencijom.