Jei patikrinsite populiarius etalonus, naudojamus LLM našumui matuoti, tikriausiai manote, kad AI yra labai protingas.
Tai teisingas paviršiaus lygio įspūdis; Tačiau ar AI tikrai yra geresnis už vidutinį žmogų pažinimo užduotims atlikti?
Pasienio modeliai, tokie kaip o1 iš OpenAI ir Claude 3.5 Sonnet iš Anthropic, daugelyje sričių, įskaitant teisę, kodavimą ir matematiką, veikia geriau nei patyrę žmonės. Kodėl tada ChatGPT negali išspręsti kai kurių paprastų erdvinio mąstymo užduočių ar kvailų gudrybių klausimų? Na, mes vis dar kalbame apie „didelių kalbų modelius“ – jie surenka daugybę raidžių ir bando nuspėti, kokias raides išspjauti pagal pateiktą užklausą.
Atkreipkite dėmesį, kad niekur šioje lygtyje nėra paminėtas tikrasis „mąstymas“. Modeliai yra savotiškos stochastinės papūgos , nes jie bando gauti reikiamą informaciją iš savo mokymo duomenų rinkinio, užuot svarstydami jūsų klausimą. Bent jau taip buvo iki tol, kol OpenAI išleido o1 peržiūrą, bet daugiau apie tai vėliau.
Tarp tų, kurie pradėjo abejoti esamais LLM etalonais dėl tinkamumo, yra populiaraus „YouTube“ kanalo „AI Explained“, kurio aš esu didelis gerbėjas, autorius. Phillipas („YouTuber“ vardas) pastebėjo, kad standartiniai pramonės standartai turi aiškų klausimų stilių, kurie taip pat dažniausiai yra viešai prieinami. Tai reiškia, kad tie tikslūs klausimai ne tik gali būti mokymo duomenų rinkinio dalis, bet dėl standartizacijos modeliams lengviau pastebėti ir pritaikyti modelius iš bendrų mokymo duomenų.
Paprasčiau tariant, dirbtinio intelekto tyrėjai, kuriantys novatoriškas sudėtingas technologijas, tikrai gali rasti būdą, kaip pateikti savo modeliui svarbius klausimus ir atsakymus, kuriuos „prisiminti“ prieš atlikdami lyginamąją analizę.
Žvelgiant į geriausio modelio „O1“ iš „OpenAI“ rezultatus, galima reikšti, kad daugelyje profesionalių sričių jis yra geresnis nei vidutinis. Ir tai tiesa, tačiau šis rezultatas priklauso nuo atitinkamų mokymo duomenų ir ankstesnių pavyzdžių iš tų konkrečių sričių. Nesupraskite manęs neteisingai, modeliai dabar nuostabiai duoda vadovėlio atsakymus į vadovėlio klausimus, ir tai jau savaime yra beprotiškai įspūdinga.
Tačiau terminas „dirbtinis intelektas“ reiškia šiek tiek daugiau nei tiesiog informacijos gavimą; turėtų būti tam tikras tikras mąstymas. Taigi logiška visų aukščiau pateiktų įspūdingų skaičių seka yra tai, ar toks „AI“ gali atsakyti į sudėtingą samprotavimą. Klausimas Ar jis turi erdvinį intelektą, ar jis gali gerai naršyti bendruose socialiniuose scenarijuose?
Skirtingai nuo konkrečios srities klausimų su iš anksto nustatytais atsakymais, problemų, kurias žmonės sprendžia kasdien, dažnai reikia suprasti kontekstą už natūralios kalbos ribų (tai yra vienintelis dalykas, kurį turi LLM).
Aukščiau pateikiami geriausi SIMPLE etalono žaidėjai, kurie suteikia LLM klausimų, kuriuos paprastas žmogus laikytų nereikšmingais, tačiau modeliai dar nebūtinai gali atsakyti. Esame įpratę matyti, kad dirbtinio intelekto egzaminuose ar specializuotuose etalonuose AI sekasi daug geriau nei vidutiniam žmogui, tačiau čia geriausias modelio našumas iš tikrųjų yra tik 41,7 % (o1 peržiūra), palyginti su 83,7 % vidutinio žmogaus. Šiame etalone naudojama 200 tekstinių klausimų su atsakymų variantais, orientuota į erdvės ir laiko samprotavimus, socialinį intelektą ir gudrius klausimus.
Svarbiausia etalono ypatybė yra ta, kad tie klausimai nėra viešai prieinami, todėl dirbtinio intelekto laboratorijos negali jų tiesiog pridėti prie savo mokymo duomenų. Daugiau apie šį etaloną galite sužinoti čia .
Šis naujas požiūris į LLM našumo matavimą parodo, kiek visi modeliai vis dar yra toli nuo vidutinio žmogaus mąstymo gebėjimo. Kuo greičiau šis atotrūkis mažės ateinančiais mėnesiais, tuo tikslesnis bus atsakymas „taip“ į mūsų antraštę. Įdomi nauja metrika, į kurią reikia atkreipti dėmesį, jei esate entuziastingas, bet atsargus DI.