paint-brush
AI prieš žmogų – ar mašina jau pranašesnė? pateikė@learning2survive
Nauja istorija

AI prieš žmogų – ar mašina jau pranašesnė?

pateikė Vitalii Chukhlantcev3m2024/10/31
Read on Terminal Reader

Per ilgai; Skaityti

Atrodo, kad dirbtinio intelekto modeliai daugelyje sričių yra geresni už žmones, jei pasitikite etalonais. Taip yra todėl, kad jie prisimena ir atrenka atsakymus į specializuotus klausimus, o ne todėl, kad iš tikrųjų gerai samprotauja. Šiai problemai spręsti skirtas naujasis „PAPRASTAS“ etalonas.
featured image - AI prieš žmogų – ar mašina jau pranašesnė?
Vitalii Chukhlantcev HackerNoon profile picture

Jei patikrinsite populiarius etalonus, naudojamus LLM našumui matuoti, tikriausiai manote, kad AI yra labai protingas.


Tai teisingas paviršiaus lygio įspūdis; Tačiau ar AI tikrai yra geresnis už vidutinį žmogų pažinimo užduotims atlikti?


Pasienio modeliai, tokie kaip o1 iš OpenAI ir Claude 3.5 Sonnet iš Anthropic, daugelyje sričių, įskaitant teisę, kodavimą ir matematiką, veikia geriau nei patyrę žmonės. Kodėl tada ChatGPT negali išspręsti kai kurių paprastų erdvinio mąstymo užduočių ar kvailų gudrybių klausimų? Na, mes vis dar kalbame apie „didelių kalbų modelius“ – jie surenka daugybę raidžių ir bando nuspėti, kokias raides išspjauti pagal pateiktą užklausą.


Atkreipkite dėmesį, kad niekur šioje lygtyje nėra paminėtas tikrasis „mąstymas“. Modeliai yra savotiškos stochastinės papūgos , nes jie bando gauti reikiamą informaciją iš savo mokymo duomenų rinkinio, užuot svarstydami jūsų klausimą. Bent jau taip buvo iki tol, kol OpenAI išleido o1 peržiūrą, bet daugiau apie tai vėliau.


Tarp tų, kurie pradėjo abejoti esamais LLM etalonais dėl tinkamumo, yra populiaraus „YouTube“ kanalo „AI Explained“, kurio aš esu didelis gerbėjas, autorius. Phillipas („YouTuber“ vardas) pastebėjo, kad standartiniai pramonės standartai turi aiškų klausimų stilių, kurie taip pat dažniausiai yra viešai prieinami. Tai reiškia, kad tie tikslūs klausimai ne tik gali būti mokymo duomenų rinkinio dalis, bet dėl standartizacijos modeliams lengviau pastebėti ir pritaikyti modelius iš bendrų mokymo duomenų.


Paprasčiau tariant, dirbtinio intelekto tyrėjai, kuriantys novatoriškas sudėtingas technologijas, tikrai gali rasti būdą, kaip pateikti savo modeliui svarbius klausimus ir atsakymus, kuriuos „prisiminti“ prieš atlikdami lyginamąją analizę.


Šaltinis: https://blog.getbind.co/2024/09/13/openai-o1-vs-gpt-4o-is-it-worth-paying-6x-more/ 

Žvelgiant į geriausio modelio „O1“ iš „OpenAI“ rezultatus, galima reikšti, kad daugelyje profesionalių sričių jis yra geresnis nei vidutinis. Ir tai tiesa, tačiau šis rezultatas priklauso nuo atitinkamų mokymo duomenų ir ankstesnių pavyzdžių iš tų konkrečių sričių. Nesupraskite manęs neteisingai, modeliai dabar nuostabiai duoda vadovėlio atsakymus į vadovėlio klausimus, ir tai jau savaime yra beprotiškai įspūdinga.


Tačiau terminas „dirbtinis intelektas“ reiškia šiek tiek daugiau nei tiesiog informacijos gavimą; turėtų būti tam tikras tikras mąstymas. Taigi logiška visų aukščiau pateiktų įspūdingų skaičių seka yra tai, ar toks „AI“ gali atsakyti į sudėtingą samprotavimą. Klausimas Ar jis turi erdvinį intelektą, ar jis gali gerai naršyti bendruose socialiniuose scenarijuose?

Skirtingai nuo konkrečios srities klausimų su iš anksto nustatytais atsakymais, problemų, kurias žmonės sprendžia kasdien, dažnai reikia suprasti kontekstą už natūralios kalbos ribų (tai yra vienintelis dalykas, kurį turi LLM).


Šaltinis: AI Explained https://www.youtube.com/watch?v=KngdLKv9RAc
Aukščiau pateikiami geriausi SIMPLE etalono žaidėjai, kurie suteikia LLM klausimų, kuriuos paprastas žmogus laikytų nereikšmingais, tačiau modeliai dar nebūtinai gali atsakyti. Esame įpratę matyti, kad dirbtinio intelekto egzaminuose ar specializuotuose etalonuose AI sekasi daug geriau nei vidutiniam žmogui, tačiau čia geriausias modelio našumas iš tikrųjų yra tik 41,7 % (o1 peržiūra), palyginti su 83,7 % vidutinio žmogaus. Šiame etalone naudojama 200 tekstinių klausimų su atsakymų variantais, orientuota į erdvės ir laiko samprotavimus, socialinį intelektą ir gudrius klausimus.


Svarbiausia etalono ypatybė yra ta, kad tie klausimai nėra viešai prieinami, todėl dirbtinio intelekto laboratorijos negali jų tiesiog pridėti prie savo mokymo duomenų. Daugiau apie šį etaloną galite sužinoti čia .

Šis naujas požiūris į LLM našumo matavimą parodo, kiek visi modeliai vis dar yra toli nuo vidutinio žmogaus mąstymo gebėjimo. Kuo greičiau šis atotrūkis mažės ateinančiais mėnesiais, tuo tikslesnis bus atsakymas „taip“ į mūsų antraštę. Įdomi nauja metrika, į kurią reikia atkreipti dėmesį, jei esate entuziastingas, bet atsargus DI.