Uzmimo trenutak i razmislimo o učenju vožnje. Svatko od nas može naučiti osnovne principe vožnje iz samo nekoliko demonstracija, a nakon što shvatimo koncepte poput upravljanja, ubrzanja i kočenja, možemo primijeniti te vještine na bilo koji automobil - od kompaktne limuzine do velikog kamiona. Pomoću ovih vještina također se možemo brzo prilagoditi različitim uvjetima na cesti, vremenskim prilikama i prometnim situacijama, čak i ako se s njima nikada prije nismo susreli. Međutim, sadašnja umjetna inteligencija trebat će tisuće sati podataka o obuci za svako specifično vozilo i uvjete, dok bi AGI mogao shvatiti temeljna načela vožnje i široko ih primijeniti.
AGI ima za cilj stvoriti AI sustave koji mogu uistinu generalizirati znanje i vještine — učeći temeljna načela koja se mogu primijeniti na potpuno nove situacije. Vožnja automobila, igranje sira, go, Minecraft, itd. To se značajno razlikuje od današnjih AI sustava, uključujući LLM, koji primarno rade kroz sofisticirano podudaranje uzoraka u golemim skupovima podataka za obuku.
Dok se moderni LLM-ovi mogu uključiti u naizgled inteligentne razgovore i rješavati složene probleme, oni u osnovi funkcioniraju tako što prepoznaju i rekombiniraju obrasce s kojima su se susreli tijekom obuke. Ovo je sličnije iznimno naprednom pamćenju i statističkoj korelaciji nego pravom razumijevanju i generalizaciji, budući da oni ne grade prave kauzalne modele ili apstraktne reprezentacije svijeta. Kad se čini da generaliziraju, obično samo pronalaze suptilne statističke obrasce u svojim podacima o obuci, a ne razumiju dublja načela.
ARC se bavi ključnim problemom mjerenja u istraživanju umjetne inteligencije — kako zapravo testiramo može li sustav umjetne inteligencije generalizirati?
Tradicionalna mjerila obično mjere izvedbu na određenim zadacima s velikim skupovima podataka za obuku, ali visoki rezultati ne ukazuju nužno na stvarnu sposobnost generalizacije. Umjetna inteligencija može raditi dobro jednostavnim pamćenjem uzoraka u podacima o obuci, a ne razvijanjem istinskog razumijevanja.
Kao što F. Chollet piše: "Koliko znamo, ARC-u nije moguće pristupiti nijednom postojećom tehnikom strojnog učenja (uključujući duboko učenje)".
Glavne poteškoće su sljedeće:
– Očekivani rezultat nije naljepnica ili čak skup naljepnica, već mreža u boji s veličinama do 30x30 i s do 10 različitih boja. Stoga spada u domenu strukturiranog predviđanja.
– Predviđeni output mora točno odgovarati očekivanom outputu. Ako je jedna ćelija pogrešna, zadatak se smatra neuspjelim. Kako bi se to kompenziralo, dopuštena su tri pokušaja za svaku ulaznu mrežu.
– U svakom zadatku općenito postoje između dvije i četiri instance obuke (ulazna mreža + izlazna mreža) i jedna ili dvije ispitne instance za koje se mora izvršiti predviđanje.
– Svaki se zadatak oslanja na različitu transformaciju iz ulazne mreže u izlaznu mrežu. Konkretno, niti jedan zadatak evaluacije ne može se riješiti ponovnom upotrebom transformacije naučene na zadacima obuke. Svaki zadatak poseban je problem učenja, a ono što ARC procjenjuje je široka generalizacija i učenje u nekoliko koraka.
ARC nudi rigorozniji test generalizacije predstavljajući svaku zagonetku sa samo 3-5 uzoraka, samo nekoliko puta. Ovi minimalni podaci o obuci znače da se AI ne može osloniti na opsežno usklađivanje uzoraka — mora izdvojiti temeljna načela i primijeniti ih na nove situacije, baš kao što to rade ljudi. Zagonetke su također namjerno dizajnirane da se odupru brzim rješenjima ili strategijama pamćenja.
Ono što ARC čini posebno vrijednim je to što pruža mjerljivu mjeru sposobnosti generalizacije. Umjesto da raspravljamo o tome hoće li sustav umjetne inteligencije doista "razumjeti" u nekom filozofskom smislu, možemo izmjeriti konkretnu izvedbu ovih pažljivo osmišljenih zadataka zaključivanja. Ovo istraživačima daje jasnu referentnu točku za napredak prema općoj umjetnoj inteligenciji.
Ako želite saznati više o ARC mjerilu i što to znači za razvoj umjetne inteligencije, ovaj je video odlično mjesto za početak:
Kaggle natjecanje 2020. otkrilo je jedan od prvih pristupa rješavanju ARC-a — brute-force pretraživanje kroz prostor unaprijed definiranih transformacija. Pobjedničko rješenje konstruiralo je jezik specifičan za domenu (DSL) koji sadrži 142 ručno izrađene grid operacije. Sustavnim pretraživanjem kombinacija ovih operacija postigao je 20% točnosti na zadacima privatne procjene. Drugo slično rješenje koje koristi gramatičku evoluciju za vođenje pretraživanja transformacije postiglo je 3–7,68% točnosti.
Iako su bila poznata po svom početnom uspjehu, ova su rješenja istaknula ključno ograničenje: oslanjala su se na iscrpnu pretragu unaprijed programiranih pravila umjesto na razvijanje bilo kakvog stvarnog razumijevanja ili sposobnosti generaliziranja. Ovaj jaz između programskog pretraživanja i istinske inteligencije pokazuje zašto ARC ostaje izazovno mjerilo za mjerenje sposobnosti generalizacije.
Trenutačni pristup ( https://github.com/sebferre/ARC-MDL/tree/master ) temelji se na temeljnom principu koji se koristi za otkrivanje obrazaca i izgradnju modela koji najbolje objašnjavaju podatke na najsažetiji mogući način. U svojoj srži, MDL navodi da je "najbolji model za neke podatke onaj koji sažima većinu podataka."
Rješenje koristi specijalizirani jezik za modeliranje za učinkovito opisivanje mrežnih uzoraka. Ovaj jezik pruža strukturiran način predstavljanja ulaznih i izlaznih rešetki kao kombinacija osnovnih elemenata:
Na najvišoj razini, svaka je zagonetka predstavljena kao par i sadrži dvije mreže:
● Ulazna mreža (in)
● Izlazna mreža (van)
Svaku rešetku definiraju tri komponente:
Objekti su pozicionirani oblici, gdje svaki oblik može biti:
● Jednobojna točka
● Pravokutnik s određenom veličinom, bojom i maskom
Sustav maski je posebno moćan, omogućavajući pravokutnicima različite oblike:
● Cijeli (puni pravokutnik)
● Obrub (samo obris)
● Uzorci šahovnice (parni ili neparni)
● Križni uzorci (oblik plusa ili puta)
● Prilagođeni bitmap uzorci
Ovaj jezik omogućuje sustavu kompaktno opisivanje složenih mrežnih uzoraka. Na primjer, umjesto pohranjivanja mreže 10x10 piksel po piksel (100 vrijednosti), mogao bi je pohraniti kao "crnu pozadinu s crvenim pravokutnikom 3x3 na poziciji (2,2)" — koristeći mnogo manje vrijednosti dok hvata bitnu strukturu.
Prilikom traženja uzoraka, sustav pokušava pronaći najsažetiji opis ulaznih i izlaznih rešetki pomoću ovog jezika. Dobra rješenja imaju tendenciju ponovnog korištenja elemenata između ulaza i izlaza (kao što je uzimanje oblika s ulaza i transformacija u izlazu), što dovodi do kraćih opisa i bolje kompresije.
Uspjeh ovog pristupa (94/400 riješenih zadataka obuke) sugerira da ovaj jezik hvata mnoge od ključnih obrazaca prisutnih u ARC zagonetkama, a istovremeno je dovoljno ograničen da izbjegne pretjerano prilagođavanje specifičnim primjerima.
Iako su LLM-ovi pokazali impresivne sposobnosti u mnogim domenama, njihovo izravno korištenje za rješavanje ARC-a predstavlja i prilike i izazove. Naivni pristup uključuje davanje LLM primjera input-outputa i traženje od njega da predvidi odgovor za nove inpute. Međutim, ova metoda ima značajna ograničenja. LLM-i pokazuju vrlo ograničene sposobnosti prostornog razmišljanja u ovom kontekstu i vrlo su skloni halucinacijama kada pokušavaju predvidjeti transformacije mreže.
Ovaj se pristup nadograđuje na metodu izravnog predviđanja tako što prvo traži od LLM-a da analizira i opiše obrasce koje opaža u ulazno-izlaznim parovima. Iako ovaj dodatni korak obrazloženja daje bolje rezultate pomažući LLM-u da razloži problem, još uvijek ima ista temeljna ograničenja. Model nastavlja pokazivati visoku stopu halucinacija kada pokušava predvidjeti konačne rezultate, čak i nakon identificiranja potencijalnih obrazaca. Ovo sugerira da samo dodavanje eksplicitnih koraka rezoniranja nije dovoljno za prevladavanje LLM-ovih ograničenja prostornog rezoniranja u rješavanju ARC izazova.
U WLTech.AI -u vidimo da je ogromna uloga AI agenata u potrazi za AGI-jem od velike važnosti. Osmišljeni su za dinamičnu interakciju sa svojim postavkama, prilagođavaju se na temelju onoga što nauče i uče sami. Za razliku od statičnih modela obučenih samo jednom, AI agenti mogu učiti iz stalnih interakcija i prilagoditi se promjenjivim okolnostima, što ih čini vitalnom komponentom u razvoju AGI-ja.
AI agenti su mozak operacije, koordiniraju niz tehnika koje su prilagođene specifičnim zahtjevima zadatka. Simbolički sustavi izvrsni su u preciznom zaključivanju temeljenom na pravilima, što ih čini savršenima za zadatke koji zahtijevaju razumijevanje transformacija kao što su rotacije ili refleksije. Neuronske mreže su izvrsne u prepoznavanju obrazaca i generalizaciji podataka, što je stvarno korisno za identificiranje temeljnih struktura u ARC zadacima.
Međutim, izazovi ARC-a ne završavaju simboličkom manipulacijom ili prepoznavanjem uzoraka. Mnogi zadaci zahtijevaju napredniju razinu apstrakcije, uključujući sposobnost stvaranja novih pravila, uspostavljanja veza i prilagođavanja novim situacijama. Ovdje su korisni jezični modeli jer se mogu koristiti za stvari poput sinteze programa i apstraktnog razmišljanja. Algoritmi pretraživanja još su jedan alat u kutiji jer mogu učinkovito istražiti moguće transformacije kako bi identificirali rješenja. Sustavi planiranja, s druge strane, pružaju okvir za rastavljanje i rješavanje složenih problema korak po korak.
Ono što AI agente čini tako pametnima je to što mogu spojiti sve te različite pristupe. Oni ne koriste samo jednu po jednu metodu. Oni procjenjuju i primjenjuju najbolju kombinaciju tehnika za rješavanje svakog jedinstvenog problema. Ta sposobnost prilagodbe u hodu ono je što izdvaja ljude i važan je dio unaprjeđenja AGI-ja.
U svojoj srži, AI agenti su u osnovi inteligentni koordinatori. Vode tekuću evidenciju o tome što funkcionira, a što ne, kako bi mogli učiti iz prošlih iskustava.
Naše Agentic AI rješenje Naše rješenje možete pronaći ovdje: https://colab.research.google.com/drive/1-rQoqrGRGQE6M8bMpfzqf6tV3TnUi-Mp?usp=sharing ili na Githubu: https://github.com/weblab-technology/ arc-challenge-2024-10
Naš napredak došao je oponašanjem ljudskog ponašanja u rješavanju problema: analiziranje primjera, postavljanje hipoteza o pravilima, testiranje i pročišćavanje. Umjesto grube sile, naš AI fokusiran je na pisanje funkcija generiranja — Python koda koji definira transformacije — i njihovo trenutno testiranje na podacima za obuku.
Iznenađujuće otkriće u našem pristupu bilo je da iterativna poboljšanja često priječe napredak umjesto da pomažu. Ako je početna pretpostavka koja stoji iza funkcije generiranja manjkava, pokušaj njezinog pročišćavanja obično pojačava pogrešku umjesto da je ispravlja. Ova spoznaja temeljito je preoblikovala našu metodologiju.
Umjesto pročišćavanja netočnih pretpostavki, smatramo da je učinkovitije:
Ovo odražava ljudsko ponašanje resetiranja i ponovnog razmišljanja kada se put rješenja pokaže neproduktivnim, umjesto krpanja pokvarene strategije.
Ovaj uvid također objašnjava zašto genetski algoritmi nisu uspjeli poboljšati rezultate. Prema dizajnu, genetski algoritmi postupno razvijaju rješenja, usavršavajući ih tijekom generacija. Međutim, kada su temeljne pretpostavke pogrešne, inkrementalne promjene dovode do zamršenih rješenja koja još više odlutaju od ispravne transformacije.
LLM Evaluacija: Claude 3.5 Sonnet nadmašuje konkurente
Kako bismo se uhvatili u koštac s ARC izazovom, opsežno smo testirali višestruke modele velikih jezika (LLM) kako bismo pomogli u pisanju funkcija generiranja. Među njima, Claude 3.5 Sonnet se pokazao kao najsposobniji, značajno nadmašivši svoje konkurente.
Ključni nalazi:
Claude 3.5 Sonet protiv GPT-4o:
● Izvedba: Claude 3.5 Sonnet je identificirao više uzoraka od GPT-4o, postigavši gotovo dvostruku točnost u prepoznavanju uzoraka.
● Učinkovitost: Claude je postigao iste rezultate kao OpenAI GPT-4o u 1/7 vremena izvršenja, što ga čini ne samo učinkovitijim nego i bržim.
Pad GPT-4o:
● Primijetili smo primjetan pad performansi GPT-4o tijekom vremena. Početna verzija GPT-4o bila je daleko sposobnija za ARC zadatke od kasnijih verzija, što ukazuje na potencijalni pomak u njegovoj optimizaciji koji je spriječio prepoznavanje uzoraka i obrazloženje za ovaj izazov.
Zašto se Claude 3.5 Sonet ističe
Claudeova prednost leži u njegovoj sposobnosti da generalizira i identificira suptilne transformacije, što je ključno za ARC-ovu prirodu s nekoliko kadrova. Njegova dosljedna izvedba i učinkovitost učinile su ga jasnim izborom za integraciju u naš okvir agenta umjetne inteligencije, postavljajući novi standard za razmišljanje vođeno LLM-om u strukturiranom rješavanju problema.
Naš pristup postigao je gotovo 30% točnosti na skupu za procjenu ARC-a , značajno nadmašujući osnovne metode. Ovaj rezultat naglašava snagu oponašanja ljudskog ponašanja u rješavanju problema, iskorištavanja novih hipoteza nad iterativnim usavršavanjima i korištenja najsposobnijih LLM-ova kao što je Claude 3.5 Sonnet. Iako još uvijek postoji značajan prostor za poboljšanje, ova prekretnica pokazuje značajan napredak u rješavanju izazova ARC-a i napredovanju prema široj generalizaciji u AI.
U WLTech.AI- ju vjerujemo da budućnost rješavanja ARC-a leži u kontinuiranom rastu LLM sposobnosti u kombinaciji s okvirima obrazloženja više razine kao što je Minimalna duljina opisa (MDL) ili slični pristupi za sažeto objašnjenje uzoraka. Ova poboljšanja mogla bi omogućiti modelima da bolje apstrahiraju i generaliziraju transformacije. Dodatno, integracija samopročišćavajućeg brzog sustava temeljenog na rastućoj banci rješenja omogućila bi modelima da iterativno poboljšaju svoje razmišljanje i crpe se iz prošlih uspjeha, stvarajući prilagodljiviji i učinkovitiji cjevovod za rješavanje problema. Ova sinergija između naprednih LLM-ova, strukturiranih objašnjenja i prilagodljivog učenja ima potencijal za otključavanje novih prekretnica u razvoju ARC-a i AGI-ja.
Referentna vrijednost Abstraction and Reasoning Corpus (ARC) bila je ključna za testiranje koliko dobro umjetna inteligencija može primijeniti opća pravila i razmišljati na apstraktniji način. Tijekom godina vidjeli smo niz izvanrednih rješavača koji su se pojavili, od kojih je svaki dodao nešto drugačije ovom području.
● Pristup Ryana Greenblatta
Godine 2024. Ryan Greenblatt, inženjer u Redwood Researchu, postigao je veliku prekretnicu postigavši ocjenu od 42% na skupu javne evaluacije ARC-AGI, s rezultatom provjere od 43%. Njegov pristup uključivao je korištenje GPT-4o za generiranje i usavršavanje nekoliko Python programa i odabir najboljih za podnošenje. Ovo pokazuje kako možemo koristiti velike jezične modele s programskom sintezom za rješavanje složenih zadataka zaključivanja.
● Icecuber 2020
Rješenje "icecuber 2020", prethodni pobjednik natjecanja, dobilo je ocjenu javne evaluacije od 39% i ocjenu verifikacije od 17%. Iako nemamo sve pojedinosti o metodologiji, ovo je rješenje bilo jako važno u postavljanju ljestvice za sljedeće ARC rješavače.
Na ARC Prize 2024. ljestvici najboljih izvođača nalaze se sljedeći igrači :
● MindsAI je u vodstvu s rezultatom od 55,5%.
● ARChitekti su blizu njih s rezultatom od 53,5%.
● Guillermo Barbadillo na trećem mjestu s rezultatom od 40%.
● Alijs četvrti, također na 40%.
● TuMinhDang peti s rezultatom od 38%.
Ovi rezultati pokazuju kako svi marljivo rade i smišljaju nove načine za rješavanje referentne vrijednosti ARC-a. Oni također pokazuju kako različiti timovi koriste različite strategije.
Referentna vrijednost ARC još uvijek je odličan način za testiranje koliko dobro AI sustavi mogu zaključivati i generalizirati. Iako je došlo do velikog napretka, niti jedan model nije se u potpunosti uhvatio u koštac s ARC-om, pokazujući koliko je teško postići opću umjetnu inteligenciju. Istraživači i praktičari uvijek traže načine za kombiniranje različitih pristupa, koristeći simboličko rezoniranje s neuronskim mrežama, kako bi se približili rješavanju problema.
Mjerila poput ARC-a daju nam kratak uvid u ono što budućnost nosi za istraživanje umjetne inteligencije. Oni pomiču polje prema sustavima koji mogu razmišljati i prilagođavati se poput ljudi. Iako još uvijek sporo napredujemo, ARC je već postavio jasan put za postizanje AGI-ja.
● Fokus se pomiče prema generalizaciji. ( https://arxiv.org/abs/2305.07141?utm_source=chatgpt.com )
U budućnosti će sustavi umjetne inteligencije biti dizajnirani za generalizaciju, a ne za specijalizaciju. Kao što pokazuju zadaci ARC-a, sposobnost rješavanja novih problema bez potrebe za ponovnom obukom ključni je znak istinske inteligencije. Čini se vjerojatnim da će istraživači razviti modele koji su izvrsni u učenju s nekoliko ili nula pokušaja, crpeći inspiraciju iz načina na koji funkcionira naš mozak.
● Hibridni modeli bit će norma.
Uspjeh ARC rješavača već nam je pokazao da sustavi s jednim pristupom imaju svoja ograničenja. Budućnost umjetne inteligencije bit će hibridni modeli koji integriraju neuronske mreže, simboličke sustave i vjerojatnosno zaključivanje. Ovi će modeli dobro funkcionirati na ARC-u, ali će također moći riješiti probleme u stvarnom svijetu gdje su fleksibilnost i prilagodljivost ključni.
● Postoji novi fokus na kognitivnoj arhitekturi.
ARC je potaknuo ljude na razmišljanje o kognitivnim arhitekturama koje kopiraju sposobnost ljudskog mozga da kombinira različite načine zaključivanja. Vidjet ćemo više istraživanja o radnoj memoriji, meta-učenju i sustavima s više agenata, što će pomoći utrti put AI-u koji može razmišljati, učiti i prilagođavati se u hodu.
Kako sustavi umjetne inteligencije postaju pametniji, počet će raditi s nama, a ne samo obavljati naš posao za nas. Mjerila poput ARC-a pomažu u razvoju AI sustava koji rade zajedno s ljudima, nudeći uvide i rješenja u složenim područjima kao što su znanstvena otkrića i kreativno rješavanje problema.
Natjecanja poput ovih stvarno su nadahnula AI zajednicu. S nagradom od preko 1.000.000 dolara, ARC nagrada je izvrstan poticaj za istraživače da osmisle rješenja otvorenog koda koja mogu nadmašiti trenutna mjerila.
U WLTech.AI -u shvaćamo da vrijednost takvih rješenja daleko premašuje 1.000.000 dolara i uzbuđeni smo što ćemo sljedeće godine ponovno sudjelovati u izazovu kako bismo nastavili napredovati na ovom polju.