paint-brush
Paradoks generalizacije u jednom slučaju: Zašto se generativna AI bori s novim informacijamaby@pawarashishanil
748 čitanja
748 čitanja

Paradoks generalizacije u jednom slučaju: Zašto se generativna AI bori s novim informacijama

by Ashish Anil Pawar8m2024/11/10
Read on Terminal Reader

Predugo; Citati

Generativna AI, poput GPT-4, izvanredna je u generiranju teksta na osnovu ogromne količine podataka, ali ne uspijeva kada se suoči s novim, nepoznatim informacijama. Ovaj „paradoks generalizacije u jednom slučaju“ pokazuje da se, uprkos svojoj moći, trenutni AI modeli oslanjaju na već postojeće obrasce i bore se s novim zadacima. Istražujemo razloge koji stoje iza ovoga (od ograničenja arhitekture transformatora do gustih vektorskih reprezentacija) i razmatramo obećavajuća rješenja kao što su meta-učenje i neuro-simboličke arhitekture kako bi se omogućila prava generalizacija u AI.
featured image - Paradoks generalizacije u jednom slučaju: Zašto se generativna AI bori s novim informacijama
Ashish Anil Pawar HackerNoon profile picture
0-item

Generativna AI nije ništa drugo do tehnološki vrtlog. Modeli poput GPT-4 osvojili su svijet svojim nadrealnim kapacitetom da generiraju tekst koji oponaša ljudski razgovor, pišu eseje, kod, pa čak i smišljaju kreativna rješenja za neke prilično složene zadatke. Stalno se približavamo budućnosti uz pomoć umjetne inteligencije, u kojoj će naši digitalni asistenti bez napora razumjeti naše potrebe i odgovoriti na njih. Dovoljno je da bilo koga učinite vjernikom, zar ne?

Pa, skoro... ali ne baš.


Vidite, ispod sjaja GPT-ovog sjajnog rezultata i njegove gramatičke finoće krije se osnovno ograničenje, ono koje mnoge od nas tehnologa izluđuje: generativna AI se bori da rukuje potpuno novim informacijama, posebno u scenarijima učenja u jednom trenutku. Ovaj naizgled jednostavan (a ipak frustrirajući) problem otkriva središnji jaz u trenutnim sistemima AI. Uprkos tome što su u stanju da sintetizuju impresivne odlomke iz milijardi tačaka podataka, kada im je zadatak praviti novitet – nešto što ranije nije video niti je trenirao – modeli u GPT stilu naišli su na svoj zid.


Ovo daje sliku onoga što ja nazivam “Paradoks generalizacije u jednom trenutku” : bez obzira koliko moćni, bez obzira koliko 'pametni' AI sistemi kao što je GPT izgledali, oni se raspadaju kada je potrebno da se brzo generalizuju iz samo jedne ili male šačice neviđeni primjeri.


Hajdemo malo da raspakujemo ovaj paradoks i zaronimo u razloge za to. Ali ne brinite, nećemo zadržati ovo čisto filozofsko – ući ćemo u tehničko blato i istražiti šta tačno sprečava naše AI sadašnje generacije da se poklope sa tom magičnom fleksibilnošću koju ljudi imaju kada se suoče sa nepoznatim.

Magija i mehanizam generativnih modela… Dok se ne pokvare

Osnovni sjaj modela kao što je GPT-4 počiva na sofisticiranoj arhitekturi Transformera , koja je poznata po tome što pokreće sve, od jezičkih modela do zadataka za vid. Sada, ne želim da vas zamaram žargonom na početku ovog dela (tek smo počeli), ali neke tehničke slojeve treba raspakovati da bi se shvatilo gde i zašto pukotine počinju da se pojavljuju.


Za početak, GPT pripada porodici modela zasnovanih na sekvenci , obučenih da predvide sljedeću riječ ili token u bilo kojem dijelu teksta. Kako su postali tako dobri u ovome? U velikoj mjeri, to je zbog mehanizma samopažnje ugrađenog u Transformer , koji omogućava ovim modelima da probiju ogromne količine teksta i u suštini se "fokusiraju" na važne dijelove rečenice dok istovremeno gledaju riječi u cijelom nizu. Ovaj globalni mehanizam pažnje brzo je postao okosnica za hvatanje kontekstno osjetljivog značenja u velikim dijelovima teksta.


Ali ovdje je srž paradoksa: Generativna AI se u velikoj mjeri oslanja na ove podatke o obuci. Izuzetan je u prepoznavanju obrazaca i statističkih odnosa između tokena u podacima koje je ranije vidio, ali je također inherentno ovisan o tim podacima. Kada je model objavljen, GPT-4 zapravo nije naučio razmišljati ili razviti razumijevanje svijeta. Umjesto toga, koristi asocijacije koje je pokupio u milijardama primjera teksta koji se nalaze na internetu (u knjigama, Wikipediji, Reddit temama, akademskim radovima... samo tako).


Dakle, dok se GPT može osjećati kao svevideće proročište, generirajući koherentne i ponekad pronicljive tekstove, ono što zapravo radi je igra impresivne igre vjerovatnoćeg podudaranja obrazaca. Što znači? Kada se pojavi nešto novo (poput potpuno novog naučnog rada o kvantnoj mehanici ili nekog žargona specifičnog za industriju), teško se muči da se to smisli.


To... ne računa se.

Čekaj. Ali zašto se ne može generalizovati kao ljudi?

Evo gdje se ljudi značajno razlikuju od mašina. Zamislite da prvi put čitate o konceptu koji je potpuno izvan vaše stručnosti. Možda ste osnivač tehnoloških startupa koji se kreće svijetom mašinstva. Naravno, možda nećete povezati sve tačke pri prvom čitanju – ali nakon što pogledate nekoliko primjera ili dijagrama, neki intuitivni bljeskovi sijalice će se ugasiti. Aha, ovo je kontrolni sistem! Ovo se povezuje sa tim! A onda, eto, shvatite (ili barem većinu toga).


Ova nijansa se zove jednokratna generalizacija — sposobnost brzog otkrivanja obrazaca ili razumijevanja potpuno novih informacija na osnovu minimalnih primjera. I to je nešto u čemu su ljudi izuzetno dobri. Uzimamo mali dio znanja i intuitivno ga preslikavamo na šire teme, strukture ili analogije koje već poznajemo. Drugim riječima, ne treba nam milion primjera ili ogroman korpus podataka iz prošlosti da bismo imali epifaniju.


Za razliku od toga, generativni modeli uopće nemaju urođeno razumijevanje svijeta. Oni nasumično prolaze kroz statistički prostor i predviđaju na osnovu toga koje riječi ili strukture će se najvjerovatnije pojaviti zajedno. Dakle, kada se od njih zamoli da se pozabave nečim potpuno novim – potpuno novim naučnim terminom, potpuno novom teorijom koja nikada nije objavljena na internetu – oni nalete na zid. Jednostavno rečeno, nisu se s njim susreli ranije , a nedostaju im istinski konceptualni okviri za skokove preko nepoznate teritorije.


U redu, to je prilično apstraktno. Dozvolite mi da ovo dalje raščlanim.


Generativni AI modeli uče interpolacijom između postojećih tačaka podataka. Što znači, oni postaju stručnjaci u popunjavanju praznina između tačaka koje su već vidjeli i obrazaca koji su im poznati, ali se bore s ekstrapolacijom , tj. iskakanjem i projekcijom na osnovu novog koncepta kada podaci o obuci nemaju presedan. Na primjer, GPT-4 može odlično da obrađuje "regularne" jezičke konstrukcije u svakodnevnom jeziku jer postoje milioni dostupnih primjera. Ali, ubacite zahtjev za novonastalim, hiperspecijaliziranim idejama – recimo, specifičnostima nedavnog napretka u solitonskim fiber laserima u fizici – i bum: apsolutna glupost. Zašto? GPT nema nikakvu statističku referentnu tačku za takve nišne, nove termine. U suštini ima obrazovana nagađanja da, iako uvjerljivo u tečnosti, žrtvuju pravu koherentnost radi sintaksičke ispravnosti .

Tehnička srž problema

U redu, ako ste malo više tehnički nastrojeni, hajde da zaronimo dublje u zašto je ovo ograničenje tako tvrdoglavo i šta se dešava ispod haube tokom jednokratnih pokušaja učenja.


Jedno centralno pitanje sa jednokratnom generalizacijom odnosi se na informacije koje model interno predstavlja tokom obuke pod samonadzorom . Modeli u GPT stilu se prilično dobro ponašaju kada rade u granicama – fenomen koji se često opisuje kao učenje u distribuciji . U granicama tema koje je vidio dovoljno golemih primjera obuke, čak i GPT-4 može proizvesti jezivo pronicljive rezultate. To je zato što mu struktura modela omogućava da kodira informacije putem gustih vektorskih reprezentacija – u obliku kontekstualiziranih ugradnji – koje hvataju asocijacije između riječi i pojmova.


Ali evo gdje se stvari raspletaju. Kada model ima zadatak sa situacijom koja zahtijeva generalizaciju izvan distribucije, što znači da se susreće s konceptom za koji nikada ranije nije bio obučen, sistem ne zaključuje stvari na način na koji ljudi rade. Razmislite o tome ovako: ovi modeli su inherentno mašine za uzorke , koje se oslanjaju na statističke "osjećaje". Oni nemaju ugrađenu sposobnost stvaranja ili razmišljanja "iznad podataka".


Na primjer, razmotrite kako GPT uči gramatička pravila. To je kao da neko sjedi da zapamti hiljade načina na koje se riječi koriste u engleskim rečenicama. Nakon dovoljno posmatranja, sistem gradi internu mapu koja zna: "Ah, nakon subjekta dolazi glagol, onda možda objekat, i ubaciti član ili prijedlog po potrebi." Ali kada se predstavi sa potpuno novim jezikom ili potpuno novim strukturama rečenica, ova sposobnost posustaje jer je ograničena na prepoznavanje samo latentnih (ili implicitnih) odnosa koje je već vidio.


Ovo, nažalost, ima svoje granice. Prihvatite zadatak u kojem bi trebalo generirati koherentan tekst o neeksponiranoj temi, recimo revolucionarna otkrića u malo poznatoj temi fizike kao što je kvantno-gravitacijski dualitet . Modelu nedostaje kompozicija potrebna za reinterpretaciju starijeg znanja kako bi se zaključile nove mogućnosti. U našem ljudskom mozgu uvijek imamo više razine (koncepte, teorije, analogije!) koje nam daju fleksibilnost. GPT, međutim, ne radi! Proizvodi rezultate zasnovane na prediktivnoj vjerovatnoći , a ne na kreativnim skokovima.


To je slično vožnji sa mapom koja je unapred programirana samo za rute iz prošlog veka: ne pomaže vam da se krećete u izgradnji ili kroz zavoje koji su se pojavili u poslednjih šest meseci.

Dobivanje tehničkih informacija - Zašto se ovo događa ispod haube

Jedna odskočna daska ka razumijevanju ograničenja je prepoznavanje uloge gustih naspram rijetkih reprezentacija .


Šta mislim pod ovim?


Tradicionalni modeli transformatora rade sa gustim vektorskim ugrađivanjem . Svaka leksema u rečenici je predstavljena visokodimenzionalnim vektorima, a ovi vektori obuhvataju široku lepezu odnosa između reči — sintaktičke strukture, semantička značenja, dinamiku položaja, itd. apstrakcija na način koji vodi do fleksibilne i prilagodljive generalizacije.


Gusto ugrađivanje je ograničeno kompromisom pristrasnosti i varijance tokom obuke modela. Ovaj kompromis je važan: optimizirajući za jednu stvar (opća statistička kompetencija), model žrtvuje nešto drugo (sposobnost zaključivanja u potpuno novim situacijama). Zamislite da stalno prilagođavate svoje mentalne modele kako bi precizno odgovarali svijetu koji ste već iskusili; kompromis je u tome što vas nepredvidivi scenariji potpuno izbace. Zamršeni, ali kruti statistički modeli prirodno se bore s malim jednokratnim slučajevima jer su izvrsni u ponavljanju „prosječnog scenarija“ i smrzavaju se pred izuzecima od naučenih pravila.


Potencijalno ključno rješenje ovdje su oskudne reprezentacije — tehnike za stvaranje dimenzionalnosti koje rastavljaju različite karakteristike na različitim nivoima interpretacije. Rijetke mreže izražavaju i dohvaćaju informacije na fleksibilniji i generaliziraniji način, slično načinu na koji se ljudi fokusiraju na glavne, ključne karakteristike u predviđanju ishoda, a ne na opsjednutost manjim detaljima.


Dakle, jedan problem sa jednokratnom generalizacijom je taj što moderne mrežne strukture ne naglašavaju takve zadatke rastavljanja – previše se oslanjaju na guste obrasce vođene podacima. Stoga, kada ih se od njih traži da generaliziraju potpuno nov i jedinstven materijal s minimalnim kontekstom, ne uspijevaju.

Šta bi ovo moglo riješiti?

Srećom, nismo u potpunosti bez ideja. Istraživači AI (uključujući i mene!) počeli su teoretizirati o nekoliko načina za poboljšanje sposobnosti AI jednokratne generalizacije. Neki od najintrigantnijih pristupa se vrte oko arhitekture meta učenja . Ove arhitekture se fundamentalno razlikuju od današnjih modela, omogućavajući mogućnosti učenja za učenje gdje sistem dinamički prilagođava svoje parametre kako bi brzo odgovarao novim tipovima podataka – mnogo više u skladu sa ljudskim ponašanjem.


U model-agnostičkom meta-učenju (MAML) , na primjer, model se prilagođava da nauči nove zadatke uz minimalne primjere obuke. Neuralne mreže proširene memorijom (MANN) rade slično zadržavajući naučeni kontekst u više instanci, slično tome kako pamtimo važne lekcije iz prošlosti i ponovo ih intuitivno koristimo kada se susrećemo sa novijim, sličnim situacijama.


Integracija sposobnosti simboličkog zaključivanja u modele dubokog učenja je još jedan obećavajući pristup. Modeli opremljeni simboličkim komponentama mogu 'rezonovati' putem logike, a ne samo oslanjati se na statističke preklapanja. Polja poput Neuro-Symbolic AI nude hibride konekcionističkih modela i sistema zasnovanih na pravilima koji omogućavaju AI da oponaša razmišljanje višeg reda, posebno u scenarijima apstraktnog razmišljanja.

Put naprijed?

Dakle, šta sve ovo znači za budućnost AI? Naravno, GPT-4 se osjeća kao magija kada nam pruža tečne interakcije sa korisničkom službom ili odgovara na tipična pitanja, ali moramo razviti modele koji nisu samo mehanizam za pamćenje. Idemo prema budućnosti u kojoj se transferno učenje , meta-učenje i neuro-simboličke arhitekture spajaju kako bi stvorili prilagodljivije učenike.


Paradoks generalizacije jednog udarca nije apokaliptični ćorsokak za AI. To je prepreka koja nas tjera da preispitamo same ključne pretpostavke o inteligenciji i fleksibilnosti. Kako sami podaci to neće popraviti — modelima će biti potrebna sposobnost učenja iz apstrakcija , kreiranja analogija i pamćenja osnovnih karakteristika , a ne samo memorisanja.


Naši budući modeli će morati da budu više ljudi nego mašina kada je u pitanju sinteza znanja. I kao istraživači, programeri i inovatori na vrhuncu, još smo u ranim fazama definisanja šta znači da AI uči – sam po sebi – u zaista fleksibilnom, novom svetu.


Ovo nije samo tehnički izazov. To je filozofski.

L O A D I N G
. . . comments & more!

About Author

Ashish Anil Pawar HackerNoon profile picture
Ashish Anil Pawar@pawarashishanil
Ashish Pawar is an experienced software engineer skilled in creating scalable software and AI-enhanced solutions across data-driven and cloud applications, with a proven track record at companies like Palantir, Goldman Sachs and WHOOP.

HANG TAGS

OVAJ ČLANAK JE PREDSTAVLJEN U...