Generativna AI nije ništa drugo do tehnološki vrtlog. Modeli poput GPT-4 osvojili su svijet svojim nadrealnim kapacitetom da generiraju tekst koji oponaša ljudski razgovor, pišu eseje, kod, pa čak i smišljaju kreativna rješenja za neke prilično složene zadatke. Stalno se približavamo budućnosti uz pomoć umjetne inteligencije, u kojoj će naši digitalni asistenti bez napora razumjeti naše potrebe i odgovoriti na njih. Dovoljno je da bilo koga učinite vjernikom, zar ne?  Pa, skoro... ali ne baš.  Vidite, ispod sjaja GPT-ovog sjajnog rezultata i njegove gramatičke finoće krije se osnovno ograničenje, ono koje mnoge od nas tehnologa izluđuje:   Ovaj naizgled jednostavan (a ipak frustrirajući) problem otkriva središnji jaz u trenutnim sistemima AI. Uprkos tome što su u stanju da sintetizuju impresivne odlomke iz milijardi tačaka podataka, kada im je zadatak praviti novitet – nešto što ranije nije video niti je trenirao – modeli u GPT stilu naišli su na svoj zid. generativna AI se bori da rukuje potpuno novim informacijama, posebno u scenarijima učenja u jednom trenutku.  Ovo daje sliku onoga što ja nazivam   : bez obzira koliko moćni, bez obzira koliko 'pametni' AI sistemi kao što je GPT izgledali, oni se raspadaju kada je potrebno da se brzo generalizuju iz samo jedne ili male šačice neviđeni primjeri. “Paradoks generalizacije u jednom trenutku”  Hajdemo malo da raspakujemo ovaj paradoks i zaronimo u   za to. Ali ne brinite, nećemo zadržati ovo čisto filozofsko – ući ćemo u tehničko blato i istražiti šta tačno sprečava naše AI sadašnje generacije da se poklope sa tom magičnom fleksibilnošću koju ljudi imaju kada se suoče sa nepoznatim. razloge  Magija i mehanizam generativnih modela… Dok se ne pokvare  Osnovni sjaj modela kao što je GPT-4 počiva na sofisticiranoj   , koja je poznata po tome što pokreće sve, od jezičkih modela do zadataka za vid. Sada, ne želim da vas zamaram žargonom na početku ovog dela (tek smo počeli), ali neke tehničke slojeve treba raspakovati da bi se shvatilo gde i zašto pukotine počinju da se pojavljuju. arhitekturi Transformera  Za početak, GPT pripada porodici   , obučenih da predvide sljedeću riječ ili token u bilo kojem dijelu teksta. Kako su postali tako dobri u ovome? U velikoj mjeri, to je zbog   ugrađenog u   , koji omogućava ovim modelima da probiju ogromne količine teksta i u suštini se "fokusiraju" na važne dijelove rečenice dok istovremeno gledaju riječi u cijelom nizu. Ovaj globalni mehanizam pažnje brzo je postao okosnica za hvatanje kontekstno osjetljivog značenja u velikim dijelovima teksta. modela zasnovanih na sekvenci mehanizma samopažnje Transformer  Ali ovdje je srž paradoksa: Generativna AI se   oslanja na ove podatke o obuci. Izuzetan je u prepoznavanju obrazaca i statističkih odnosa između tokena u podacima koje je ranije vidio, ali je također inherentno ovisan o tim podacima. Kada je model objavljen, GPT-4   nije naučio razmišljati ili razviti razumijevanje svijeta. Umjesto toga, koristi asocijacije koje je pokupio u milijardama primjera teksta koji se nalaze na internetu (u knjigama, Wikipediji, Reddit temama, akademskim radovima... samo tako). u velikoj mjeri zapravo  Dakle, dok se GPT može osjećati kao svevideće proročište, generirajući koherentne i ponekad pronicljive tekstove, ono što   radi je igra impresivne igre vjerovatnoćeg podudaranja obrazaca. Što znači? Kada se pojavi nešto novo (poput potpuno novog naučnog rada o kvantnoj mehanici ili nekog žargona specifičnog za industriju), teško se muči da se to smisli. zapravo  To... ne računa se.  Čekaj. Ali zašto se ne može generalizovati kao ljudi?  Evo gdje se ljudi značajno razlikuju od mašina. Zamislite da prvi put čitate o konceptu koji je potpuno izvan vaše stručnosti. Možda ste osnivač tehnoloških startupa koji se kreće svijetom mašinstva. Naravno, možda nećete povezati sve tačke pri prvom čitanju – ali nakon što pogledate nekoliko primjera ili dijagrama, neki intuitivni bljeskovi sijalice će se ugasiti.   A onda, eto, shvatite (ili barem većinu toga). Aha, ovo je kontrolni sistem! Ovo se povezuje sa tim!  Ova nijansa se zove   — sposobnost brzog otkrivanja obrazaca ili razumijevanja potpuno novih informacija na osnovu minimalnih primjera. I to je nešto u čemu su ljudi izuzetno dobri. Uzimamo mali dio znanja i intuitivno ga preslikavamo na šire teme, strukture ili analogije koje već poznajemo. Drugim riječima, ne treba nam milion primjera ili ogroman korpus podataka iz prošlosti da bismo imali epifaniju. jednokratna generalizacija  Za razliku od toga, generativni modeli uopće   svijeta. Oni nasumično prolaze kroz statistički prostor i predviđaju na osnovu toga koje riječi ili strukture će se najvjerovatnije pojaviti zajedno. Dakle, kada se od njih zamoli da se pozabave nečim potpuno novim – potpuno novim naučnim terminom, potpuno novom teorijom koja nikada nije objavljena na internetu – oni nalete na zid. Jednostavno rečeno,   , a nedostaju im istinski konceptualni okviri za skokove preko nepoznate teritorije. nemaju urođeno razumijevanje nisu se s njim susreli ranije  U redu, to je prilično apstraktno. Dozvolite mi da ovo dalje raščlanim.  Generativni AI modeli uče   između postojećih tačaka podataka. Što znači, oni postaju stručnjaci u   između tačaka koje su već vidjeli i obrazaca koji su im poznati, ali se bore s   , tj. iskakanjem i projekcijom na osnovu novog koncepta kada podaci o obuci nemaju presedan. Na primjer, GPT-4 može odlično da obrađuje "regularne" jezičke konstrukcije u svakodnevnom jeziku jer postoje milioni dostupnih primjera. Ali, ubacite zahtjev za novonastalim, hiperspecijaliziranim idejama – recimo, specifičnostima nedavnog napretka u   u fizici – i bum: apsolutna glupost. Zašto? GPT nema nikakvu statističku referentnu tačku za takve nišne, nove termine. U suštini ima obrazovana nagađanja da, iako uvjerljivo u tečnosti, žrtvuju   radi   . interpolacijom popunjavanju praznina ekstrapolacijom solitonskim fiber laserima pravu koherentnost sintaksičke ispravnosti  Tehnička srž problema  U redu, ako ste malo više tehnički nastrojeni, hajde da zaronimo dublje u zašto je ovo ograničenje tako tvrdoglavo i šta se dešava ispod haube tokom jednokratnih pokušaja učenja.  Jedno centralno pitanje sa jednokratnom generalizacijom odnosi se na informacije koje model interno predstavlja tokom   . Modeli u GPT stilu se prilično dobro ponašaju kada rade u granicama – fenomen koji se često opisuje kao   . U granicama tema koje je vidio dovoljno golemih primjera obuke, čak i GPT-4 može proizvesti jezivo pronicljive rezultate. To je zato što mu struktura modela omogućava da   – u obliku   – koje hvataju asocijacije između riječi i pojmova. obuke pod samonadzorom učenje u distribuciji kodira informacije putem gustih vektorskih reprezentacija kontekstualiziranih ugradnji  Ali evo gdje se stvari raspletaju. Kada model ima zadatak sa situacijom koja zahtijeva generalizaciju izvan distribucije, što znači da se susreće s konceptom za koji nikada ranije nije bio obučen, sistem ne zaključuje stvari na način na koji ljudi rade. Razmislite o tome ovako: ovi modeli su inherentno   , koje se oslanjaju na statističke "osjećaje". Oni nemaju ugrađenu sposobnost stvaranja ili razmišljanja "iznad podataka". mašine za uzorke  Na primjer, razmotrite kako GPT uči gramatička pravila. To je kao da neko sjedi da zapamti hiljade načina na koje se riječi koriste u engleskim rečenicama. Nakon dovoljno posmatranja, sistem gradi internu mapu koja zna: "Ah, nakon subjekta dolazi glagol, onda možda objekat, i ubaciti član ili prijedlog po potrebi." Ali kada se predstavi sa potpuno novim jezikom ili potpuno novim strukturama rečenica, ova sposobnost posustaje jer je ograničena na prepoznavanje samo   (ili implicitnih) odnosa koje je već vidio. latentnih  Ovo, nažalost, ima svoje granice. Prihvatite zadatak u kojem bi trebalo generirati koherentan tekst o neeksponiranoj temi, recimo revolucionarna otkrića u malo poznatoj temi fizike kao što je   . Modelu nedostaje   potrebna za reinterpretaciju starijeg znanja kako bi se zaključile nove mogućnosti. U našem ljudskom mozgu uvijek imamo više razine (koncepte, teorije, analogije!) koje nam daju fleksibilnost. GPT, međutim, ne radi! Proizvodi rezultate zasnovane na   , a ne na kreativnim skokovima. kvantno-gravitacijski dualitet kompozicija prediktivnoj vjerovatnoći  To je slično vožnji sa mapom koja je unapred programirana samo za rute iz prošlog veka: ne pomaže vam da se krećete u izgradnji ili kroz zavoje koji su se pojavili u poslednjih šest meseci.  Dobivanje tehničkih informacija - Zašto se ovo događa ispod haube  Jedna odskočna daska ka razumijevanju ograničenja je prepoznavanje uloge   . gustih naspram rijetkih reprezentacija  Šta mislim pod ovim?  Tradicionalni modeli transformatora rade sa   . Svaka leksema u rečenici je predstavljena visokodimenzionalnim vektorima, a   vektori obuhvataju široku lepezu odnosa između reči — sintaktičke strukture, semantička značenja, dinamiku položaja, itd. apstrakcija na način koji vodi do fleksibilne i prilagodljive generalizacije. gustim vektorskim ugrađivanjem ovi  Gusto ugrađivanje je ograničeno   tokom obuke modela. Ovaj kompromis je važan: optimizirajući za jednu stvar (opća statistička kompetencija), model žrtvuje nešto drugo (sposobnost zaključivanja u potpuno novim situacijama). Zamislite da stalno prilagođavate svoje mentalne modele kako bi   odgovarali svijetu koji ste već iskusili; kompromis je u tome što vas nepredvidivi scenariji potpuno izbace.   prirodno se bore s malim jednokratnim slučajevima jer su izvrsni u ponavljanju „prosječnog scenarija“ i smrzavaju se pred izuzecima od naučenih pravila. kompromisom pristrasnosti i varijance precizno Zamršeni, ali kruti statistički modeli  Potencijalno ključno rješenje ovdje su   — tehnike za stvaranje dimenzionalnosti koje   na različitim nivoima interpretacije. Rijetke mreže izražavaju i dohvaćaju informacije na fleksibilniji i generaliziraniji način, slično načinu na koji se ljudi fokusiraju na glavne, ključne karakteristike u predviđanju ishoda, a ne na opsjednutost manjim detaljima. oskudne reprezentacije rastavljaju različite karakteristike  Dakle, jedan problem sa jednokratnom generalizacijom je taj što moderne mrežne strukture ne naglašavaju takve zadatke rastavljanja – previše se oslanjaju na guste obrasce vođene podacima. Stoga, kada ih se od njih traži da generaliziraju potpuno nov i jedinstven materijal s minimalnim kontekstom, ne uspijevaju.  Šta bi ovo moglo riješiti?  Srećom, nismo u potpunosti bez ideja. Istraživači AI (uključujući i mene!) počeli su teoretizirati o nekoliko načina za poboljšanje sposobnosti AI jednokratne generalizacije. Neki od najintrigantnijih pristupa se vrte oko arhitekture   . Ove arhitekture se fundamentalno razlikuju od današnjih modela, omogućavajući mogućnosti učenja za učenje gdje sistem dinamički prilagođava svoje parametre kako bi brzo odgovarao novim tipovima podataka – mnogo više u skladu sa ljudskim ponašanjem. meta učenja  U   , na primjer, model se prilagođava da nauči nove zadatke uz minimalne primjere obuke.   rade slično   u više instanci, slično tome kako pamtimo važne lekcije iz prošlosti i ponovo ih intuitivno koristimo kada se susrećemo sa novijim, sličnim situacijama. model-agnostičkom meta-učenju (MAML) Neuralne mreže proširene memorijom (MANN) zadržavajući naučeni kontekst  Integracija   u modele dubokog učenja je još jedan obećavajući pristup. Modeli opremljeni simboličkim komponentama mogu 'rezonovati' putem logike, a ne samo oslanjati se na statističke preklapanja. Polja poput   nude hibride konekcionističkih modela i sistema zasnovanih na pravilima koji omogućavaju AI da oponaša razmišljanje višeg reda, posebno u scenarijima apstraktnog razmišljanja. sposobnosti simboličkog zaključivanja Neuro-Symbolic AI  Put naprijed?  Dakle, šta sve ovo znači za budućnost AI? Naravno, GPT-4 se osjeća kao magija kada nam pruža tečne interakcije sa korisničkom službom ili odgovara na tipična pitanja, ali moramo razviti modele koji nisu samo mehanizam za pamćenje. Idemo prema budućnosti u kojoj se   ,   i   spajaju kako bi stvorili prilagodljivije učenike. transferno učenje meta-učenje neuro-simboličke arhitekture  Paradoks generalizacije jednog udarca nije apokaliptični ćorsokak za AI. To je prepreka koja nas tjera da preispitamo same ključne pretpostavke o inteligenciji i fleksibilnosti. Kako sami podaci to neće popraviti — modelima će biti potrebna sposobnost   ,   i   , a ne samo memorisanja. učenja iz apstrakcija kreiranja analogija pamćenja osnovnih karakteristika  Naši budući modeli će morati da budu više ljudi nego mašina kada je u pitanju sinteza znanja. I kao istraživači, programeri i inovatori na vrhuncu, još smo u ranim fazama definisanja šta znači da AI uči – sam po sebi – u zaista fleksibilnom, novom svetu.  Ovo nije samo tehnički izazov. To je filozofski.

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Read My Stories

Software Engineer

Ovaj audio je proizveden na originalnom jeziku priče!

Paradoks generalizacije u jednom slučaju: Zašto se generativna AI bori s novim informacijama

About Author

KOMENTARI

HANG TAGS

OVAJ ČLANAK JE PREDSTAVLJEN U

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps