Autori:
(1) Pham Hoang Van, Departamentul de Economie, Universitatea Baylor Waco, TX, SUA (Van Pham@baylor.edu);
(2) Scott Cunningham, Departamentul de Economie, Universitatea Baylor Waco, TX, SUA (Scott Cunningham@baylor.edu).
2 Predicție directă vs narativă
3 Metodologia de asistență și colectarea datelor
4 Rezultate
4.1 Stabilirea limitei datelor de antrenament cu falsificări
4.2 Rezultatele previziunilor Premiilor Oscar 2022
5 Predicția variabilelor macroeconomice
5.1 Prezicerea inflației cu un profesor de economie
5.2 Prezicerea inflației cu un Jerome Powell, președinte Fed
5.3 Prezicerea inflației cu Jerome Powell și stimularea cu invazia Rusiei în Ucraina
5.4 Prezicerea șomajului cu un profesor de economie
6 Conjectura despre abilitățile predictive ale ChatGPT-4 în formă narativă
Apendice
A. Distribuția câștigătorilor premiilor Academiei prezise
B. Distribuția variabilelor macroeconomice prezise
Acest studiu investighează dacă ChatGPT-3.5 și ChatGPT-4 de la OpenAI pot prognoza cu exactitate evenimentele viitoare utilizând două strategii distincte de solicitare. Pentru a evalua acuratețea predicțiilor, profităm de faptul că datele de antrenament la momentul experimentului s-au oprit în septembrie 2021 și întrebăm despre evenimentele care au avut loc în 2022 folosind ChatGPT-3.5 și ChatGPT-4. Am folosit două strategii de stimulare: predicția directă și ceea ce numim narațiuni viitoare care îi cer lui ChatGPT să spună povești fictive care se desfășoară în viitor cu personaje care împărtășesc evenimente care li s-au întâmplat, dar după ce au fost colectate datele de antrenament ChatGPT. Concentrându-ne pe evenimentele din 2022, am determinat ChatGPT să se angajeze în povestiri, în special în contexte economice. După ce am analizat 100 de solicitări, am descoperit că viitoarele solicitări narative au îmbunătățit semnificativ acuratețea prognozelor ChatGPT-4. Acest lucru a fost evident mai ales în predicțiile sale privind câștigătorii majori ai Premiilor Academiei, precum și în tendințele economice, acestea din urmă deduse din scenarii în care modelul a impersonat personalități publice precum Președintele Rezervei Federale, Jerome Powell. Aceste constatări indică faptul că indicațiile narative valorifică capacitatea modelelor de construcție narativă halucinantă, facilitând sinteza și extrapolarea datelor mai eficiente decât predicțiile simple. Cercetarea noastră dezvăluie noi aspecte ale capacităților predictive ale LLM-urilor și sugerează potențiale aplicații viitoare în contexte analitice.
Progresele tehnologice rapide în inteligența artificială au depășit înțelegerea noastră a cazurilor de utilizare a acesteia. Modelele de limbaj mari (LLM), cum ar fi GPT-4 de la OpenAI, pot imita vorbirea umană inteligentă și pot îndeplini sarcini costisitoare din punct de vedere cognitiv, care modifică produsele marginale ale lucrătorilor, dar nu este clar atingerea acestor sarcini. În principiu, având în vedere că aceste modele sunt mașini predictive, ele pot oferi oamenilor un nou dispozitiv de prognoză (Agrawal et al., 2018). Dar cât de precise sunt acestea nu se știe în parte, deoarece aceste noi tehnologii par să fie prost înțelese chiar și de creatorii săi.
Coloana vertebrală a prim-planului actual al LLM-urilor este o arhitectură numită transformatoare generative pre-antrenate sau GPT. Această arhitectură a revoluționat procesarea limbajului natural (NLP) prin captarea relațiilor complicate de text prin mecanisme de auto-atenție (Vaswani et al., 2017). Introducerea de către OpenAI a GPT-3.5 în noiembrie 2022 și succesorul său, GPT-4, în martie 2023 au marcat etape semnificative în evoluția GPT. Cu vastele lor rețele neuronale pregătite în prealabil pe corpuri textuale diverse, aceste modele posedă o capacitate de neegalat de a înțelege și genera limbaj, deși aplicarea lor în prognoză, în special în evenimentele viitoare, rămâne subexplorată din cauza limitărilor inerente ale datelor lor de antrenament.
Unul dintre lucrurile care face ca LLM-urile să fie unice este că o mare parte a intrărilor se află în seturile de date de antrenament anterioare ale modelelor. Aceste seturi de date de instruire conțin miliarde de texte necunoscute despre care se crede că cuprind o cantitate extinsă de material disponibil online (Hughes, 2023). OpenAI ascunde exact pe ce seturi de date a fost instruit (Schaul et al., 2023), dar având în vedere dimensiunile pretinse ale modelelor, precum și capacitatea sa de succes de a obține vorbire conversațională, se crede că seturile de date de antrenament includ o gamă largă de material online.
Acest studiu se poziționează în mod unic la intersecția capacităților generative ale LLM și potențialul lor de analiză predictivă. Utilizând GPT-3.5 și GPT-4, verificăm dacă diferite strategii de solicitare pot forța ChatGPT să prezică mai precis evenimentele viitoare. Pentru a testa succesul nostru de prognoză, am profitat de granița naturală stabilită de OpenAI. La momentul experimentului nostru de la jumătatea anului 2023, ultima actualizare de instruire a OpenAI a fost septembrie 2021 (OpenAI, 2024a).[1] Având în vedere că datele de instruire ale ChatGPT la acea vreme nu conțineau informații despre evenimentele din 2022, am putut explora dacă ar putea exploata modelele din datele sale de formare, care s-au oprit în septembrie 2021, pentru a prognoza cu exactitate evenimente cu valoare socială și economică, cum ar fi câștigătorii Premiilor Academiei 2022, ratele lunare ale șomajului și ratele lunare ale șomajului în septembrie.
Una dintre caracteristicile LLM-urilor, totuși, este că sunt extrem de creative. Această creativitate este atât o caracteristică, cât și un bug. Se pare că creativitatea sa face parte din ceea ce îl face să reușească să mimeze vorbirea umană inteligentă. Dar se pare, de asemenea, că această creativitate este ceea ce o face să halucineze în mod regulat - un termen care descrie tendința sa de a afirma cu tărie evenimente false sau fapte incorecte (Levy, 2024). Creativitatea și tendința sa de a halucinați pot fi o barieră în calea predicției dacă sunt denaturate sistematic într-un fel mai rău decât tehnologiile noastre actuale. Deși predicția totală nu încalcă în mod direct termenii și condițiile OpenAI, credem că cel mai probabil este cazul, bazat pe experimentul nostru, că OpenAI a încercat să o facă foarte dificilă. Acest lucru se poate datora faptului că trei dintre încălcările sale ale termenilor și condițiilor ar părea a fi încălcate direct dacă oamenii ar folosi ChatGPT în mod intensiv în scopuri predictive. Aceste trei încălcări se încadrează sub regula OpenAI, conform căreia software-ul nu poate fi folosit pentru a „efectua sau facilita activități care pot afecta în mod semnificativ siguranța, bunăstarea sau drepturile altora” (OpenAI, 2024b), care enumeră apoi trei cazuri relevante pentru predicție.
o. Furnizarea de consiliere juridică, medicală/de sănătate sau financiară personalizată fără revizuire de către un profesionist calificat și dezvăluirea utilizării asistenței AI și a potențialelor limitări ale acesteia
b. Luarea de decizii automate cu mize mari în domenii care afectează siguranța, drepturile sau bunăstarea unei persoane (de exemplu, aplicarea legii, migrația, gestionarea infrastructurii critice, componentele de siguranță ale produselor, servicii esențiale, credit, angajare, locuințe, educație, punctaj social sau asigurări)
c. Facilitarea jocurilor de noroc cu bani reali sau a împrumuturilor în ziua de plată
Dacă s-ar descoperi că ChatGPT are o capacitate superioară de prognoză, atunci s-ar putea imagina cu ușurință că ar fi utilizat imediat în moduri care au încălcat una sau toate condițiile de mai sus și, prin urmare, bănuim că OpenAI a redus disponibilitatea ChatGPT de a se angaja în multe tipuri de sarcini de predicție.
Dar un lucru care nu încalcă termenii săi de serviciu este povestirea. Deși poate încălca termenii și condițiile OpenAI, de exemplu, să caute „sfaturi medicale personalizate”, și, prin urmare, ChatGPT poate refuza să o facă, asta nu îl poate împiedica să creeze o operă de ficțiune în care astfel de predicții au fost efectuate în contextul narațiunii în sine. Proiectul nostru testează dacă solicitarea ChatGPT pentru a spune povești poate, de fapt, să-i deblocheze capacitatea de a efectua prognoze precise. Folosind limitele datelor de antrenament ale modelelor și știind ce s-a întâmplat și ce nu s-a întâmplat ulterior („adevărul de bază”), putem compara performanța solicitărilor care solicită direct ChatGPT să prezică viitorul față de cele care îi cer să spună povești despre viitor.
Solicitările noastre narative sunt unice prin faptul că îi cerem lui ChatGPT să spună o poveste despre evenimentele care se desfășoară în viitor, pe măsură ce acestea au loc sau de către figuri cu autoritate plasate în viitor, spunând povești despre trecutul lor (dar despre viitorul nostru). Indemnizațiile noastre narative au experimentat variații în detalii aparent mici, cum ar fi identitatea vorbitorului sau eliberarea de informații despre evenimentele politice din 2022, pentru a investiga în continuare ce elemente ale indicațiilor narative au contat. Pentru a crea o distribuție a răspunsurilor, doi asistenți de cercetare folosesc două conturi ChatGPT separate pentru a interoga de 50 de ori per prompt, creând un total de 100 de încercări per prompt. Prezentăm constatările noastre sub formă de diagrame cu case care arată distribuția completă a răspunsurilor la fiecare prompt.
Descoperirile noastre sugerează că aceste mașini de predicție devin neobișnuit de precise sub ChatGPT-4 atunci când sunt solicitate să spună povești stabilite în viitor despre trecut. Mai întâi arătăm acuratețea promptării directe și narative folosind ChatGPT-3.5 și ChatGPT4 pentru a prezice câștigătorii categoriilor majore ale Premiilor Academiei 2022. Pentru cel mai bun actor, cea mai bună actriță și ambele categorii de actori în rol secundar, sugestiile narative au fost extrem de precise în a prezice câștigătorul. Solicitarea directă efectuată prin comparație foarte slab, de multe ori mai rău decât presupunerile aleatorii. Dar sugestiile narative cu ChatGPT-4 arată o acuratețe variind de la 42% (Cea mai bună actriță, Chastain) la 100% (Cel mai bun actor, Will Smith), cu o singură excepție. Nu a reușit să prezică cu exactitate câștigătorul pentru cel mai bun film.
Apoi am trecut la fenomenele economice ale ratelor lunare ale șomajului și ale ratelor lunare ale inflației utilizând trei tipuri separate de indicații narative: un profesor de facultate ținând o prelegere studenților de licență despre Curba Philips și președintele Rezervei Federale, Jerome Powell, ținând un discurs în fața Consiliului guvernatorilor despre datele economice de anul trecut. În cazul lui Jerome Powell, am variat un detaliu suplimentar: într-un singur mesaj am spus mai întâi ChatGPT despre invazia Rusiei din 2022 a Ucrainei, înainte de a-i cere apoi ca Jerome Powell să-și țină discursul în fața Consiliului guvernatorilor, relatând macro-datele de anul trecut. Și în cealaltă, am omis acea informație. În toate cazurile, indicarea directă a fost chiar mai puțin eficientă la predicție decât a fost cu Premiile Academiei, deoarece ChatGPT a refuzat să răspundă cu totul la solicitare atunci când i s-a cerut să prezică direct seria temporală viitoare a fiecărei variabile macroeconomice.
Economistul anonim a reușit rareori să prezică inflația folosind fie LLM.
Dar când i s-a cerut să spună o poveste în care Jerome Powell povestește despre datele viitoare ale șomajului și inflației pentru un an, ca și cum ar fi vorbit despre evenimentele din trecut, lucrurile se schimbă substanțial. Distribuția predicțiilor lui Powell lună cu lună privind inflația este în medie comparabilă cu faptele conținute în sondajul lunar al așteptărilor consumatorilor de la Universitatea din Michigan. Interesant este că este mai aproape de a prezice cu exactitate sondajul privind așteptările consumatorilor UM decât de a prezice inflația reală pe baza datelor culese de Cleveland Fed. În mod ciudat, atunci când a fost solicitat cu informații despre invazia Rusiei în Ucraina, predicțiile lui Powell au fost sistematic mai mici și mai puțin precise decât atunci când aceste informații nu au fost folosite pentru a activa ChatGPT.
Acuratețea economistului anonim în a prezice șomajul lunar a fost atât precisă, cât și de cele mai multe ori inexacte. Dar, ca și în cazul inflației, ratele șomajului publicate de Biroul de Statistică a Muncii (BLS), lună de lună, s-au încadrat în distribuția afirmațiilor făcute de Jerome Powell în discursul său. Iar includerea datelor ucrainene a făcut ca modelul să se înrăutățească în ceea ce privește prezicerea șomajului, așa cum a fost cazul inflației.
O serie de studii recente investighează utilizările AI generative în economie și aplicații de afaceri. Exemplele includ utilizarea ChatGPT ca agenți economici în experimente de laborator (Horton, 2023), sondajul ChatGPT pentru cercetări de marketing (Brand et al., 2023), solicitarea lui ChatGPT să facă evaluări ale riscurilor din transcrierea apelurilor de câștig (Kim și colab., 2023) și aplicarea LLM-urilor pentru a prezice mișcările prețului acțiunilor (Lopez-Li 3 și Tang). Descoperirile noastre se adaugă la această explorare în curs de dezvoltare subliniind importanța designului prompt în valorificarea LLM-urilor pentru sarcini predictive, sugerând că capacitatea modelelor de construcție narativă „halucinantă” poate fi utilizată strategic pentru a extrage perspective prospective din datele lor de instruire. Dar, de asemenea, sugerează că sub produsul de consum orientat spre exterior al OpenAI, ChatGPT-4, se află o mașină de predicție foarte puternică. Această revelație deschide noi căi pentru aplicarea LLM-urilor în prognoza economică, planificarea politicilor și nu numai, provocându-ne să regândim modul în care interacționăm și exploatăm capacitățile acestor modele sofisticate.
Următoarea secțiune prezintă un exemplu de stimulare directă versus narativă. Aceasta este urmată de o descriere detaliată a metodologiei noastre și a colectării datelor. Prezentăm rezultatele experimentelor care prevăd câștigătorii premiilor Oscar și inflația și șomajul, urmate de conjectura noastră despre abilitățile predictive ale ChatGPT-4 în formă narativă. Rezum constatările noastre și sugerăm căi pentru cercetări viitoare în concluzie.
Această lucrare este disponibilă pe arxiv sub licență CC BY 4.0 DEED.
[1] Putem arăta că colectarea noastră de date a avut loc la mijlocul anului 2023 cu marcaje de timp în foile de calcul Excel utilizate de asistenții noștri de cercetare.