paint-brush
Může ChatGPT předpovídat budoucnost?podle@precedent
Nová historie

Může ChatGPT předpovídat budoucnost?

podle Precedent Publishing House8m2025/03/18
Read on Terminal Reader

Příliš dlouho; Číst

Tato studie testuje schopnost ChatGPT-3.5 a ChatGPT-4 předpovídat porovnáním přímých předpovědí s výzvami založenými na vyprávění. Výsledky ukazují, že ChatGPT-4 je výrazně přesnější, když je požádán o vytváření budoucích příběhů, zejména při předpovídání ekonomických trendů a kulturních událostí. To naznačuje, že reakce AI založené na vyprávění mohou odemknout latentní prediktivní schopnosti v rámci LLM.
featured image - Může ChatGPT předpovídat budoucnost?
Precedent Publishing House HackerNoon profile picture
0-item

autoři:

(1) Pham Hoang Van, Katedra ekonomie, Baylor University Waco, TX, USA (Van Pham@baylor.edu);

(2) Scott Cunningham, Katedra ekonomie, Baylor University Waco, TX, USA (Scott Cunningham@baylor.edu).

Tabulka odkazů

Abstrakt a 1 Úvod

2 Přímá vs narativní předpověď

3 Metodika výzvy a sběr dat

4 Výsledky

4.1 Stanovení limitu tréninkových dat s padělky

4.2 Výsledky předpovědí cen Akademie 2022

5 Predikce makroekonomických proměnných

5.1 Předvídání inflace s profesorem ekonomie

5.2 Předpovídání inflace s Jeromem Powellem, předsedou Fedu

5.3 Předvídání inflace s Jeromem Powellem a podněcování ruské invaze na Ukrajinu

5.4 Predikce nezaměstnanosti u profesora ekonomie

6 Dohad o prediktivních schopnostech ChatGPT-4 v narativní formě

7 Závěr a poděkování


Dodatek

A. Distribuce předpokládaných vítězů Oscara

B. Distribuce predikovaných makroekonomických proměnných


Reference

Abstraktní

Tato studie zkoumá, zda ChatGPT-3.5 a ChatGPT-4 od OpenAI dokážou přesně předpovídat budoucí události pomocí dvou odlišných strategií pobízení. K vyhodnocení přesnosti předpovědí využíváme toho, že trénovací data v době experimentu skončila v září 2021, a ptáme se na události, které se staly v roce 2022 pomocí ChatGPT-3.5 a ChatGPT-4. Použili jsme dvě pobídkové strategie: přímou předpověď a to, čemu říkáme budoucí vyprávění, které žádá ChatGPT, aby vyprávěl fiktivní příběhy odehrávající se v budoucnosti s postavami, které sdílejí události, které se jim staly, ale poté, co byly shromážděny tréninkové údaje ChatGPT. Se zaměřením na události v roce 2022 jsme vyzvali ChatGPT, aby se zapojil do vyprávění příběhů, zejména v ekonomických kontextech. Po analýze 100 výzev jsme zjistili, že budoucí narativní výzvy výrazně zlepšily přesnost předpovědí ChatGPT-4. To bylo zvláště patrné v jeho předpovědích hlavních vítězů Oscara a také ekonomických trendů, které byly odvozeny ze scénářů, kde se model vydával za veřejné osobnosti, jako je předseda Federálního rezervního systému Jerome Powell. Tato zjištění naznačují, že narativní podněty využívají kapacitu modelů pro halucinační narativní konstrukci, což umožňuje efektivnější syntézu a extrapolaci dat než přímé předpovědi. Náš výzkum odhaluje nové aspekty prediktivních schopností LLM a navrhuje potenciální budoucí aplikace v analytických kontextech.

1 Úvod

Rychlý technologický pokrok v umělé inteligenci přesáhl naše chápání případů jejího použití. Velké jazykové modely (LLM), jako je OpenAI GPT-4, mohou napodobovat inteligentní lidskou řeč a také provádět kognitivně nákladné úkoly, které mění okrajové produkty pracovníků, ale není jasný dosah těchto úkolů. Vzhledem k tomu, že tyto modely jsou v zásadě prediktivními stroji, mohou lidem poskytnout nové předpovědní zařízení (Agrawal et al., 2018). Ale jak přesné jsou, není zčásti známo, protože se zdá, že těmto novým technologiím nerozumí ani jejich tvůrci.


Páteří současného popředí LLM je architektura nazývaná generativní předtrénované transformátory nebo GPT. Tato architektura způsobila revoluci ve zpracování přirozeného jazyka (NLP) tím, že zachytila složité textové vztahy prostřednictvím mechanismů sebepozornosti (Vaswani et al., 2017). Představení GPT-3.5 OpenAI v listopadu 2022 a jeho nástupce GPT-4 v březnu 2023 znamenaly významné milníky ve vývoji GPT. Díky svým rozsáhlým neuronovým sítím předem trénovaným na různé textové korpusy mají tyto modely jedinečnou schopnost porozumět a generovat jazyk, ačkoli jejich aplikace v předpovídání, zejména budoucích událostí, zůstává nedostatečně prozkoumána kvůli inherentním omezením jejich trénovacích dat.


Jednou z věcí, díky kterým jsou LLM jedinečné, je to, že velké množství vstupů je v předchozích trénovacích datových sadách modelů. Tyto tréninkové datové sady obsahují miliardy neznámých textů, o kterých se předpokládá, že zahrnují rozsáhlé množství materiálu dostupného online (Hughes, 2023). OpenAI přesně skrývá, na kterých datových sadách byla trénována (Schaul et al., 2023), ale vzhledem k údajným velikostem modelů a její úspěšné schopnosti dosáhnout konverzační řeči se má za to, že trénovací datové sady obsahují velké množství online materiálu.


Tato studie se jedinečně staví na průsečík generativních schopností LLM a jejich potenciálu pro prediktivní analýzu. Využitím GPT-3.5 a GPT-4 zkoumáme, zda různé strategie pobízení mohou donutit ChatGPT k přesnějšímu předpovídání budoucích událostí. Abychom otestovali naši úspěšnost předpovědí, využili jsme přirozené hranice stanovené OpenAI. V době našeho experimentu v polovině roku 2023 byla poslední aktualizace školení OpenAI v září 2021 (OpenAI, 2024a).[1] Vzhledem k tomu, že tréninková data ChatGPT v té době neobsahovala informace o událostech z roku 2022, byli jsme schopni prozkoumat, zda by mohla využít vzorce ve svých tréninkových datech, která skončila v září 2021, k přesnému předpovídání událostí se sociální a ekonomickou hodnotou, jako jsou vítězové Akademie 2022, měsíční míra nezaměstnanosti a měsíční míra inflace do září 2022.


Jedním z charakteristických znaků LLM však je, že jsou vysoce kreativní. Tato kreativita je funkcí i chybou. Zdá se, že jeho kreativita je součástí toho, co ho činí úspěšným v napodobování inteligentní lidské řeči. Ale také se zdá, že tato kreativita způsobuje, že má pravidelně halucinace – termín, který popisuje její tendenci silně prosazovat falešné události nebo nesprávná fakta (Levy, 2024). Jeho kreativita a sklon k halucinacím mohou být překážkou předpovědi, pokud je systematicky zkreslená nějakým způsobem, který je horší než naše současné technologie. I když přímá predikce přímo neporušuje podmínky služby OpenAI, myslíme si, že na základě našeho experimentu je s největší pravděpodobností případ, kdy se OpenAI pokusila velmi ztížit. To může být způsobeno tím, že tři z jejích porušení podmínek služby by se zdála být přímo porušena, pokud by lidé intenzivně používali ChatGPT pro prediktivní účely. Tato tři porušení spadají pod pravidlo OpenAI, že software nesmí být používán k „provádění nebo usnadnění činností, které mohou významně narušit bezpečnost, pohodu nebo práva ostatních“ (OpenAI, 2024b), které pak uvádí tři případy relevantní pro předpověď.


A. Poskytování právního, lékařského/zdravotního nebo finančního poradenství na míru bez kontroly kvalifikovaným odborníkem a zveřejnění použití pomoci umělé inteligence a jejích potenciálních omezení


b. Provádění vysoce důležitých automatizovaných rozhodnutí v oblastech, které ovlivňují bezpečnost, práva nebo pohodu jednotlivce (např. vymáhání práva, migrace, správa kritické infrastruktury, bezpečnostní komponenty produktů, základní služby, úvěry, zaměstnání, bydlení, vzdělávání, sociální bodování nebo pojištění)


C. Usnadnění hazardních her se skutečnými penězi nebo půjček před výplatou


Pokud by se zjistilo, že ChatGPT má vynikající předpovědní schopnosti, lze si snadno představit, že by byl okamžitě použit způsobem, který porušil jednu nebo všechny výše uvedené podmínky, a proto máme podezření, že OpenAI omezila ochotu ChatGPT zapojit se do mnoha typů přímých predikčních úkolů.


Ale jedna věc, která neporušuje její podmínky služby, je vyprávění příběhů. I když to může porušovat podmínky služby OpenAI, například vyhledat „lékařskou radu na míru“, a ChatGPT to tedy může odmítnout, nemusí to zabránit tomu, aby vytvořil fikci, ve které byly takové předpovědi provedeny v kontextu samotného vyprávění. Náš projekt testuje, zda žádost ChatGPT o vyprávění může ve skutečnosti odemknout jeho schopnost provádět přesné předpovědi. Použitím limitu trénovacích dat modelů a znalostí toho, co se stalo a co se nestalo poté (“základní pravda”), jsme schopni porovnat výkon výzev, které přímo žádají ChatGPT, aby předpověděl budoucnost, s těmi, které jej žádají, aby vyprávěl příběhy o budoucnosti.


Naše narativní výzvy jsou jedinečné v tom, že žádáme ChatGPT, aby vyprávěl příběh o událostech odehrávajících se v budoucnosti tak, jak k nim dojde, nebo o autoritativních postavách odehrávajících se v budoucnosti, které vyprávějí příběhy o své minulosti (ale naší budoucnosti). Naše narativní podněty experimentovaly s variacemi ve zdánlivě malých detailech, jako je identita mluvčího nebo zveřejnění informací o politických událostech roku 2022, abychom dále prozkoumali, na kterých prvcích narativních podnětů záleželo. Abychom vytvořili distribuci odpovědí, měli jsme dva výzkumné asistenty, kteří používali dva samostatné účty ChatGPT k dotazování 50krát na výzvu, čímž vytvořili celkem 100 pokusů na výzvu. Naše zjištění prezentujeme jako krabicové grafy ukazující úplné rozdělení odpovědí na každou výzvu.


Naše zjištění naznačují, že tyto predikční stroje se pod ChatGPT-4 stávají neobvykle přesnými, když jsou vyzvány, aby vyprávěly příběhy odehrávající se v budoucnosti o minulosti. Nejprve ukážeme přesnost přímého a narativního nabádání pomocí ChatGPT-3.5 a ChatGPT4, abychom předpověděli vítěze hlavních kategorií udílení cen Akademie 2022. Pro nejlepšího herce, nejlepší herečku a obě kategorie vedlejšího herce bylo narativní nabádání extrémně přesné při předpovídání vítěze. Přímé nabádání se provádí srovnáním velmi špatně, často hůře než náhodné odhady. Ale vyprávění pomocí ChatGPT-4 ukazuje přesnost v rozmezí od 42 % (nejlepší herečka, Chastain) do 100 % (nejlepší herec, Will Smith) s jednou výjimkou. Nepodařilo se přesně předpovědět vítěze nejlepšího snímku.


Dále jsme se přesunuli k ekonomickým fenoménům měsíční míry nezaměstnanosti a měsíční míry inflace pomocí tří samostatných druhů narativních pobídek: vysokoškolský profesor přednášející vysokoškolským studentům o Philips Curve a předseda Federálního rezervního systému Jerome Powell přednášel Radě guvernérů o ekonomických datech za loňský rok. V případě Jeromea Powella jsme změnili další detail: v jedné výzvě jsme nejprve řekli ChatGPT o ruské invazi na Ukrajinu v roce 2022, než jsme ji požádali, aby Jerome Powell přednesl svůj projev k Radě guvernérů, ve kterém vylíčil loňská makrodata. A ve druhém jsme tuto informaci vynechali. Ve všech případech bylo přímé nabádání při předpovídání ještě méně účinné, než tomu bylo u cen Akademie, protože ChatGPT odmítl na výzvu úplně odpovědět, když byl požádán o přímou předpověď budoucí časové řady každé makroekonomické proměnné.


Anonymní ekonom byl jen zřídka úspěšný při předpovídání inflace pomocí obou LLM.


Ale když je požádán, aby vyprávěl příběh, ve kterém Jerome Powell líčí roční údaje o nezaměstnanosti a inflaci, jako by mluvil o událostech z minulosti, věci se podstatně změní. Rozložení Powellových měsíčních předpovědí inflace je v průměru srovnatelné s fakty obsaženými v měsíčním průzkumu spotřebitelských očekávání University of Michigan. Je zajímavé, že je blíže k přesnému předpovídání průzkumu spotřebitelských očekávání UM než k předpovídání skutečné inflace na základě údajů shromážděných Clevelandským Fedem. Powellovy předpovědi byly kupodivu na výzvu s informacemi o ruské invazi na Ukrajinu systematicky nižší a méně přesné, než když tyto informace nebyly použity k aktivaci ChatGPT.


Přesnost anonymního ekonoma při předpovědi měsíční nezaměstnanosti byla jak přesná, tak většinou nepřesná. Ale stejně jako u inflace byla míra nezaměstnanosti zveřejněná Úřadem pro statistiku práce (BLS) měsíc po měsíci v rámci distribuce tvrzení, která ve svém projevu učinil Jerome Powell. A zahrnutí údajů o Ukrajině způsobilo, že se model zhoršil v predikci nezaměstnanosti, jako tomu bylo v případě inflace.


Řada nedávných studií zkoumá využití generativní umělé inteligence v ekonomických a obchodních aplikacích. Příklady zahrnují použití ChatGPT jako ekonomických agentů v laboratorních experimentech (Horton, 2023), průzkum ChatGPT pro marketingový výzkum (Brand et al., 2023), požádání ChatGPT, aby provedl hodnocení rizik z přepisů výdělků (Kim et al., 2023) a použití LLM k předpovídání pohybů cen akcií a T2200-Lira. Naše zjištění přispívají k tomuto rodícímu se zkoumání tím, že zdůrazňují důležitost rychlého návrhu při využívání LLM pro prediktivní úkoly, což naznačuje, že schopnost modelů pro „halucinační“ narativní konstrukci lze strategicky využít k získání výhledových poznatků z jejich tréninkových dat. Ale také to naznačuje, že pod vnějším spotřebitelským produktem OpenAI, ChatGPT-4, je velmi výkonný predikční stroj. Toto odhalení otevírá nové cesty pro aplikaci LLM v ekonomických prognózách, plánování politik a mimo ně a vyzývá nás, abychom přehodnotili, jak interagujeme s těmito sofistikovanými modely a jak je využíváme.

Další část představuje příklad přímého versus narativního nabádání. Následuje podrobný popis naší metodiky a sběru dat. Představujeme výsledky experimentů předpovídajících vítěze Oscarů a inflaci a nezaměstnanost, po nichž následuje naše domněnka o prediktivních schopnostech ChatGPT-4 ve formě vyprávění. V závěru shrnujeme naše zjištění a navrhujeme cesty pro budoucí výzkum.


Tento dokument je dostupný na arxiv pod licencí CC BY 4.0 DEED.


[1] Můžeme ukázat, že ke sběru dat došlo v polovině roku 2023 pomocí časových razítek v tabulkách Excelu, které používají naši výzkumní asistenti.

L O A D I N G
. . . comments & more!

About Author

Precedent Publishing House HackerNoon profile picture
Precedent Publishing House@precedent
Precedent publishes about the technology breakthroughes that'll rule tmw's mundane.

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V...