Autorski:
(1) Pham Hoang Van, Wydział Ekonomii, Uniwersytet Baylora w Waco, Teksas, USA (Van Pham@baylor.edu);
(2) Scott Cunningham, Wydział Ekonomii, Baylor University Waco, Teksas, USA (Scott Cunningham@baylor.edu).
2 Przewidywanie bezpośrednie i narracyjne
3. Podpowiadanie metodologii i zbieranie danych
4 wyniki
4.1 Ustalanie limitu danych treningowych z falsyfikacjami
4.2 Wyniki prognoz Oscarów 2022
5 Prognozowanie zmiennych makroekonomicznych
5.1 Prognozowanie inflacji z profesorem ekonomii
5.2 Prognozowanie inflacji z Jerome Powellem, przewodniczącym Rezerwy Federalnej
5.3 Prognozowanie inflacji z Jerome Powellem i podpowiedź w związku z inwazją Rosji na Ukrainę
5.4 Prognozowanie bezrobocia z profesorem ekonomii
6 Przypuszczenie na temat zdolności predykcyjnych ChatGPT-4 w formie narracyjnej
Załącznik
A. Dystrybucja przewidywanych zwycięzców Oscarów
B. Dystrybucja przewidywanych zmiennych makroekonomicznych
W tym badaniu sprawdzamy, czy ChatGPT-3.5 i ChatGPT-4 firmy OpenAI mogą dokładnie prognozować przyszłe zdarzenia przy użyciu dwóch odrębnych strategii podpowiedzi. Aby ocenić dokładność przewidywań, wykorzystujemy fakt, że dane treningowe w momencie eksperymentu zatrzymały się we wrześniu 2021 r. i pytamy o zdarzenia, które miały miejsce w 2022 r. przy użyciu ChatGPT-3.5 i ChatGPT-4. Zastosowaliśmy dwie strategie podpowiedzi: bezpośrednią prognozę i to, co nazywamy narracjami przyszłości, które wymagają od ChatGPT opowiadania fikcyjnych historii osadzonych w przyszłości z postaciami, które dzielą się zdarzeniami, które im się przytrafiły, ale po zebraniu danych treningowych ChatGPT. Skupiając się na zdarzeniach w 2022 r., zachęciliśmy ChatGPT do zaangażowania się w opowiadanie historii, szczególnie w kontekstach ekonomicznych. Po przeanalizowaniu 100 podpowiedzi odkryliśmy, że przyszłe podpowiedzi narracji znacznie zwiększyły dokładność prognozowania ChatGPT-4. Było to szczególnie widoczne w przewidywaniach głównych laureatów Oscarów, a także trendów ekonomicznych, te ostatnie wywnioskowano ze scenariuszy, w których model udawał osoby publiczne, takie jak przewodniczący Rezerwy Federalnej, Jerome Powell. Odkrycia te wskazują, że podpowiedzi narracyjne wykorzystują zdolność modeli do halucynacyjnej konstrukcji narracji, ułatwiając skuteczniejszą syntezę danych i ekstrapolację niż proste przewidywania. Nasze badania ujawniają nowe aspekty predykcyjnych możliwości LLM i sugerują potencjalne przyszłe zastosowania w kontekstach analitycznych.
Szybki postęp technologiczny w dziedzinie sztucznej inteligencji przekroczył nasze zrozumienie przypadków jej użycia. Duże modele językowe (LLM), takie jak GPT-4 firmy OpenAI, mogą naśladować inteligentną mowę ludzką, a także wykonywać zadania wymagające dużych nakładów poznawczych, które zmieniają marginalne produkty pracowników, ale nie jest jasne, jaki jest zasięg tych zadań. Zasadniczo, biorąc pod uwagę, że te modele są maszynami predykcyjnymi, mogą one zapewnić ludziom nowe urządzenie prognostyczne (Agrawal i in., 2018). Jednak nie wiadomo, jak dokładne są, częściowo dlatego, że te nowe technologie wydają się słabo rozumiane nawet przez ich twórców.
Podstawą obecnego frontu LLM jest architektura zwana generatywnymi wstępnie wytrenowanymi transformatorami, czyli GPT. Ta architektura zrewolucjonizowała przetwarzanie języka naturalnego (NLP) poprzez przechwytywanie skomplikowanych relacji tekstowych za pomocą mechanizmów samouwagi (Vaswani i in., 2017). Wprowadzenie przez OpenAI GPT-3.5 w listopadzie 2022 r. i jego następcy, GPT-4, w marcu 2023 r., stanowiło znaczące kamienie milowe w ewolucji GPT. Dzięki swoim rozległym sieciom neuronowym wstępnie wytrenowanym na różnych korpusach tekstowych, modele te posiadają niezrównaną zdolność rozumienia i generowania języka, chociaż ich zastosowanie w prognozowaniu, w szczególności przyszłych wydarzeń, pozostaje niedostatecznie zbadane ze względu na nieodłączne ograniczenia ich danych szkoleniowych.
Jedną z rzeczy, która sprawia, że LLM są wyjątkowe, jest to, że duża część danych wejściowych znajduje się w poprzednich zestawach danych treningowych modeli. Te zestawy danych treningowych zawierają miliardy nieznanych tekstów, które, jak się uważa, obejmują rozległą ilość materiałów dostępnych online (Hughes, 2023). OpenAI ukrywa dokładnie, na których zestawach danych został wytrenowany (Schaul i in., 2023), ale biorąc pod uwagę domniemane rozmiary modeli, a także ich udaną zdolność do osiągania mowy konwersacyjnej, uważa się, że zestawy danych treningowych obejmują duży obszar materiałów online.
To badanie w wyjątkowy sposób pozycjonuje się na przecięciu generatywnych możliwości LLM i ich potencjału do analizy predykcyjnej. Stosując GPT-3.5 i GPT-4, badamy, czy różne strategie podpowiadania mogą zmusić ChatGPT do dokładniejszego przewidywania przyszłych zdarzeń. Aby przetestować nasz sukces w prognozowaniu, skorzystaliśmy z naturalnej granicy wyznaczonej przez OpenAI. W momencie naszego eksperymentu w połowie 2023 r. ostatnia aktualizacja szkolenia OpenAI miała miejsce we wrześniu 2021 r. (OpenAI, 2024a).[1] Biorąc pod uwagę, że dane szkoleniowe ChatGPT w tym czasie nie zawierały informacji o wydarzeniach z 2022 r., mogliśmy zbadać, czy może on wykorzystać wzorce w swoich danych szkoleniowych, które zakończyły się we wrześniu 2021 r., aby dokładnie prognozować zdarzenia o wartości społecznej i ekonomicznej, takie jak zwycięzcy Oscarów 2022, miesięczne stopy bezrobocia i miesięczne stopy inflacji do września 2022 r.
Jedną z cech charakterystycznych LLM jest jednak ich wysoka kreatywność. Ta kreatywność jest zarówno cechą, jak i błędem. Wydaje się, że kreatywność jest częścią tego, co sprawia, że skutecznie naśladuje inteligentną mowę ludzką. Ale wydaje się również, że kreatywność sprawia, że regularnie ma halucynacje — termin ten opisuje jego tendencję do silnego potwierdzania fałszywych zdarzeń lub nieprawdziwych faktów (Levy, 2024). Jego kreatywność i tendencja do halucynacji mogą stanowić barierę dla przewidywania, jeśli jest systematycznie przekrzywiany w sposób gorszy od naszych obecnych technologii. Chociaż bezpośrednie przewidywanie nie narusza bezpośrednio warunków korzystania z usługi OpenAI, uważamy, że na podstawie naszego eksperymentu najbardziej prawdopodobne jest, że OpenAI próbowało je bardzo utrudnić. Może to wynikać z tego, że trzy naruszenia warunków korzystania z usługi wydają się być bezpośrednio naruszane, gdyby ludzie intensywnie korzystali z ChatGPT w celach predykcyjnych. Te trzy naruszenia mieszczą się w zasadzie OpenAI, zgodnie z którą oprogramowania nie wolno używać do „wykonywania lub ułatwiania działań, które mogą znacząco naruszyć bezpieczeństwo, dobrostan lub prawa innych osób” (OpenAI, 2024b), w której wymieniono trzy przypadki istotne z punktu widzenia przewidywania.
a. Udzielanie spersonalizowanych porad prawnych, medycznych/zdrowotnych lub finansowych bez przeglądu przez wykwalifikowanego specjalistę i ujawnianie korzystania z pomocy AI i jej potencjalnych ograniczeń
b. Podejmowanie zautomatyzowanych decyzji o dużej wadze w dziedzinach, które wpływają na bezpieczeństwo, prawa lub dobrostan jednostki (np. egzekwowanie prawa, migracja, zarządzanie krytyczną infrastrukturą, elementy bezpieczeństwa produktów, podstawowe usługi, kredyt, zatrudnienie, mieszkalnictwo, edukacja, punktacja społeczna lub ubezpieczenie)
c. Ułatwianie hazardu na prawdziwe pieniądze lub udzielanie pożyczek na wypłatę
Gdyby okazało się, że ChatGPT ma lepsze zdolności prognozowania, można by sobie łatwo wyobrazić, że byłby natychmiast wykorzystywany w sposób naruszający jeden lub wszystkie z powyższych warunków. Podejrzewamy zatem, że OpenAI ograniczyło chęć ChatGPT do angażowania się w wiele typów zadań bezpośredniego przewidywania.
Ale jedną rzeczą, która nie narusza warunków korzystania z usługi, jest opowiadanie historii. Chociaż może to naruszać warunki korzystania z usługi OpenAI, na przykład, aby szukać „spersonalizowanej porady medycznej”, a zatem ChatGPT może odmówić jej wykonania, nie może to powstrzymać go przed stworzeniem dzieła fikcji, w którym takie przewidywania byłyby przeprowadzane w kontekście samej narracji. Nasz projekt testuje, czy poproszenie ChatGPT o opowiadanie historii może w rzeczywistości odblokować jego zdolność do wykonywania dokładnych prognoz. Korzystając z odcięcia danych treningowych modeli i wiedząc, co nastąpiło, a co nie nastąpiło później („prawda podstawowa”), jesteśmy w stanie porównać wydajność monitów, które bezpośrednio proszą ChatGPT o przewidywanie przyszłości, z tymi, które proszą o opowiadanie historii o przyszłości.
Nasze podpowiedzi narracyjne są wyjątkowe, ponieważ prosimy ChatGPT o opowiedzenie historii o wydarzeniach rozgrywających się w przyszłości, w miarę ich występowania, lub o autorytatywnych postaciach rozgrywających się w przyszłości opowiadających historie o swojej przeszłości (ale naszej przyszłości). Nasze podpowiedzi narracyjne eksperymentowały ze zmiennością pozornie małych szczegółów, takich jak tożsamość mówcy lub ujawnianie informacji o wydarzeniach politycznych w 2022 r., aby zbadać dalej, które elementy podpowiedzi narracyjnych miały znaczenie. Aby utworzyć rozkład odpowiedzi, poprosiliśmy dwóch asystentów badawczych o użycie dwóch oddzielnych kont ChatGPT do zapytania 50 razy na podpowiedź, tworząc łącznie 100 prób na podpowiedź. Przedstawiamy nasze ustalenia w postaci wykresów pudełkowych pokazujących pełny rozkład odpowiedzi na każdą podpowiedź.
Nasze ustalenia sugerują, że te maszyny predykcyjne stają się niezwykle dokładne w ramach ChatGPT-4, gdy są proszone o opowiadanie historii osadzonych w przyszłości o przeszłości. Najpierw pokazujemy dokładność podpowiedzi bezpośrednich i narracyjnych za pomocą ChatGPT-3.5 i ChatGPT4 w celu przewidywania zwycięzców głównych kategorii Oscarów 2022. W przypadku najlepszego aktora, najlepszej aktorki i obu kategorii aktorów drugoplanowych podpowiedzi narracyjne były niezwykle dokładne w przewidywaniu zwycięzcy. Podpowiedzi bezpośrednie wypadły w porównaniu bardzo słabo, często gorzej niż losowe zgadywania. Jednak podpowiedzi narracyjne za pomocą ChatGPT-4 wykazują dokładność w zakresie od 42% (najlepsza aktorka, Chastain) do 100% (najlepszy aktor, Will Smith) z jednym wyjątkiem. Nie udało się dokładnie przewidzieć zwycięzcy w kategorii najlepszy film.
Następnie przeszliśmy do zjawisk ekonomicznych miesięcznych stóp bezrobocia i miesięcznych stóp inflacji, używając trzech odrębnych rodzajów podpowiedzi narracyjnych: profesora college'u wygłaszającego wykład dla studentów studiów licencjackich na temat krzywej Philipsa oraz przewodniczącego Rezerwy Federalnej, Jerome'a Powella, wygłaszającego przemówienie przed Radą Gubernatorów na temat danych ekonomicznych z ubiegłego roku. W przypadku Jerome'a Powella zmieniliśmy dodatkowy szczegół: w jednej podpowiedzi najpierw powiedzieliśmy ChatGPT o inwazji Rosji na Ukrainę w 2022 r., a następnie poprosiliśmy, aby Jerome Powell wygłosił przemówienie przed Radą Gubernatorów, w którym opowiedział o danych makroekonomicznych z ubiegłego roku. A w drugiej pominęliśmy tę informację. We wszystkich przypadkach bezpośrednie podpowiedzi były jeszcze mniej skuteczne w przewidywaniu niż w przypadku Oscarów, ponieważ ChatGPT odmówiło odpowiedzi na podpowiedź, gdy poproszono je o bezpośrednie przewidywanie przyszłych szeregów czasowych każdej zmiennej makroekonomicznej.
Anonimowemu ekonomiście rzadko udawało się przewidzieć inflację za pomocą LLM.
Ale gdy poproszono Jerome'a Powella o opowiedzenie historii, w której Jerome Powell przytacza dane dotyczące przyszłego bezrobocia i inflacji z całego roku, tak jakby mówił o wydarzeniach z przeszłości, rzeczy zmieniają się znacząco. Rozkład miesięcznych prognoz inflacji Powella jest średnio porównywalny z faktami zawartymi w miesięcznym badaniu oczekiwań konsumentów Uniwersytetu Michigan. Co ciekawe, jest on bliższy dokładnemu przewidywaniu wyników badania oczekiwań konsumentów Uniwersytetu Michigan niż przewidywaniu rzeczywistej inflacji na podstawie danych zebranych przez Fed z Cleveland. Co dziwne, gdy podawano mu informacje o inwazji Rosji na Ukrainę, prognozy Powella były systematycznie niższe i mniej dokładne niż wtedy, gdy informacje te nie były wykorzystywane do przygotowania ChatGPT.
Dokładność anonimowego ekonomisty w przewidywaniu miesięcznego bezrobocia była zarówno precyzyjna, jak i najczęściej niedokładna. Ale podobnie jak w przypadku inflacji, stopy bezrobocia publikowane przez Biuro Statystyki Pracy (BLS), miesiąc po miesiącu, mieściły się w rozkładzie twierdzeń złożonych przez Jerome'a Powella w jego przemówieniu. A uwzględnienie danych z Ukrainy spowodowało, że model stał się gorszy w przewidywaniu bezrobocia, tak jak miało to miejsce w przypadku inflacji.
Wiele niedawnych badań bada zastosowania generatywnej sztucznej inteligencji w ekonomii i zastosowaniach biznesowych. Przykłady obejmują wykorzystanie ChatGPT jako agentów ekonomicznych w eksperymentach laboratoryjnych (Horton, 2023), badanie ChatGPT w celu prowadzenia badań marketingowych (Brand i in., 2023), proszenie ChatGPT o dokonywanie ocen ryzyka na podstawie transkrypcji rozmów o zyskach (Kim i in., 2023) oraz stosowanie LLM do przewidywania ruchów cen akcji (Lopez-Lira i Tang, 2023). Nasze odkrycia uzupełniają tę rodzącą się eksplorację, podkreślając znaczenie szybkiego projektowania w wykorzystywaniu LLM do zadań predykcyjnych, sugerując, że zdolność modeli do „halucynacyjnej” konstrukcji narracji może być strategicznie wykorzystywana do wydobywania przyszłościowych spostrzeżeń z ich danych szkoleniowych. Sugeruje to również, że pod skierowanym na zewnątrz produktem konsumenckim OpenAI, ChatGPT-4, kryje się bardzo potężna maszyna predykcyjna. To odkrycie otwiera nowe możliwości zastosowania modeli LLM w prognozowaniu ekonomicznym, planowaniu polityki i innych dziedzinach, zmuszając nas do ponownego przemyślenia sposobu, w jaki wchodzimy w interakcje z tymi zaawansowanymi modelami i wykorzystujemy ich możliwości.
W następnej sekcji przedstawiono przykład bezpośredniego i narracyjnego podpowiadania. Następnie szczegółowo opisano naszą metodologię i zbiór danych. Przedstawiamy wyniki eksperymentów przewidujących zwycięzców Oscarów oraz inflację i bezrobocie, a następnie nasze przypuszczenia dotyczące zdolności predykcyjnych ChatGPT-4 w formie narracyjnej. Podsumowujemy nasze ustalenia i sugerujemy kierunki przyszłych badań w zakończeniu.
Artykuł jest dostępny w serwisie arxiv na licencji CC BY 4.0 DEED.
[1] Możemy wykazać, że zbieranie danych miało miejsce w połowie 2023 r. na podstawie znaczników czasu w arkuszach kalkulacyjnych programu Excel używanych przez naszych asystentów badawczych.