מחברים:
(1) Pham Hoang Van, המחלקה לכלכלה, אוניברסיטת Baylor Waco, TX, ארה"ב (Van Pham@baylor.edu);
(2) סקוט קנינגהם, המחלקה לכלכלה, אוניברסיטת ביילור וואקו, טקסס, ארה"ב (Scott Cunningham@baylor.edu).
3 מתודולוגיית הנחיה ואיסוף נתונים
4 תוצאות
4.1 קביעת מגבלת נתוני ההדרכה עם זיופים
4.2 תוצאות תחזיות פרסי האוסקר לשנת 2022
5.1 חיזוי אינפלציה עם פרופסור לכלכלה
5.2 חיזוי אינפלציה עם ג'רום פאוול, יו"ר הפד
5.3 חיזוי אינפלציה עם ג'רום פאוול והסבר לפלישה של רוסיה לאוקראינה
5.4 חיזוי אבטלה עם פרופסור לכלכלה
6 השערה על יכולות הניבוי של ChatGPT-4 בצורה נרטיבית
נִספָּח
א. חלוקת הזוכים החזויים בפרסי האוסקר
ב. התפלגות משתנים מקרו-כלכליים חזויים
מחקר זה חוקר האם ChatGPT-3.5 ו-ChatGPT-4 של OpenAI יכולים לחזות במדויק אירועים עתידיים באמצעות שתי אסטרטגיות הנחיה נפרדות. כדי להעריך את הדיוק של התחזיות, אנו מנצלים את העובדה שנתוני האימון בזמן הניסוי נעצרו בספטמבר 2021, ושואלים על אירועים שקרו ב-2022 באמצעות ChatGPT-3.5 ו-ChatGPT-4. השתמשנו בשתי אסטרטגיות הנחיה: חיזוי ישיר ומה שאנו מכנים נרטיבים עתידיים המבקשים מ-ChatGPT לספר סיפורים בדיוניים המתרחשים בעתיד עם דמויות המשתפות אירועים שקרו להן, אך לאחר שנאספו נתוני ההדרכה של ChatGPT. התרכזנו באירועים בשנת 2022, הנחנו את ChatGPT לעסוק בסיפור סיפורים, במיוחד בהקשרים כלכליים. לאחר ניתוח של 100 הנחיות, גילינו שהנחיות נרטיביות עתידיות שיפרו משמעותית את דיוק החיזוי של ChatGPT-4. זה בא לידי ביטוי במיוחד בתחזיותיו של זוכי פרסי האוסקר הגדולים, כמו גם במגמות כלכליות, שהאחרון הסיק מתרחישים שבהם המודל התחזה לאישי ציבור כמו יו"ר הפדרל ריזרב, ג'רום פאוול. ממצאים אלו מצביעים על כך שהנחיות נרטיביות ממנפות את יכולתם של המודלים לבנייה נרטיבית הזויה, ומאפשרות סינתזה ואסטרפולציה יעילה יותר של נתונים מאשר תחזיות פשוטות. המחקר שלנו חושף היבטים חדשים של יכולות הניבוי של LLMs ומציע יישומים עתידיים פוטנציאליים בהקשרים אנליטיים.
ההתקדמות הטכנולוגית המהירה בבינה מלאכותית עלתה על ההבנה שלנו לגבי מקרי השימוש בה. מודלים של שפות גדולות (LLMs) כגון GPT-4 של OpenAI יכולים לחקות דיבור אנושי אינטליגנטי וכן לבצע משימות יקרות מבחינה קוגניטיבית אשר משנות את התוצרים השוליים של העובדים, אך לא ברור היכן של משימות אלו. באופן עקרוני, בהתחשב במודלים אלה הם מכונות חיזוי, הם עשויים לספק לבני אדם מכשיר חיזוי חדש (Agrawal et al., 2018). אבל עד כמה הם מדויקים לא ידוע בחלקו מכיוון שהטכנולוגיות החדשות הללו נראות לא מובנות אפילו על ידי יוצריהן.
עמוד השדרה של החזית הנוכחית של LLMs הוא ארכיטקטורה הנקראת טרנספורמטורים מיומנים מראש, או GPT. ארכיטקטורה זו חוללה מהפכה בעיבוד השפה הטבעית (NLP) על ידי לכידת יחסי טקסט מורכבים באמצעות מנגנוני תשומת לב עצמית (Vaswani et al., 2017). הצגת ה-GPT-3.5 של OpenAI בנובמבר 2022 ויורשו, GPT-4, במרץ 2023 סימנו אבני דרך משמעותיות בהתפתחות ה-GPT. עם הרשתות העצביות העצומות שלהם שהוכשרו מראש על קורפוסים טקסטואליים מגוונים, למודלים אלה יש יכולת חסרת תקדים להבין וליצור שפה, אם כי היישום שלהם בחיזוי, במיוחד אירועים עתידיים, נותר לא נחקר בשל המגבלות המובנות של נתוני האימון שלהם.
אחד הדברים שהופכים את ה-LLMs לייחודיים הוא שכמות גדולה מהתשומות נמצאת במערכי ההדרכה הקודמים של המודלים. מערכי נתונים אלה של הכשרה מכילים מיליארדי טקסטים לא ידועים שנחשבים להקיף כמות נרחבת של חומר זמין באינטרנט (Hughes, 2023). OpenAI מסתירה במדויק על אילו מערכי נתונים היא הוכשרה (Schaul et al., 2023), אך בהתחשב בגדלים לכאורה של המודלים, כמו גם ביכולת המוצלחת שלה להשיג דיבור בשיחה, נהוג לחשוב שמערכי ההדרכה כוללים כמות גדולה של חומר מקוון.
מחקר זה ממצב את עצמו באופן ייחודי בצומת היכולות היצירתיות של LLMs והפוטנציאל שלהם לניתוח חזוי. על ידי שימוש ב-GPT-3.5 ו-GPT-4, אנו בודקים אם אסטרטגיות הנחיה שונות יכולות לאלץ את ChatGPT לחזות בצורה מדויקת יותר אירועים עתידיים. כדי לבדוק את הצלחת החיזוי שלנו, ניצלנו את הגבול הטבעי שנקבע על ידי OpenAI. בזמן הניסוי שלנו באמצע 2023, עדכון ההדרכה האחרון של OpenAI היה ספטמבר 2021 (OpenAI, 2024a).[1] בהתחשב בעובדה שנתוני ההדרכה של ChatGPT באותה עת לא הכילו מידע על אירועי 2022, הצלחנו לבחון אם היא יכולה לנצל דפוסים בנתוני ההדרכה שלה, שהפסיקו בספטמבר 2021, כדי לחזות במדויק אירועים בעלי ערך חברתי וכלכלי, כמו הזוכים בפרסי האוסקר לשנת 2022, שיעורי האבטלה החודשיים ושיעורי האינפלציה החודשיים של ספטמבר עד 2022.
עם זאת, אחד מסימני ההיכר של LLMs הוא שהם מאוד יצירתיים. היצירתיות הזו היא גם תכונה וגם באג. נראה שהיצירתיות שלה היא חלק ממה שהופך אותה למצליחה בחיקוי דיבור אנושי אינטליגנטי. אבל נראה גם שיצירתיות זו היא שגורמת לה להזיות באופן קבוע - מונח המתאר את נטייתו להצהיר בתוקף על אירועים שקריים או עובדות שגויות (לוי, 2024). היצירתיות והנטייה שלו להזיות עשויות להוות מחסום לניבוי אם היא מוטה באופן שיטתי בצורה שהיא גרועה מהטכנולוגיות הנוכחיות שלנו. בעוד שחיזוי מוחלט אינו מפר באופן ישיר את תנאי השירות של OpenAI, אנו חושבים שככל הנראה, בהתבסס על הניסוי שלנו, OpenAI ניסתה להקשות מאוד. ייתכן שהסיבה לכך היא ששלוש מהפרות תנאי השירות שלו ייראו כמופרו ישירות אם אנשים השתמשו ב-ChatGPT באופן אינטנסיבי למטרות חיזוי. שלוש ההפרות הללו נופלות תחת הכלל של OpenAI לפיו התוכנה לא תשמש כדי "לבצע או להקל על פעילויות שעלולות לפגוע באופן משמעותי בבטיחותם, ברווחתם או בזכויותיהם של אחרים" (OpenAI, 2024b) ולאחר מכן מפרט שלושה מקרים הרלוונטיים לחיזוי.
א. מתן ייעוץ משפטי, רפואי/בריאותי או פיננסי מותאם ללא בדיקה על ידי איש מקצוע מוסמך וחשיפה של השימוש בסיוע בינה מלאכותית והמגבלות האפשריות שלו
ב. קבלת החלטות אוטומטיות עם הימור גבוה בתחומים המשפיעים על בטיחות, זכויות או רווחתו של אדם (למשל, אכיפת חוק, הגירה, ניהול של תשתית קריטית, רכיבי בטיחות של מוצרים, שירותים חיוניים, אשראי, תעסוקה, דיור, חינוך, ניקוד חברתי או ביטוח)
ג. הקלה על הימורים בכסף אמיתי או הלוואות ביום משכורת
אם ל-ChatGPT נמצאה יכולת חיזוי מעולה, אפשר היה בקלות לדמיין שהוא ישמש באופן מיידי בדרכים שמפרות את אחד או את כל התנאים שלעיל, ולפיכך אנו חושדים ש-OpenAI צמצמה את הנכונות של ChatGPT לעסוק בסוגים רבים של משימות חיזוי מוחלטות.
אבל דבר אחד שלא מפר את תנאי השירות שלו הוא סיפור סיפורים. אמנם זה עשוי להפר את תנאי השירות של OpenAI, למשל, לפנות ל"ייעוץ רפואי מותאם", ולפיכך ChatGPT עשוי לסרב לעשות זאת, אבל זה אולי לא ימנע ממנה ליצור יצירה בדיונית שבה תחזיות כאלה נערכו בהקשר של הנרטיב עצמו. הפרויקט שלנו בודק האם בקשת ChatGPT לספר סיפורים עשויה, למעשה, לפתוח את היכולת שלו לבצע חיזוי מדויק. על ידי שימוש בנתוני האימון של המודלים, וידיעה מה קרה ומה לא התרחש לאחר מכן ("אמת הקרקע"), אנו יכולים להשוות את הביצועים של הנחיות המבקשות ישירות מ-ChatGPT לחזות את העתיד לעומת אלו שמבקשות ממנה לספר סיפורים על העתיד.
הנחיות הנרטיביות שלנו ייחודיות בכך שאנו מבקשים מ-ChatGPT לספר סיפור על אירועים המתרחשים בעתיד כפי שהם מתרחשים או על ידי דמויות סמכותיות המתרחשות בעתיד ומספרות סיפורים על העבר שלהם (אבל העתיד שלנו). ההנחיות הנרטיביות שלנו התנסו בשונות בפרטים הקטנים לכאורה, כגון זהות הדובר או פרסום מידע על אירועים פוליטיים של 2022, כדי לחקור עוד אילו מרכיבים של ההנחיות הנרטיביות חשובים. כדי ליצור חלוקה של תשובות, היו לנו שני עוזרי מחקר שהשתמשו בשני חשבונות ChatGPT נפרדים כדי לבצע שאילתות 50 פעמים לכל הנחיה ויצירת 100 ניסויים בסך הכל לכל בקשה. אנו מציגים את הממצאים שלנו כחלקי קופסה המציגים את ההפצה המלאה של התשובות לכל הנחיה.
הממצאים שלנו מצביעים על כך שמכונות חיזוי אלו הופכות למדוייקות בצורה יוצאת דופן תחת ChatGPT-4 כאשר הם מתבקשים לספר סיפורים שיתרחשו בעתיד על העבר. ראשית אנו מראים את הדיוק של הנחיה ישירה ונרטיבית באמצעות ChatGPT-3.5 ו-ChatGPT4 כדי לחזות את הזוכים בקטגוריות העיקריות של פרסי האוסקר לשנת 2022. עבור השחקן הטוב ביותר, השחקנית הטובה ביותר ושתי קטגוריות שחקן המשנה, הנחיה נרטיבית הייתה מדויקת ביותר בניבוי המנצח. הנחיה ישירה מבוצעת על ידי השוואה גרועה מאוד, לעתים גרועה יותר מניחושים אקראיים. אבל הנחיה נרטיבית עם ChatGPT-4 מציגה דיוק שנע בין 42% (השחקנית הטובה ביותר, צ'סטיין) ל-100% (השחקן הטוב ביותר, וויל סמית') למעט חריג אחד. זה לא הצליח לחזות במדויק את הזוכה בסרט הטוב ביותר.
לאחר מכן עברנו לתופעות הכלכליות של שיעורי אבטלה חודשיים ושיעורי אינפלציה חודשיים תוך שימוש בשלושה סוגים נפרדים של הנחיה סיפורית: פרופסור במכללה נותן הרצאה לסטודנטים לתואר ראשון על עקומת פיליפס, ויו"ר הפדרל ריזרב, ג'רום פאוול, נושא נאום בפני מועצת הנגידים על הנתונים הכלכליים של השנה האחרונה. במקרה של ג'רום פאוול, שינינו פרט נוסף: בהודעה אחת סיפרנו לראשונה ל-ChatGPT על הפלישה של רוסיה לאוקראינה ב-2022, לפני כן ביקשנו ממנה לג'רום פאוול לשאת את נאומו בפני מועצת הנגידים ומספר את נתוני המאקרו של השנה האחרונה. ובחלק השני, השארנו את פיסת המידע הזו. בכל המקרים, הנחיה ישירה הייתה אפילו פחות יעילה בחיזוי ממה שהייתה עם פרסי האוסקר, שכן ChatGPT סירבה לענות על הנחיה לחלוטין כאשר התבקשה לחזות ישירות את סדרת הזמן העתידית של כל משתנה מאקרו-כלכלי.
הכלכלן האלמוני רק לעתים רחוקות הצליח לחזות את האינפלציה תוך שימוש ב-LLM.
אבל כשמתבקש לספר סיפור שבו ג'רום פאוול מספר על נתוני אבטלה ואינפלציה עתידיים של שנה, כאילו הוא מדבר על אירועי העבר, הדברים משתנים באופן מהותי. התפלגות תחזיות האינפלציה של פאוול מחודש לחודש דומות בממוצע לעובדות הכלולות בסקר ציפיות הצרכנים החודשי של אוניברסיטת מישיגן. מעניין לציין שהוא קרוב יותר לניבוי מדויק של סקר ציפיות הצרכנים של UM מאשר בחיזוי האינפלציה בפועל על סמך נתונים שנאספו על ידי הפד של קליבלנד. באופן מוזר, כאשר התבקשו לקבל מידע על פלישת רוסיה לאוקראינה, התחזיות של פאוול היו נמוכות יותר ופחות מדויקות באופן שיטתי מאשר כאשר המידע הזה לא שימש להכנה של ChatGPT.
הדיוק של הכלכלן האנונימי בחיזוי האבטלה החודשית היה מדוייק ורוב הזמן לא מדויק. אבל כמו באינפלציה, שיעורי האבטלה שפרסמה הלשכה לסטטיסטיקה של העבודה (BLS), חודש אחר חודש, היו במסגרת התפלגות הטענות שהעלה ג'רום פאוול בנאומו. והכללת נתוני אוקראינה גרמה למודל להחמיר בניבוי אבטלה כפי שהיה במקרה של אינפלציה.
מספר מחקרים עדכניים חוקרים את השימושים של AI גנרטיבי בכלכלה ויישומים עסקיים. דוגמאות כוללות שימוש ב-ChatGPT כסוכנים כלכליים בניסויי מעבדה (Horton, 2023), סקר ChatGPT לצורך מחקר שיווקי (Brand et al., 2023), בקשה מ-ChatGPT לבצע הערכות סיכונים מתמלולי שיחות רווחים (Kim et al., 2023) ויישום של LLMs לחיזוי תנועות מחירי המניות (L23-2 ו-Lopez). הממצאים שלנו מוסיפים לחקירה המתהווה על ידי הדגשת החשיבות של תכנון מהיר בריתום של LLMs למשימות חיזוי, מה שמצביע על כך שניתן לנצל באופן אסטרטגי את יכולתם של המודלים לבנייה נרטיבית "הזויה" כדי לחלץ תובנות צופות פני עתיד מנתוני ההדרכה שלהם. אבל זה גם מרמז שמתחת למוצר הצריכה הפונה כלפי חוץ של OpenAI, ChatGPT-4, נמצאת מכונת חיזוי חזקה מאוד. גילוי זה פותח אפיקים חדשים ליישום של LLMs בחיזוי כלכלי, תכנון מדיניות ומעבר לכך, מאתגר אותנו לחשוב מחדש על האופן שבו אנו מקיימים אינטראקציה ומנצלים את היכולות של מודלים מתוחכמים אלה.
הסעיף הבא מציג דוגמה של הנחיה ישירה מול נרטיבית. לאחר מכן, תיאור מפורט של המתודולוגיה ואיסוף הנתונים שלנו. אנו מציגים תוצאות של ניסויים המנבאים את זוכי האוסקר ואת האינפלציה והאבטלה ולאחר מכן את ההשערה שלנו לגבי יכולות הניבוי של ChatGPT-4 בצורה נרטיבית. אנו מסכמים את הממצאים שלנו ומציעים דרכים למחקר עתידי במסקנה.
מאמר זה זמין ב-arxiv תחת רישיון CC BY 4.0 DEED.
[1] אנו יכולים להראות שאיסוף הנתונים שלנו התרחש באמצע שנת 2023 באמצעות חותמות זמן בגיליונות אלקטרוניים של Excel המשמשים את עוזרי המחקר שלנו.