paint-brush
האם התקדמות הבינה המלאכותית מואטת? הדיון בקנה מידה ש-OpenAI לא רוצה שיהיהעל ידי@dosseyrichards
309 קריאות
309 קריאות

האם התקדמות הבינה המלאכותית מואטת? הדיון בקנה מידה ש-OpenAI לא רוצה שיהיה

על ידי Dossey Richards III5m2024/11/19
Read on Terminal Reader

יותר מדי זמן; לקרוא

למרות ההייפ סביב חוקי קנה המידה של AI, מהדורות אחרונות של OpenAI מצביעות על התשואות הקטנות בהפיכת דגמי AI לחזקים יותר. במקום לשחרר גרסאות חכמות יותר, OpenAI התמקדה בחלופות מהירות וזולות יותר כמו GPT-4-turbo ו-GPT-o1. עם ראיות מצטברות מחוקרים ודיווחים בתקשורת, התעשייה עומדת בפני התחשבנות האם הגישות הנוכחיות לפיתוח AI הן בר-קיימא.
featured image - האם התקדמות הבינה המלאכותית מואטת? הדיון בקנה מידה ש-OpenAI לא רוצה שיהיה
Dossey Richards III HackerNoon profile picture
0-item


אני חושב ש-OpenAI לא כנה לגבי התשואות הפוחתות של קנה המידה של AI עם נתונים ומחשוב בלבד. אני חושב שהם גם מסכנים הרבה מהכלכלה, העולם וכל התעשייה הזו בכך שהם לא מדברים יותר בפתיחות על הנושא.


בהתחלה האמנתי למה שהם אמרו לנו, שכל מה שאתה צריך לעשות זה להוסיף יותר כוח מחשוב ויותר נתונים, ו-LLMs כמו גם דגמים אחרים פשוט ישתפרו. שהקשר הזה בין המודלים, המחשוב והנתונים שלהם יכול לגדול באופן ליניארי עד קץ הזמן. הקפיצה מ-GPT-3 ו-GPT-3.5 הייתה עצומה. הקפיצה מ-GPT-3.5 ל-GPT-4 נראתה כהוכחה ברורה לכך שהנחה זו נכונה. אבל אז הדברים נעשו מוזרים.


במקום לשחרר דגם בשם GPT-5 או אפילו GPT-4.5, הם הוציאו את GPT-4-turbo. GPT-4-turbo אינו אינטליגנטי כמו GPT-4 אבל הוא הרבה יותר מהיר וזול יותר. כל זה הגיוני. אבל אז, המגמה הזו המשיכה להתקיים.


אחרי GPT-4-turbo, המהדורה הבאה של OpenAI הייתה GPT-4o (תות). GPt-4o הוא אינטליגנטי פחות או יותר בדיוק כמו GPT-4-turbo, אבל הוא אפילו מהיר יותר ואפילו זול יותר. הפונקציונליות שבאמת מכרה אותנו הייתה היכולת שלו לדבר ולהבין דברים באמצעות אודיו והמהירות שלו. עם זאת, שימו לב, בשלב זה של הסיפור שלנו, GPT-4-turbo אינו אינטליגנטי יותר מ-GPT-4 ו-GPT-4o אינו אינטליגנטי יותר מ-GPT-4-turbo. ואף אחד מהם אינו אינטליגנטי יותר מ-GPT-4.


המהדורה הבאה והאחרונה שלהם הייתה GPT-o1. GPT-o1 יכול לבצע ביצועים טובים יותר מ-GPT-4 בכמה משימות. אבל זה בגלל ש-o1 הוא לא באמת דגם בודד. GPT-o1 היא למעשה קופסה שחורה של מספר דגמי LLM קלים שעובדים יחד. אולי o1 מתואר אפילו טוב יותר כתוכנה או מתווך מאשר מודל בפועל. אתה נותן לו שאלה, הוא מגיע עם תשובה, ואז הוא משתמש שוב ושוב במודלים אחרים שמטרתם לבדוק את התשובה כדי לוודא שהיא נכונה, וזה מסווה את כל הפעולות הללו. זה עושה את כל זה מאוד מאוד מהר.


למה לא פשוט לעשות LLM חזק יותר מ-GPT-4? למה לפנות לטכניקות שכאלה של גלימה ופגיון כדי להשיג מהדורות חדשות? GPT-4 יצא לפני שנתיים, אנחנו אמורים להיות הרבה מעבר ליכולות שלו עד עכשיו. ובכן, לנועם בראון, חוקר ב-OpenAI היה מה לומר מדוע הם הלכו בדרך זו עם o1 ב-TED AI. לדבריו, "התברר שלאחר של בוט לחשוב רק 20 שניות ביד פוקר יש את אותם ביצועים מחזקים כמו להגדיל את הדגם פי 100,000 ולהכשיר אותו פי 100,000 יותר."


עכשיו תעצרו ותחשבו באמת על מה שנאמר שם. בוט שחושב במשך 20 שניות טוב כמו בוט שאומן פי 100,000 יותר עם פי 100,000 יותר כוח מחשוב. אם חוקי קנה המידה הם אינסופיים, המתמטיקה הזו בלתי אפשרית. משהו כאן לא בסדר או שמישהו משקר.


למה כל זה משנה? OpenAI שווה 150 מיליארד דולר ורוב שווי השוק הזה מבוסס על תחזיות שתלויות בשיפור המודלים לאורך זמן. אם בינה מלאכותית טובה רק כמו שהיא היום, זה עדיין עתיד מעניין, אבל זה לא מה שמוכרים למשקיעים על ידי חברות בינה מלאכותית שכל ה-IP שלהן הוא המודל שלהן. זה גם משנה את מפת הדרכים של המוצרים של חברות רבות אחרות התלויות בקידום המתמשך של ה-LLM שלהן כדי לבנות מוצרים משלהן. המטרה והשאיפות של OpenAI של AGI מתעכבות מאוד אם כל זה נכון.

השערה

הסיבה שלימודי LLM כל כך מדהימים היא בגלל תופעה פילוסופית ברמה גבוהה יותר שמעולם לא שקלנו, שלשפה יש מטבעה כמות גדולה מאוד של הקשר ונתונים על העולם אפילו בתוך חלקים קטנים של טקסט. בניגוד לפיקסלים בתמונה או בסרטון, מילים במשפט מתארות זו את זו באופן מרומז. משפט מגובש לחלוטין הוא בהגדרה "רציונלי". אם זה נכון או לא זה סיפור שונה מאוד ובעיה שמתעלה על השפה בלבד. לא משנה כמה טקסט תצרוך, "אמת" ו"שקר" הם לא רק מושגים לשוניים. אתה יכול לומר שמשהו רציונלי לחלוטין אבל בשום אופן לא "נכון". זה בנקודה זו LLMs יפגעו באופן עקבי בקיר לבנים. במהלך 12 החודשים האחרונים, ברצוני לשער באופן רשמי שמאחורי דלתות סגורות לא היו קפיצות ענק בלימודי LLM ב-OpenAI, GrokAI או ב-Google. אם להיות ספציפי, אני לא חושב שמישהו, בכל מקום עשה כל LLM שהוא אפילו פי 1.5 טוב יותר מ-GPT-4.


ב-OpenAI נראה שצוותים ברמה גבוהה עוזבים. כרגע הם אומרים שזה בגלל בטיחות אבל אני הולך לשים את הכובע שלי עכשיו ולזרוק רעיון. הם מודעים לנושא הזה והם קופצים על הספינה לפני שיהיה מאוחר מדי.

אִשׁוּר

התחלתי לדון בחשש הזה עם חברים לפני 3 חודשים. קראו לי בשמות רבים חחח.


הודעת טקסט ששלחתי לחבר שלי ב-18 ביולי 2024


אבל בשלושת השבועות האחרונים, הרבה מהעיתונות החלה להריח משהו דגי:

מה אנחנו יכולים לעשות בנידון?

קשה להמליץ על פתרון יחיד. הטכנולוגיה שמאחורי o1 היא הוכחה לכך שאפילו דגמים בעלי ביצועים נמוכים ניתנים לשימוש מחדש כדי לבצע פעולות מסובכות. אבל זה לא פתרון לבעיית קנה המידה של AI. אני חושב שצריכה להיות השקעה משמעותית ובדיקה מהירה של ארכיטקטורות מודלים חדשות. כמו כן, נגמרו לנו הנתונים וזקוקים לדרכים חדשות להפקת נתונים שמישים ללימודי LLM. אולי באמצעות תיוג רב מימדי שעוזר להנחות את ההפניות שלו למידע אמיתי ישירות. רעיון טוב נוסף יכול להיות פשוט להמשיך לכוונן את ה-LLM למקרי שימוש ספציפיים כמו מתמטיקה, מדעים ובריאות ריצה ושימוש בזרימות עבודה של סוכני AI, בדומה ל-o1. זה עשוי לתת להרבה חברות מקום להתנועע עד שתתעורר ארכיטקטורה חדשה. הבעיה הזו ממש גרועה אבל אני חושב שהיצירתיות בלמידת מכונה ופיתוח תוכנה שהיא תעורר תהיה עצומה. ברגע שנעבור את המכשול הזה, אנחנו בוודאי נעמוד בלוח הזמנים של AGI ואולי ל-ASI.