אני חושב ש-OpenAI לא כנה לגבי התשואות הפוחתות של קנה המידה של AI עם נתונים ומחשוב בלבד. אני חושב שהם גם מסכנים הרבה מהכלכלה, העולם וכל התעשייה הזו בכך שהם לא מדברים יותר בפתיחות על הנושא.  בהתחלה האמנתי למה שהם אמרו לנו, שכל מה שאתה צריך לעשות זה להוסיף יותר כוח מחשוב ויותר נתונים, ו-LLMs כמו גם דגמים אחרים פשוט ישתפרו. שהקשר הזה בין המודלים, המחשוב והנתונים שלהם יכול לגדול באופן ליניארי עד קץ הזמן. הקפיצה מ-GPT-3 ו-GPT-3.5 הייתה עצומה. הקפיצה מ-GPT-3.5 ל-GPT-4 נראתה כהוכחה ברורה לכך שהנחה זו נכונה. אבל אז הדברים נעשו מוזרים.  במקום לשחרר דגם בשם GPT-5 או אפילו GPT-4.5, הם הוציאו את GPT-4-turbo. GPT-4-turbo אינו אינטליגנטי כמו GPT-4 אבל הוא הרבה יותר מהיר וזול יותר. כל זה הגיוני. אבל אז, המגמה הזו המשיכה להתקיים.  אחרי GPT-4-turbo, המהדורה הבאה של OpenAI הייתה GPT-4o (תות). GPt-4o הוא אינטליגנטי פחות או יותר בדיוק כמו GPT-4-turbo, אבל הוא אפילו מהיר יותר ואפילו זול יותר. הפונקציונליות שבאמת מכרה אותנו הייתה היכולת שלו לדבר ולהבין דברים באמצעות אודיו והמהירות שלו. עם זאת, שימו לב, בשלב זה של הסיפור שלנו, GPT-4-turbo אינו אינטליגנטי יותר מ-GPT-4 ו-GPT-4o אינו אינטליגנטי יותר מ-GPT-4-turbo. ואף אחד מהם אינו אינטליגנטי יותר מ-GPT-4.  המהדורה הבאה והאחרונה שלהם הייתה GPT-o1. GPT-o1 יכול לבצע ביצועים טובים יותר מ-GPT-4   משימות. אבל זה בגלל ש-o1 הוא לא באמת דגם בודד. GPT-o1 היא למעשה קופסה שחורה של מספר דגמי LLM קלים שעובדים יחד. אולי o1 מתואר אפילו טוב יותר כתוכנה או מתווך מאשר מודל בפועל. אתה נותן לו שאלה, הוא מגיע עם תשובה, ואז הוא משתמש שוב ושוב במודלים אחרים שמטרתם לבדוק את התשובה כדי לוודא שהיא נכונה, וזה מסווה את כל הפעולות הללו. זה עושה את כל זה מאוד מאוד מהר. בכמה  למה לא פשוט לעשות LLM חזק יותר מ-GPT-4? למה לפנות לטכניקות שכאלה של גלימה ופגיון כדי להשיג מהדורות חדשות? GPT-4 יצא לפני שנתיים, אנחנו אמורים להיות הרבה מעבר ליכולות שלו עד עכשיו. ובכן, לנועם בראון, חוקר ב-OpenAI היה מה לומר מדוע הם הלכו בדרך זו עם o1 ב-TED AI. לדבריו, "התברר שלאחר של בוט לחשוב רק 20 שניות ביד פוקר יש את אותם ביצועים מחזקים כמו להגדיל את הדגם פי 100,000 ולהכשיר אותו פי 100,000 יותר."  עכשיו תעצרו ותחשבו באמת על מה שנאמר שם. בוט שחושב במשך 20 שניות טוב כמו בוט שאומן פי 100,000 יותר עם פי 100,000 יותר כוח מחשוב. אם חוקי קנה המידה הם אינסופיים, המתמטיקה הזו בלתי אפשרית. משהו כאן לא בסדר או שמישהו משקר.  למה כל זה משנה? OpenAI שווה 150 מיליארד דולר ורוב שווי השוק הזה מבוסס על תחזיות שתלויות בשיפור המודלים לאורך זמן. אם בינה מלאכותית טובה רק כמו שהיא היום, זה עדיין עתיד מעניין, אבל זה לא מה שמוכרים למשקיעים על ידי חברות בינה מלאכותית שכל ה-IP שלהן הוא המודל שלהן. זה גם משנה את מפת הדרכים של המוצרים של חברות רבות אחרות התלויות בקידום המתמשך של ה-LLM שלהן כדי לבנות מוצרים משלהן. המטרה והשאיפות של OpenAI של AGI מתעכבות מאוד אם כל זה נכון.  השערה  הסיבה שלימודי LLM כל כך מדהימים היא בגלל תופעה פילוסופית ברמה גבוהה יותר שמעולם לא שקלנו, שלשפה יש מטבעה כמות גדולה מאוד של הקשר ונתונים על העולם אפילו בתוך חלקים קטנים של טקסט. בניגוד לפיקסלים בתמונה או בסרטון, מילים במשפט מתארות זו את זו באופן מרומז. משפט מגובש לחלוטין הוא בהגדרה "רציונלי". אם זה נכון או לא זה סיפור שונה מאוד ובעיה שמתעלה על השפה בלבד. לא משנה כמה טקסט תצרוך, "אמת" ו"שקר" הם לא רק מושגים לשוניים. אתה יכול לומר שמשהו רציונלי לחלוטין אבל בשום אופן לא "נכון". זה בנקודה זו LLMs יפגעו באופן עקבי בקיר לבנים. במהלך 12 החודשים האחרונים, ברצוני לשער באופן רשמי שמאחורי דלתות סגורות לא היו קפיצות ענק בלימודי LLM ב-OpenAI, GrokAI או ב-Google. אם להיות ספציפי, אני לא חושב שמישהו, בכל מקום עשה כל LLM שהוא אפילו פי 1.5 טוב יותר מ-GPT-4.  ב-OpenAI נראה שצוותים ברמה גבוהה עוזבים. כרגע הם אומרים שזה בגלל בטיחות אבל אני הולך לשים את הכובע שלי עכשיו ולזרוק רעיון. הם מודעים לנושא הזה והם קופצים על הספינה לפני שיהיה מאוחר מדי.   אִשׁוּר  התחלתי לדון בחשש הזה עם חברים לפני 3 חודשים. קראו לי בשמות רבים חחח.   אבל בשלושת השבועות האחרונים, הרבה מהעיתונות החלה להריח משהו דגי:    (   ) OpenAI כבר לא משחררת את אוריון (GPT-5) מכיוון שהיא לא עמדה במדד הביצועים הצפויים והיא רואה תשואות פוחתות. https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows    (   ) בלומברג מדווחים ש-OpenAI, Google ואנתרופיק מתקשים ביצירת AI מתקדם יותר. https://www.bloomberg.com/news/articles/2024-11-13/openai-google-and-anthropic-are-struggling-to-build-more-advanced-ai  מה אנחנו יכולים לעשות בנידון?  קשה להמליץ על פתרון יחיד. הטכנולוגיה שמאחורי o1 היא הוכחה לכך שאפילו דגמים בעלי ביצועים נמוכים ניתנים לשימוש מחדש כדי לבצע פעולות מסובכות. אבל זה לא פתרון לבעיית קנה המידה של AI. אני חושב שצריכה להיות השקעה משמעותית ובדיקה מהירה של ארכיטקטורות מודלים חדשות. כמו כן, נגמרו לנו הנתונים וזקוקים לדרכים חדשות להפקת נתונים שמישים ללימודי LLM. אולי באמצעות תיוג רב מימדי שעוזר להנחות את ההפניות שלו למידע אמיתי ישירות. רעיון טוב נוסף יכול להיות פשוט להמשיך לכוונן את ה-LLM למקרי שימוש ספציפיים כמו מתמטיקה, מדעים ובריאות ריצה ושימוש בזרימות עבודה של סוכני AI, בדומה ל-o1. זה עשוי לתת להרבה חברות מקום להתנועע עד שתתעורר ארכיטקטורה חדשה. הבעיה הזו ממש גרועה אבל אני חושב שהיצירתיות בלמידת מכונה   שהיא תעורר תהיה עצומה. ברגע שנעבור את המכשול הזה, אנחנו בוודאי נעמוד בלוח הזמנים של AGI ואולי ל-ASI. ופיתוח תוכנה

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Read My Stories

האודיו הזה מופק בשפת המקור של הסיפור!

האם התקדמות הבינה המלאכותית מואטת? הדיון בקנה מידה ש-OpenAI לא רוצה שיהיה

About Author

הערות

תלו תגים

מאמר זה הוצג ב

Related Stories

The TechBeat: Investigating Internet Freedom: Unseen Aspects of Our Online Existence (1/20/2024)

Synthetic Audio is Now Available for 70,000+ HackerNoon Stories

100 Days of AI, Day 13: How Instruction Finetuning Improves a Pre-trained LLM

The TechBeat: Everything You Need to Know to Implement Generative AI for Your Enterprise (3/12/2024)

The TechBeat: Investigating Internet Freedom: Unseen Aspects of Our Online Existence (1/20/2024)

Synthetic Audio is Now Available for 70,000+ HackerNoon Stories

100 Days of AI, Day 13: How Instruction Finetuning Improves a Pre-trained LLM

The TechBeat: Everything You Need to Know to Implement Generative AI for Your Enterprise (3/12/2024)

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps