תאר לעצמך את זה: אתה שואל את עוזר הבינה המלאכותית שלך שאלה, ובמקום לירוק תשובה חצי אפויה באלפיות שניות, הוא עוצר.
זה חושב. זה נימוק.
ואז, זה נותן תגובה כל כך מחושבת, שזה מרגיש כמעט... אנושי.
נשמע עתידני, נכון?
ובכן, ברוכים הבאים לדגם o3 , היצירה האחרונה של OpenAI שמבטיחה לשנות את המשחק לחלוטין.
במשך שנים, בינה מלאכותית תקועה בדפוס - תגובות מהירות יותר, תפוקות נוצצות יותר, אבל לא בהכרח חכמות יותר.
עם o3, OpenAI אומר, "האט. בואו נעשה את זה נכון."
כאשר OpenAI חשפה את o3 במהלך אירוע "shipmas" בן 12 הימים שלה, זו לא הייתה סתם עוד הכרזה בשוק בינה מלאכותית צפוף.
המודל הזה, לטענתם, לא רק חכם יותר - הוא מתחשב יותר .
בבסיסו, o3 הוא חלק ממשפחת "דגמי ההיגיון" של OpenAI.
בניגוד לבינה מלאכותית מסורתית, שלעתים קרובות מסתמכת על כוח חישוב גס כדי לספק תשובות, מודלים של הגיון כמו o3 נועדו לעבד מידע יותר כמו בני אדם.
אבל מה מייחד את o3?
OpenAI דילגה על "o2" בגלל התנגשות בסימן מסחרי עם ספקית טלקום בריטית, O2.
כן, קראתם נכון.
סם אלטמן, מנכ"ל OpenAI, אף אישר זאת במהלך שידור חי.
בעולם הטכנולוגיה, אפילו מתן שמות לדגמי בינה מלאכותית יכולה לבוא עם דרמה משפטית.
אבל די בקשר לשם. בואו נדבר על למה הדגם הזה מפנה ראשים.
אם אתה בעניין של נתונים, כאן הדברים נעשים עסיסיים.
אחד ההישגים הבולטים ביותר של O3 הוא הביצועים שלו במדד ARC AGI - מבחן שנועד למדוד אם בינה מלאכותית יכולה ללמוד ולהכליל מיומנויות חדשות, לא רק להחזיר את מה שהוא אומן עליו.
דמיינו את זה: מקבלים סדרה של תבניות גיאומטריות ומתבקשים לחזות את הדוגמה הבאה.
בלי דוגמאות קודמות, בלי תבניות שנשמרו בעל פה - רק נימוקים גולמיים.
זה האתגר שמציב ARC AGI ל-AI.
ציון דרך זה משמעותי מכיוון ש-ARC AGI נחשב לתקן הזהב להערכת היכולת של AI לחשוב כמו אדם.
בפעם הראשונה, מודל AI עבר את הביצועים ברמת האדם במבחן זה.
מה קורה כאן?
מציגים לך רשת עם צורות צבעוניות ושואלים אותך, "אם זה הקלט, איך הפלט אמור להיראות?"
ה-AI מקבל כמה דוגמאות כיצד רשתות קלט הופכות לרשתות פלט.
הדוגמאות עוקבות אחר הגיון או כללים ספציפיים.
לְמָשָׁל:
המטרה?
למה זה כל כך קשה ל-AI?
בני אדם עושים את זה כל הזמן.
לדוגמה, אם מישהו אומר, "הוסף קו מתאר אדום לכל דבר עם נקודות אדומות", אתה מקבל את זה מיד.
AI, לעומת זאת, נאבקת כי היא לא "מבינה" את הרעיון של אדום או קווי מתאר - היא רק מעבדת דפוסים בנתונים.
מבחן ARC דוחף AI לחשוב מעבר לתשובות שנלמדו מראש.
כל מבחן הוא ייחודי, אז שינון לא יעזור.
מה לגבי המבחן האחרון (עם האימוג'י 🤔)?
כאן הדברים נעשים ממש מסובכים.
קלט הבדיקה מערבב דברים: יש ריבוע צהוב עם נקודות מגנטה.
ה-AI לא ראה מגנטה בעבר - מה הוא צריך לעשות?
בני אדם עשויים לנחש, "אולי זה צריך לקבל גבול מגנטה", אבל זה דורש היגיון וקפיצת היגיון.
עבור AI, זה כמו שמתבקשים לקפוץ מצוק עם עיניים מכוסות.
זה לגמרי מחוץ לאימון שלו.
O3 קבעה רף חדש בחשיבת AI על ידי הצטיינות במבחן ARC AGI.
בהגדרות של מחשוב נמוך, O3 קיבל ציון של 76% בערכת ה-holdout למחצה - ביצועים הרבה מעל כל דגם קודם.
אבל פריצת הדרך האמיתית הגיעה כאשר נבדקה על הגדרות מחשוב גבוהות, שבהן O3 השיג 88% יוצאי דופן, מעבר לרף 85% הנחשב לעתים קרובות לביצועים ברמת האדם.
הגרף מראה ש-O3 משיג דיוק של 71.7% ב- Bench Verified , אמת מידה המדמה משימות הנדסת תוכנה בעולם האמיתי.
זהו שיפור של 46% ביחס ל-O1, המעיד על הכוח של O3 בפתרון אתגרים מורכבים ומעשיים שמפתחים מתמודדים מדי יום.
בקידוד תחרותי, ההבדל הוא אפילו יותר דרמטי.
עם ציון ELO של 2727 , O3 לא רק עולה על 1891 של O1 - הוא נכנס לליגה מתחרה למתכנתים אנושיים מובילים.
בהקשר, ELO מעל 2400 נחשב בדרך כלל לרמת גראנדמאסטר ודירוג ה-Codeforces שלו של 2727 מציב אותו ב -0.8% המובילים של המקודדים האנושיים.
בבחינת ההזמנה האמריקאית במתמטיקה לשנת 2024, o3 השיגה ציון של 96.7% מוריד לסתות, וחסרה רק שאלה אחת.
ב-GPQA Diamond, קבוצה של שאלות מדעיות ברמת דוקטורט, o3 השיגה דיוק של 87.7% - הישג בלתי נסבל עבור דגמי AI.
אלה לא רק מספרים - הם הוכחה לכך ש-o3 מתמודדת עם אתגרים שפעם נראו מחוץ להישג ידם של מכונות.
O3 לא רק מגיב כמו רוב הבינה המלאכותית - הוא לוקח נשימה, עוצר וחושב.
תחשוב על זה בתור ההבדל בין פלטת תשובה לבין שקלול קפדני של האפשרויות לפני שאתה מדבר.
זה אפשרי הודות למשהו שנקרא יישור דיוני .
זה כמו לתת ל-O3 מצפן מוסרי, ללמד אותו את כללי הבטיחות והאתיקה בשפה פשוטה, ולהראות לו איך לחשוב דרך מצבים קשים במקום רק להגיב.
דוגמה מהירה
תאר לעצמך מישהו שמנסה להערים על O3 על ידי קידוד בקשה מזיקה באמצעות צופן ROT13 (בעצם, הודעה מקושקשת).
הם מבקשים עצה לגבי הסתרת פעילות בלתי חוקית.
AI פחות מתקדם עשוי לקחת את הפיתיון, אבל O3?
הוא מפענח את הבקשה, מבין שהיא מפוקפקת, ומצליב את מדיניות הבטיחות של OpenAI.
זה לא רק חוסם את התגובה.
היא מנמקת מדוע בקשה זו חוצה גבולות אתיים ומספקת סירוב ברור.
זהו בינה מלאכותית עם מצפון - או קרוב לאחד כפי שראינו אי פעם.
כך עובד תהליך החשיבה של O3:
1 - זה קורא את הכללים
במקום לנחש מה נכון או לא נכון, O3 מאומן עם הנחיות בטיחות אמיתיות הכתובות בשפה פשוטה.
זה לא מסתמך רק על דוגמאות כדי להסיק התנהגות - זה לומד את ספר החוקים מראש.
2 - זה חושב צעד אחר צעד
כאשר מתמודדים עם משימה מסובכת או בעלת ניואנסים, O3 לא קופץ למסקנות.
הוא משתמש במה שנקרא חשיבה של שרשרת מחשבה - פירוק הבעיה, צעד אחר צעד, כדי להבין את התגובה הטובה ביותר.
3 - זה מסתגל לרגע
לא כל מצב זהה.
חלק מהמשימות דורשות תשובות מהירות, אחרות דורשות הרהור מעמיק.
O3 מתאימה את המאמץ שלה בהתאם למורכבות הבעיה, כך שהיא יעילה כשאפשר ויסודי כשצריך.
לצד O3, OpenAI הציגה את O3 Mini, גרסה חסכונית המיועדת למשימות שאינן דורשות את מלוא הכוח של אחיו הגדול.
מה מיוחד ב-O3 Mini?
זמן חשיבה מסתגל המשתמשים יכולים להתאים את מאמץ החשיבה של המודל בהתבסס על מורכבות המשימה.
צריך תשובה מהירה? לך על נימוקים במאמץ נמוך.
מתמודדים עם בעיית קידוד מורכבת? הפעל אותו למצב מאמץ גבוה.
מאזן עלות-ביצועים O3 Mini מספק כמעט את אותה רמת דיוק כמו O3 עבור משימות פשוטות יותר, אך בשבריר מהעלות.
הגמישות הזו הופכת את O3 Mini לאופציה אטרקטיבית עבור מפתחים וחוקרים העובדים על תקציב.
כאן הדברים הופכים לפילוסופיים.
AGI, או בינה כללית מלאכותית , מתייחסת לבינה מלאכותית שיכולה לבצע כל משימה שאדם יכול - ולרוב טוב יותר.
ל-OpenAI תמיד היה AGI ככוכב הצפון שלה, ועם o3, זה מרגיש כאילו הם מתקרבים.
שקול את זה:
עם זאת, אפילו OpenAI מודה ש-o3 עדיין לא AGI.
זה יותר כמו אב טיפוס של איך AGI יכולה להיראות - בינה מלאכותית שלומדת, מסתגלת ומסיבה בדרכים שמרגישות... אנושיות.
האתגרים שלפנינו אפילו עם היכולות המדהימות שלו, o3 אינו חף מפגמים:
o3 הוא לא סתם עוד מודל בינה מלאכותית - הוא הצצה למה ש-AI עשוי להפוך.
זה לא מושלם, אבל זה צעד לקראת עידן שבו מכונות לא רק מגיבות - הן מנמקות, לומדות ומסתגלות בדרכים שמרגישות אנושיות עמוקות.
ולמרות שאנחנו עדיין רחוקים מ-AGI, o3 מזכירה לנו שההתקדמות אינה ליניארית - היא אקספוננציאלית.
אז מה אתה חושב? האם אנחנו על סף מהפכת בינה מלאכותית חדשה? או ש-o3 הוא רק עוד אבן דרך במסע ארוך בהרבה?