היסטוריה חדשה

האם ה-o3 של OpenAI סוף סוף חושב כמו אדם?

על ידי Nitesh Padghan8m2024/12/31

יותר מדי זמן; לקרוא

מודל ה-o3 של OpenAI מביא קפיצת מדרגה בהיגיון בינה מלאכותית, ומצטיין במדדי קידוד, מתמטיקה ואינטליגנציה כללית. האם זה יכול להיות הצעד הבא לקראת AGI אמיתי?

featured image - האם ה-o3 של OpenAI סוף סוף חושב כמו אדם?

תאר לעצמך את זה: אתה שואל את עוזר הבינה המלאכותית שלך שאלה, ובמקום לירוק תשובה חצי אפויה באלפיות שניות, הוא עוצר.

זה חושב. זה נימוק.

ואז, זה נותן תגובה כל כך מחושבת, שזה מרגיש כמעט... אנושי.

נשמע עתידני, נכון?

ובכן, ברוכים הבאים לדגם o3 , היצירה האחרונה של OpenAI שמבטיחה לשנות את המשחק לחלוטין.

במשך שנים, בינה מלאכותית תקועה בדפוס - תגובות מהירות יותר, תפוקות נוצצות יותר, אבל לא בהכרח חכמות יותר.

עם o3, OpenAI אומר, "האט. בואו נעשה את זה נכון."

דבר ראשון: מה זה o3?

כאשר OpenAI חשפה את o3 במהלך אירוע "shipmas" בן 12 הימים שלה, זו לא הייתה סתם עוד הכרזה בשוק בינה מלאכותית צפוף.

המודל הזה, לטענתם, לא רק חכם יותר - הוא מתחשב יותר .

בבסיסו, o3 הוא חלק ממשפחת "דגמי ההיגיון" של OpenAI.

בניגוד לבינה מלאכותית מסורתית, שלעתים קרובות מסתמכת על כוח חישוב גס כדי לספק תשובות, מודלים של הגיון כמו o3 נועדו לעבד מידע יותר כמו בני אדם.

אבל מה מייחד את o3?

זה בודק את עצמו: כשאתה שואל את זה שאלה, זה לא רק מגיב - זה מצליב ובודק פעמיים לאורך הדרך.
הוא חושב במהירויות שונות: בהתאם למשימה, אתה יכול להגדיר אותו למחשוב נמוך, בינוני או גבוה (בעצם אומר לו כמה "כוח מוח" להשתמש). זה אומר שהוא יכול להתמודד גם עם שאלות פשוטות וגם חידות מורכבות מבלי להזיע.
זה גמיש: יש את דגם ה-o3 המלא ואת אחיו הקטן יותר, o3-mini , המיועד למשימות קלות יותר ותקציבים מצומצמים יותר.

למה לקרוא לזה o3? ומה קרה ל-o2?

OpenAI דילגה על "o2" בגלל התנגשות בסימן מסחרי עם ספקית טלקום בריטית, O2.

כן, קראתם נכון.

סם אלטמן, מנכ"ל OpenAI, אף אישר זאת במהלך שידור חי.

בעולם הטכנולוגיה, אפילו מתן שמות לדגמי בינה מלאכותית יכולה לבוא עם דרמה משפטית.

אבל די בקשר לשם. בואו נדבר על למה הדגם הזה מפנה ראשים.

המספרים שמאחורי o3: למה זה מפוצץ מחשבות

אם אתה בעניין של נתונים, כאן הדברים נעשים עסיסיים.

1 - כוח הנמקה

אחד ההישגים הבולטים ביותר של O3 הוא הביצועים שלו במדד ARC AGI - מבחן שנועד למדוד אם בינה מלאכותית יכולה ללמוד ולהכליל מיומנויות חדשות, לא רק להחזיר את מה שהוא אומן עליו.

דמיינו את זה: מקבלים סדרה של תבניות גיאומטריות ומתבקשים לחזות את הדוגמה הבאה.

בלי דוגמאות קודמות, בלי תבניות שנשמרו בעל פה - רק נימוקים גולמיים.

זה האתגר שמציב ARC AGI ל-AI.

הציון של O1: 32%
הציון של O3: 88% (במחשב גבוה)

ציון דרך זה משמעותי מכיוון ש-ARC AGI נחשב לתקן הזהב להערכת היכולת של AI לחשוב כמו אדם.

בפעם הראשונה, מודל AI עבר את הביצועים ברמת האדם במבחן זה.

מה קורה כאן?

מציגים לך רשת עם צורות צבעוניות ושואלים אותך, "אם זה הקלט, איך הפלט אמור להיראות?"

ה-AI מקבל כמה דוגמאות כיצד רשתות קלט הופכות לרשתות פלט.

הדוגמאות עוקבות אחר הגיון או כללים ספציפיים.

לְמָשָׁל:

בדוגמה אחת, ריבוע צהוב עם נקודות אדומות בפנים מקבל גבול אדום.
באחר, ריבוע צהוב עם נקודות כחולות מקבל גבול כחול.

המטרה?

הבינה המלאכותית צריכה להבין את הכללים שמאחורי הטרנספורמציות הללו, מבלי שנאמר להם במפורש.
לאחר מכן, הוא צריך ליישם את הכללים האלה על רשת חדשה לגמרי ("קלט הבדיקה") וליצור את "פלט הבדיקה" הנכון.

למה זה כל כך קשה ל-AI?

בני אדם עושים את זה כל הזמן.

לדוגמה, אם מישהו אומר, "הוסף קו מתאר אדום לכל דבר עם נקודות אדומות", אתה מקבל את זה מיד.

AI, לעומת זאת, נאבקת כי היא לא "מבינה" את הרעיון של אדום או קווי מתאר - היא רק מעבדת דפוסים בנתונים.

מבחן ARC דוחף AI לחשוב מעבר לתשובות שנלמדו מראש.

כל מבחן הוא ייחודי, אז שינון לא יעזור.

מה לגבי המבחן האחרון (עם האימוג'י 🤔)?

כאן הדברים נעשים ממש מסובכים.

קלט הבדיקה מערבב דברים: יש ריבוע צהוב עם נקודות מגנטה.

ה-AI לא ראה מגנטה בעבר - מה הוא צריך לעשות?

בני אדם עשויים לנחש, "אולי זה צריך לקבל גבול מגנטה", אבל זה דורש היגיון וקפיצת היגיון.

עבור AI, זה כמו שמתבקשים לקפוץ מצוק עם עיניים מכוסות.

זה לגמרי מחוץ לאימון שלו.

2 - הביצועים המדהימים של O3

O3 קבעה רף חדש בחשיבת AI על ידי הצטיינות במבחן ARC AGI.

בהגדרות של מחשוב נמוך, O3 קיבל ציון של 76% בערכת ה-holdout למחצה - ביצועים הרבה מעל כל דגם קודם.

אבל פריצת הדרך האמיתית הגיעה כאשר נבדקה על הגדרות מחשוב גבוהות, שבהן O3 השיג 88% יוצאי דופן, מעבר לרף 85% הנחשב לעתים קרובות לביצועים ברמת האדם.

3 - קוסמות קידוד

הגרף מראה ש-O3 משיג דיוק של 71.7% ב- Bench Verified , אמת מידה המדמה משימות הנדסת תוכנה בעולם האמיתי.

זהו שיפור של 46% ביחס ל-O1, המעיד על הכוח של O3 בפתרון אתגרים מורכבים ומעשיים שמפתחים מתמודדים מדי יום.

בקידוד תחרותי, ההבדל הוא אפילו יותר דרמטי.

עם ציון ELO של 2727 , O3 לא רק עולה על 1891 של O1 - הוא נכנס לליגה מתחרה למתכנתים אנושיים מובילים.

בהקשר, ELO מעל 2400 נחשב בדרך כלל לרמת גראנדמאסטר ודירוג ה-Codeforces שלו של 2727 מציב אותו ב -0.8% המובילים של המקודדים האנושיים.

4 - גאון מתמטיקה

בבחינת ההזמנה האמריקאית במתמטיקה לשנת 2024, o3 השיגה ציון של 96.7% מוריד לסתות, וחסרה רק שאלה אחת.

5 - ילד פלא מדע

ב-GPQA Diamond, קבוצה של שאלות מדעיות ברמת דוקטורט, o3 השיגה דיוק של 87.7% - הישג בלתי נסבל עבור דגמי AI.

אלה לא רק מספרים - הם הוכחה לכך ש-o3 מתמודדת עם אתגרים שפעם נראו מחוץ להישג ידם של מכונות.

איך o3 חושב?

O3 לא רק מגיב כמו רוב הבינה המלאכותית - הוא לוקח נשימה, עוצר וחושב.

תחשוב על זה בתור ההבדל בין פלטת תשובה לבין שקלול קפדני של האפשרויות לפני שאתה מדבר.

זה אפשרי הודות למשהו שנקרא יישור דיוני .

זה כמו לתת ל-O3 מצפן מוסרי, ללמד אותו את כללי הבטיחות והאתיקה בשפה פשוטה, ולהראות לו איך לחשוב דרך מצבים קשים במקום רק להגיב.

דוגמה מהירה

תאר לעצמך מישהו שמנסה להערים על O3 על ידי קידוד בקשה מזיקה באמצעות צופן ROT13 (בעצם, הודעה מקושקשת).

הם מבקשים עצה לגבי הסתרת פעילות בלתי חוקית.

AI פחות מתקדם עשוי לקחת את הפיתיון, אבל O3?

הוא מפענח את הבקשה, מבין שהיא מפוקפקת, ומצליב את מדיניות הבטיחות של OpenAI.

זה לא רק חוסם את התגובה.

היא מנמקת מדוע בקשה זו חוצה גבולות אתיים ומספקת סירוב ברור.

זהו בינה מלאכותית עם מצפון - או קרוב לאחד כפי שראינו אי פעם.

כך עובד תהליך החשיבה של O3:

1 - זה קורא את הכללים

במקום לנחש מה נכון או לא נכון, O3 מאומן עם הנחיות בטיחות אמיתיות הכתובות בשפה פשוטה.

זה לא מסתמך רק על דוגמאות כדי להסיק התנהגות - זה לומד את ספר החוקים מראש.

2 - זה חושב צעד אחר צעד

כאשר מתמודדים עם משימה מסובכת או בעלת ניואנסים, O3 לא קופץ למסקנות.

הוא משתמש במה שנקרא חשיבה של שרשרת מחשבה - פירוק הבעיה, צעד אחר צעד, כדי להבין את התגובה הטובה ביותר.

3 - זה מסתגל לרגע

לא כל מצב זהה.

חלק מהמשימות דורשות תשובות מהירות, אחרות דורשות הרהור מעמיק.

O3 מתאימה את המאמץ שלה בהתאם למורכבות הבעיה, כך שהיא יעילה כשאפשר ויסודי כשצריך.

הכירו את O3 Mini: The Budget-Friendly Genius

לצד O3, OpenAI הציגה את O3 Mini, גרסה חסכונית המיועדת למשימות שאינן דורשות את מלוא הכוח של אחיו הגדול.

מה מיוחד ב-O3 Mini?

זמן חשיבה מסתגל המשתמשים יכולים להתאים את מאמץ החשיבה של המודל בהתבסס על מורכבות המשימה.

צריך תשובה מהירה? לך על נימוקים במאמץ נמוך.

מתמודדים עם בעיית קידוד מורכבת? הפעל אותו למצב מאמץ גבוה.

מאזן עלות-ביצועים O3 Mini מספק כמעט את אותה רמת דיוק כמו O3 עבור משימות פשוטות יותר, אך בשבריר מהעלות.

הגמישות הזו הופכת את O3 Mini לאופציה אטרקטיבית עבור מפתחים וחוקרים העובדים על תקציב.

האם זה העתיד של AI? צעד לקראת AGI

כאן הדברים הופכים לפילוסופיים.

AGI, או בינה כללית מלאכותית , מתייחסת לבינה מלאכותית שיכולה לבצע כל משימה שאדם יכול - ולרוב טוב יותר.

ל-OpenAI תמיד היה AGI ככוכב הצפון שלה, ועם o3, זה מרגיש כאילו הם מתקרבים.

שקול את זה:

ב-ARC-AGI, o3 כמעט שילשה את הביצועים של קודמו.
זה פתרון בעיות הדורשות למידה והיגיון, לא רק שינון.

עם זאת, אפילו OpenAI מודה ש-o3 עדיין לא AGI.

זה יותר כמו אב טיפוס של איך AGI יכולה להיראות - בינה מלאכותית שלומדת, מסתגלת ומסיבה בדרכים שמרגישות... אנושיות.

האתגרים שלפנינו אפילו עם היכולות המדהימות שלו, o3 אינו חף מפגמים:

עלות: הפעלת o3 בהגדרות מחשוב גבוהות היא יקרה - כמו 7 עד 8 אלף דולר לטא.
שגיאות: למרות שהוא טוב יותר בהיגיון, o3 עדיין יכול להתקלקל, במיוחד במשימות פשוטות יותר שבהן הוא חושב יותר מדי על הבעיה.
אתיקה: מודלים מוקדמים יותר כמו o1 התמודדו עם ביקורת על כך שניסו להונות משתמשים בתרחישים מסוימים. האם o3 תיפול לאותה מלכודת?