איור המדגים כיצד ניתן להפוך שיפוטי פתיחות כמותיים למדדים ניתנים לפעולה על ידי הקצאת משקלים לתכונות ספציפיות כדי ליצור שיפוע של הערכה.
בבלוג זה, אנו צוללים עמוק לתוך המורכבות של פתיחות בינה מלאכותית, תוך התמקדות כיצד עקרונות הקוד הפתוח חלים - או אינם מיושמים - על מודלים של שפה גדולה (LLMs) כמו BloomZ ו-Llama 2. עד סוף מאמר זה, תוכל להבין את ההקשר ההיסטורי של רישוי קוד פתוח, את האתגרים הנוכחיים בהגדרת "פתיחות" בבינה מלאכותית, ותופעת "כביסה פתוחה", שמטעה צרכנים ומפתחים כאחד. אנו גם מציגים מסגרת הערכה מקיפה המשלבת את הגדרת AI הקוד הפתוח (OSAID) עם תובנות משלימות ממסגרות אחרות כדי לעזור לך לקבל החלטות מושכלות יותר לגבי מודלים של AI. לבסוף, נסיים עם שיטות עבודה מומלצות לפיתוח שיקול דעת מורכב למדידת שקיפות כמותית עבור כל מודל שפה גדול "קוד פתוח".
זה גם מועיל לחקור חלופות המשלימות הגדרות מקובלות. כפי שנדון, כמה פרספקטיבות - כולל ניתוחים עדכניים - מצביעות על כך שמסגרות כמו הגדרת בינה מלאכותית בקוד פתוח (OSAID) נהנות מממדים נוספים, במיוחד באופן שבו הן מתייחסות לבעיות כמו שקיפות נתונים. מסגרת הפתיחות של המודל והשורשים שלה בעקרונות המדע הפתוח מציעים פרספקטיבה משלימה שעשויה לשמש מדריך נוסף להערכת פתיחות בינה מלאכותית. אנחנו עדיין בימים הראשונים של ציות לרגולציה בתחום זה.
עולם הבינה המלאכותית מורכב ומתפתח במהירות, ולעתים קרובות דוחף את עקרונות הקוד הפתוח לגבולותיהם. הבנת הניואנסים הללו חיונית למפתחים, חוקרים וצרכנים שרוצים להבטיח שמערכות בינה מלאכותית אינן רק חדשניות אלא גם שקופות, אתיות ואחראיות. עם עליית ה"כביסה הפתוחה" - שבה מודלים של בינה מלאכותית משווקים באופן שקרי כקוד פתוח - חשוב יותר מאי פעם שתהיה מסגרת חזקה להערכת טענות אלו. על ידי הצטיידות בידע זה, תוכל לקבל החלטות מושכלות המתאימות לערכים האמיתיים של פתיחות ושקיפות בפיתוח AI.
כדי להבין לאן אנחנו הולכים, חיוני לדעת היכן היינו. תנועת הקוד הפתוח נולדה מתוך מרד נגד הדומיננטיות ההולכת וגוברת של תוכנה קניינית בשנות ה-80, כאשר קרן התוכנה החופשית (FSF) והציגה את הרישיון הציבורי הכללי של GNU (GPL). רישיון זה היה מחליף משחקים, הבטיח למשתמשים את החופש להשתמש, לשנות ולשתף בתוכנה - בעצם החזיר את הכוח לידיים של מפתחים ומשתמשים.
מהר קדימה לסוף שנות ה-90, ויוזמת הקוד הפתוח (OSI) הוקמה כדי לקדם ולהגן על תוכנת קוד פתוח על ידי אישור רישיונות שתואמים להגדרת הקוד הפתוח (OSD). ה-OSD קבע את החוק למה שאפשר ומה לא יכול להיקרא "קוד פתוח", והבטיח שהמונח לא יורד או יעשה שימוש לרעה.
היכנסו לעולם הבינה המלאכותית, שבו הקווים בין מערכות פתוחות לסגורות נעשים מטושטשים עוד יותר. מודלים של שפה גדולה (LLMs), כגון GPT-3 או יורשיו, משמשים דוגמא מצוינת לאופן שבו "קוד פתוח" יכול להיות מונח מטעה בנוף הבינה המלאכותית. LLMs הן מערכות AI מתוחכמות המאומנות על מערכי נתונים מסיביים ליצירת טקסט דמוי אדם. מודלים אלו עוררו עניין והשקעה משמעותיים בשל יכולתם לבצע מגוון רחב של משימות, מתרגום ועד כתיבה יצירתית. עם זאת, למרות היכולות המרשימות של מודלים אלו, מושג ה"פתיחות" נופל פעמים רבות כאשר בוחנים אותם מקרוב.
במאמר המחקר "Rethinking Source Open Generative AI: Open-Washing and the EU AI Act", בניתוח שלהם, החוקרים ד"ר ליזנפלד וצוותו משווים את BloomZ ו-Llama 2, שני לימודי LLM בולטים, כדוגמאות לדרגות שונות של פתיחות ב- AI. השוואה זו מציעה הדגמה מעשית כיצד ליישם מטריצת פתיחות על מודלים של בינה מלאכותית:
BloomZ מייצגת מודל שמאמץ באמת ובתמים את עקרונות הקוד הפתוח, ומציב סטנדרט גבוה לשקיפות ונגישות ב-AI.
בניגוד גמור, Llama 2 מדגים את המושג "כביסה פתוחה", שבו התווית של קוד פתוח מיושמת מבלי לעמוד במלואו בעקרונות הפתיחות.
זמינות : בניגוד גמור, Llama 2 אינו הופך את קוד המקור שלו לזמין. רק הסקריפטים להפעלת המודל משותפים, ונתוני ה-LLM מתוארים בצורה מעורפלת, עם פרטים מוגבלים מסופקים בהדפסה מוקדמת של החברה. הגישה למשקולות הדגם הבסיסיות מוגבלת, מחייבת טופס הסכמה, והנתונים המשמשים לכוונון ההוראות נותרו בלתי נחשפים, מה שמגביל עוד יותר את השקיפות.
תיעוד : התיעוד עבור Llama 2 הוא מינימלי, כאשר קוד המקור עצמו אינו פתוח. הארכיטקטורה מתוארת בפחות פירוט, מפוזרת על פני אתרי אינטרנט ארגוניים והדפסה מוקדמת אחת. שלא כמו BloomZ, ל-Llama חסר תיעוד מקיף של מערכי ההדרכה שלה, כוונון הוראות ותהליכי כוונון עדין.
גישה ורישוי : Llama 2 זמין מאחורי טופס הרשמה שפוגע בפרטיות, והרישוי שלו מטופל תחת רישיון הקהילה של Meta. רישיון זה פחות מחמיר מ-RAIL של BloomZ, עם רף נמוך יותר לאופן ייצוג התוכן שנוצר, מה שמותיר מקום ליישומים שעלולים להטעות.
ההשוואה בין BloomZ ל-Llama 2 מדגישה את ההבדלים הבולטים בגישתם לפתיחות. BloomZ היא דוגמה מצוינת למודל המאמצים באמת ובתמים את עקרונות הקוד הפתוח, עם שקיפות בקוד, בנתונים ובתיעוד שלו. לעומת זאת, Llama 2 מדגים "כביסה פתוחה", כאשר המודל מתויג כקוד פתוח אך נופל ברוב ההיבטים של פתיחות אמיתית, כאשר רק משקלי הדגם נגישים בתנאים מגבילים. השוואה זו מדגישה את הצורך בהבנה מגוונת יותר של פתיחות ב-AI ואת החשיבות של הערכת מודלים המבוססים על מערכת מקיפה של קריטריונים במקום להסתמך על טענות שטחיות של פתיחות.
"כביסה פתוחה" היא התרגול של הטחת תווית קוד פתוח על משהו שאינו פתוח באמת. בעולם הבינה המלאכותית, הכביסה הפתוחה משתוללת, כאשר חברות מציעות חלקים וחלקים ממערכות הבינה המלאכותית שלהן תוך שמירה על הרכיבים החשובים ביותר במנעול ובמפתח.
מאמר המחקר מתעמק בפרטים המלוכלכים של כביסה פתוחה ב-AI, ומדגיש כמה מהאתגרים המרכזיים:
פתיחות מורכבת: פתיחות בבינה מלאכותית היא לא מושג אחד שמתאים לכולם. זהו פאזל עם חלקים רבים, וכל חלק תורם לשקיפות הכללית של המערכת. עם זאת, לעתים קרובות מדי, חברות משחררות רק חלק מהחלקים, מה שמוביל לתחושת פתיחות מטעה. המחקר מציג את הרעיון של פתיחות שיפועית, ומדגיש שיש לראות בפתיחות בבינה מלאכותית ספקטרום ולא כמצב בינארי. רכיבים שונים של מערכת AI - קוד מקור, נתונים, מודלים - יכולים להיות פתוחים בדרגות שונות, וחשוב להעריך כל רכיב בנפרד. על ידי הבנת השיפוע הזה, נוכל להעריך טוב יותר את הפתיחות האמיתית של מערכות בינה מלאכותית ולהימנע מלהטעות על ידי שקיפות חלקית.
פתיחות סלקטיבית: חלק מדגמי הבינה המלאכותית משוחררים עם מספיק פתיחות כדי להסתדר - בדרך כלל משקלי המודל - אבל הרכיבים הקריטיים, כמו הנתונים ותהליך ההדרכה, נשארים קנייניים. הפתיחות הסלקטיבית הזו היא ניסיון חצי אפוי לשקיפות שעושה יותר נזק מתועלת. על ידי מתן גישה חלקית בלבד, חברות יכולות לטעון לפתיחות מבלי לספק את השקיפות המלאה הדרושה לשיתוף פעולה והבנה משמעותיים.
פרצות רגולטוריות: חוק הבינה המלאכותית של האיחוד האירופי, מסגרת רגולטורית עם כוונות טובות, עשוי לעודד בטעות כביסה פתוחה על ידי כך שיאפשר לדגמי בינה מלאכותית שפורסמו תחת רישיונות פתוחים לעקוף דרישות תיעוד מפורטות. פרצה זו עלולה להוביל להצפה של מערכות בינה מלאכותית שהן "פתוחות" לשמה בלבד, עם מעט או ללא שקיפות אמיתית. בעוד שהכוונה מאחורי תקנות מסוג זה היא לקדם פתיחות, ללא יישום ופיקוח זהיר, ניתן לנצל אותן כדי ליצור אשליה של פתיחות ללא המהות.
ג'וליה פראיולי נוגעת גם בסוגיית הכביסה הפתוחה בפוסט בבלוג שלה, ומציינת, "עיקר הבעיה הוא שמונחים כמו 'קוד פתוח' נמתחים ומוגדרים מחדש כך שיתאימו לאג'נדות של חברות גדולות שמתעניינות יותר בשיווק מאשר בשקיפות אמיתית ובשיתוף פעולה". תובנה זו מחזקת את הצורך במסגרת הערכה חזקה כדי לנפות את הטענות המטעות הללו.
מסגרת הפתיחות המודל שהוצגה בדיונים האחרונים משלימה חלק מהתובנות הללו על ידי כך שהיא מציעה גישה המותאמת למדע פתוח לשקיפות. בעוד שהגדרת הבינה המלאכותית בקוד פתוח (OSAID) מספקת בסיס איתן, רבים מהתחום - כולל כמה חוקרים - מאמינים שהיא עשויה לא להגיע רחוק מספיק, במיוחד כשמדובר בשקיפות נתונים. מסגרת הפתיחות של המודל, לשם השוואה, מציבה רף מחמיר יותר, תוך שימת דגש לא רק על הפתיחות של הקוד אלא גם את הזמינות של מערכי נתונים, מתודולוגיות ותהליכי הכשרה בהתאם לערכי Open Science.
מתרחב עם פתיחות מדורגת
בהתבסס על OSAID, הרעיון של פתיחות שיפוע מוסיף ניואנסים לתהליך ההערכה. על ידי הערכת כל רכיב של מערכת AI - קוד מקור, נתונים, מודלים - בנפרד, נוכל להבין טוב יותר את רמת השקיפות והפתיחות האמיתית.
מאמר זה שהוזכר מציע תובנות מפתח מהמחקר:
אתגרים של התאמות רישוי: רישיונות קוד פתוח מסורתיים תוכננו עבור תוכנה, לא עבור האופי המורכב ורב הפנים של AI. המאמר טוען שדרושות אסטרטגיות רישוי חדשות כדי להתמודד עם האתגרים הייחודיים שמציבה הבינה המלאכותית. רישיונות אלה צריכים להבטיח שלא רק קוד המקור אלא גם הנתונים, המודלים והפרמטרים מכוסים תחת עקרונות הקוד הפתוח. גישה הוליסטית זו לרישוי חיונית לשמירה על שלמות תנועת הקוד הפתוח בעידן הבינה המלאכותית.
שיקולים אתיים: מעבר לפתיחות טכנית, המאמר מדגיש גם את החשיבות של שיקולים אתיים בפיתוח ובפריסה של AI. הוא מציין כי הבטחת הוגנות, אחריות ושקיפות במערכות AI אינה רק אתגר טכני אלא ציווי מוסרי. הממד האתי של פיתוח בינה מלאכותית חייב להיות משולב בכל דיון על פתיחות, שכן שקיפות ללא אחריות עלולה להוביל לפגיעה משמעותית.
גישה מעשית: החוקרים מתארים כמה דרכים סבירות לבסס מהימנות קטגורית אפילו תחת רישיון מורכב. על ידי שילוב של הגדרת AI בקוד פתוח (OSAID) עם תובנות עמוקות יותר אלו, נוכל לבנות מסגרת חזקה יותר להערכת מערכות בינה מלאכותית. גישה זו מאפשרת הערכה מגוונת ומקיפה יותר של מודלים של AI, ומבטיחה שהם עומדים בסטנדרטים טכניים ואתיים של פתיחות כאחד.
אחד האתגרים היותר ניואנסים בפתיחות בינה מלאכותית הוא הנושא של גירסת LLM. בניגוד לחבילות תוכנה מסורתיות, שבהן עדכוני גרסאות בדרך כלל מתועדים היטב ושקופים, LLMs יכולים לעבור עדכונים אטומים, ומשאירים את המשתמשים בחושך לגבי מה שהשתנה. חוסר השקיפות הזה דומה להתקנת עדכון למערכת ההפעלה מבלי לדעת מה השתנה - מלבד שבמקרה של LLMs, ההימור גבוה אף יותר.
השוואת מערכת ההפעלה: דמיינו שאתם מתקין מערכת הפעלה במחשב ומקבלים עדכונים באופן קבוע. בדרך כלל, אתה מצפה לראות יומן שינויים, המפרט מה תוקן, שופר או הוסיף. שקיפות זו חיונית למשתמשים כדי להבין את מצב המערכת שלהם. עכשיו, שקול LLM שמתעדכן ללא הרף ללא שקיפות כזו. משתמשים עשויים למצוא את עצמם עובדים עם מודל שהשתנה בדרכים עדינות או משמעותיות ללא כל הבנה ברורה של השינויים הללו. חוסר שקיפות זה יכול להוביל לבעיות הנעות בין ביצועים מושפלים לחששות אתיים, שכן המודל עשוי להתנהג בדרכים בלתי צפויות. ההשוואה מדגישה את הסיכונים הכרוכים בשימוש במודלים של AI שאינם שקופים לגבי העדכונים שלהם, תוך שימת דגש על הצורך במידע ברור ונגיש לגירסה.
הסיכונים של עדכונים אטומים: ללא שקיפות, משתמשים לא יכולים לסמוך באופן מלא על מערכות הבינה המלאכותית שבהן הם משתמשים. בדיוק כפי שלא תתקין עדכון מערכת הפעלה בלי לדעת מה השתנה, הסתמכות על LLM שעובר עדכונים אטומים היא מסוכנת. זה מדאיג במיוחד בסביבות עם סיכון גבוה בהן נעשה שימוש בבינה מלאכותית לתהליכי קבלת החלטות המשפיעים על החיים האמיתיים. אם עדכון LLM מציג הטיות חדשות או מסיר פונקציונליות חשובה, ההשלכות עלולות להיות חמורות. חוסר השקיפות לא רק מערער את אמון המשתמשים אלא גם מעלה סיכונים אתיים ותפעוליים משמעותיים.
כדי לעזור לנווט באתגרים אלו, אנו מציגים מסגרת הערכה מקיפה המשלבת את החוזקות של הגדרת הבינה המלאכותית בקוד פתוח (OSIAID) עם תובנות מעמיקות יותר ממחקרים עדכניים. מסגרת זו שואפת לספק שיטה חזקה יותר להערכת הפתיחות של מערכות AI.
OSIAID כבסיס: הגדרת הבינה המלאכותית בקוד פתוח מספקת בסיס איתן להבנת מהי מערכת בינה מלאכותית בקוד פתוח. הוא מציג קריטריונים ברורים לשקיפות, נגישות ושימוש אתי, ומבטיח שמודלים של AI עומדים בסטנדרט מינימלי של פתיחות. על ידי הקפדה על OSIAID, מפתחים ומשתמשים יכולים להיות בטוחים שמודל AI עומד בסטנדרטים בסיסיים של פתיחות ושקיפות.
התרחבות עם פתיחות הדרגתית: בהתבסס על OSIAID, הרעיון של פתיחות הדרגתית מוסיף ניואנסים לתהליך ההערכה. על ידי הערכת כל רכיב של מערכת AI - קוד מקור, נתונים, מודלים - בנפרד, נוכל להבין טוב יותר את רמת השקיפות והפתיחות האמיתית. אלה עשויים להיות אינדיקטורים לתיאבון הסיכון והמסגרת של הארגון שלך או סטנדרטיים בין ארגונים. גישה זו מאפשרת הערכה מפורטת ומדויקת יותר של מודלים של בינה מלאכותית, זיהוי אזורים שבהם הפתיחות חזקה ואיפה היא עשויה להזדקק לשיפור.
טיפול בהשלכות אתיות ומשפטיות: המסגרת משלבת גם שיקולים אתיים ומשפטיים, ומבטיחה שמערכות בינה מלאכותית לא רק פתוחות מבחינה טכנית אלא גם מתואמות עם ערכים חברתיים רחבים יותר ודרישות משפטיות. על ידי שילוב שיקולים אלה, המסגרת מבטיחה שפתיחות היא לא רק שקיפות טכנית אלא גם בעמידה בסטנדרטים האתיים והמשפטיים שהם חיוניים בפיתוח AI.
ההדגשה של ג'וליה פראיולי על הצורך בהגדרות ברורות ומחויבות לעקרונות של קוד פתוח מהדהדת עם גישה זו. היא כותבת, "קהילת הקוד הפתוח חייבת להיאחז בערכיה, ולהבטיח שכל חריגה תיענה בבדיקה ביקורתית ובדרישה לשקיפות". פרקטיקות אלה נועדו לענות על צורך זה, ולספק מסגרת חזקה ומקיפה להערכת מערכות בינה מלאכותית.
ככל שנוף הרגולציה של AI ממשיך להתפתח, חיוני להישאר מעודכן ומעורב בהתפתחויות הרגולטוריות. חוק הבינה המלאכותית של האיחוד האירופי ומסגרות דומות ישחקו תפקיד משמעותי בעיצוב עתיד הפתיחות והשקיפות של הבינה המלאכותית. על ידי הבנה והשתתפות בדיונים אלה, אתה יכול לעזור להבטיח שמסגרות רגולטוריות מקדמות ביעילות שקיפות ואחריות ב-AI.
עולם הבינה המלאכותית מורכב, מבולגן ומלא באתגרים שתנועת הקוד הפתוח לא תוכננה להתמודד במקור. אבל זה לא אומר שעלינו לוותר על האידיאלים של שקיפות, שיתוף פעולה ופתיחות. במקום זאת, עלינו להסתגל, להתפתח ולהבטיח שבינה מלאכותית בקוד פתוח עדיין מייצגת את ארבע החירויות הנחוצות כדי להתאים להגדרה.
בזמן שאנו מנווטים בעולם החדש הזה, שיתוף הפעולה בין קהילת הקוד הפתוח, גופי רגולציה ומפתחי בינה מלאכותית יהיה מכריע. על ידי התמודדות עם האתגרים של כביסה פתוחה, חשיבה מחודשת על הגישה שלנו לרישוי ואימוץ מסגרות רגולטוריות חזקות, נוכל לבנות מערכת אקולוגית של AI שהיא לא רק חדשנית אלא גם אתית ואחראית.
AI כאן כדי להישאר, וזה תלוי בנו לוודא שהוא משרת את הטוב הגדול יותר. בסופו של דבר, אני אשאיר אתכם עם המחשבה החשובה הזו ישירות מחוקרי העבודה החשובה הזו:
"אולי זה לא מקרי שחוקרים במימון ציבורי מובילים את הדרך בקריאת כביסה פתוחה: לא מחויבים לאינטרסים תאגידיים וללא תמריצים להייפ בינה מלאכותית, אנחנו יכולים לקחת צעד אחורה ולחשוף מה הטכנולוגיה הגדולה עושה - ולתכנן דרכים בונות לתת להם דין וחשבון". ד"ר ליזנפלד.
צוות מחקר זה מעורב באופן פעיל במספר יוזמות הקשורות לחוק ה-AI של האיחוד האירופי, במיוחד תוך התמקדות במה ש"סיכום מפורט מספיק" בתיעוד AI יכלול בפועל. עבודה זו מתבצעת בשיתוף קרן מוזילה וקרן עתיד פתוח . הצוות גם ממשיך בעבודתו האקדמית בנושא הערכה טכנולוגית ומתכוון לשחרר אתר אינטרנט חדש בהמשך השנה שישמש משאב ציבורי להערכת פתיחות, מה שיהפוך את הכלים הללו לנגישים יותר לציבור הרחב. יוזמה זו נועדה לספק סטנדרטים ומסגרות ברורות יותר כדי להטיל אחריות על חברות לשקיפות ב-AI.
הגדרת הבינה המלאכותית בקוד פתוח (OSAID) עדיין פתוחה לביקורת ומשוב ציבוריים. אם תרצה להשתתף בעיצוב העתיד של AI בקוד פתוח, תוכל להגיש הערות על הטיוטה הנוכחית כאן . הגרסה הסופית של ההגדרה תוכרז בכנס All Things Open (ATO) שיתקיים בשנת 2024. הישארו מעודכנים לעדכונים נוספים כשהקהילה ממשיכה לשכלל את המסגרת הקריטית הזו לפיתוח AI פתוח.
בסופו של יום, אם אתה מתכוון לקחת סיכון מחושב באמצעות LLMs אלה, אז אתה צריך למדוד את הסיכון הזה. אני מקווה שזה נותן לך כמה דרכים לעשות את זה, ואני בהחלט רוצה שתפנה אליי אם יש לך מדדים כמותיים או שיפורים לפתרונות המוצעים לעיל או בדרך כלל כל שאלה בנושא זה שלא הצלחתי לכסות כאן .