מחברים:
(1) Hanoona Rasheed, אוניברסיטת מוחמד בן זאיד לבינה מלאכותית ומחברים ראשונים תורמים באותה מידה;
(2) מוחמד מעז, אוניברסיטת מוחמד בן זאיד לבינה מלאכותית ובאותה מידה תורמים מחברים ראשונים;
(3) סחל שאג'י, אוניברסיטת מוחמד בן זאיד לבינה מלאכותית;
(4) עבדאלרחמן שאקר, אוניברסיטת מוחמד בן זאיד לבינה מלאכותית;
(5) סלמאן חאן, אוניברסיטת מוחמד בן זאיד לבינה מלאכותית והאוניברסיטה הלאומית של אוסטרליה;
(6) הישאם צ'ולקל, מוחמד בן זאיד אוניברסיטת AI;
(7) Rao M. Anwer, מוחמד בן זאיד אוניברסיטת AI ואוניברסיטת Aalto;
(8) אריק שינג, אוניברסיטת מוחמד בן זאיד לבינה מלאכותית ואוניברסיטת קרנגי מלון;
(9) מינג-הסואן יאנג, אוניברסיטת קליפורניה - מרסד ומחקר גוגל;
(10) Fahad S. Khan, מוחמד בן זאיד אוניברסיטת AI ואוניברסיטת לינקופינג.
הערת העורך: זהו חלק 1 מתוך 10 של מחקר המפרט את הפיתוח של מודל AI שנועד לתאר תמונות למשתמשים. קרא את השאר למטה.
חומר משלים (חלק 1)
חומר משלים (חלק 2)
מודלים רב-מודאליים גדולים (LMMs) מרחיבים את מודל השפה הגדול לתחום החזון. LMMs ראשוניים השתמשו בתמונות הוליסטיות ובהנחיות טקסט כדי ליצור תגובות טקסטואליות לא מבוססות. לאחרונה, נעשה שימוש ב-LMM ברמת האזור ליצירת תגובות מבוססות ויזואלית. עם זאת, הם מוגבלים להתייחסות רק לקטגוריית אובייקט בודדת בכל פעם, דורשות מהמשתמשים לציין את האזורים, או שאינן יכולות להציע הארקה צפופה של אובייקט לפיקסלים. בעבודה זו, אנו מציגים את Grounding LMM (GLaMM), המודל הראשון שיכול ליצור תגובות שפה טבעיות המשולבות בצורה חלקה עם מסכות פילוח אובייקטים מתאימות. GLaMM לא רק מבסס אובייקטים המופיעים בשיחות, אלא הוא גמיש מספיק כדי לקבל הודעות טקסטואליות ואופציונליות ויזואליות (אזור עניין) כקלט. זה מאפשר למשתמשים ליצור אינטראקציה עם המודל ברמות שונות של פירוט, הן בתחומים טקסטואליים והן בתחומים חזותיים. בשל היעדר אמות מידה סטנדרטיות עבור ההגדרה החדשנית של יצירת שיחות מבוססות חזותיות (GCG), אנו מציגים פרוטוקול הערכה מקיף עם השיחות המבוססות שלנו. משימת ה-GCG המוצעת שלנו דורשת מושגים מבוססים בצפיפות בסצנות טבעיות בקנה מידה גדול. לשם כך, אנו מציעים מערך נתונים צפוף ב-Grounding-anything (GranD) תוך שימוש בצינור ההערות האוטומטי המוצע שלנו, המקיף 7.5 מיליון מושגים ייחודיים המבוססים בסך הכל על 810 מיליון אזורים הזמינים עם מסכות פילוח. מלבד GCG, GLaMM גם מבצעת ביעילות בכמה משימות במורד הזרם, למשל, הפניה לפילוח ביטוי, כיתוב ברמת תמונה ואזור ושיחות בשפת חזון.
מונעים על ידי גל הבינה המלאכותית הגנרטיבית, מודלים רב-מודאליים גדולים (LMMs) הופיעו כהתקדמות מרכזית, המגשרים על הפער בין משימות חזון ומשימות שפה [2]. מאמצים ראשוניים כמו [6, 8, 22, 29, 52, 61] מדגימים תגובות טקסטואליות יעילות המבוססות על תמונות קלט. למרות שהמודלים הללו מתוחכמים, הם עדיין לא יכולים לבסס את התגובות שלהם בהקשר החזותי. הארקה כזו היא חיונית עבור יישומים מתקדמים כמו הבנה ויזואלית מפורטת, סוכנים מגולמים אינטראקטיביים ומניפולציה של תוכן מקומי. מאמצים אחרונים החלו לטפל במגבלה זו על ידי מתן אפשרות למודלים לעבד אזורים מוגדרי משתמש שצוינו באמצעות תיבות תוחמות [5, 31, 35, 36, 57].
כמה עבודות אחרונות חקרו יצירת תגובת טקסט מקורקעת [5, 21, 35, 59] אך אינן מספקות הארקה מפורטת ברמת הפיקסלים. במקביל לאלה, נעשו מאמצים בספרות הפילוח המתייחסת לביסוס תיאורים טקסטואליים בדימויים טבעיים [21]. עם זאת, הם מוגבלים לקרקע של אובייקט בודד ואינם יכולים להשתתף בשיחות טבעיות וקוהרנטיות, ובכך להגביל את הישימות המעשית שלהם במשימות אינטראקטיביות הדורשות הבנה עמוקה של תוכן חזותי וטקסטואלי כאחד. כדי לטפל במגבלות אלו של עבודות קיימות, אנו מציגים את הארקה LMM (GLaMM), המספקת בו-זמנית הבנת אזור מעמיקה, הארקה ברמת הפיקסלים ויכולות שיחה באמצעות גישת אימון מקצה לקצה (ראה איור 1 ו- Tab. 1).
כדי להתמודד עם היעדר אמות מידה לשיחות מבוססות ויזואלית, אנו מציגים את המשימה החדשה של יצירת שיחות מבוססות (GCG). משימת GCG שואפת לייצר תגובות שפה טבעיות המשולבות במסכות פילוח אובייקטים. משימה מאתגרת זו מאחדת מספר משימות קיימות בראייה ממוחשבת המטופלות בדרך כלל בבידוד, כלומר, הפניית פילוח ביטוי, כיתוב ברמת התמונה והאזור, הארקה של ביטויים ושיחות שפת חזון. לפיכך, המודל המאוחד שלנו ומערך הנתונים המוצעים של אימון מקדים יכולים לעבור ביעילות למספר משימות במורד הזרם (הכוונה לפילוח ביטוי, כיתוב ברמת האזור, כיתוב תמונה ו-QA בסגנון שיחה). אנו מציגים את GLaMM כדגם הראשון שתוכנן במיוחד למשימה מאתגרת זו. בניגוד לעבודות קודמות, GLaMM יכול לעבוד עם הנחיות טקסטואליות ווויזואליות כאחד ויכולה ליצור פלטים מבוססי חזותית, ובכך להציע חווית משתמש מגוונת.
הבנה מפורטת ברמת האזור דורשת תהליך מייגע של איסוף הערות בקנה מידה גדול עבור אזורי תמונה. אנו מציעים צינור אוטומטי לביאור מערך הנתונים "הארקה-כל דבר" (GranD) בקנה מידה גדול כדי להקל על מאמץ התיוג הידני. מינוף הצינור האוטומטי עם שלבי אימות ייעודיים, GranD כולל 7.5 מיליון מושגים ייחודיים המעוגנים ב-810 מיליון אזורים, כל אחד עם מסכת פילוח. באמצעות מודלים חדישים של חזון ושפה, מערך הנתונים מוסיף הערות לתמונות SAM [18] באמצעות סכמה היררכית מרובת רמות המשפרת את איכות ההערות. עם 11 מיליון תמונות, 84 מיליון ביטויים מפנים ו-33 מיליון כתוביות מקורקעות, GrandD מציבה רף חדש ברמת הרחבה. בנוסף למערך הנתונים שנוצר אוטומטית עבור ה-GCG, אנו מספקים את מערך הנתונים האיכותי הראשון עבור שיחות מבוססות המתקבלות על ידי חידוש מערכי הנתונים הקיימים עם הערות ידנית [16, 37, 49] עבור GCG באמצעות למידה ללא הקשר GPT-4 [34]. אנו מתייחסים למערך הנתונים האיכותי כ-Grandf , המציין את התאמתו לכוונון עדין.
לעבודה שלנו יש שלוש תרומות עיקריות:
• אנו מציגים את GLaMM, המודל הראשון המסוגל לייצר תגובות שפה טבעיות המשולבות בצורה חלקה עם מסכות פילוח אובייקטים. שלא כמו דגמים קיימים, GLaMM עונה להנחיות טקסטואליות וחזותיות, ומאפשרת אינטראקציה מולטי-מודאלית משופרת של משתמשים.
• מתוך הכרה בהיעדר אמות מידה סטנדרטיות עבור שיחות מבוססות ויזואלית, אנו מציעים את המשימה החדשה של יצירת שיחות מבוססות (GCG). אנו מציגים גם פרוטוקול הערכה מקיף למדידת היעילות של מודלים עבור GCG המאחד מספר משימות מבודדות, וממלא פער משמעותי בספרות.
• כדי להקל על הדרכה והערכה של מודלים, אנו יוצרים ערכת נתונים של Grounding-anything (GranD), מערך נתונים בקנה מידה גדול עם הערות צפופות. פותח באמצעות צינור הערות אוטומטי וקריטריוני אימות, הוא מקיף 7.5 מיליון מושגים ייחודיים המבוססים על 810 מיליון אזורים. בנוסף, אנו מציעים את GranDf , מערך נתונים באיכות גבוהה שתוכנן במפורש עבור כוונון עדין של משימות GCG, על ידי ייעוד מחדש של מערכי נתונים קיימים בקוד פתוח.
מאמר זה זמין ב-arxiv תחת רישיון CC BY 4.0 DEED.