מחברים:
(1) Hoon Kim, Beeble AI, ותרם באותה מידה לעבודה זו;
(2) Minje Jang, Beeble AI, ותרם באותה מידה לעבודה זו;
(3) Wonjun Yoon, Beeble AI, ותרם באותה מידה לעבודה זו;
(4) Jisoo Lee, Beeble AI, ותרם באותה מידה לעבודה זו;
(5) Donghyun Na, Beeble AI, ותרם באותה מידה לעבודה זו;
(6) Sanghyun Woo, אוניברסיטת ניו יורק, ותרם באותה מידה לעבודה זו.
הערת העורך: זהו חלק 1 מתוך 14 של מחקר המציג שיטה לשיפור האופן שבו ניתן ליישם אור וצללים על דיוקנאות אנושיים בתמונות דיגיטליות. קרא את השאר למטה.
נִספָּח
אנו מציגים גישה בעיצוב משותף להארה מחדש של דיוקנאות אנושית המשלבת ארכיטקטורה מונחית פיזיקה עם מסגרת אימון מוקדמת. בהתבסס על מודל ההחזר של קוק-טורנס, הגדרנו בקפידה את עיצוב הארכיטקטורה כדי לדמות במדויק אינטראקציות בין אור למשטח. יתרה מזאת, כדי להתגבר על המגבלה של נתוני בימת אור נדירים באיכות גבוהה, פיתחנו אסטרטגיית אימון קדם-אימון בפיקוח עצמי. שילוב חדש זה של מודלים פיזיים מדויקים ומערך נתונים מורחב של אימון מבסס רף חדש בהארה מחדש של ריאליזם.
תאורה מחדש היא יותר מכלי אסתטי; הוא פותח אפשרויות נרטיביות אינסופיות ומאפשר שילוב חלק של נושאים בסביבות מגוונות (ראה איור 1). התקדמות זו מהדהדת עם הרצון המולד שלנו להתעלות מעל האילוצים הפיזיים של מרחב וזמן, תוך מתן פתרונות מוחשיים לאתגרים מעשיים ביצירת תוכן דיגיטלי. זה משנה במיוחד ביישומי מציאות וירטואלית (VR) ומציאות רבודה (AR), שבהם התאורה מחדש מאפשרת התאמה בזמן אמת של תאורה, ומבטיחה שמשתמשים ואלמנטים דיגיטליים מתקיימים יחד באופן טבעי בכל סביבה, ומציעים רמה נוספת של נוכחות טלפונית.
בעבודה זו אנו מתמקדים בהארה מחדש של דיוקן אנושי. בעוד שמשימת ההדלקה מחדש דורשת ביסודה הבנה מעמיקה של גיאומטריה, תכונות החומר והארה, האתגר מורכב יותר כאשר מתייחסים לנושאים אנושיים, בשל המאפיינים הייחודיים של משטחי העור, כמו גם המרקמים המגוונים ותכונות ההחזר של מגוון רחב של בגדים, תסרוקות ואביזרים. אלמנטים אלה מקיימים אינטראקציה בדרכים מורכבות, המחייבות אלגוריתמים מתקדמים המסוגלים לדמות את המשחק העדין של האור עם משטחים מגוונים אלה.
נכון לעכשיו, הגישה המבטיחה ביותר כוללת שימוש ברשתות עצביות עמוקות המאומנות על זוגות של תמונות דיוקן מחדש באיכות גבוהה והתכונות הפנימיות המתאימות שלהן, שמקורן במערך במה קלה [10]. המאמצים הראשונים התייחסו לתהליך ההדלקה מחדש כ"קופסה שחורה" [45, 48], מבלי להתעמק במנגנונים הבסיסיים. התקדמות מאוחרת יותר אימצו עיצוב מודל מונחה פיזיקה, המשלב מודלים מפורשים של עיקרי התמונה ופיזיקה של יצירת תמונה [32]. Pandey et al. [34] הציע את ארכיטקטורת Total Relight (TR), גם מונחית פיזיקה, המפרקת תמונת קלט לתוך נורמלי פני השטח ומפות אלבדו, ומבצעת תאורה מחדש על בסיס מודל ההחזר הספקקולרי של פונג. ארכיטקטורת TR הפכה למודל בסיסי להארת תמונה מחדש, כאשר הארכיטקטורות העדכניות והמתקדמות ביותר מתבססות על העיקרון שלה [23, 31, 52].
בעקבות הגישה מונחית הפיזיקה, התרומה שלנו טמונה בתכנון משותף של ארכיטקטורה עם מסגרת קדם-אימון בפיקוח עצמי. ראשית, הארכיטקטורה שלנו מתפתחת לקראת מודל פיזי מדויק יותר על ידי שילוב מודל ההחזר הספקקולרי של Cook-Torrance [8], המייצג התקדמות בולטת מהמודל האמפירי של Phong Specular [37] המופעל בארכיטקטורת Total Relight. מודל Cook-Torrance מדמה בצורה מיומנת אינטראקציות אור עם מיקרו-פנים פני השטח, מה שאחראי לחספוס והרפלקטיביות משתנים במרחב. שנית, מסגרת ההכשרה המקדימה שלנו מדרגת את תהליך הלמידה מעבר לנתוני הבמה הקלה שבדרך כלל קשה להשגה. על ידי ביקור מחדש במסגרת המקודד האוטומטי (MAE) [19], אנו מתאימים אותה למשימת ההדלקה מחדש. שינויים אלה נועדו להתמודד עם האתגרים הייחודיים שמציבה משימה זו, ומאפשרים למודל שלנו ללמוד מנתונים ללא תווית ולחדד את יכולתו להפיק דיוקנאות מחדש מציאותיים במהלך כוונון עדין. למיטב ידיעתנו, זו הפעם הראשונה שבה מיישמים אימון מקדים בפיקוח עצמי במיוחד למשימת ההדלקה מחדש.
לסיכום, התרומה שלנו היא כפולה. ראשית, על ידי שיפור מודל ההשתקפות הפיזית, הצגנו רמה חדשה של ריאליזם בפלט. שנית, על ידי אימוץ למידה בפיקוח עצמי, הרחבנו את קנה המידה של נתוני ההדרכה והגברנו את ביטוי התאורה בתרחישים מגוונים בעולם האמיתי. יחד, ההתקדמות הללו הובילו את SwitchLight להשגת מצב חדשני חדש בתאורת דיוקנאות אנושית.
מאמר זה זמין ב-arxiv תחת רישיון CC BY-NC-SA 4.0 DEED.