ניתוח המאמר על GazeShift שמציג מודל לא מונחה להערכת כיוון מבט במציאות מדומה

shlomoyona
4 days ago
7 min read

קראתי את המאמר GazeShift: Unsupervised Gaze Estimation and Dataset for VR וכתבתי את ההבנות שלי ממנו כאן. המאמר עוסק בפיתוח מאגר נתונים ומודל של למידת מכונה לצורך הערכת כיוון המבט במערכות של מציאות מדומה. החוקרים מציגים מאגר נתונים שנקרא VRGaze, שכולל כ-2.1 מיליון תמונות עיניים שצולמו בתאורת אינפרא אדום. התמונות צולמו במצלמות שממוקמות מחוץ לציר הראייה הישיר, תצורה שאופיינית למשקפי מציאות מדומה שקיימים כיום. בנוסף, הם מציגים מודל שנקרא GazeShift, שלומד להעריך את כיוון המבט ללא צורך בנתונים מתוייגים מראש. המודל עושה זאת על ידי מנגנונים חישוביים שמאפשרים לו להפריד בין תכונות המראה של העין לבין כיוון המבט שלה.

המודל משיג דיוק גבוה (1.84 מעלות ב-VR) תוך חיסכון משמעותי במשאבי חישוב (פי 35 פחות FLOPs), מה שהופך אותו לפתרון לא מונחה תחרותי ביותר בתחום ה-VR. ההישג המרכזי נעוץ ביכולת להריץ מעקב מבט בזמן אמת על מכשירים ניידים, שמאפשר טכניקות מתקדמות כמו Foveated Rendering ללא צורך בתיוג נתונים ידני.

הטענות המרכזיות במאמר

מאגר הנתונים שנוצר הוא הראשון בקנה מידה רחב שמספק תמונות עיניים ממצלמות שממוקמות מחוץ לציר הראייה.
אימון של מודלים על נתונים ממצלמות שממוקמות על ציר הראייה אינו מספיק כדי להגיע לתוצאות מדויקות במצלמות שממוקמות מחוץ לציר.
המודל מסוגל לבצע הפרדה יעילה בין המראה הכללי של העין לבין כיוון המבט, מבלי להסתמך על מידע גיאומטרי או כללים שמוגדרים מראש.
המודל משיג שגיאה של 1.84 מעלות במאגר הנתונים המקומי ושגיאה של 7.15 מעלות במאגר חיצוני של מצלמות מרוחקות, תוך שימוש בכמות חישובים קטנה משמעותית ממודלים קודמים.
המודל מתאים לפעולה בזמן אמת על חומרה ניידת, עם זמן חישוב של 5 אלפיות השנייה.

הסבר

הייחודיות של מאגר הנתונים מבוססת על טבלאות השוואה למאגרים קודמים, שבהן רואים שרוב המאגרים האחרים קטנים יותר או שצולמו במצלמות שממוקמות ישירות מול העין.

הקושי בהעברת מודלים ממצלמות חזיתיות למצלמות אלכסוניות מבוסס על ניסוי. מודל שאומן על נתונים ממצלמה חזיתית נבדק על נתוני המאגר החדש והציג שגיאה של 5.2 מעלות, לעומת 1.84 מעלות במודל שאומן על הנתונים החדשים. אנסה להסביר את החלק הפיסיקלי. כאשר מצלמה ממוקמת בזווית, נוצר עיוות פרספקטיבה (עיוות מרחבי אופטי) שגורם לעצמים עגולים, כמו האישון, להיראות בצורה אליפטית. מודל שרגיל לגיאומטריה של עין שמצולמת מלפנים לא ידע לתרגם את העיוות הזה לזווית מבט נכונה.

יכולת ההפרדה בין מראה המשתמש לכיוון המבט מבוססת על בדיקה מתמטית של מרחק קוסינוס. מתמטית, וקטור הוא רשימת מספרים שמתארת מאפיינים, ומרחק קוסינוס מודד את הזווית בין שני וקטורים כדי לקבוע את רמת הדמיון ביניהם. בניסוי, החוקרים שינו רק את התאורה בתמונות וגילו שהוקטור שמתאר את כיוון המבט נשאר יציב. כאשר הם שינו רק את כיוון המבט, הוקטור שמתאר את מראה העין נשאר יציב.

יעילות המודל מבוססת על הרצתו על מעבד גרפי של משקפי מציאות מדומה ומדידת זמני הביצוע בפועל.

חשוב לשים לב לכך שההנחה הבסיסית שעליה נשען תהליך הלמידה היא שרוב השינויים הוויזואליים בין תמונות עוקבות של אותה עין נובעים משינויים בכיוון המבט. הנחה זו אכן עובדת בסביבה נשלטת של משקפי מציאות מדומה שבהם התאורה קבועה, אך החוקרים עצמם מציינים שאין לה ביסוס בשימושים של מציאות רבודה. בסביבה פתוחה, שינויים באור השמש או השתקפויות מהסביבה ייצרו שינויים חזותיים מהותיים שאינם קשורים כלל לכיוון המבט, מה שעלול לגרום למודל להיכשל בניסיון להפריד בין התאורה למבט.

מספר נקודות להתייחסות: ראשית, אף על פי שהמודל מתואר כשיטה שאינה דורשת תיוג נתונים, בפועל, כדי להשיג את הדיוקים שמוצגים בניסויים, נדרש שלב כיול עבור כל משתמש בנפרד. תהליך כיול זה מחייב את המשתמש להביט בנקודות מוגדרות מראש, שזהו למעשה תהליך איסוף של נתונים מתוייגים. לכן, הטענה שהמערכת משוחררת לחלוטין מתוויות אינה מדויקת בשלב היישום המעשי. שנית, החוקרים מציינים שנדרש כיול מחדש בכל פעם שהמשקפיים זזים על פני המשתמש במהלך שימוש שוטף. מגבלה זו פוגעת מאוד בנוחות השימוש היומיומית במציאות מדומה, שבה משתמשים נוטים להזיז את הראש במהירות. לבסוף, ההשוואה למודלים מתחרים נעשתה מול מספר מצומצם של פתרונות, לאור העובדה ששיטות רבות שפותחו דורשות תמונות פנים מלאות או שהקוד שלהן סגור. מצב זה מקשה לקבוע נחרצות האם המודל עולה על פתרונות מסחריים שקיימים בתעשייה, או רק מול פתרונות אקדמיים שמתבססים על תמונות עיניים חתוכות.

המסקנות מהמאמר

נתונים ממצלמות שממוקמות מחוץ לציר הם רכיב הכרחי לפיתוח מערכות עקיבת עיניים למשקפי מציאות מדומה שקיימים בשוק. מודלים שלומדים להעריך כיוון מבט ללא תיוג ידני יכולים להוות פתרון מעשי ומדויק מספיק ליישומים אמיתיים. הארכיטקטורה שפותחה מאפשרת להפעיל את הרשת העצבית ישירות על שבבים ניידים קטנים שמותקנים במכשיר, ללא צורך לשלוח נתונים לשרתים חיצוניים.

תהיות ביקורתיות

תהייה ביקורתית שיש לי קשורה באופן שבו המודל תופס תנועה במרחב הזמן. ארכיטקטורת GazeShift כפי שמתוארת במסמך מתייחסת לכל פריים בודד כאל אירוע סטטי ועצמאי. היא משחזרת תמונת יעד מתמונת מקור מבלי לייצר הקשר או להתייחס לדינמיקה הזמנית שמאפיינת את הפיזיולוגיה של הראייה האנושית. בפועל, תנועת העין האנושית מורכבת ממעברים מהירים שנקראים סאקאדות, תנועות חלקות וארוכות של מעקב אחר אובייקט, ותיקוני מיקוד מיקרוסקופיים רציפים סביב נקודת יעד. קיימים כיום גופי מחקר רחבים שמשלבים מודלים רקורסיביים של זמן או מנגנוני תשומת לב זמניים מורכבים, כמו ארכיטקטורת GaT שמעבדת סדרות של נתונים או מסנני קלמן, כדי למפות את ההיסטוריה של תנועת העין ולנבא באופן חלק את המיקום הבא שלה תוך סינון רעשים נקודתיים. ההתעלמות המוחלטת מהקשר הזמני מהווה חיסרון בתכנון של המודל הנוכחי. ייתכן שחיסרון זה זניח בניתוח בדיעבד של תמונות, אך ביישומי זמן אמת הוא מוביל לעיתים קרובות לקפיצות לא טבעיות בסמן המבט על המסך. עבור יישומים כמו זיהוי עייפות בנהיגה שדורשים הבנה עמוקה של תבניות זמן וניתוח תדירות המצמוצים, שעליהם עומדים חוקרים אחרים שבחנו יישומים של מעקב עיניים במערכות משולבות, גישה נטולת מימד זמן מספקת פתרון חלקי בלבד.

משהו מעניין חיובי ומפתיע הוא היבט קליני חשוב בנוגע לרזולוציה של שגיאת החיזוי. מהמידע שמובא בספרות לגבי מחקרי מעקב מבט קודמים, כדוגמת אלו שבחנו את מאגר NVGaze בזמנו, עולה באופן ברור ששגיאות חיזוי שגדולות מ-2.8 מעלות במערכות בינה מלאכותית מונעות את היכולת של רופאים להשתמש בטכנולוגיה כדי לאבחן בעיות עיניים רפואיות כמו פזילה שמופיעה בזוויות קטנות. מודלים קודמים שפעלו תחת אילוצי אימון ללא הנחיה הציגו במקרים רבים שגיאות שנעו סביב טווח של שלוש עד שמונה מעלות, והפכו אותם לבלתי רלוונטיים לחלוטין עבור קליניקות רפואיות או למחקר קוגניטיבי מדויק. לכן, השגת רמת דיוק אבסולוטית שנתחמת סביב 1.84 מעלות במודל החדש אינה רק שיפור טכני באחוזים בודדים לצורך פרסום אקדמי. מדובר בחצייה של סף פיזיולוגי קליני שפותח מגוון רחב של אפשרויות מעשיות לביצוע מבדקים רפואיים, מבדקי קשב מתקדמים, וסינון אוטומטי של הפרעות קוגניטיביות באמצעות מערכות שמורכבות על ראשו של המטופל בקליניקה, וזאת ללא צורך במעבדות מעקב מסורבלות, יקרות, שדורשות ציוד אופטי מורכב וקשירה של המטופל למשענת ראש.

רשימת מושגים מבוארת מתוך המאמר

מצלמה מחוץ לציר

מצלמה שאינה ממוקמת ישירות מול האישון אלא מותקנת בצד או למטה, כדי שלא להסתיר למשתמש את המסך.

למידה לא מונחית

שיטת אימון שבה תוכנת הבינה המלאכותית מזהה חוקיות בנתונים מבלי שאדם יספק לה את התשובות מראש. במאמר זה, המודל לומד על ידי ניסיון לנחש כיצד עין תיראה מזווית אחת אם יסופקו לו תמונה מזווית אחרת ווקטור שמתאר את השינוי.

מנגנון תשומת לב צולבת

תהליך מתמטי ברשתות עצביות שבו המודל בוחן נתון ממקור אחד ומשתמש בו כדי לסנן נתונים ממקור אחר. הסבר: המודל מחשב משקולות מתמטיות בין 0 ל-1 עבור כל אזור בתמונה. אזורים רלוונטיים כמו האישון מקבלים ערך שקרוב ל-1 ומוכפלים כדי להתבלט, ואזורים כמו העור מקבלים ערך שקרוב ל-0 ומוסתרים.

הפרדת ייצוגים

היכולת של מערכת ממוחשבת לפצל מידע מורכב לרכיבים מתמטיים נפרדים ובלתי תלויים. כאן, פיצול בין וקטור שמתאר את פיזיולוגיית העין לוקטור שמתאר רק את הכיוון שאליו היא פונה.

נקודת מיקוד המבט

קואורדינטות דו-מימדיות שמתארות היכן המבט פוגע על פני המסך הווירטואלי.

הפרדת ייצוגים במרחב הלטנטי

עיקרון בסיסי במדעי הנתונים ששואף לקחת אות נתונים מורכב ולפרק אותו לגורמים בלתי תלויים לחלוטין בתוך מרחב תכונות רב ממדי שנקרא המרחב הלטנטי. במקרה של ניתוח עיניים, האות הגולמי הוא התמונה שמכילה עירוב של גורמים, המראה החיצוני של העין שמושפע מזהות המשתמש, גוון העור, ומבנה העפעף, וכן כיוון המבט ברגע הצילום. הפרדה מוצלחת מבטיחה שווקטור התכונות שמייצג את המבט יהיה אורתוגונלי לווקטור המראה, כלומר, שינוי באחד מהם לא ישפיע כלל על האחר. מערכת מופרדת היטב תאפשר, לדוגמה, לחזות את המבט של משתמש חדש מבלי שהמודל יתבלבל בגלל שצורת העין שלו שונה מהנתונים שמוכרים לרשת מראש.

תשומת לב צולבת

פעולה מתמטית של רשתות עצביות שנועדה למזג מידע בין שני מקורות שונים בצורה חכמה. המנגנון שואב השראה מאופן הפעולה של מסדי נתונים, ומשתמש בשלושה רכיבים מתמטיים, שאילתות המסומנות באות 𝐐, מפתחות המסומנים ב-𝐊, וערכים המסומנים ב-𝐕. במודל GazeShift, המערכת לוקחת את וקטור המבט המופשט וממירה אותו לווקטור שאילתה. במקביל, היא לוקחת את מפת התכונות המרחבית שמייצגת את מראה העין, וגוזרת ממנה מטריצות של מפתחות וערכים. הפעולה המרכזית מחשבת מכפלה פנימית בין השאילתה למפתחות. התוצאה של מכפלה זו היא מפת משקולות שקובעת עד כמה כל אזור מרחבי במראה העין רלוונטי למידע המבט הנוכחי. לאחר מכן, המערכת מכפילה את מפת המשקולות הזו בערכים לקבלת וקטור הקשר. וקטור זה מוזרק חזרה למראה העין במעין פעולת אפנון שמשנה את תכונות התמונה בהתאם למבט, וזאת מבלי לפגוע במבנה הגיאומטרי הרציף שלה.

פונקציית הפסד מודעת למבט

במודלי למידה עמוקה, פונקציית הפסד היא המדד שמכמת את הפער בין חיזוי המודל לבין התוצאה הרצויה. בגישות קלאסיות שמתבססות על משימות שחזור, נעשה שימוש בפונקציות כמו שגיאה ריבועית ממוצעת, שמעניקה משקל זהה לכל פיקסל בתמונה. חיסרון בולט של גישה זו הוא שרשת הלמידה משקיעה משאבים עצומים כדי לנסות ולשחזר בדיוק מוחלט גם אזורים סטטיים וחסרי משמעות לכיוון המבט, כגון מרקם העור בקצוות התמונה או שיער הגבות. הפונקציה הייעודית שפותחה במחקר מציגה גישה שונה. היא משקללת את רמת ההפסד עבור כל פיקסל בהתאם לחשיבות שמייחסת לו רשת תשומת הלב.

הנוסחה המתמטית של פונקציית ההפסד כוללת שימוש בפרמטר חזקה שמסומן באות היוונית 𝛄:

ℒբₒ꜀ᵤₛ = (1 / Σᵢ ᴡᵢᵞ) * Σᵢ ᴡᵢᵞ(xₜ,ᵢ - x̂ₜ,ᵢ)²

בנוסחה זו, ᴡᵢ מייצג את המשקל שמגיע ממפת תשומת הלב עבור פיקסל ספציפי. הפרמטר 𝛄 מתפקד כמסנן ששולט בחדות המיקוד, בדומה לפרמטר טמפרטורה בפונקציות סיווג. כאשר מציבים 𝛄=1, מתקבל שקלול יחסי רגיל. כאשר מציבים ערך שגדול מאחד, הפונקציה מגבירה באופן אקספוננציאלי את ההשפעה של הפיקסלים הרלוונטיים ביותר תוך התעלמות מוחלטת מאזורי הרקע. הנגזרת של הפונקציה מחזירה למודל גרדיינטים עוצמתיים רק היכן שהשינוי משפיע על הערכת המבט, וכך נוצרת מעגל היזון חוזר שבו המודל מתמקד יותר, משתפר בחיזוי, ומתמקד עוד יותר באזורים הפיזיולוגיים החשובים של הקשתית והאישון.

אני מאמין שאפשר לייצר כאן אסטרטגיה שסורקת סריקה מקדימה זולה ויעילה וממקדת את העבודה של החישוב הכבד באזורים שנדרשים ולא לבזבז זמן חישוב ומשאבים על איזורים שאין בהם ערך, איזשהו cascades learning או learning to defer.

בלוקים של צוואר בקבוק הפוך

מבנה ארכיטקטוני של רשתות קונבולוציה שנועד לחסוך באופן משמעותי במשאבי עיבוד, ומוכר בעיקר מרשתות דוגמת MobileNetV2 שמופעלות על טלפונים ניידים. ברשתות מסורתיות, כמות ערוצי המידע מצטמצמת בתוך שכבות הליבה של הרשת, פעולה שעלולה לגרום לאובדן מידע רב כאשר כוח העיבוד מוגבל מראש. צוואר בקבוק הפוך פועל הפוך, תחילה מרחיבים את כמות הערוצים בצורה דרסטית, לאחר מכן מפעילים עליהם סינון קונבולוציה שמופרד לכל ערוץ בנפרד תוך צמצום זמני העיבוד, ולבסוף מכווצים אותם חזרה לייצוג קטן. מבנה מתמטי זה מאפשר חילוץ תכונות עשיר מאוד על פני מרחבים מורחבים, תוך שמירה על דרישות זיכרון מינימליות, מה שהופך אותו לאידיאלי להפעלת רשתות הערכת מבט על גבי המעבדים החלשים יחסית שמותקנים במשקפי מציאות מדומה.

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

ניתוח המאמר על GazeShift שמציג מודל לא מונחה להערכת כיוון מבט במציאות מדומה

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

https://arxiv.org/abs/2603.07832

צריכים עזרה עם מתמטיקה שימושית? עיבוד אותות? בקרה? צריכים מחקר אלגוריתמי יישומי? צריכים להאיץ תהליכים אלגוריתמיים? ה-AI שלכם צריך שיפור ביצועים, שיפור בדיוק, שיפור בנראות או שיפור בהסברתיות? אנחנו ב-Mathematic.ai אלופים בדברים האלה!

דברו איתי:

שלמה יונה

מייסד ומדען ראשי, מתמטיקאי מחקר ופיתוח בע"מ

053-7326360

shlomo.yona@mathematic.ai

https://mathematic.ai

פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו: A technical deep dive about