איך עוקבים אחרי מחשבות הרשת?

shlomoyona
Apr 19
15 min read

Updated: Apr 21

בסדרה של פוסטים ניסיתי לתאר תופעות בלמידה של רשתות עצביות עמוקות, להסביר אותן, להסביר את ה-מה את ה-למה ואת ה-איך. לפעמים בפירוט רב ולפעמים בכלליות, לפעמים עם יותר מתמטיקה ופורמליזם ולפעמים עם פחות. מעבר להיכרות עם התופעות והבנתן, אני מנסה להגיע באמצעותן להתקדמות בהבנה באופן שבו בוחנים איך רשת לומדת ולכן גם נדרשות יכולות חדשות לעקוב ולתאר את הלמידה. מה שמרגש הוא שישנה הפרייה הדדית בין הכלים המתמטיים והחישוביים במערכות לומדות מלאכותיות לבין עבודות על המוח ולהיפך. למי שהתוכן במאמר כבד מידיי ולא נראה קשור לדברים מובנים, כדאי מאוד להתחיל בפוסטים קודמים שדנו בתופעות ה-Grokking וה-Double Descent. בכל פעם שהמאמר מרגיש פחות נגיש, נסו מאמר שלפניו. מתישהו הדברים יתחברו. קל יותר להתחיל מההתחלה.

מעבר מניתוח פרמטרי לניתוח גיאומטרי של למידת מכונה

ניתוח רשתות עצביות עמוקות דרש במשך שנים רבות התמודדות עם מורכבות הולכת וגוברת של מרחבי פרמטרים עצומים. הגישה הקלאסית, שנשענה על כלים מהסטטיסטיקה המסורתית ומתורת האופטימיזציה, ניסתה לעקוב אחר מסלולם של מיליוני ולעיתים מיליארדי משקולות בודדות לאורך תהליך הירידה בגרדיאנט. עם זאת, כאשר מודלים מודרניים החלו לפעול באזורי פרמטריזציית-היתר, הניתוח הישיר של מרחב המשקולות איבד מהאפקטיביות שלו. היתירות הפרמטרית, לצד קיומן של סימטריות מרובות כגון אינווריאנטיות לתמורות בין נוירונים, הובילו להבנה שלמשקולת בודדת ברשת עמוקה אין משמעות אונטולוגית עצמאית.

במילים אחרות, המודלים המודרניים הובילו להבנה שתפקידה של משקולת בודדת הוא זניח ואינו נושא משמעות מחוץ להקשר של הרשת כולה. בתוך המערכת הסבוכה של רשתות עמוקות, לא ניתן עוד לבודד משתנה יחיד ולייחס לו חשיבות עצמאית, שכן המידע מבוזר על פני המבנה כולו ולא בפרמטרים הבודדים. אז כיצד אפשר להתבטא באופן שתופס את יחסי הגומלין בין המשתנים כולם?

במאמרים קודמים (ממליץ להתחיל כאן, כאן, כאן וכאן אבל יש גם את זה ו- את זה) נדונו בהרחבה תופעות מרכזיות המאפיינות מודלים מודרניים אלו, ובראשן תופעת ה-Double Descent ותופעת ה-Grokking. תופעת ה-Double Descent ממחישה כיצד מודלים מרובי פרמטרים מתגברים על סף האינטרפולציה ועל שגיאת ההכללה האינסופית, על ידי מציאת פתרונות בעלי נורמה מינימלית במרחב רווי משתנים. במקביל, תופעת ה-Grokking מציגה דינמיקה טמפורלית שבה הרשת עוברת ממצב של שינון עיוור למצב של הכללה מושלמת והבנה של חוקיות מתמטית, וזאת לאחר עידני אימון (אפוקים) ממושכים מעבר לנקודת התאמת היתר. מאמרים אלו סיפקו תיאור מקיף של ה-מה, התופעות כפי שהן נצפות אמפירית, ושל ה-למה במונחים של תורת הלמידה הסטטיסטית, פירוק ההטיה והשונות, ועיקרון צואר הבקבוק של המידע.

המאמר הפעם מהווה המשך ישיר וירידה אל רובד עמוק יותר של הניתוח, מתוך מטרה להסביר את ה-איך. הגישה העכשווית והמקיפה ביותר לחקר תופעות אלו מציעה להפנות את המבט מהמשקולות הבודדות אל עבר מרחב הייצוגים הפנימי של הרשת, וליתר דיוק, אל מטריצות הדמיון של הייצוגים. על ידי שימוש במודלים תיאורטיים כגון רשתות עצביות ליניאריות עמוקות, הקהילה המדעית הצליחה לפתח פתרונות אנליטיים מדויקים שמתארים את משוואות הדינמיקה של הלמידה שלב אחר שלב. מאמר זה ידון בפירוט במנגנונים המתמטיים שמניעים את הלמידה באמצעות פירוק ספקטרלי, ינתח את האבולוציה של מטריצות הדמיון דרך משוואות ריקטי דיפרנציאליות, ויגדיר באופן פורמלי את משטרי הלמידה העצל והעשיר. מתוך מסגרת זו, נבין כיצד תנאי התחלה ואתחולים לא מאוזנים מכתיבים את הופעתן של תכונות מכלילות, ונספק תשתית מתמטית לתופעות שתוארו בעבר.

מטריצות דמיון של ייצוגים

כדי להבין את אופן עיבוד המידע בתוך הרשת, יש להגדיר כלי מדידה שאינו תלוי בפרמוטציות של נוירונים או במערכת הצירים הספציפית שבה בחר אלגוריתם האופטימיזציה. הכלי המתמטי שמשמש לכך הוא מטריצת הדמיון של הייצוגים. מטריצה זו אינה בוחנת את ערכי האקטיבציה כשלעצמם, אלא את היחסים והקורלציות הפנימיות שהרשת בונה בין דגימות הקלט השונות במהלך התקדמותן משכבה לשכבה.

לצורך הפיתוח הפורמלי, נתבונן במדגם של נתוני אימון ונרכז את כל וקטורי הקלט למטריצה אחת. השלב הראשון הוא ניתוח הקורלציה הפנימית של נתוני הקלט עצמם, שמיוצגת באמצעות מטריצת השונות המשותפת האמפירית של הקלט. במקביל, מוגדרת משימת המטרה באמצעות וקטורי הפלט הרצויים. המבנה הסטטיסטי האמיתי שאותו הרשת נדרשת ללמוד מקודד בתוך מטריצת הקורלציה בין הקלט לפלט.

כדי למדוד את הייצוג הפנימי בשכבה חבויה מסוימת, נחשב תחילה את האקטיבציות של אותה שכבה עבור כלל דגימות הקלט. מטריצת הדמיון של הייצוגים מוגדרת כמטריצת המכפלות הפנימיות של אקטיבציות אלו.

RSM = Xᵀ W₁ᵀ W₁ X

בצד ימין של משוואה זו, האות השמאלית ביותר והאות הימנית ביותר מייצגות את מטריצת נתוני הקלט המלאה והמשוחלפת, ואילו המטריצות הפנימיות מייצגות את משקולות השכבה הראשונה. התוצאה היא מטריצה סימטרית וריבועית שגודלה תלוי במספר הדגימות, וכל איבר בה מכמת את מידת הדמיון הגיאומטרי, כלומר את הזווית והגודל היחסי, בין הייצוג הלטנטי של דגימה אחת לייצוג הלטנטי של דגימה אחרת.

מחקרים תיאורטיים מראים שבתחילת תהליך האימון, כאשר המשקולות מאותחלות באופן אקראי, מטריצת הדמיון של הייצוגים היא חסרת מבנה מובהק ומושפעת בלעדית מאופי האתחול הסטטיסטי. בשלב זה, דגימות שעשויות להיות שייכות לאותה מחלקה סמנטית נזרקות לכיוונים שונים לחלוטין במרחב הלטנטי הגבוה, תופעה שמוכרת כדרגה אפקטיבית גבוהה של מטריצת השונות המשותפת הפנימית.

עם הפעלת אלגוריתם הירידה בגרדיאנט, הדינמיקה הלא-ליניארית של האופטימיזציה מפעילה לחץ מתמיד על מטריצת הייצוג. תחת משטרי למידה מסוימים שיוגדרו בהמשך, מטריצת הדמיון משנה את צורתה בהדרגה, הדרגה האפקטיבית שלה מצטמצמת משמעותית, והיא מתחילה לקבץ יחד דגימות בעלות משמעות סמנטית זהה. בסופו של תהליך ההתכנסות אל האופטימום הגלובלי, מטריצת הקורלציה הפנימית של הרשת עוברת סנכרון מלא והופכת לזהה למטריצת הקורלציות של משימת המטרה עצמה. התאמה אסימפטוטית זו מוכיחה שתכלית האופטימיזציה אינה כוונון משקולות גרידא, אלא עיצוב מחדש של הגיאומטריה הלטנטית כך שתשקף במדויק את המבנה הלוגי של העולם החיצוני.

השתקפות במרחב הייצוגים הפנימי RSM	תיאור במרחב הקלט והפלט	היבט אנליטי
מבנה אקראי, דרגה אפקטיבית גבוהה, העדר סדר סמנטי	קורלציה טבעית של הנתונים הגולמיים	מצב אתחול
התכנסות לממדיות נמוכה, סיבוב מערכת הצירים הפנימית, התגבשות תכונות	מזעור שגיאת התחזית על פי פונקציית ההפסד	דינמיקת הלמידה
זהות גיאומטרית מוחלטת למטריצת הקורלציה של משימת המטרה	הפלט המחושב שווה לפלט האידיאלי בתוחלת	התכנסות גלובלית

מטריצת הקורלציה של משימת המטרה היא איפוא התשתית הסטטיסטית שמייצגת את התלות האמיתית והאידיאלית בין נתוני הקלט לבין הפלט שאותו המודל נדרש לחזות. מבחינה מתמטית, מטריצה זו מוגדרת כמכפלה של מטריצת הפלט המבוקש במטריצת הקלט.

Σᵧₓ = Yᵀ X

מטריצה זו מגלמת בתוכה את החוקיות האובייקטיבית של העולם או של המשימה שאותה אלגוריתם הלמידה שואף לחשוף וללמוד. על מנת לראות ולעקוב אחר המטריצה הזו בפועל במהלך תהליך האימון, איננו מסתכלים ישירות על המשקולות הבודדות, אלא מנתחים את מטריצת הדמיון של הייצוגים הפנימיים בשכבות החבויות. מטריצה פנימית זו מחושבת על ידי המכפלה הפנימית של אקטיבציות הרשת עבור כלל הדגימות.

RSM = Xᵀ W₁ᵀ W₁ X

על פי הטבלה aמסכמת את שלבי הלמידה, ניתן לראות כיצד המעקב אחר הדינמיקה של הייצוגים הפנימיים מאפשר לנו להבין את התקרבות המודל למטרה. בשלב ההתחלתי, מטריצת הייצוגים מציגה מבנה אקראי ונעדר סדר סמנטי. במהלך שלב דינמיקת הלמידה, תוך כדי מזעור שגיאת התחזית, המעקב מראה צמצום של המרחב לממדיות נמוכה והתגבשות של תכונות מוגדרות. ההוכחה לכך שהרשת הבינה את משימת המטרה ניכרת בשלב ההתכנסות הגלובלית. בנקודה זו, כפי שמתואר בטבלה, נוצרת זהות גיאומטרית מוחלטת בין מטריצת הדמיון הפנימית של הרשת לבין מטריצת הקורלציה של משימת המטרה.

המעקב אחר תהליך זה מתבצע על ידי חישוב רציף של המרחק המתמטי בין מטריצת הייצוגים הפנימית, אשר הולכת ומתפתחת לאורך עידני האימון, לבין מטריצת המטרה הסטטית. מדידה זו מאפשרת לכמת בכל צעד עד כמה הייצוג הלטנטי הנוכחי של המודל קרוב לאופטימום הגלובלי ולהבנה המדויקת של הנתונים.

רשתות ליניאריות עמוקות ככר ניסוי תיאורטי מדויק

על מנת לנסח פתרונות אנליטיים סגורים ומדויקים לתהליך מורכב זה, הקהילה התיאורטית עורכת את מחקריה על גבי ארכיטקטורה מופשטת שנקראת רשת עצבית ליניארית עמוקה. ברשת מסוג זה, פונקציות האקטיבציה הלא-ליניאריות, כגון פונקציות יישור או פונקציות סיגמואידליות, מוסרות מהמודל, כך שהמעבר משכבה לשכבה מתבצע באמצעות כפל מטריצות בלבד.

מבחינת יכולת הביטוי, רשת ליניארית עמוקה שקולה לרשת ליניארית רדודה, שכן כפל של מספר מטריצות משקולות ניתן תמיד לצמצום למטריצה יחידה שמייצגת העתקה ליניארית אחת. עם זאת, למרות שהפונקציה המחושבת היא ליניארית, הדינמיקה של הלמידה היא דינמיקה לא-ליניארית מורכבת ועשירה ביותר. הסיבה לכך טמונה באופן שבו אלגוריתם הירידה בגרדיאנט פועל על פונקציית ההפסד: עדכון המשקולות בכל שכבה תלוי במכפלות של המשקולות בשאר השכבות, ולכן מקבלים מערכת של משוואות דיפרנציאליות מצומדות בעלות דרגה גבוהה.

ייחודן של הרשתות הליניאריות העמוקות הוא ביכולתן לשחזר תופעות למידה מאקרוסקופיות שנצפות ברשתות לא-ליניאריות מודרניות, כגון תקופות קיפאון ארוכות המלוות במעברי פאזה חדים ובירידה פתאומית של השגיאה, מבלי לאבד את היכולת לנתח את המערכת באופן מתמטי טהור. ניתוחים אלו מאפשרים להפריד את השפעת פונקציית האקטיבציה מהשפעת מבנה הרשת ועומקה, ומספקים הצצה ישירה לאופן שבו מידע מתקדם ומשנה צורה לאורך היררכיית השכבות.

פתרונות מדויקים באמצעות פירוק ספקטרלי

פריצת הדרך המשמעותית בניתוח הדינמיקה התרחשה כאשר הוכח שניתן לפרק את תהליך האופטימיזציה הלא-ליניארי למרכיבים אורתוגונליים בלתי תלויים, וזאת באמצעות שימוש בפירוק לערכים סינגולריים של הנתונים.

נניח מודל רשת בעל שכבה חבויה אחת, שמקבלת נתונים, מעבירה אותם דרך מטריצת משקולות ראשונה אל השכבה החבויה, וממנה דרך מטריצת משקולות שנייה אל הפלט.

נסמן ב- W₂₁ את מטריצת המשקולות שמעבירה את הנתונים משכבה 1, הקלט, אל שכבה 2, החבויה. את מטריצת המשקולות שמעבירה את הייצוגים משכבה 2, החבויה, אל שכבה 3, הפלט נסמן ב-W₃₂. את מטריצת הקורלציה של שכבה 1 עם עצמה, כלומר מטריצת השונות המשותפת של נתוני הקלט נסמן ב-Σ₁₁. ונסמן ב-Σ₃₁ את מטריצת הקורלציה שמייצגת את התלות הסטטיסטית בין שכבה 1, הקלט, לבין שכבה 3, הפלט המבוקש במשימת המטרה.

להבהרה, כל אינדקס מספרי בביטויים אלו מייצג שכבה ספציפית במודל הרשת העצבית, והזוגות מתארים את הקשרים והמעברים הגיאומטריים או הסטטיסטיים שבין השכבות הללו. משמעות האינדקסים שמייצגים את השכבות: 1 מייצג את שכבת הקלט, 2 את השכבה החבויה ו-3 את שכבת הפלט, שכבת המטרה. מכאן שמשמעות הזוגות, האינדקסים הכפולים, היא תיאור של כיוון התנועה או ההקשר, לרוב בתבנית של משתנה.

מכאן שהמשוואות הדיפרנציאליות שמופיעות בתמונה מתארות מתמטית כיצד המשקולות שמחברות בין השכבות (למשל W₂₁ ו-W₃₂) מתעדכנות לאורך זמן הלמידה על מנת לחשוף ולמפות את התלות הסטטיסטית האמיתית (Σ₃₁) מתוך נתוני הקלט (Σ₁₁).

הדינמיקה של למידת המערכת נשלטת על ידי מורד הגרדיאנט על שגיאת הריבועים הפחותים. בגבול הרציף של הזמן, התעדכנות המטריצה הראשונה מוגדרת על ידי המשוואה הדיפרנציאלית הבאה:

τ dW₂₁/dt = W₃₂ᵀ (Σ₃₁ - W₃₂ W₂₁ Σ₁₁)

והתעדכנות המטריצה השנייה מוגדרת על ידי:

τ dW₃₂/dt = (Σ₃₁ - W₃₂ W₂₁ Σ₁₁) W₂₁ᵀ

במשוואות אלו, הפרמטר שמייצג את קצב הלמידה מוגדר כהופכי של קבוע הזמן טאו. איברי הסיגמה מייצגים את מטריצות הקורלציה: מטריצה אחת עבור השונות המשותפת הפנימית של הקלט, ומטריצה שנייה עבור הקורלציה בין הקלט לפלט. כדי לאפשר פתרון סגור, נהוג להניח שנתוני הקלט עברו תהליך של הלבנה, כלומר הם מנורמלים ובלתי תלויים, כך שמטריצת השונות המשותפת של הקלט הופכת למטריצת היחידה.

תחת ההלבנה, המבנה הסטטיסטי הייחודי של המשימה מתמצה במטריצת הקורלציה בין הקלט לפלט בלבד. כעת, ניתן ליישם פירוק לערכים סינגולריים על מטריצה זו:

Σ₃₁ = U S Vᵀ

הפירוק מפריד את המשימה לסדרה של אופני פעולה סמנטיים, כאשר כל אופן פעולה מורכב מווקטור עצמי במרחב הקלט, מווקטור עצמי במרחב הפלט, ומערך סינגולרי שמייצג את עוצמת הקורלציה בין הקלט לפלט עבור אותה תכונה.

על ידי ביצוע החלפת משתנים במרחב המשקולות והטלתו על הבסיס הספקטרלי של המשימה, המערכת הסבוכה של משוואות האופטימיזציה מתפרקת לסדרה של משוואות מצומדות, אחת עבור כל ערך סינגולרי. דינמיקה זו נשלטת על ידי שני כוחות יסודיים מנוגדים: ראשית, כוח של שיתוף פעולה, שדוחף את משקולות הקלט ואת משקולות הפלט שמשויכות לאותו אופן פעולה לגדול יחד ולהתיישר זו אל מול זו, עד שמכפלתן תשקף את הערך הסינגולרי האמיתי של המשימה. שנית, כוח של תחרות, שמייצג דחייה בין אופני פעולה שמקושרים לערכים סינגולריים שונים, ומאלץ אותם למצוא ייצוגים אורתוגונליים בתוך המרחב הלטנטי כדי לא להפריע זה לזה.

תחת תנאי התחלה ספציפיים שבהם המערכת מאותחלת באופן מנותק ואורתוגונלי, ניתן לפתור את מערכת המשוואות הזו באופן מדויק תוך שימוש בקואורדינטות היפרבוליות. הפתרון האנליטי מתאר דינמיקה שבה המכפלה של משקולות הקלט והפלט מתפתחת לאורך הזמן על פי עקומות סיגמואידליות. המסקנה המרכזית שעולה מפתרונות אלו היא שמהירות הלמידה של כל תכונה עומד ביחס ישר לערך הסינגולרי שלה, זאת אומרת שמשך הזמן שנדרש ללמידת כל תכונה עומד ביחס הפוך לערך הסינגולרי שלה. הרשת רוכשת קודם כל את התכונות החזקות והגסות ביותר, אלו המאופיינות בשונות משותפת גבוהה, ומותירה את למידת התכונות העדינות לשלבים מתקדמים הרבה יותר של האופטימיזציה.

משוואות ריקטי

בעוד שהפירוק לערכים סינגולריים מבהיר את מסלולן של המשקולות ואת חילוץ התכונות בסדר יורד של חשיבות, מחקרים מאוחרים יותר העלו את רמת ההפשטה והתמקדו בדינמיקה הדיפרנציאלית של מטריצות הדמיון של הייצוגים עצמן. המעבר ממשוואות של משקולות למשוואות של מטריצות מבטא תפיסה עמוקה יותר: הוא מבודד את הרכיבים האינווריאנטיים ברשת ומאפשר תיאור גלובלי של גיאומטריית הנתונים.

הכלי המתמטי המרכזי שפותח לתיאור זה הוא סוג של משוואת ריקטי המטריציונית. משוואות ריקטי מופיעות לעיתים קרובות בתורת הבקרה האופטימלית ובתורת המערכות הדינמיות, והן מאופיינות בקיומו של איבר ריבועי של המשתנה הבלתי תלוי, אשר מכתיב דינמיקה לא-ליניארית של התכנסות. הדינמיקה האנליטית של מטריצת הדמיון הפנימית נשלטת על ידי משוואה מהצורה:

τ d(Q Qᵀ)/dt = F(Q Qᵀ) + (Q Qᵀ)Fᵀ - (Q Qᵀ)²

במשוואה זו, המטריצה שמייצגת את הייצוג הפנימי מתפתחת על בסיס אינטראקציה עם מטריצת הכוח המניע, שמכילה את המידע על פונקציית ההפסד ושגיאת הרשת הנוכחית ביחס למשימת המטרה. האיבר הריבועי החסר במשוואה מבטיח שהפונקציה תהיה חסומה ולא תתפוצץ, ומגדיר למעשה את המושכים הטופולוגיים במרחב הפתרונות.

הפתרון האסימפטוטי של המשוואה עבור זמן ששואף לאינסוף מחייב את מטריצת הייצוגים הפנימית לחפוף באופן מלא למטריצת הקורלציות החיצונית של המשימה. זהו תיאור דטרמיניסטי של האופן שבו רשת עצבית מפנימה את הסביבה ומעצבת את המרחב הלטנטי שלה כך שיהווה מראה נאמנה לסטטיסטיקה של העולם. יתרה מכך, משוואות אלו מניחות את התשתית להבנה כיצד תנאי התחלה שונים מובילים למסלולי למידה שונים לחלוטין. בעוד שמטרת היעד עשויה להיות זהה, המסלול שהמערכת עושה במרחב הרימני של מטריצות חיוביות לחלוטין מכתיב את יכולת ההכללה הסופית שלה.

למידה עצלה מול למידת תכונות עשירה

מתוך הפתרונות המדויקים למשוואות הלמידה ולדינמיקה של מטריצות הדמיון, עלתה אחת האבחנות החשובות ביותר בתורת הלמידה המודרנית, והיא חלוקת תהליך הלמידה לשני משטרים מובהקים הנבדלים ביניהם בצורה תהומית. אלו הם המשטר העצל והמשטר העשיר, והמעבר ביניהם מסביר את רוב התופעות שאינן-אינטואיטיביות שנצפות במודלים עמוקים.

המשטר העצל, שמוכר לרוב תחת המסגרת התיאורטית של הגרעין הליניארי המשיק לרשת, מתקיים כאשר הרשת מאותחלת עם משקולות בעלות שונות גבוהה ונורמה גדולה, ובמיוחד כאשר הרשת רחבה מאוד. במצב זה, האקטיבציות ההתחלתיות של המערכת עצומות, וכל שינוי מזערי במשקולת בודדת מייצר שינוי גדול בפונקציית הפלט. כתוצאה מכך, אלגוריתם האופטימיזציה נדרש לבצע עדכונים אינפיניטסימליים בלבד כדי להוריד את שגיאת האימון לאפס. מבחינה גיאומטרית, המשקולות למעשה נותרות קפואות בסביבת האתחול האקראי שלהן. מטריצת הדמיון של הייצוגים, כפי שניתן לראות בניתוח של משוואות ריקטי, אינה עוברת שינוי משמעותי ושומרת על המבנה האקראי ועל הדרגה הגבוהה שאפיינו אותה בצעד הראשון. למידה במשטר זה היא מהירה להפליא, אך היא נשענת על צירופים אקראיים ומובילה פעמים רבות להתאמת יתר קיצונית ולפתרונות חסרי יכולת הכללה טהורה.

מנגד, המשטר העשיר, שמוכר גם כמשטר למידת התכונות, מחייב יציאה מאזור הנוחות של האתחול. הוא מושג כאשר הרשת מאותחלת עם משקולות בעלות נורמה קטנה מאוד. כדי להגיע לשגיאת אימון אפס, המערכת נאלצת לבצע מסע ארוך ומשמעותי במרחב הפרמטרים. במהלך מסע זה, המשקולות עוברות שינוי מאקרוסקופי, והמערכת מבצעת תהליך אדפטיבי שבו היא מחלצת במכוון תכונות בעלות משמעות מתוך הנתונים. מטריצת הדמיון של הייצוגים מצטמצמת לממדיות נמוכה יותר, מסתנכרנת באופן אינטנסיבי עם משימת המטרה, ומבטלת לחלוטין את רעשי האתחול. הלמידה במשטר זה היא איטית בהרבה, משופעת בנקודות אוכף מישוריות, אך היא זו המאפשרת למודל לגלות סימטריות עמוקות ולהפגין יכולת הכללה יוצאת דופן על נתונים חדשים.

משטר למידה עשיר	משטר למידה עצל	המאפיין המרכזי
שונות קטנה, נורמת משקולות זעירה	שונות גבוהה, נורמת משקולות גדולה	תנאי אתחול
מאקרוסקופית, תנועה מרחבית נרחבת	אינפיניטסימלית, קרוב לנקודת ההתחלה	תנועת המשקולות
מתעצבת מחדש לחלוטין להתאמה למשימה	נותרת יציבה ואקראית, ללא שינוי מבני	מטריצת הייצוג RSM
גבוהה, גילוי רכיבים סמנטיים טהורים	נמוכה, נטייה לשינון ולהתאמת יתר	יכולת הכללה
התכנסות איטית, מעברי פאזה עמוקים	התכנסות מהירה ואקספוננציאלית	מהירות למידה

אתחולים לא מאוזנים וקידוד מואץ של תכונות עשירות

ההבנה שהכללה איכותית מתרחשת במשטר העשיר הציפה אתגר מרכזי באופטימיזציה: כיצד ניתן לאלץ רשת עצבית עמוקה להיכנס למשטר למידת התכונות מבלי לשלם מחיר קיצוני בזמן חישוב ובקשיי התכנסות. פתרון אלגנטי ואנליטי לבעיה זו הוצג באמצעות חקר של אתחולים לא מאוזנים, מחקר שחושף כיצד מניפולציה מדויקת על השונות היחסית בין שכבות הרשת משנה את הטופולוגיה של משטח ההפסד כולו.

כדי לכמת את חוסר האיזון, התיאוריה מגדירה משפחה של רשתות שמאותחלות תחת קריטריון יציבות ספציפי. הקריטריון קובע שההפרש בין מכפלת מטריצת משקולות אחת במשוחלפת שלה לבין מכפלת המטריצה הקודמת במשוחלפת שלה שווה למטריצת היחידה מוכפלת בקבוע למבדה.

W₂ᵀ W₂ - W₁ W₁ᵀ = λ I

במשוואת שימור זו, הקבוע למבדה מייצג את מידת חוסר האיזון ההתחלתי. כאשר ערכו אפס, הרשת מאוזנת לחלוטין ושתי השכבות מתחילות עם אותה נורמת שונות. אולם, כאשר ערכו חיובי או שלילי, הרשת מאותחלת במצב שבו שכבה אחת דומיננטית משמעותית מהאחרת.

הבדלי הגדלים בין השכבות מבטלים את הסימטריה המעכבת של נקודות האוכף, ובכך מאלצים את שכבות הייצוג ללמוד תכונות במהירות אדירה, עוד לפני ששכבת הפלט מספיקה להשתמש בהן באופן עצל. סדרת ניסויים והוכחות הראו כיצד אתחול זה מאיץ את למידת התכונות ברשתות סופיות, משפר את רמת האינטרפרטביליות של נוירונים בשכבות הראשונות של רשתות קונבולוציה, מקטין את סיבוכיות המדגם שנדרשת ללמידה היררכית, ומכווץ באופן דרמטי את פרק הזמן הנדרש להשגת תופעת ה-Grokking בבעיות לוגיות סגורות.

מעבר פאזה מאקרוסקופי והפענוח האנליטי של ה-Grokking

תופעת ה-Grokking הוגדרה כתגלית מפתיעה שבה רשת, לאחר שהגיעה לאינטרפולציה מלאה ולשגיאת אימון אפס מלווה בשגיאת מבחן עצומה, חווה לפתע צניחה חדה של השגיאה להכללה מושלמת בעקבות המשך אימון ארוך ומייאש. מנקודת המבט של משטרי למידה, הפירוק הספקטרלי, ומנגנון ה-LU, תופעה זו אינה עוד קסם נסתר, אלא תוצאה מתמטית בלתי נמנעת של דינמיקת הלמידה בסביבה לא-ליניארית.

בשלבי הלמידה הראשונים, כאשר אלגוריתם האופטימיזציה שועט במורד הגרדיאנט, הרשת מוצאת את הפתרון הזמין ביותר מבחינה חישובית: היא מתכנסת לאזור של למידה עצלה שבו היא משננת את הקלטים ללא הבנת המבנה הסמנטי. הרשת סופגת אליה את רעש האימון, נורמת המשקולות שלה מזנקת לערכים גבוהים, ומטריצת דמיון הייצוגים מתאפיינת בדרגה גיאומטרית גבוהה ואקראית. על פניו, הדינמיקה נעצרת בשלב זה, משום ששגיאת האימון התאפסה והגרדיאנט ביחס לנתונים נעלם. זהו החלק האופקי של האות L במנגנון ה-LU של השגיאות.

אולם, בנקודה זו, בתנאי שהרשת פועלת תחת מנגנון דעיכת משקולות או רגולריזציה מפורשת, המערכת נתונה להשפעתו של כוח חלש אך מתמיד. כוח זה, שנגזר מהגיאומטריה הבייסיאנית של פונקציית האנרגיה החופשית, דוחף את המערכת לצאת מהעמק השטוח של השינון ולחפש תצורה בעלת משקולות קטנות יותר. הרשת נמצאת במסע איטי של שכחה והשלת רעשים. מבחינה אנליטית, כפי שמשתקף ממשוואות הלמידה המדויקות, המערכת ממתינה למיצוי ערכים סינגולריים משניים ולביטול השפעתם ההרסנית של מצבי קישוריות קטנים.

כאשר צמצום חד של נורמת המשקולות אל עבר בסיס ה-U האופטימלי, מתרחש מעבר הפאזה. זהו הרגע שבו הדינמיקה הופכת את עורה באופן דרמטי, והרשת נוטשת את הפתרון העצל לטובת מציאת הסימטריות והקומפקטיות של הפתרון העשיר. מטריצת הדמיון של הייצוגים מבצעת יישור סופי ודטרמיניסטי אל מול מטריצת הנתונים הטהורה, וכפל התכונות מתלכד לכדי אלגוריתם מתמטי, כמו מימוש סמוי של התמרת פורייה בתוך המרחב הלטנטי. ה-Grokking, אם כן, אינו אלא הזמן הנדרש למשוואת ריקטי הדיפרנציאלית לסיים את מחיקת הרעש הראשוני ולהגיע להתכנסות אסימפטוטית אל עבר האופטימום העשיר של הבעיה תחת לחץ הרגולריזציה.

גיאומטריה במימדים גבוהים והתגברות על סף האינטרפולציה

בזמן שתופעת ה-Grokking ממחישה את הדינמיקה על פני ציר הזמן, תופעת ה-Double Descent של המודל קוראת תיגר על ההבנה הקלאסית לאורך ציר המורכבות הפרמטרית. התופעה מחולקת לשלושה שלבים ברורים: המשטר התת-פרמטרי שבו שולט שקלול התמורות בין הטיה לשונות; סף האינטרפולציה שבו שגיאת ההכללה מתפוצצת לחלוטין; והמשטר העל-פרמטרי שבו שגיאת ההכללה שבה ויורדת, בניגוד גמור לציפיות העבר.

הפירוק לערכים סינגולריים, בשילוב תורת המטריצות האקראיות, מספק את ההסבר הפורמלי לזינוק החד והקיצוני בסף האינטרפולציה. בנקודה שבה מספר הפרמטרים שווה בדיוק למספר הדגימות, המודל מסוגל לבצע אינטרפולציה מושלמת ולהעביר את הפונקציה דרך כל נקודת רעש. אולם, מהבחינה האלגברית, מטריצת השונות המשותפת האמפירית מגיעה למצב סינגולרי: הערך העצמי המינימלי שלה דועך במהירות ושואף לאפס. מכיוון ששונות המודל תלויה באופן יחסי לעקבה של המטריצה ההופכית, הופכי זה מתפוצץ אסימפטוטית, גדל ללא הגבלה ככל שמתקרבים לנקודת הסינגולריות. במצב של התניה רעה כזו, מטריצת הנתונים מתפקדת כמגבר אדיר ממדים על פני רעש המדידה, שיוצר תנודתיות אינסופית בפתרון ושגיאת מבחן שוברת שיאים.

הפרדוקס נפתר כאשר המודל ממשיך להתרחב עמוק אל תוך המשטר העל-פרמטרי. במרחבים רב-ממדיים גבוהים במיוחד, מתקיים עיקרון סטטיסטי של פיזור: הדגימות עצמן נוטות להפוך לכמעט אורתוגונליות זו לזו במרחב. הערך העצמי המינימלי של מטריצת המידע מתרחק מן האפס, והמטריצה חוזרת להיות בריאה ובעלת התניה טובה. במצב של הגדרת חסר שבו קיימים אינסוף פתרונות שמשיגים שגיאת אימון אפסית, ההטיה המובלעת של אלגוריתמי האופטימיזציה מתערבת.

שיטות כמו SGD תבחרנה באופן טבעי את האומד בעל נורמת המשקולות המינימלית ביותר מתוך ים הפתרונות. עודף דרגות החופש מאפשר למודל לפזר את תיקון השגיאה על פני מספר אדיר של פרמטרים שונים, ובכך מנטרל את השפעת הרעש על כל משקולת בודדת לזניחה לחלוטין. התוצאה היא פונקציה חלקה להפליא, חסרת שונות תזזיתית, שמניבה הכללה מצוינת. מנגנונים של רגולריזציה מפורשת, כגון קנס שמתווסף לאלכסון המטריצה ומונע ממנה להפוך לסינגולרית, או רגולריזציה משתמעת דרך גדלי אצווה קטנים שמוסיפים רעש שמונע מהמודל להיתקע בפתרונות חדים מדי, משמשים כמעטפת הגנה חיונית שביכולתה לרסן את ההתפוצצות ולרפא את חוסר היציבות של התופעה.

השלכות רוחביות: גמישות, שכחה, וההקבלה לביולוגיה

מעבר ליישום הישיר באלגוריתמי אימון, הפיתוחים התיאורטיים סביב הדינמיקה הלא-ליניארית ומטריצות הייצוג נושאים משמעויות נרחבות עבור שדות משיקים בלמידת מכונה ובמדעי המוח. פתרון המשוואות הדיפרנציאליות מאפשר לחקור בצורה מבוקרת תהליכי ליבה כגון למידה מתמשכת ומערכות למידה מתהפכת.

אחד המכשולים המשמעותיים ברשתות עצביות הוא תופעת השכחה הגורפת, שבה אימון של המודל על משימה חדשה מוחק לחלוטין את הביצועים במשימה קודמת שסיים ללמוד. מסגרת הניתוח הייצוגי מספקת הסבר גיאומטרי לתופעה זו: כאשר המודל שוהה במשטר העשיר, מטריצת הדמיון הפנימית שלו כוונה בדיוק מרבי לייצוג הסטטיסטי של המשימה הראשונה. כניסת נתונים מהמשימה השנייה כופה על מערכת המשוואות לסובב את מרחב הצירים הלטנטי כדי לעמוד באילוצי הפירוק הספקטרלי החדשים. סיבוב תת-המרחב דורס את אופני הקישוריות הישנים. הבנה פורמלית של דינמיקה זו הובילה לאסטרטגיות אלגוריתמיות של הגנה, שבהן משמרים את האורתוגונליות בין הוקטורים העצמיים של המשימות השונות, או מקבעים ערוצים מסוימים במשטר העשיר, בכדי לאפשר הכללה רב-משימתית מבלי לשכוח.

בנוסף, כלים אלו אומצו בהתלהבות על ידי קהילת חוקרי מדעי המוח התיאורטיים. רשתות ליניאריות עמוקות הוכיחו עצמן כמודל יעיל בצורה בלתי רגילה להבנת תהליכי ההבשלה הסמנטית במוח האנושי. חוקרים מודדים מטריצות דמיון ייצוגי, RSM, של פעילות עצבית מקומית מאזורים במוח החיה או האדם בעת חשיפה לגירויים, ומשווים את המבנה הנלמד להתפתחות של מטריצות הדמיון המלאכותיות המתועדות תחת דינמיקת המשוואות הלא-ליניאריות. קצבי הלמידה הספציפיים, שנגזרים הפוך מגודל הערך הסינגולרי של המשימה כפי שראינו בפתרונות, מתורגמים ישירות להיררכיית הלמידה הביולוגית, ומספקים הוכחות על האופן שבו מערכות עצב טבעיות לוכדות בראשית התפתחותן תבניות קורלטיביות רחבות, ורק לאחר זמן ממושך מבחינות בדקויות סטטיסטיות עדינות מתוך כפייה תחרותית.

סיכום ומבט לעתיד

המסע להבנת מכניקת הלמידה של רשתות עצביות עמוקות הוביל את הקהילה המדעית מניתוח עיוור של אינספור משקולות בודדות אל עבר מסגרת גיאומטרית עשירה, מבוססת ייצוגים ומנוסחת באלגנטיות דרך משוואות דיפרנציאליות. תופעות מסתוריות כגון Double Descent של עקומת השגיאה והופעתה הבלתי צפויה של תופעת ה-Grokking איבדו את חזותן האנקדוטלית, וקובעו כמקרים פרטיים ובלתי נמנעים בתוך תורת למידה סטטיסטית וסינגולרית מקיפה.

התפיסה שרשת עצבית שואפת בבסיסה לסנכרן את מטריצת דמיון הייצוגים שלה כך שתשקף במדויק את מטריצת הקורלציות של הסביבה החיצונית, עומדת בלב תהליך האופטימיזציה. פתרונות מדויקים שנבנו על בסיס רשתות ליניאריות עמוקות סיפקו מיפוי אנליטי הדוק המראה כיצד הכוחות של שיתוף פעולה ותחרות בתוך הפירוק הספקטרלי מכתיבים את סולם הזמן שבו נרכשת כל תכונה סטטיסטית, מהמסד החזק ועד לתבניות העדינות ביותר. משוואת ריקטי הדיפרנציאלית הוכיחה פורמלית כיצד הייצוגים הפנימיים מוכרחים, בגבול הזמן, לחקות לחלוטין את החוקיות האולטימטיבית, את תכונות העומק, את המבנה הסטטיסטי היסודי של העולם המיוצג.

ההבחנה הברורה בין המשטר העצל למשטר למידת התכונות העשיר סימנה קו גבול בסיסי ביכולת ההכללה של מערכות מודרניות. בעוד המשטר העצל מתבסס על קרבה לנקודת האתחול ורעש רב-ממדי כדי לצלוח את הבעיה בדרך הקלה והפגיעה ביותר, המסע אל המשטר העשיר דורש מהרשת להשיל את רעשיה, להצטמצם למבנה בעל ממדיות נמוכה, ולאתר קומפקטיות מתמטית טהורה. פריצות דרך בדמות אתחולים לא מאוזנים מציעות כיום למעצבי מודלים מנופים גיאומטריים להאצת ההגעה למשטר העשיר, קיצור זמני ה-Grokking, והפחתת סיבוכיות המדגם בצורה ניכרת. ארסנל הכלים התיאורטי שפותח מבטיח שהדור הבא של הרשתות העצביות לא יהיה מוגבל לאינטואיציות עמומות של ניסוי וטעייה, אלא יישען על יסודות חסונים של גיאומטריה ספקטרלית ואופטימיזציה מוכוונת מטרה.

מי הביאו את כל החידושים והתובנות הללו?

הפרסומים המהותיים שעליהם נשענות המסקנות והתוצאות שבמאמר הזה מתמקדים בפתרונות אנליטיים לדינמיקה הלא-ליניארית של רשתות ליניאריות עמוקות ולמעברים שבין משטרי הלמידה השונים.

הבסיס המתמטי לניתוח הדינמיקה באמצעות פירוק ספקטרלי של הנתונים הונח במאמרם של סאקס ועמיתיו משנת 2014, שמציג פתרונות מדויקים לדינמיקת הלמידה ברשתות אלו. מחקר זה פיתח את מערכת המשוואות הדיפרנציאליות שמראה כיצד תהליך הלמידה מתפרק לאופני פעולה בלתי תלויים שנשלטים על ידי כוחות של שיתוף פעולה ותחרות, וחשף כי מהירות הלמידה של כל תכונה עומדת ביחס הפוך לעוצמת הערך הסינגולרי שלה.

המסגרת שמתארת את ההתפתחות של מטריצות הדמיון של הייצוגים נוסחה במאמרם של דומינה ועמיתיה משנת 2023. פרסום זה משתמש במשוואות ריקטי מטריציוניות כדי לספק משוואות מפורשות לדינמיקה של הייצוג הפנימי. המחקר מוכיח באופן פורמלי כיצד תהליך האופטימיזציה מאלץ את מטריצת הייצוגים להסתנכרן בהדרגה, עד להתלכדות מלאה עם מטריצת הקורלציה של משימת המטרה בסופו של תהליך ההתכנסות.

ההבחנה בין משטר הלמידה העצל למשטר למידת התכונות העשיר, וכן ההסבר המכניסטי לזירוז תופעת ה-Grokking, נשענים על מאמרם של קונין, דומינה ועמיתיהם משנת 2024. מחקר זה מדגים כיצד שימוש באתחולים לא מאוזנים מפר את הסימטריה ההתחלתית ומונע מהרשת להיתקע בפתרונות שטחיים. הפתרונות האנליטיים במאמר חושפים כיצד האתחול הלא מאוזן דוחף את המערכת למשטר העשיר, מעודד חילוץ תכונות עמוקות ומקטין באופן ניכר את זמן האימון הנדרש להשגת הכללה.

אנחנו ב- Mathematic.ai יודעים "להרים מכסה מנוע" במערכות לומדות, יודעים לתכנן ולבנות אותן מאפס, יודעים לשפר ולהאיץ אותן ויודעים להביא אותן לסקייל גבוה ולמצב בר-קיימא בפרודקשן. אנחנו מספקים שירותים של מחקר אלגוריתמי יישומי, מתודולוגיה של ניסויים, שיטות הערכה, אוטומציה של תהליכים.

דברו איתי:

שלמה יונה,

מייסד ומדען ראשי,

מתמטיקאי מחקר ופיתוח בע"מ

053-7326360

shlomo.yona@mathematic.ai

https://mathematic.ai

פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו:

A technical deep dive about Mathematic.ai