המעבר מעצלנות לעושר מחשבתי כדינמיקה מאחדת

shlomoyona
Apr 18
15 min read

Updated: Apr 21

ההתפתחות המואצת של למידת מכונה מודרנית בכלל, ושל רשתות עצביות עמוקות בפרט, הביאה עמה בשנים האחרונות שורת תצפיות אמפיריות שקראו תיגר על המוסכמות הקלאסיות של תורת הלמידה הסטטיסטית. הפרדיגמה המסורתית והמוכרת ביותר בתחום היא שקלול התמורות בין הטיה לבין שונות. על פי מודל זה, ככל שמורכבות המודל עולה, שגיאת האימון יורדת משום שהמודל גמיש יותר ומסוגל להתאים את עצמו לנתונים. עם זאת, החל מנקודה אופטימלית מסוימת, המשך הגדלת המורכבות יוביל בהכרח למצב של התאמת יתר, שבו המודל מתחיל לשנן את הרעש האקראי הקיים בנתונים, וכתוצאה מכך שגיאת ההכללה על נתונים חדשים מתחילה לעלות ויוצרת עקומת שגיאה בצורת פרסה. המסקנה האופרטיבית מפרדיגמה זו הייתה שעצירה מוקדמת היא כלי הכרחי למניעת התאמת יתר, וכי יש להימנע ממודלים בעלי מספר פרמטרים הגדול משמעותית ממספר דגימות האימון.

עם זאת, תצפיות מודרניות גילו מציאות מתמטית שונה לחלוטין כאשר בוחנים מודלים עתירי פרמטרים או כאשר מאמנים מודלים לאורך פרקי זמן החורגים משמעותית מהמקובל. שתי התופעות הבולטות ביותר בהקשר זה הן תופעת ה-Double Descent ותופעת ה-Grokking. ה-Double Descent מתארת מצב שבו, לאחר שהמודל חוצה את סף האינטרפולציה ונכנס עמוק לתוך משטר העל-פרמטרי, שגיאת המבחן חוזרת לרדת באופן עקבי, ולרוב מגיעה לביצועים טובים יותר מאלו שנצפו באזור הקלאסי. Grokking, מנגד, היא תופעה שמתארת דינמיקה בזמן האימון, שבה הרשת מגיעה לשגיאת אימון אפסית אך נכשלת לחלוטין על נתוני מבחן. רק לאחר המשך אימון ממושך תחת רגולריזציה, הרשת חווה מעין פריצת דרך, ושגיאת המבחן שלה צונחת בפתאומיות לאפס.

תופעות אלו נחקרו תחילה באפיקים נפרדים. ה-Double Descent הוסברה לרוב במונחים של גיאומטריה במרחבים רבי-ממדים, תורת המטריצות האקראיות, והטיה מובלעת של אלגוריתמי אופטימיזציה למציאת פתרונות בעלי נורמה מינימלית. ה-Grokking יוחסה לרוב לתהליכי דחיסת מידע, לחץ אלגברי מתמיד מצד דעיכת משקולות, וגילוי של מבנים מתמטיים אלגנטיים כדוגמת התמרת פורייה בדידה במשימות מודולריות. במאמר הזה נעמיק במסגרת תיאורטית עדכנית שמאחדת את התופעות הללו, ומוכיחה כי שתיהן נובעות מאותו מנגנון בסיסי: מעבר הכרחי בין דינמיקת למידה עצלה לבין דינמיקה של למידת תכונות עשירה, ולמידה דיפרנציאלית של תבניות בקצבים שונים.

עצלנות מול עושר מחשבתי

כדי לרדת לחקר המכניקה של הכללה מאוחרת, יש לאפיין במדויק את המצבים שבהם רשת עצבית עשויה להימצא במהלך אופטימיזציה מבוססת גרדיאנטים. מחקרים מהשנים האחרונות מחלקים את תהליך הלמידה לשני משטרים קיצוניים ששונים זה מזה מהותית באופיים המתמטי ובייצוגים הפנימיים שהם מייצרים.

משטר הלמידה העצל מתאר מצב שבו הרשת העצבית אינה מעדכנת באמת את התכונות הפנימיות והייצוגים הלטנטיים שלה. כאשר רשת מאותחלת אקראית, המשקולות הראשוניות יוצרות סט של תכונות בסיסיות. במשטר העצל, אלגוריתם הלמידה משתמש בתכונות האקראיות הללו כפי שהן, ומתאים אותן לנתוני האימון באמצעות שינויים מזעריים בלבד במשקולות. במצב זה, הדינמיקה של הרשת ניתנת לקירוב מדויק על ידי פיתוח טיילור מסדר ראשון סביב משקולות האתחול, תפיסה שמוכרת בספרות המדעית כגרעין משיק עצבי.

מבחינה אלגברית, פונקציית הרשת במשטר העצל מתוארת באופן הבא:

f(x, θ) ≈ f(x, θ₀) + ∇_θ f(x, θ₀)ᵀ (θ - θ₀)

במשוואה זו, הרשת מתנהגת למעשה כמודל רגרסיה לינארי שבו הווקטורים שמייצגים את הגרדיאנטים באתחול משמשים כבסיס קבוע. כתוצאה מכך, תהליך האופטימיזציה מתרחש בתוך מרחב אפיני מצומצם שנפרש על ידי אותם גרדיאנטים התחלתיים. המודל מסוגל להגיע לשגיאת אימון אפסית במהירות שיא משום שיש לו מספר עצום של פרמטרים שמאפשרים לו לבצע אינטרפולציה מדויקת של נתוני האימון, לרבות הרעש הסטטיסטי שקיים בהם. אולם, מכיוון שהמודל לא ביצע למידת תכונות אמיתית ולא חילץ כל חוקיות מבנית מן הנתונים, יכולת ההכללה שלו אפסית. שגיאת המבחן נותרת גבוהה, וזהו בדיוק שלב השינון העיוור שאנו מזהים בתחילת גרף ה-Grokking.

נזכיר שמרחב אפיני הוא מבנה גאומטרי שמהווה הכללה של המרחב האוקלידי, אך הוא נבדל ממרחב וקטורי רגיל בכך שאין לו נקודת ראשית מוגדרת או מועדפת. ניתן לדמיין אותו כמרחב וקטורי שבו שכחנו היכן נמצא האפס; כל הנקודות בו שוות מעמד, ואין משמעות למיקום המוחלט של נקודה אלא רק לקשר היחסי בינה לבין נקודות אחרות. המרחב מורכב מאוסף של נקודות ומרחב וקטורי נלווה שפועל עליהן. במרחב כזה לא ניתן לחבר שתי נקודות זו לזו, שכן פעולה כזו דורשת נקודת ייחוס קבועה. במקום זאת, הפעולות הבסיסיות הן חיסור בין נקודות, שמניב וקטור שמייצג את הכיוון והמרחק ביניהן, וחיבור של וקטור לנקודה, שמעתיק אותה למיקום חדש במרחב.

לעומת זאת, משטר למידת התכונות העשיר מתאר מצב שבו המודל נאלץ לזנוח את האסטרטגיה המקומית. במשטר זה, הרשת ממש משנה את הטופולוגיה של הייצוגים הפנימיים שלה. משקולות הרשת זזות מרחק רב מערכי האתחול שלהן, והמערכת לומדת להרכיב תכונות חדשות שמייצגות את המבנה הנמוך-ממדי והמהותי של המשימה. תהליך זה כרוך לרוב בקריסה של הדרגה האפקטיבית של מטריצת השונות המשותפת של האקטיבציות הפנימיות, כלומר המודל דוחס את המידע למספר קטן של ממדים משמעותיים שמשקפים את חוקיות הנתונים ולא את הרעש. מעבר זה אל המשטר העשיר הוא שמייצר את הנפילה הפתאומית בשגיאת המבחן המוכרת לנו כ-Grokking, והוא זה שהופך את הפתרון של פרמטריזציית-יתר לפתרון חלק ומכליל בתופעת ה-Double Descent.

משטר למידה עשיר	משטר למידה עצל	מאפיין מרכזי
משמעותית, המודל עוזב את המרחב האפיני ההתחלתי	מינימלית, בסדר גודל זניח אסימפטוטית	תזוזת משקולות מהאתחול
דינמיים, מתעדכנים ומתעצבים מחדש לפי מבנה הנתונים	סטטיים, מבוססים על האתחול האקראי	ייצוגים לטנטיים ופנימיים
חקירה אקטיבית של המרחב לאיתור פתרונות לא-לינאריים ודלי-ממדים	תנועה בתוך מרחב הפרוש על ידי הגרדיאנטים ההתחלתיים	גיאומטריה אלגוריתמית
גבוהה מאוד, מתבססת על זיקוק המבנה המתמטי של המשימה	נמוכה מאוד, אלא אם קיימת התאמה מקרית באתחול	יכולת הכללה לנתונים חדשים
צניחה חדה בשגיאת המבחן ויצירת התאמה בין אימון למבחן	שגיאת אימון אפסית במקביל לשגיאת מבחן גבוהה (השלב השטוח)	ביטוי בגרף השגיאות

שליטה מפורשת בפרמטר העצלות

ההבנה כי ה-Grokking הוא תולדה של מעבר פאזה ממשטר עצל לעשיר הוכחה אנליטית בעבודתם של קומאר ועמיתיו בשנת 2024. המחברים הוכיחו כי מעבר הפאזה אינו מקרי, אלא תלוי במכניקה שניתנת לשליטה מתמטית מפורשת, שמאפשרת להאריך, לקצר, או להעלים את תופעת ההשהיה לחלוטין.

על מנת לבחון את המעבר בצורה מבוקרת בסביבה של רגרסיה פולינומית עם רשת עצבית דו-שכבתית, הוגדר פרמטר קנה מידה שמכונה אלפא. פרמטר זה מכפיל את פלט הרשת ושולט באופן ישיר ברמת העצלות של הדינמיקה לאורך האימון. כדי ליישם פרמטר זה מבלי לייצר חוסר יציבות באתחול, פונקציית החיזוי של הרשת מותאמת כך:

f̃(x, θ) = α [ f(x, θ) - f(x, θ₀) ]

כדי לפצות על הכפלת הפלט ולשמור על קנה מידה עקבי של הנגזרת ההתחלתית לפי הזמן, קצב הלמידה מותאם באופן הפוך לנורמת האלפא:

η = η₀ / α²

משמעות ההתאמה הגיאומטרית הזו היא שערכים גבוהים של אלפא מאפשרים לרשת להגיע לשגיאה אופטימלית על נתוני האימון עם תזוזה מיקרוסקופית בלבד של המשקולות ממצב האתחול. ככל שאלפא גדול יותר, הרשת נשארת כלואה בתוך המרחב האפיני העצל, ומסוגלת להתאים את הפלט לנתונים כמעט מבלי לשנות את מבנה הקרנל המשיק העצבי שלה. בתנאים אלו, המודל מסיים את הלמידה האמפירית המהירה שלו כשהוא משנן את הנתונים, ושגיאת המבחן שלו גרועה. ה-Grokking נראה לעין בבירור משום שתקופת ההשהיה עד למעבר הפאזה העשיר מתארכת משמעותית. לעומת זאת, כאשר מגדירים את אלפא להיות קטן מאוד, הרשת אינה יכולה לספק פתרון רגרסיה יעיל באמצעות שינויים קטנים במשקולות. היא נדחפת החוצה מהמשטר הלינארי המקורב כבר בתחילת האימון, נאלצת ללמוד תכונות עמוקות באופן מיידי, ותופעת ההשהיה של ה-Grokking נעלמת כלא הייתה.

מושג הקרנל המשיק העצבי, Neural Tangent Kernel או NTK, הוא כלי מתמטי שמאפשר לתאר את תהליך הלמידה של רשת עצבית עמוקה כפעולה של מודל ליניארי פשוט יותר. בבסיסו, ה-NTK מודד כיצד השינוי בפרמטרים של הרשת, המשקולות, משפיע על הפלט שלה עבור קלטים שונים. במקום להסתכל על כל נוירון בנפרד, ה-NTK מספק מבט על התנהגות המאקרו של הרשת, הוא מגדיר עד כמה שתי דוגמאות שונות נתפסות כדומות בעיני המודל, ובכך קובע כיצד עדכון המשקולות בעקבות דוגמה אחת ישפיע על התחזית עבור דוגמה אחרת.

בפועל, ה-NTK משמש גשר תיאורטי חשוב וחיוני להבנת היכולת של רשתות עצביות להכליל ולהגיע לתוצאות טובות. הוא מאפשר למדענים להבין מדוע אלגוריתם ה-Gradient Descent מצליח למצוא פתרון אופטימלי למרות המורכבות האדירה של הרשת, ואף מאפשר לחזות את ביצועי המודל עוד לפני שהאימון החל. למרות שרשתות אמיתיות אינן בעלות רוחב אינסופי, ה-NTK מספק קירוב מצוין.

פירוק שגיאת המבחן ומשמעות היישור של הקרנל

ההסבר לכשלונו של המשטר העצל להכליל טמון במדד נוסף שזוהה כמכריע להופעת Grokking: מידת היישור בין הגרעין המשיק העצבי (NTK) לבין פונקציית המטרה, או התיוגים, באתחול. בתחילת תהליך האימון, הוקטורים העצמיים המובילים של מטריצת הגרדיאנטים מצביעים לכיוונים אקראיים לחלוטין. אם כיוונים אלו אינם מיושרים עם הכיוונים שמייצרים את הסיגנל האמיתי של הנתונים, הפתרון הלינארי שהמשטר העצל ימצא יהיה תלוי לחלוטין בהתאמה לרעש המקומי במדגם.

על פי הפיתוח האסימפטוטי שמציג נתונים סטטיסטיים מספיקים עבור שגיאת המבחן של הרשת בהקשר זה, ניתן לפרק את פונקציית ההפסד על נתונים חדשים למספר רכיבים נפרדים. הפיתוח נכתב כך:

L = ⟨(y - f)²⟩ = (1 / 4D) |β⋆|² - (αε / D) Tr(M²) + (1 / 2D²) ‖αεM - β⋆β⋆ᵀ‖²_F + α²D |w̄|²

בפירוק זה, השגיאה הכוללת בנויה מאיבר של שגיאת שונות אובייקטיבית, מאיבר מרכזי שמייצג את שגיאת חוסר היישור שבין הקרנל למטרה, ומאיבר שמייצג את עוצמת המשקולות או האנרגיה הפנימית של הרשת. במשטר העצל, המטריצות הפנימיות שמסמלות את הייצוג, המטריצה M, כמעט ואינן משתנות מערכן ההתחלתי. כתוצאה מכך, שגיאת חוסר היישור הופכת לדומיננטית במיוחד. המודל ממזער את ההפסד על נתוני האימון על ידי יצירת התאמה מורכבת ועתירת פרמטרים שאינה קשורה לחוקיות האמיתית.

התופעה של הכללה מאוחרת מתרחשת משום שאחרי ששגיאת האימון צונחת לאפס, אלגוריתם מורד הגרדיאנט ממשיך לשוטט באיטיות על פני מרחב הפתרונות בעקבות לחצים פנימיים וחיצוניים, כגון מיזעור הנורמה. במהלך שיוט זה, המטריצות הפנימיות מתחילות, בצעדים מזעריים, להסתובב ולהתיישר מול פונקציית המטרה

β⋆

כאשר רמת היישור חוצה סף קריטי, המודל נוטש את המרחב העצל, שגיאת חוסר היישור קורסת, ושגיאת המבחן נופלת במהירות לאפס. תהליך יישור זה אינו יכול להתרחש באופן טבעי אם נתוני האימון אינם מספקים מספיק אינפורמציה אודות המבנה הגיאומטרי האמיתי, ולכן Grokking מחייב כמות נתונים מדויקת שמכונה אזור הזהבה.

היחס העדין שבין נתונים לייצוגים באזור ההזהבה

תנאי חיוני לקיומו של מעבר פאזה ממשטר עצל לעשיר הוא כמות הנתונים שזמינה לאימון. תופעת ה-Grokking אינה מתרחשת תמיד ובכל גודל של מערך נתונים, אלא ברצועה סטטיסטית צרה מאוד שמכונה אזור הזהבה.

כדי ש-Grokking ייווצר, גודל המדגם חייב להיות קטן מספיק כדי לאפשר למודל לבצע אינטרפולציה ושינון ראשוניים של הנתונים באמצעות המרחב האפיני של משקולות האתחול. אם למודל היו כמויות עצומות של נתונים, קרוב לגבול האינסופי, המערכת העצלה הייתה קורסת תחת העומס ולא הייתה מצליחה לייצר שגיאת אימון אפסית מבלי ללמוד את התכונות האמיתיות. במצב של שפע נתונים כזה, כורח המציאות המתמטי היה כופה למידת תכונות עשירה כבר מהרגע הראשון, שגיאת המבחן הייתה עוקבת באופן מושלם אחר שגיאת האימון, ולא היינו צופים בשום השהיה או בניתוק בין המדדים.

מנגד, אם כמות הנתונים מסופקת במשורה ורחוקה מלהקיף את השונות של המשימה, הרשת אמנם תשנן את הנתונים במהירות בעזרת הדינמיקה העצלה, אך משטר הלמידה העשיר לעולם לא יהפוך לפתרון המשתלם ביותר מבחינה סטטיסטית. אין בנמצא מספיק איתותים בנתונים כדי למשוך את מטריצות השונות המשותפת הפנימיות להתיישר אל מול החוקיות הגלובלית. הלחץ למזער את מורכבות המשקולות ישאיר את המודל תקוע בפתרון טריוויאלי. אזור הזהבה מתקיים אך ורק בנקודת תורפה ספציפית: כמות נתונים המאפשרת לאשליית השינון להתבסס בהצלחה בשלבים המוקדמים של האימון, אך יחד עם זאת אוצרת בתוכה מספיק מידע כדי שהטופולוגיה של החוקיות הפנימית תמשוך את האופטימיזטור לגלות את המבנה הנמוך-ממדי בשלבים המאוחרים.

מסגרת מהירויות למידת התבניות

בעוד שקומאר ועמיתיו סיפקו מנגנון מדויק ברמת היישור והגיאומטריה, דייויס ועמיתיו (2023) הציעו מסגרת פונקציונלית ומושגית רחבה המאחדת לא רק את ה-Grokking, אלא גם את תופעת ה-Double Descent, תחת מכניקה משותפת אחת שמכונה מהירויות למידת תבניות. מחקר זה גורס כי רשת עצבית אינה לומדת פתרון אחד מונוליתי, אלא מפתחת לאורך הזמן אוספים שונים של מנגנוני סיווג, או תבניות, שנרכשים בקצבים שונים ובעלי טבע הכללה שונה.

במסגרת מתמטית זו, ההסתברות של תבנית ספציפית שמזוהה כאינדקס i לסווג נכונה דגימת נתונים בזמן אימון מסוים מתוייגת על ידי פונקציה סיגמואידית של הזמן או של קיבולת המודל. המשוואה מתוארת כך:

p_i(t) = γ_i / ( 1 + e^(-α_i(t - b_i)) )

מרכיבי המשוואה ממפים את ההתנהגות הדינמית של התבנית: הפרמטר גמא מייצג את כושר החיזוי המקסימלי של התבנית האמורה. הפרמטר אלפא מגדיר את מהירות הלמידה שלה, כלומר עד כמה התבנית צומחת במהירות למלוא הפוטנציאל שלה מרגע הופעתה. הפרמטר b מסמן את נקודת ההיפוך הגיאומטרית של העקומה הסיגמואידית, ומציין את נקודת הזמן או המורכבות שבה התבנית מתחילה להיות דומיננטית ברשת.

כדי לקשר מודל זה ליכולת של הרשת להכליל, הוצמד לכל תבנית מקדם הכללה שמייצג את האחוז היחסי של דגימות המבחן החדשות שהיא מסוגלת לסווג כראוי. שגיאת האימון הכללית של הרשת מחושבת על בסיס ההסתברות שכל תבנית שהיא מתוך סך התבניות שנרכשו תצליח להפיק את התשובה הנכונה, בעוד שגיאת המבחן נגזרת מתרומתן היחסית של תבניות בעלות מקדם הכללה גבוה. הטענה המרכזית שעולה ממסגרת זו היא שההטיות המשתמעות של אלגוריתמי האופטימיזציה, יחד עם הגיאומטריה הלטנטית, מתעדפות בסופו של דבר תבניות שמאופיינות בשונות נמוכה ובהכללה מעולה, גם אם אלו קשות מאוד לאיתור ונלמדות בקצב איטי להחריד.

על בסיס מסגרת זו, חולקו מנגנוני הלמידה ברשת לשלושה סוגי תבניות היררכיים, אשר התחרות ביניהם מייצרת את מופעי הגרפים האנומליים:

תפקיד הטיפוס במסגרת התאוריה של משטרי הלמידה	קצב וכושר הכללה	מהירות התהוות ולמידה	טיפוס התבנית
המודל מבחין בכללי אצבע שטחיים שמאפשרים ירידה מהירה בשגיאה כבר בתחילת האימון, אך יכולת החיזוי המקסימלית שלהם נותרת מוגבלת.	כושר הכללה בינוני עד סביר	התהוות מהירה ומוקדמת מאוד	תבנית מסוג 1 יוריסטיקה
תבנית שמתבססת על התאמה לוקאלית לרעש ולמאפיינים ספציפיים של דגימות האימון. מקבילה מהותית למשטר הלמידה העצל ולשימוש בתכונות אקראיות נטולות הקשר מבני.	כושר הכללה אפסי או נמוך מאוד	התהוות בינונית-מהירה	תבנית מסוג 2 התאמת-יתר ושינון
המודל מחלץ את המבנה האלגברי המזוקק והחוקיות האמיתית. מקביל למשטר הלמידה העשיר. התבנית דורשת ארגון מחדש של המרחב הלטנטי ולכן נדחקת לשלבים המאוחרים.	כושר הכללה אידיאלי ושואף לשלמות	התהוות איטית במיוחד, נדרש זמן או פרמטריזציה ניכרת	תבנית מסוג 3 למידת מבנה עמוקה

האיחוד של ה-Double Descent ושל ה-Grokking נובע מכך שמדובר באותה אינטראקציה בדיוק בין התבניות הללו, תחת משתני אקלים שונים של הנתונים. בתופעת ה-Epoch-wise Double Descent, אופי הנתונים, לרוב תמונות מורכבות או נתונים עשירים ביוריסטיקות טבעיות, מאפשר לרשת לאמץ במהירות תבניות מסוג 1, מה שגורם לשגיאת המבחן לרדת בתחילת הדרך. כשהמודל ממשיך בחיפושיו הנואשים לאפס לחלוטין את שגיאת האימון, הוא נאלץ לשלב תבניות התאמת-יתר מסוג 2 כדי לכסות על חריגים ורעש. שילוב זה מזהם את החיזוי על נתונים חדשים, ויוצר את הגיבנת של התאמת היתר בעקומת המבחן. אולם, לאחר מספיק מחזורי אופטימיזציה, תבניות מסוג 3 האיטיות אך האיתנות חוצות את נקודת ההיפוך שלהן, משתלטות על הרשת בזכות פשטותן הגיאומטרית תחת לחצי הרגולריזציה, ומורידות את שגיאת המבחן אל שפל חדש שמעבר לגיבנת.

לעומת זאת, תופעת ה-Grokking מתרחשת בסביבות נתונים שמרניות יותר, כגון לוגיקה או משימות של מתמטיקה מודולרית, שבהן תבניות מהירות של סוג 1 פשוט אינן קיימות או שהן חלשות באופן שאינו מאפשר להן להתבלט. המודל, בהיעדר קיצורי דרך יוריסטיים, צולל מידית להפעלת תבניות סוג 2 המבוססות על המשטר העצל. שגיאת האימון קורסת במהירות על ידי בניית מילון עצום ומיותר של התאמות מדויקות. ללא תבניות מסוג 1, שגיאת המבחן אינה יורדת כלל בהתחלה ונותרת ברמת ניחוש אקראי. בגלל שתבניות סוג 3 מתעצבות בקצב איטי להחריד, הרשת נראית כמי שקפאה במצב של חוסר הבנה. לבסוף, לאחר זמן ממושך, מנגנוני הלמידה העמוקה פורצים החוצה בסערה כאשר הם חוצים את סף נקודת ההיפוך הסיגמואידית, מעלימים את תבניות השינון, ומובילים לצניחה הפתאומית של ה-Grokking. מנגנון זה מבהיר כי ההבחנה בין התופעות אינה תיאורטית, אלא היא סוגיה של הרכב התבניות שהמשימה מאפשרת.

תופעות Model-wise Grokking ו-Model-wise Double Descent

אחת התגליות המסעירות ביותר שמבוססות על מסגרת מהירויות למידת התבניות היא האנלוגיה שבין התקדמות הזמן לבין הגדלת קיבולת המודל. כפי שתבניות למידה זקוקות לזמן אופטימיזציה כדי להבשיל, הן זקוקות גם לממדיות רחבה של פרמטרים ומרחב פנימי כדי להתבטא ביעילות. עובדה זו הובילה את המחוקרים להדגים תופעה חדשה שמכונה Model-wise Grokking, שמקבילה באופן מלא לתופעה הקלאסית של Model-wise Double Descent.

בניסוי מבוקר, אומנו רשתות טרנספורמר בגדלים שונים על אותה משימת חשבון מודולרי בדיוק, כאשר מספר צעדי האימון הוחזק קבוע אך קיבולת המודל שונתה על ידי Internal Embedding Dimension Expansion. כפי ש-Grokking מתרחש על ציר הזמן כאשר ממתינים בסבלנות שמבנה הכללה יעקוף את השינון, כך הסתבר שהגדלת גודל הרשת מאפשרת לגרוקינג להתרחש באופן מידי יותר עבור אותו חלון זמן. רשתות קטנות נותרו תקועות במשטר העצל וביססו את החיזוי על שינון, ואילו רשתות שבהן ממד השיקוע, ה-Embedding Dimention, היה גדול משמעותית צלחו את המעבר לדינמיקה עשירה והראו הכללה מושלמת. ממצא זה מוכיח כי היתירות הפרמטרית פועלת כמאיץ ללמידה מבנית, ומקטינה את התלות בזמן הדרוש לחציית נקודות האוכף של פונקציית השגיאה.

תופעה זו מהווה בבואת ראי ל-Model-wise Double Descent, שמסבירה את היתרון האדיר של מודלים מודרניים על פני הסטטיסטיקה הישנה. בתורת הלמידה הקלאסית, כאשר מורכבות המודל מגיעה אל סף האינטרפולציה, הנקודה הקריטית שבה מספר הפרמטרים משתווה במדויק למספר דגימות האימון, נצפית קטסטרופה סטטיסטית בשגיאת ההכללה. בנקודה גבולית זו, למודל יש בדיוק מספיק דרגות חופש כדי להעביר עקומה דרך כל דגימות המדגם והרעש הנלווה אליהן, אך ללא שום יתירות שמאפשרת חופש פעולה.

במונחים של תורת המטריצות האקראיות, מטריצת השונות המשותפת האמפירית מגיעה בסף האינטרפולציה למצב פתולוגי. הערך העצמי המינימלי של המטריצה שואף לאפס, מה שגורם לה להתנהג כמטריצה בעלת התניה רעה במיוחד, חולה. שונות האומד של המשקולות פרופורציונלית מתמטית לעקבה של מטריצה הופכית זו, וכאשר מעריכים עצמיים אפסיים נמצאים במכנה, העקבה והשונות שואפים לאינסוף. ננסח במשוואה הסטטיסטית של פיזור השגיאה:

Var(β) ∝ Tr(Σ⁻¹)

בגלל ההתניה הרעה הזו, המודל נאלץ לקבל פתרון של משקולות עצומות ומשתוללות, המשקף לחלוטין אחיזה נואשת במשטר העצל ללא כל יכולת לזקק חוקיות חלקה. עם זאת, כאשר ממשיכים להגדיל את המודל עמוק אל תוך המשטר העל-פרמטרי, מספר הפרמטרים מאמיר והרשת מקבלת אינסוף פתרונות מתמטיים אפשריים לשגיאת אימון אפסית. תוספת הממדים מרווחת את הדגימות במרחב הופכת אותן לכמעט אורתוגונליות זו לזו. הערכים העצמיים הקטנים של מטריצת השונות האמפירית מתרחקים מאפס, ההתניה מתרפאת, והמערכת מסוגלת להשתמש בעושר הממדים שלה כדי לבזר את רעש הנתונים ולבחור במסלול החלק, האלגנטי והפשוט ביותר. הטיה מובלעת של האופטימיזטור אל הפתרון בעל הנורמה המינימלית היא שדוחפת את המודל למשטר העשיר ומאפשרת את הירידה השנייה בשגיאת המבחן.

כוחות הלחץ הגיאומטרי: רגולריזציה ומנגנון ה-LU

אף על פי שפרמטריזציית-יתר מעניקה למודל את הפוטנציאל לאתר ייצוגים עשירים וחסכוניים, לרוב נדרש כוח חיצוני או אינהרנטי שידחוף ויאלץ את המערכת לנטוש את הנוחות של שינון שטחי במשטר העצל. הפעולה של דחיקת המודל אל מחוץ לעמק השינון מיוחסת לרוב לכוחות רגולריזציה, כגון דעיכת משקולות, רגולריזצייה L2, שמשמשים כזרז אלגברי הכרחי למעבר הפאזה.

תורת הלמידה הסטטיסטית ממחישה שפתרון של שינון, שמסתמך על תכונות לינאריות אקראיות של האתחול ללא התאמה עמוקה לחוקיות, תובע מהמודל להפעיל משקולות מורכבות וגדולות מאוד, על מנת להתאים פונקציה מסורבלת לנקודות רועשות. בהתאמה, נורמת המשקולות מזנקת לערכים גבוהים כפי שנוסח בעבר בביטוי:

‖w‖²

בנקודה שבה שגיאת האימון יורדת לאפס, הגרדיאנט שמגיע מנתוני האימון נכבה. הגרדיאנט היחיד שנותר פעיל במרחב האופטימיזציה הוא הגרדיאנט של הרגולריזציה, שמספק דחיפה שלילית וקבועה שמיועדת לכווץ את עצמת המשקולות ככל הניתן. לחץ תרמודינמי רציף זה מאלץ את הרשת למצוא תצורה חדשה אשר ממשיכה לשמור על שגיאת אימון אפסית, אך צורכת משקולות מצומצמות וקטנות יותר. חיפוש זה אחר פשטות, שמתואר לעיתים בראי של עקרון צואר הבקבוק של המידע, מחייב את המודל לאפס רעש, לארגן מחדש את הטופולוגיה הלטנטית למבנים דלי-ממדים, ולהמיר את המרחב העצל בהבנה מבנית פנימית עשירה.

על מנת להמחיש את השילוב שבין דינמיקת שגיאת המודל לבין כוח הרגולריזציה, גובש מודל ויזואלי וגיאומטרי שמכונה מנגנון ה-LU. מנגנון זה מסביר את הטופולוגיה של מסלול הלמידה על גבי מישור נורמת המשקולות ושגיאות המודל. כאשר אנו משרטטים תרשים שבו הציר האופקי מודד את נורמת המשקולות (מורכבות המודל בפועל) והציר האנכי מודד את גודל השגיאה, שני המדדים מתפצלים באופן מובהק.

שגיאת האימון יוצרת תבנית של האות L. בתחילת האימון, נורמת המשקולות גדלה במעט בעוד שגיאת האימון צוללת במהירות מטה לכיוון האפס (הקו האנכי של ה-L). מרגע שהמודל מגיע לשגיאת אימון אפסית על ידי שינון, הוא יכול להמשיך לנוע לאורך המישור האופקי ימינה, תוך שהוא מנפח את המשקולות שלו לממדים אדירים בחיפוש שטחי. השגיאה נותרת שטוחה לחלוטין בקו האפס (הזרוע האופקית של ה-L).

מנגד, מסלול שגיאת המבחן יוצר צורה טופולוגית קעורה בדומה לאות U. ירידה ראשונית בשגיאת המבחן מביאה את המערכת לבסיס האות U. אולם, כאשר המודל ממשיך בדרכו הרעה לנפח משקולות כדי לשמור על שינון אידיאלי (תנועה ימינה על הציר האופקי), שגיאת המבחן מגיבה בזינוק קטסטרופלי מעלה על הזרוע הימנית של האות U, עקב כניסה עמוקה למצב של התאמת יתר חריפה הנגזרת מהמשטר העצל.

תופעת ה-Grokking מוסברת כמעבר אקטיבי שנכפה על ידי דעיכת המשקולות על פני טופולוגיה זו. בשלב ההתאמה השטחית, המודל שוהה הרחק מימין: הוא שוכב על קרקעית ה-L היציבה עבור נתוני האימון, אך משייט בגבהים המסוכנים של הזרוע הימנית של ה-U עבור נתוני המבחן. כוח דעיכת המשקולות פועל בנקודה זו כמשיכה גיאומטרית אדירה או כמעין קפיץ דרוך שפועל על הציר האופקי. המשיכה מושכת את נורמת המשקולות באגרסיביות שמאלה, לכיוון ראשית הצירים. מאחר שהרשת נדחפת אחורה, היא גולשת שוב במורד הזרוע הימנית של עקומת ה-U, תוך שהיא מארגנת את ממדיה הפנימיים מחדש. רגע ההארה, או ה-Grokking, מגיע בדיוק כאשר נורמת הרשת נדחסת מספיק כדי ליפול במדויק אל תוך בסיס ה-U. בנקודת אופטימום הרמונית זו, נורמת המשקולות נותרת קטנה, שגיאת האימון עומדת על אפס, אך גם שגיאת המבחן מצויה בשפל המוחלט שלה בזכות למידת תכונות עשירה ונכונה. המעבר ממשקולות מנופחות שמייצגות שינון למשקולות מהודקות שמייצגות חוקיות הוא הביטוי הטופולוגי המוחלט למעבר ממשטר עצל לעשיר.

מיזעור דרגת המטריצות וקיבולת לטנטית במערכות פנימיות

הניתוח של מעברי פאזה ממשטר לינארי עצל לדינמיקה עשירה אינו מוגבל רק לצפייה בשגיאת ההכללה החיצונית או בנורמה האוקלידית. תובנה נוספת וחשובה העולה ממחקרים מתקדמים בתחום היא שמעברי הפאזה הללו מגובים בשינוי אמיתי ודרסטי בדרגה של מטריצות המשקולות והייצוגים לאורך שכבות הרשת.

מחקרים הראו כי תופעת ה-Grollomg וזניחת המשטר העצל חופפים באופן מובהק לתהליך של מזעור הדרגה במטריצות המשקולות הפנימיות של מודלים עמוקים. כפי שמסגרת מהירויות הלמידה מתארת את כניסת התבניות מסוג 3, כך ניתן לראות באלגברה הלינארית את הקריסה של השונות הפנימית ממצב שבו דגימות האימון מפוזרות ללא קשר לוגי (דרגה גבוהה, תנודות גבוהות, התאמת יתר) למצב שבו כל דגימות הרשת נופלות על מגוון נמוך-ממדי משותף, בדומה לסעפת דלת-ממדים. מזעור הדרגה מייצג את הפעולה הטהורה ביותר של למידת תכונות עשירה, משום שהוא מדגים שהרשת מצאה ייצוג פשוט שחולש על פני כל המרחב של משימת היעד מבלי להישען על פרמטרים עודפים. שינויים אלו גלויים לעין לא רק במודלים מורכבים במיוחד, אלא גם ברשתות פשוטות המאומנות על משימות כמו סיווג תמונות, שם ארגון מחדש של המרחב הלטנטי הוא הערובה הבלעדית ליכולת המערכת להתמודד עם שונות גלובלית בנתונים ולא רק ברעשים מקומיים.

העובדה שמעבר פאזה זה מלווה בשינוי אקטיבי של דרגת הייצוג מצביעה על כך שהרגולריזציה המשתמעת, או כוחות דעיכת המשקולות, אינם פועלים סתם כמנגנוני כיווץ מידות אלא מנחים את המערכת לחקור ולהוציא לאור מישורים לינאריים תת-ממדיים שמסתירים בתוכם את החוקיות האלגברית האמיתית. שינוי קיבולת הייצוג הפנימית בא לידי ביטוי מעשי כאשר מיישמים רשתות עצביות בבעיות פיזיקליות אמיתיות, כגון ניווט או שליטה דינמית, שכן למידת התכונות העשירה מאפשרת להן להשליך חוקים גנריים על סיטואציות שלא נצפו כלל בשלבי הלמידה המוקדמים, עדות לבידוד הסיגנל מהרעש.

סיכום התובנות ומבט לעבר תכנון ארכיטקטורות מודרניות

פיענוח המכניקה שמאחורי ה-Double Descent וה-Grokking, תוך הסתמכות על תיאוריה משולבת של מעבר ממשטר עצל לעשיר ומערכת תעדוף היררכית של תבניות למידה, מפזר במידה רבה את הערפל מעל היכולת של למידה עמוקה להכליל מתוך סביבות עתירות רעש. תובנות עמוקות אלו נושאות בחובן משמעויות עצומות לאופן שבו מהנדסי נתונים, חוקרים ומפתחי מערכות מתכננים ומאמנים מודלים לומדים:

המסגרת המתמטית מוכיחה כי הכללה אינה תהליך רציף, אלא לעיתים קרובות תהליך שמאופיין בקפיצות פאזה דרמטיות שתלויות במצב התרמודינמי של הרשת. הבנה זו מחייבת מפתחים לשקול מחדש את מדיניות העצירה המוקדמת, במיוחד במשימות בעלות אופי אלגוריתמי או כאלה שדורשות חילוץ סימטריות וכללים טהורים מהנתונים. אימון מודלים מעבר לנקודת האינטרפולציה ואפילו לתוך תקופות ארוכות שבהן המודל נראה תקוע בשגיאת אימון אפסית, עשוי להיות השלב ההכרחי ביותר להפיכת שינון שטחי לתובנה מבנית ועמוקה.

יתרה מכך, תפיסת אזור הזהבה של כמות הנתונים מאתגרת את ההנחה המסורתית ולפיה כמה שיותר נתונים הרי זה משובח. מחקרים במודלי צעצוע ובהתנהגות קרנל מלמדים כי בתנאים של פרמטריזציה ועצלות מסוימת, עודף נתונים עשוי לדחוק את הרשת למציאת פתרונות מהירים אך חסרי תועלת שיישארו תקועים לנצח, בעוד מדגם המכויל בדיוק למידת המורכבות הדרושה יאלץ את המערכת לבצע תזוזה משמעותית מהמרחב ההתחלתי לעבר המשטר העשיר.

במישור הארכיטקטורה, מפתחים וחוקרים יכולים ליישם פרמטרי בקרה מתמטיים ישירים, כמו פרמטר ה-α שפותח בעבודתם של קומאר ועמיתיו, על מנת לכפות את מידת העצלות של המודל בתחילת דרכו. על ידי כיוונון זהיר של יחסי ההפעלה והקנסות הגיאומטריים של משקולות הרשת, תוך התחשבות במנגנוני ייצוג פנימי כמו תורת המטריצות הבלתי הפיכות, ניתן להאיץ באופן דרמטי את המעבר ללמידת תכונות עשירה, ולחסוך זמני חישוב יקרים הכרוכים בהשתהות חסרת תוחלת במשטרים של התאמת יתר שטחית.

האיחוד הקונספטואלי שהוצג משלים מהפכה בהבנה התיאורטית של מדעי הנתונים: ה-Double Descent וה-Grokking אינם בגדר שגיאות מדידה או תופעות שוליים של רשתות עמוקות. אדרבה, הם ביטוי עילאי לאופטימיזציה דינמית, שבה רשת מאותחלת נדחקת לעזוב את קיצורי הדרך הלינאריים והעצלים, לעבד מחדש את מבני הייצוג הפנימיים שלה לאור עקרונות הנדסת המידע, ולהציב פתרון אלגנטי ועשיר שצולח את מבחן המציאות. הבנה זו, שמושתתת על משוואות כבידתיות, הסתברויות א-סימפטוטיות וזרימות טופולוגיות מורכבות, מהווה אבן ראשה בבניית הדור הבא של מערכות בינה מלאכותית שמסוגלות באמת ובתמים להבין, ולא רק לזכור.

המעבר מעצלנות לעושר מחשבתי כדינמיקה מאחדת

אנחנו ב- Mathematic.ai יודעים "להרים מכסה מנוע" במערכות לומדות, יודעים לתכנן ולבנות אותן מאפס, יודעים לשפר ולהאיץ אותן ויודעים להביא אותן לסקייל גבוה ולמצב בר-קיימא בפרודקשן. אנחנו מספקים שירותים של מחקר אלגוריתמי יישומי, מתודולוגיה של ניסויים, שיטות הערכה, אוטומציה של תהליכים.

דברו איתי:

שלמה יונה,

מייסד ומדען ראשי,

מתמטיקאי מחקר ופיתוח בע"מ

053-7326360

shlomo.yona@mathematic.ai

https://mathematic.ai

פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו:

A technical deep dive about Mathematic.ai