העמקה מתמטית לדינמיקה המאחדת בלמידת מכונה: מעבר ממשטר למידה עצלה לעשירה, מהירויות למידת תבניות והגיאומטריה של האופטימיזציה

shlomoyona
Apr 19
3 min read

במאמר הקודם המעבר מעצלנות לעושר מחשבתי כדינמיקה מאחדת הוצגה המסגרת המושגית של תופעות ה-Grokking וה-Double Descent. נסקרו המעברים ממשטר למידה עצלה למשטר למידה עשירה, והוסבר כיצד מהירויות למידה שונות של תבניות יוצרות את עקומות השגיאה הלא שגרתיות הללו. מטרת מאמר זה היא להרחיב ולהעמיק מעבר לתיאור הגיאומטרי והמושגי הבסיסי שהוצג, ולצלול אל המכניקה המתמטית המדויקת, ההיבטים התרמודינמיים וההשלכות ההנדסיות של תהליכי הלמידה הללו ברשתות עצביות עמוקות.

המעבר מהמשטר העצל לעשיר אינו מקרי, אלא נובע מחוסר התאמה מתמטי מדיד בין התכונות ההתחלתיות של המודל לבין פונקציית המטרה. חוסר התאמה זה מוגדר באמצעות אלגברה לינארית על הגרעין המשיק העצבי. משימה נחשבת קשה עבור המשטר העצל כאשר המכפלה הריבועית של וקטור התיוגים עם המטריצה ההופכית של הגרעין מניבה ערך גבוה.

Difficulty ≡ yᵀ K⁻¹ y ≫ 1

כאשר מדד הקושי מקבל ערכים גבוהים, הפתרון שנדרש מאלץ תזוזה משמעותית של משקולות המודל מנקודת האתחול שלהן.

‖w - w₀‖² ∼ yᵀ K⁻¹ y

תזוזה הכרחית זו שוברת את הקירוב הלינארי שמאפיין את תחילת הלמידה, וכופה על הרשת לאמץ דינמיקה של למידת תכונות עשירה כדי למזער את פונקציית ההפסד ולמצוא הכללה אמיתית. בנוסף, קצב המעבר בין המשטרים נשלט על ידי פרמטר קנה מידה, המסומן באות אלפא, שמכפיל את הפלט. הקטנה של פרמטר זה מאיצה את המעבר ללמידה עשירה ומעלימה את ההשהיה המאפיינת את תופעת הגרוקינג, בעוד שהגדלתו מאלצת את הרשת להישאר זמן רב יותר במשטר העצל.

בעוד שהמאמר הקודם תיאר את ההגעה להכללה דרך מנגנון הגיאומטריה של פונקציית ההפסד, תורת הלמידה הסינגולרית מספקת הסבר פיזיקלי וסטטיסטי למעבר זה. תהליך האופטימיזציה מנותח כמערכת שממזערת את האנרגיה החופשית שלה.

Fₙ(w) ≈ n Lₙ(w*) + λ(w*) log n

במשוואה זו, האיבר הראשון מייצג את ההפסד האמפירי שמושך את הרשת לפתרון השינון המהיר. כאשר שגיאת האימון מתאפסת, הלחץ התרמודינמי שמניע את המערכת נשלט על ידי מקדם הלמידה המקומי, שמיוצג על ידי האות למדא. מקדם זה מכמת את הניוון הגיאומטרי של אגן ההפסד. הפתרונות המכלילים מאופיינים בערך למדא נמוך משמעותית מפתרונות השינון, והרשת נדחפת לחפש אזורים בעלי הסתברות א-פוסטריורית גבוהה יותר, משמע אגנים בהם קיימת סעפת דלת-ממדים ופשוטה יותר. תהליך אופטימיזציה ממושך זה מקביל לעקרון צואר הבקבוק של המידע, שבו הרשת עוברת משלב אגירת מידע הממקסם מידע הדדי עם רעשי הקלט, לשלב ארוך של דחיסה וזיקוק אינפורמטיבי שמותיר רק את החוקיות הטהורה.

בהקשר של תופעת ה-Double Descent, המאמר ציין את סף האינטרפולציה כנקודת תורפה. הניתוח האנליטי המלא של נקודה זו נשען על תורת המטריצות האקראיות. השונות הכוללת של האומד נמצאת ביחס ישר לעקבה של המטריצה ההופכית של השונות המשותפת האמפירית.

Var(β) = (σ² / N) Tr(Σ⁻¹)

על פי משפט מרצנקו-פסטור, ככל שמספר הפרמטרים מתקרב למספר הדגימות, הערך העצמי המינימלי של המטריצה שואף לאפס. שאיפה זו מובילה לכך שהערכים בהופכי מזנקים לאינסוף. רמת חוסר היציבות במערכת נמדדת על ידי מספר המצב.

κ(Σ) = |λ_max(Σ)| / |λ_min(Σ)|

שאיפת המכנה לאפס גורמת למספר המצב לשאוף לאינסוף, מה שהופך את המטריצה לבעלת התנייה רעה, מטריצה חולה. במצב זה, המודל מפגין רגישות פתולוגית לרעש המדידה, משקולותיו גדלות באופן חריג בניסיון לפצות על סטיות קלות בנתונים, ונוצרת העלייה החדה בשגיאת המבחן. הגדלת מספר הפרמטרים הרחק מעבר לסף זה מאפשרת לערכים העצמיים להתרחק מאפס ולמטריצה ההופכית להחלים, מה שמוביל חזרה לייצוב המערכת ולהכללה אופטימלית.

ההבנה המעמיקה של מנגנונים אלו מאפשרת שליטה הנדסית בתהליך הלמידה. כדי למנוע את ההתניה הרעה ואת הקפיצה בשגיאה בסף האינטרפולציה, ניתן להשתמש בשיטות מבוססות אנסמבל, כמו אלגוריתם Random Forest, שבהן שקלול הפלטים מונע את ההתנהגות הקטסטרופלית של תת-מודל בודד. ברשתות עצביות, שימוש באופטימיזציית מורד גרדיאנט בקבוצות קטנות מכניס רעש סטוכסטי לפונקציית העדכון. רעש זה מתפקד כמעטפת רגולריזציה דינמית, שמחליקה את המרחב הטופולוגי ומונעת מהמערכת להתכנס לעמקים צרים ורגישים לרעש.

בנוסף, הופעת תופעת ה-Grokking מותנית בהימצאות המדגם באזור כמות נתונים מסוים. כמות נתונים קטנה מדי לא תספק איתותים סטטיסטיים מספקים כדי שהטופולוגיה של החוקיות תהווה את הפתרון העדיף, בעוד שכמות נתונים גדולה מאוד תכפה דינמיקת למידת תכונות עשירה מהרגע הראשון ותעלים לחלוטין את תקופת ההשהיה. ניהול מוקפד של גודל המדגם, יחד עם בחירה מושכלת של רגולריזציה ופרמטריזציה מתאימים, הם הכלים המרכזיים להכוונת המודל למשטר הלמידה העשירה בצורה אופטימלית.

יש גם את המאמרים שמהם למדתי את כל הטוב הזה:

Grokking as the Transition from Lazy to Rich Training Dynamics https://arxiv.org/abs/2310.06110

https://www.alphaxiv.org/overview/2310.06110v3

Unifying Grokking and Double Descent https://xanderdavies.com/grokking_dd.pdf

GROKKING AS THE TRANSITION FROM LAZY TO RICH TRAINING

https://proceedings.iclr.cc/paper_files/paper/2024/file/63ed15a46a143ff57484b38cd6b85d91-Paper-Conference.pdf

Unifying Grokking and Double Descent

https://arxiv.org/abs/2303.06173

https://www.researchgate.net/publication/369198864_Unifying_Grokking_and_Double_Descent

העמקה מתמטית לדינמיקה המאחדת בלמידת מכונה: מעבר ממשטר למידה עצלה לעשירה, מהירויות למידת תבניות והגיאומטריה של האופטימיזציה

אנחנו ב- Mathematic.ai יודעים "להרים מכסה מנוע" במערכות לומדות, יודעים לתכנן ולבנות אותן מאפס, יודעים לשפר ולהאיץ אותן ויודעים להביא אותן לסקייל גבוה ולמצב בר-קיימא בפרודקשן. אנחנו מספקים שירותים של מחקר אלגוריתמי יישומי, מתודולוגיה של ניסויים, שיטות הערכה, אוטומציה של תהליכים.

דברו איתי:

שלמה יונה,

מייסד ומדען ראשי,

מתמטיקאי מחקר ופיתוח בע"מ

053-7326360

shlomo.yona@mathematic.ai

https://mathematic.ai

פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו:

A technical deep dive about Mathematic.ai

Comments