top of page

הדינמיקה הנסתרת של למידה עמוקה: סיכום המסע והכנה לניתוח הגיאומטרי

  • Writer: shlomoyona
    shlomoyona
  • Apr 20
  • 3 min read

בסדרת המאמרים האחרונה הצגנו ניתוח מקיף של המכניקה הפנימית ברשתות עצביות עמוקות, תוך התמקדות בשתי תופעות מרכזיות שאינן מתיישבות עם תורת הלמידה הסטטיסטית הקלאסית: Double Descent ו-Grokking. כעת, משהונחה התשתית המושגית והמתמטית, סקירה זו מאגדת את תחנות המסע שעברנו ומסבירה למה ניתן לצפות בכל אחד מהמאמרים.


המסע החל במאמר "על תופעות ה Double Descent וה-Grokking", שבו הוצגו התופעות הללו לראשונה באופן השוואתי. המאמר סקר את השבירה של מודל הפשרות המסורתי בין הטיה לשונות, והדגים כיצד הגדלת מורכבות המודל מעבר לנקודת האינטרפולציה מובילה לשיפור בלתי צפוי בשגיאת ההכללה, וכיצד אימון ממושך הרחק מעבר להתאמת יתר מוביל להבנה פתאומית. הקוראים ימצאו בו את ההיכרות הבסיסית הנדרשת להמשך.


לאחר מכן, המאמר "על תופעת ה Grokking" צלל פנימה ופירק את התופעה דרך חמש נקודות מבט שונות: תורת החבורות, מכניקה סטטיסטית, תורת הלמידה הסטטיסטית, תורת האינפורמציה ואופטימיזציה רציפה. מאמר זה הסביר את מנגנון השגיאות המאחד, בו התכנסות לשגיאת אימון אפסית יוצרת צורה גיאומטרית של האות L, בעוד שגיאת המבחן יוצרת צורת U, עד שלחץ עקבי של רגולריזציה כופה על הרשת לעבור למשקולות קטנות יותר ולמצוא את פתרון ההכללה הטהור.


את הבסיס המתמטי הטהור של תופעת הירידה הכפולה הצגנו במאמר "התעמקות מתמטית בתופעת ה Double Descent". שם השתמשנו בתורת המטריצות האקראיות ובמשפט מרצנקו-פסטור כדי להסביר את ההתניה הרעה של מטריצת השונות המשותפת. המאמר ממחיש כיצד התקרבות למספר פרמטרים השווה למספר הדגימות מובילה להתפוצצות השונות, וכיצד הוספת ממדים נוספים במשטר העל-פרמטרי מרפאת בעיה זו. כהשלמה מעשית לכך, המאמר "מתי לא נצפה לתופעת Double Descent?" סקר את התנאים והמנגנונים המונעים את התופעה מראש. הקוראים ילמדו בו כיצד רגולריזציה מפורשת ושימוש באופטימיזציה באצוות קטנות מונעים את כניסת המודל למשברים סטטיסטיים הרסניים.


השלב הבא בניתוח שאף למצוא מסגרת תיאורטית אחת לשתי התופעות. המאמר "המעבר מעצלנות לעושר מחשבתי כדינמיקה מאחדת" הגדיר את ההבדל המהותי בין דינמיקת למידה עצלה, הנשענת על קרבה למשקולות האתחול ולמידה מהירה של רעש מקומי, לבין דינמיקה של למידת תכונות עשירה שמחייבת שינוי מהותי בטופולוגיית הייצוגים הפנימיים. המאמר "העמקה מתמטית לדינמיקה המאחדת בלמידת מכונה" הרחיב גישה זו לרובד הפיזיקלי, והסביר את המעבר ממשטר למשטר דרך משוואות של אנרגיה חופשית, לחצים תרמודינמיים, ומדדי קושי התלויים בגרעין המשיק העצבי.


לבסוף, על מנת לספק למדענים כלים למעקב אחר התפתחות הלמידה עצמה, פורסם המאמר "איך עוקבים אחרי מחשבות הרשת". מאמר זה הדגיש את הצורך לעבור ממעקב עיוור אחר פרמטרים בודדים אל עבר ניתוח של מטריצות הדמיון של הייצוגים הפנימיים. דרך שימוש מבוקר ברשתות לינאריות עמוקות, המאמר הדגים כיצד משוואות ריקטי דיפרנציאליות מתארות את סנכרון הייצוגים של הרשת עם משימת המטרה, וכיצד התערבות דרך אתחול לא מאוזן יכולה להאיץ משמעותית את כניסת המערכת ללמידה עשירה.


כל המאמרים הללו, כיחידה אחת, סיפקו תמונה מקיפה של המכניקה הסטטיסטית של הלמידה. עם זאת, שאלה אחת נותרה פתוחה: האם אלגוריתם מורד הגרדיאנט נע אל הפתרון במסלול הקצר והיעיל ביותר. המאמר החדש שיפורסם בקרוב יהווה את שיא הסדרה ויציע שינוי תפיסתי עמוק. הוא יוביל אותנו מניתוח פרמטרי שמבוסס על מרחבים אוקלידיים שטוחים, אל עבר הבנת הגאומטריה המעוקמת של הלמידה על גבי יריעות רימניות.



הדינמיקה הנסתרת של למידה עמוקה: סיכום המסע והכנה לניתוח הגיאומטרי
הדינמיקה הנסתרת של למידה עמוקה: סיכום המסע והכנה לניתוח הגיאומטרי


אנחנו ב- Mathematic.ai יודעים "להרים מכסה מנוע" במערכות לומדות, יודעים לתכנן ולבנות אותן מאפס, יודעים לשפר ולהאיץ אותן ויודעים להביא אותן לסקייל גבוה ולמצב בר-קיימא בפרודקשן. אנחנו מספקים שירותים של מחקר אלגוריתמי יישומי, מתודולוגיה של ניסויים, שיטות הערכה, אוטומציה של תהליכים.


דברו איתי:


שלמה יונה,

מייסד ומדען ראשי, 

מתמטיקאי מחקר ופיתוח בע"מ

053-7326360


פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו:

 
 
 

Comments


  • Facebook Social Icon
  • LinkedIn Social Icon

© 2010-2026 mathematic.ai

bottom of page