מתי לא נצפה לתופעת Double Descent?

shlomoyona
Apr 16
2 min read

כמו שראינו בפוסטים הקודמים (כאן ו-כאן) תופעת ה-Double Descent מתרחשת בעיקר כאשר מודל מנסה לבצע אינטרפולציה מושלמת, כלומר, התאמה מלאה לכל רעש בנתוני האימון. אותה אינטרפולציה מושלמת מתחרשת כשמספר הפרמטרים במודל משתווה למספר הדגימות.

התופעה אופיינית בעיקר למודלים מודרניים גמישים מאוד, אך היא אינה מופיעה במודלים קשיחים, במודלים מרוסנים היטב, או במודלים קלאסיים שנמצאים בתת-פרמטריזציה, כי אלו פשוטים מכדי להגיע לנקודת האינטרפולציה הקריטית.

כדי למנוע את הזינוק בטעות הבדיקה שמאפיין את התופעה ולהבטיח ירידה מונוטונית בטעות ככל שהמודל גדל, נהוג להשתמש במנגנוני רגולריזציה, בין אם מפורשים, משתמעים או ארכיטקטוניים. מנגנונים אלו מונעים מהמודל לנצל את כל הקיבולת שלו לשינון חסר תועלת של רעש.

המונח רגולריזציה אופטימלית מתייחס לכל מנגנון שמוסיף קנס ישיר לפונקציית ההפסד ומונע התאמת יתר לרעש:

רגולריזציית L2 (Ridge Regression) היא המנגנון הקלאסי ביותר למניעת התופעה. L2 מעניש משקלים גבוהים ודוחף את הפתרון להיות חלק יותר. הוספת ה-L2 למטריצת המידע הופכת אותה לתמיד הפיכה, גם במצבים של מיעוט נתונים וריבוי פרמטרים. בכך, חוסר היציבות בנקודת המעבר הקריטית מתרפא, והקפיצה בטעות מוחלפת בירידה מתונה ורציפה.

רגולריזציות L1 (Lasso) ו-Elastic Net יעילים גם הם, אך פועלים דרך מנגנון של דילול. בעוד ש-L2 שומר על כל המשתנים ורק מקטין את עוצמתם, L1 מאפס פרמטרים מסוימים לחלוטין. מנגנון זה למעשה בוחר מודל פשוט יותר באופן אוטומטי, וזה מה שמונע כניסה לאזור ה-Double Descent מלכתחילה או מרסן משמעותית את עוצמתו.

כיום קיימת הסכמה רחבה כי שיטות אופטימיזציה מסוימות, ובראשן Mini-batch SGD, פועלות כמעטפת רגולריזציה חזקה, מהסיבו הבאות:

בניגוד ל-L1 או L2, ה-Batching משפיע על הדינמיקה של האופטימיזציה עצמה. ככל שגודל ה-Batch קטן יותר, הרעש הסטוכסטי בכל עדכון משקלים גדל. רעש זה משמש כמחליק של עקומת הטעות. הוא מונע מהמודל להיתקע בפתרונות חדים מדי שמתאימים לרעש הספציפי של נתוני האימון, ומכוון אותו לעבר אזורים רחבים ויציבים יותר במרחב הפרמטרים, שמאופיינים ביכולת הכללה טובה יותר.

בעוד ש-L1 מבצע בחירת תכונות אקטיבית ליצירת מודלים דלילים, ה-Batching מייצר מודלים חסונים דרך סינון רעשים טבעי בתהליך הלמידה. קיים קשר מתמטי עמוק בין גודל ה-Batch, קצב הלמידה ועוצמת הרגולריזציה, צמצום ה-Batch שקול במובנים רבים להגברת הריסון על המודל.

שילוב של אימון ב-Batches יחד עם שיטות כמו Dropout או Batch Normalization יוצר מעטפת הגנה חזקה כל כך, שלעיתים היא מייתרת את הצורך ברגולריזציה ידנית ומאפשרת למודלים ענקיים לגדול מבלי לחוות פגיעה בביצועים.

התופעה לרוב אינה קיימת כלל במודלים המבוססים על ממוצע של הרכבים, כגון Random Forest. מודלים אלו מורכבים משילוב של מספר רב של תתי-מודלים. מבנה זה יוצר אפקט של רגולריזציה טבעית שמפחיתה את השונות. גם אם עץ בודד ביער יגיע למורכבות מקסימלית שעלולה לעורר Double Descent, פעולת המיצוע של היער כולו מבטלת את חוסר היציבות הזה ושומרת על התנהגות מונוטונית ויציבה של טעות ההכללה.

אנחנו ב- Mathematic.ai יודעים "להרים מכסה מנוע" במערכות לומדות, יודעים לתכנן ולבנות אותן מאפס, יודעים לשפר ולהאיץ אותן ויודעים להביא אותן לסקייל גבוה ולמצב בר-קיימא בפרודקשן. אנחנו מספקים שירותים של מחקר אלגוריתמי יישומי, מתודולוגיה של ניסויים, שיטות הערכה, אוטומציה של תהליכים.

דברו איתי:

שלמה יונה,

מייסד ומדען ראשי,

מתמטיקאי מחקר ופיתוח בע"מ

053-7326360

shlomo.yona@mathematic.ai

https://mathematic.ai

פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו:

A technical deep dive about Mathematic.ai

Comments