רגולריזציה על קצה המזלג

shlomoyona
Apr 26
5 min read

בלב תיאוריית הלמידה הסטטיסטית קיימת התמודדות מתמטית עם שקלול התמורות בין הטיה לשונות. מטרתו של כל אלגוריתם למידת מכונה מפוקחת היא למצוא פונקציה שתמפה קלט לפלט באופן מדויק על נתונים חדשים. כאשר מודל מקבל דרגות חופש רבות הוא מתאים את עצמו לתבנית ולרעש גם יחד. תופעה זו נקראת התאמת יתר, overfitting. במצב זה המודל משנן את נתוני האימון במקום להסיק כללים להכללה. למודל מתקבלת הטיה נמוכה על נתוני האימון ושונות גבוהה ולכן הוא ייכשל בחיזוי נתונים עתידיים. הפתרון המקובל להגבלת דרגות החופש של המודל נקרא רגולריזציה.

ניתן לתאר את פעולת האלגוריתם כקבלן שנדרש לבנות גשר שעובר דרך נקודות ציון. ללא אילוצים ייבנה גשר מפותל שעובר דרך כל חריגה. מנגנון הרגולריזציה פועל כמפקח שמטיל קנס על תוספת חומרי בניין. הקבלן מחויב לאזן בין קרבה לנקודות לבין שימוש מזערי בחומרים. כתוצאה מכך מתקבל גשר יציב שמייצג את המגמה המרכזית. משמעות הדבר היא אילוץ המודל לבחור פתרון פשוט יותר.

במודלים מבוססי אופטימיזציה פונקציית המטרה ממזערת את שגיאת החיזוי. ברגרסיה ליניארית האלגוריתם פועל ללא הגבלה ועשוי לייחס למקדמים ערכים גבוהים כדי למזער שגיאה בנקודה בודדת. עם הפעלת רגולריזציה פונקציית המטרה משתנה וכוללת איבר עונש. פרמטר הבקרה λ שולט במשקל העונש ומאזן בין דיוק לבין מורכבות המודל. כאשר הפרמטר מאופס אין עונש והמודל מועד להתאמת יתר. כאשר הוא שואף לאינסוף המודל יאפס את כל המקדמים וייצור תת התאמה. סוג הפונקציה שמגדירה את העונש מכתיב את אופי המודל ומתפצל לשיטות שונות.

שיטת L2

שיטת L2 שמוכרת גם בשם רגרסיית Ridge מציעה רגולריזציה שמבוססת על נורמת אוקלידס של וקטור המקדמים. בשיטה זו הקנס שמוטל על המודל שווה לסכום הריבועים של ערכי המקדמים. מנגנון זה יוצר קנס שגדל בקצב ריבועי ביחס לגודל המקדם ולכן המערכת ממזערת מקדמים גדולים כדי למנוע החמרה מהירה בפונקציית ההפסד.

דינמיקת האופטימיזציה מייצרת כיווץ מדורג. בשיטת מורד הגרדיאנט הנגזרת של איבר העונש הריבועי פרופורציונלית לגודלו של המקדם. לכן כוח הכיווץ שמופעל על כל מקדם ונמשך כלפי האפס נחלש ככל שהמקדם קטן. שיטה זו מכווצת את המקדמים לכיוון האפס אך לרוב משאירה להם ערך מסוים ואינה מאפסת אותם לחלוטין.

השיטה יעילה במצבים בהם מניחים שכל המשתנים במאגר תורמים מידע מסוים. בנוסף היא מסייעת בהתמודדות עם מולטי קוליניאריות שהוא מצב בו קיים מתאם סטטיסטי גבוה בין משתנים שונים. ברגרסיה ללא אילוצים מתאם זה מוביל למקדמים לא יציבים אך הקנס הריבועי מאלץ את האלגוריתם לחלק את המשקלים באופן מאוזן בין המשתנים המתואמים ולייצר מודל עמיד יותר.

שיטת L1

שיטת L1 שמוכרת בשם Lasso מציעה סלקציית משתנים. בגישה זו הקנס שווה לסכום הערכים המוחלטים של המקדמים כך שהוא גדל בקצב ליניארי קבוע.

הנגזרת של פונקציית הערך המוחלט קבועה לאורך כל הציר פרט לאפס. לכן עוצמת כוח הכיווץ המופעלת על המקדם אינה פוחתת גם כאשר הוא קרוב לאפס. המקדם נדחף מטה עד שהוא מתאפס. בשל תכונה זו נוצרת דלילות במודל הסופי ומרבית המקדמים מבוטלים. התוצאה היא כלי מובנה לבחירת משתנים שמסנן נתונים שאינם תורמים משמעותית ומשאיר רק את המשתנים העיקריים.

ההסבר הגיאומטרי מאחורי פעולה זו מומחש באמצעות צורת אזור האילוץ במרחב. בשיטת הקנס הריבועי מוגדר מרחב כדורי וקווי המתאר של ההפסד משיקים אליו לרוב בנקודות בהן ערכי המקדמים שונים מאפס. לעומת זאת קנס הערך המוחלט יוצר במרחב מעוין בעל פינות הממוקמות על הצירים. נקודת ההשקה תתרחש לרוב באחת הפינות בה ערך של קואורדינטה אחת שווה במדויק לאפס.

השיטה מספקת מענה לסביבת נתונים מרובת משתנים שאינם רלוונטיים. יחד עם זאת יש לה מגבלות. כאשר מספר המשתנים גדול ממספר התצפיות השיטה מוגבלת כמותית במספר המשתנים שביכולתה לבחור. כמו כן היא מגלה חוסר יציבות אל מול נתונים מתואמים כי היא תבחר משתנה בודד מקבוצת משתנים קשורים ותאפס את השאר.

רשת אלסטית ElasticNet

שיטת Elastic Net משלבת ליניארית את מנגנוני הענישה של שתי השיטות הקודמות במשוואה משותפת. פונקציית המטרה מכילה שני פרמטרים שמגדירים את עוצמת הקנס הכוללת ואת יחס הערבוב בין הפונקציה הריבועית לפונקציית הערך המוחלט.

השילוב מאפשר למודל להתמודד עם בעיית המשתנים המתואמים ולייצר אפקט קיבוץ בזכות הרכיב הריבועי. כאשר משתנים שונים מכילים מידע בעל מתאם גבוה המודל מאגד אותם ומעניק לכולם משקלים יחסיים דומים תחת מניעת איפוס. במקביל רכיב הערך המוחלט פועל לסנן קבוצות של משתנים שאין להם קשר למשתנה המטרה. שילוב זה מסיר את ההגבלה המתמטית על כמות המשתנים שניתן לבחור מתוך מערך הנתונים.

נקודת המבט הבייסיאנית

ניתוח בייסיאני מראה שהוספת פונקציית רגולריזציה שקולה להכנסת הנחת הסתברות מוקדמת על התפלגות המקדמים. מזעור שגיאה בתוספת קנס ריבועי מקביל למקסום נראות תחת הנחת התפלגות נורמלית בה מניחים שמשקלם של רוב המאפיינים מצוי בסביבת האפס. תוספת קנס של ערך מוחלט שקולה להנחת התפלגות לפלס שמאופיינת בהתפלגות חדה באפס. התפלגות זו משקפת הנחה כי רוב המשתנים צריכים להיות מאופסים כליל.

השימוש בנורמות ענישה מסדרים גבוהים יותר כגון חזקה שלישית או רביעית אינו נפוץ. נורמות אלו יוצרות התנהגות דומה לכיווץ החלק המוכר מהקנס הריבועי אך מעלות באופן ניכר את המורכבות החישובית של משוואת האופטימיזציה ללא שיפור בביצועים.

כיוונון בעזרת אימות צולב

עוצמת הקנס אינה נלמדת מתוך הנתונים במהלך האימון ויש לכוונן אותה חיצונית בעזרת תהליך cross validation, אימות צולב. מחלקים את סט הנתונים למספר קבוצות ובכל איטרציה מאמנים את המודל על מרבית הקבוצות תוך בחינתו על הקבוצה הנותרת עבור ערכי קנס שונים. הערך הנבחר הוא זה שמספק את השגיאה הממוצעת הנמוכה ביותר על נתונים שלא השתתפו באימון. מערכות ממוחשבות מציעות כלים מובנים לביצוע סריקה זו בצורה יעילה שכוללת סריקה דו ממדית שנדרשת לשיטת ElasticNet.

הכללה למודלים נוספים

עקרונות ענישת מורכבות מיושמים באלגוריתמים מתקדמים ואינם בלעדיים לרגרסיה ליניארית. אלגוריתם רגרסיה לוגיסטית שמשמש לסיווג ממזער הפסד לוגריתמי. ללא הגבלה האלגוריתם מנסה להפריד את התצפיות בוודאות מוחלטת וגורם למקדמים לגדול. הוספת קנס ריבועי מרסנת את ההסתברויות ושומרת על יציבות הסיווג. פרמטר הבקרה בספריות תוכנה מיוצג לרוב כיחס הפוך לעוצמת הרגולריזציה ולכן ערכים נמוכים משקפים ענישה מחמירה.

ברשתות עצביות עמוקות מנגנוני רגולריזציה נחוצים למניעת התאמת יתר. טכניקת Weight Decay פועלת כקנס ריבועי ומקטינה בכל מחזור עדכון את משקלו של כל קשר ברשת. פעולה זו מחייבת את הרשת לפזר את המידע על פני צמתים רבים. אלגוריתם Dropout מכבה אקראית אחוז מסוים מהנוירונים במהלך האימון. פעולה זו מאלצת את הרשת לייצר מסלולים עצמאיים להעברת מידע מבלי לפתח תלות באזורים ספציפיים.

מודלים מסוג SVM נועדו למציאת קו גיאומטרי שמפריד בין קבוצות תוך הרחבת אזור השוליים. מקסום המרחק בין גבולות השוליים שקול למזעור נורמת אוקלידס של משקולות הקו בדומה לרגולריזציית L2. הוספת משתני עזר מונעת עיוות של קו ההפרדה על ידי תצפיות ומאפשרת למודל גמישות בהפרדה.

סיכום

רגולריזציה מציעה שיטה להפחתת שונות מודלים סטטיסטיים ושיפור יכולת ההכללה שלהם. בניית מערכות דורשת בחירה מחושבת של אסטרטגיית הענישה.

רגרסיית Ridge משמשת למערכים הכוללים מולטי קוליניאריות ותורמת לפיזור משקלים יעיל תוך שימור כל המשתנים במודל. רגרסיית Lasso מספקת יכולת סלקציה למאגרי נתונים מרובי מאפיינים ומפיקה פתרון דליל וברור. שיטת Elastic Net מחלצת ידע מקבוצות משתנים קשורות תוך ביטול משתני רעש והתגברות על מגבלות טכניות.

מתודולוגיות אלו מיושמות באלגוריתמים נפוצים כגון רגרסיה לוגיסטית ורשתות נוירונים ומוכיחות כי איזון בין פשטות להכללה הוא הבסיס למודלים יעילים בלמידת מכונה.

זקוקים לשותף טכנולוגי עתיר ניסיון שיודע לספק שירותי מחקר ופיתוח Hands-on, מארגוני אנטרפרייז ועד סטארט-אפים, על מנת להוציא חזון אלגוריתמי שלכם מהכוח אל הפועל? הבה נדבר!

שלמה יונה,

מייסד ומדען ראשי,

מתמטיקאי מחקר ופיתוח בע"מ

053-7326360

shlomo.yona@mathematic.ai

https://mathematic.ai

פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו:

A technical deep dive about Mathematic.ai