המדריך הקליל ל-OLS

shlomoyona
Apr 21
7 min read

מכירים את זה שאתם מנסים למצוא קשר בין שני דברים, כמו השכלה ושכר, והנתונים פשוט אינם מסתדרים? במקום קו ישר, מקבלים ענן של נקודות מפוזרות. כדי להבין מה המגמה האמיתית בתוך הרעש הזה, אנחנו משתמשים במודל מתמטי שמעביר את הקו הכי נכון דרך הנתונים, במטרה להפוך את ערימת המספרים למסקנה שנוכל לעבוד איתה.

מה זה OLS ואיך זה עובד?

שיטת OLS, או Ordinary Least Squares ובעברית, שיטת הריבועים הפחותים, היא האלגוריתם המוכר והנפוץ ביותר לביצוע רגרסיה ליניארית. המטרה של OLS היא למצוא את המשוואה של הקו הישר שעובר קרוב ככל האפשר לכל נקודות הנתונים שלנו.

המשוואה הבסיסית של המודל נכתבת כך:

y = β₀ + β₁x₁ + β₂x₂ + ... + ε.

במשוואה זו, y מייצג את המשתנה שאנחנו מנסים לחזות, כלומר המשתנה התלוי. x מייצג את המשתנה שמסביר את y, הנקרא המשתנה הבלתי תלוי. הפרמטר β₀ הוא נקודת החיתוך של הקו עם ציר ה-y, שמייצגת את ערך הקבוע. הפרמטר β₁ מבטא את השיפוע של הקו, כלומר בכמה משתנה y כאשר x גדל ביחידה אחת. לבסוף, ε (אפסילון) מסמן את השגיאה, שהיא ההפרש בין תחזית המודל למציאות. ההסבר היה עבור ישר במישור אבל הנוסחה מתאימה להרחבה רב מימדית למימדים נוספים x₂ ואילך...

בפועל, עבור כל קו אפשרי שניתן להעביר בגרף, האלגוריתם של OLS מודד את המרחק האנכי בין כל נקודת נתונים אמיתית לבין הקו שניסינו להעביר. המרחק הזה נקרא שארית. מכיוון שחלק מהנקודות נמצאות מעל הקו ויוצרות מרחק חיובי, וחלקן מתחתיו ויוצרות מרחק שלילי, האלגוריתם מעלה בריבוע את כל המרחקים הללו כדי להפוך אותם לחיוביים, ואז מחבר אותם יחד. בסופו של תהליך, OLS בוחר את הקו היחידי שבו סכום ריבועי השגיאות הוא המינימלי ביותר האפשרי.

האם רגרסיה פולינומית היא לינארית?

רגרסיה נחשבת ללינארית אם היא לינארית בפרמטרים, זאת אומרת במקדמים שנסמן ב-β, ולאו דווקא במשתנה הבלתי תלוי, x. ברגרסיה פולינומית, אנחנו אמנם מעלים את x בריבוע או בשלישית, אבל המקדמים נשארים בחזקת 1 ואין ביניהם כפל או פונקציות מורכבות. מבחינת המודל, x² הוא פשוט עוד תכונה או משתנה הסברתי חדש. לכן, כל עוד המשוואה נראית כמו סכום של מקדמים כפול משתנים, אז היא עונה להגדרה של מודל לינארי.

השימוש ב-OLS

שימוש במודל OLS מתחיל בהגדרת שאלת המחקר ובחירת המשתנים המתאימים, כאשר המשתנה התלוי הוא התופעה שאותה מבקשים להסביר והמשתנים הבלתי תלויים הם הגורמים המשפיעים עליה. מזינים לכל X את ה Y שלו. התוצאה היא הפרמטרים.

לאחר הכנת הנתונים, מבצעים את ההרצה בתוכנה סטטיסטית כמו אקסל, פייתון או R. התוכנה מחשבת את הקו שעובר בצורה המיטבית בין כל נקודות הנתונים על ידי מזעור ריבועי המרחקים ביניהן לבין הקו. התהליך הזה מניח שהשונות של טעויות המודל קבועה לאורך כל התצפיות ושאין קשר בין הטעויות לבין המשתנים המסבירים, הנחות שהן הכרחיות כדי שהתוצאות ייחשבו לאומדנים הטובים ביותר האפשריים.

עם קבלת הפלט, מתבצע ניתוח של התוצאות דרך בחינת המקדמים, המובהקות הסטטיסטית וטיב ההתאמה של המודל כולו. בודקים אם המקדמים הגיוניים מבחינה תיאורטית ואם ערך ה-p נמוך מספיק כדי לדחות את השערת האפס. לסיום, בוחנים את מדד ה-R-squared כדי להבין כמה מהשונות של המשתנה התלוי מוסברת על ידי המשתנים שהכנסנו למודל, ובמידת הצורך מבצעים תיקונים או מוסיפים משתני בקרה לשיפור הדיוק.

רגרסיה פולינומית

האם גם רגרסיה פולינומית עובדת עם OLS? מכיוון שהמודל הוא לינארי ביחס למקדמים, ניתן בהחלט להשתמש ב-OLS כדי למצוא את המקדמים האופטימליים. המטרה של OLS היא למזער את סכום ריבועי ההפרשים בין הערכים שנצפו לערכים שהמודל חוזה. מכיוון שהמבנה האלגברי נשמר, אותן הנוסחאות שמשמשות לרגרסיה לינארית עובדות גם ברגרסיה פולינומית, רק עם מטריצות רחבות יותר שכוללות את החזקות של x.

ברגרסיה פולינומית מדרגה k, המודל נראה כך:

y = β₀ + β₁x + β₂x² + ... + βₖxᵏ + ε

נשים לב שכל הפרמטרים שאנחנו מחפשים, β, מופיעים בצורה קווית פשוטה. אם נגדיר משתנים חדשים כך ש:

x₁ = x

x₂ = x² ...

xₖ = xᵏ

נקבל משוואה של רגרסיה לינארית מרובת משתנים סטנדרטית:

y = β₀ + β₁x₁ + β₂x₂ + ... + βₖxₖ + ε

זו הסיבה שכל הכלים המתמטיים של הרגרסיה הלינארית תקפים גם עבור פולינומים.

למה זה עובד?

ההחלטה להעלות בריבוע את השגיאות אינה מקרית ויש לה שתי סיבות עיקריות. ראשית, ההעלאה בריבוע מונעת קיזוז, כי היא הופכת את כל השגיאות לחיוביות כך ששגיאות שממוקמות מעל הקו לא תבטלנה את השגיאות שמתחתיו. שנית, הפעולה הזו מטילה קנס משמעותי על שגיאות גדולות. משמעות הדבר היא שנקודה שרחוקה מאוד מהקו תשפיע על מיקומו הסופי הרבה יותר מאשר נקודה הקרובה אליו.

שיטת OLS נשענת על משפט חשוב בסטטיסטיקה שנקרא משפט גאוס-מרקוב, שקובע שאם הנתונים שלנו מקיימים אוסף הנחות מסויים, כגון העדר מתאם בין השגיאות ושונות קבועה של השגיאות, אזי OLS מהווה את האומדן הליניארי הלא-מוטה הטוב ביותר. באנגלית רושמים Best Linear Unbiased Estimator, או בקיצור, BLUE. המשמעות היא שמבין כל המודלים הליניאריים שאינם מוטים, שיטת OLS תספק לנו את האומדן המדויק ביותר, כי הוא בעל השונות המינימלית.

OLS, Best Linear Unbiased Estimator, BLUE

למה זה טוב?

לשיטת OLS ישנם יתרונות רבים שהפכו אותה לבסיס איתן בעולמות הסטטיסטיקה, הכלכלה ולמידת המכונה. היתרון הראשון הוא פשטות ויכולת פרשנות. קל מאוד להבין ולהסביר את התוצאות שמתקבלות מהמודל. לדוגמה, אם מקדם ההשכלה שווה 2,000 ש"ח, ניתן להסיק מיד שכל שנת השכלה נוספת מקושרת לעלייה ממוצעת של 2,000 ש"ח בשכר. בנוסף, האלגוריתם מצטיין ביעילות חישובית גבוהה. הוא דורש מעט מאוד כוח מחשוב ומסוגל לחשב רגרסיה על מיליוני שורות נתונים בתוך שניות ספורות. בזכות תכונות אלו, השימושים ב-OLS הם נרחבים מאוד: כלכלנים נעזרים בו כדי לאמוד גמישות מחירים, רופאים ואפידמיולוגים משתמשים בו למציאת קשרים בין גורמי סיכון להתפרצות מחלות, ואנשי פיננסים מבססים עליו מודלים לניהול סיכונים.

חסרונות ורגישויות

לצד היתרונות, מודל OLS סובל ממספר מגבלות ורגישויות שחובה להכיר. מודל ה-OLS נשען כאמור על סדרת הנחות מתמטיות קשיחות, הנחות גאוס-מרקוב, וכל חריגה מהן הופכת את האומדים ללא יעילים או למטים במקרה הגרוע. החיסרון המבני הבולט ביותר הוא השימוש במינימום ריבועים, שמעניק משקל מופרז לערכים חריגים. מכיוון שהשגיאה מועלית בריבוע, תצפית בודדת שמרוחקת מהמגמה הכללית מפעילה כוח משיכה חזק על הקו ומסיטה אותו באופן שאינו מייצג את רוב הנתונים. זו אינה רק רגישות טכנית, אלא בחירה במדד של ממוצע, אשר בניגוד לחציון, אינו חסין בפני עיוותים של נתוני קצה.

בנוסף, המגבלה שמכונה הנחת הליניאריות דורשת דיוק מצד החוקר ולא רק מצד המודל. הבעיה אינה ש-OLS מסוגל לצייר רק קווים ישרים, שהרי ניתן להוסיף משתנים בריבוע או בלוגריתם, אלא שהמודל כופה מבנה ליניארי על הפרמטרים. אם המשתמש לא הגדיר מראש את הקשר הפונקציונלי הנכון, המודל ינסה להתאים קו ישר למציאות מורכבת, ובכך יפספס לחלוטין את הדינמיקה האמיתית של הנתונים ויציג מצג שווא של חוסר קשר.

נקודת תורפה משמעותית נוספת נוגעת להנחת ה-הוֹמוֹסְקֶדַסְטִיּוּת, שדורשת שמידת הרעש בנתונים תישאר קבועה לכל אורך התצפיות. במציאות, לעיתים קרובות השונות משתנה ביחס ישיר למשתנה המסביר. למשל, השונות בהוצאות של בעלי הכנסה גבוהה גדולה משמעותית מזו של בעלי הכנסה נמוכה. במצב של שונות משתנה, הטרוסקדסטיות, מודל ה-OLS מאבד מיעילותו כיוון שהוא מעניק משקל זהה לכל התצפיות, על אף שחלקן רועשות ומדויקות פחות מאחרות. כשל זה מוביל למבחני מובהקות ורווחי סמך שגויים, שעלולים ליצור אשליה של דיוק סטטיסטי גבוה בהרבה מכפי שקיים בפועל.

לבסוף, בעיית המולטי-קוליניאריות מייצגת מצב שבו המשתנים המסבירים גונבים את המידע זה מזה. כאשר קיימת התאמה חזקה בין המשתנים, המודל אינו יכול לבודד את ההשפעה השולית של כל גורם בנפרד. השונות של המקדמים מתנפחת, והתוצאות הופכות לתנודיות מאוד. שינוי קטן בנתונים עלול להפוך מקדם מחיובי לשלילי. זהו מצב של חוסר זיהוי שבו המודל אמנם נשאר חסר הטיה, אך הדיוק שלו נפגע עד כדי כך שהמסקנות הופכות לחסרות ערך יישומי.

מה עושים כש-OLS אינו מספיק?

כאשר ההנחות הבסיסיות של OLS אינן מתקיימות או כאשר מתעוררות הבעיות שהוזכרו, נהוג לפנות למודלים חלופיים שמתאימים יותר למבנה הנתונים. אם המשתנה שאנו מנסים לחזות הוא קטגוריאלי או בינארי, כגון השאלה האם לקוח יקנה או לא יקנה מוצר, משתמשים ברגרסיה לוגיסטית. במצבים שבהם ישנם משתנים מסבירים רבים או כשישנה בעיה חמורה של מולטי-קוליניאריות, נהוג להשתמש במודלים כמו רגרסיית Ridge או Lasso. מודלים אלו מוסיפים קנס על מקדמים גדולים מדי כדי למנוע התאמת יתר ושומרים על יציבות המודל.

במקרים שבהם הבעיה המרכזית היא נוכחות רבה של ערכים חריגים, ניתן להשתמש ברגרסיה רובסטית שמפגינה עמידות גבוהה יותר להטיות, כיוון שהיא אינה מעניקה משקל מופרז לשגיאות גדולות דרך העלאתן בריבוע. לבסוף, כאשר ברור כי הקשר בין המשתנים איננו קו ישר אלא מורכב בהרבה, נהוג להשתמש ברגרסיה פולינומיאלית או באלגוריתמים מתקדמים יותר כגון עצי החלטה, שמאפשרים גמישות רבה יותר בתיאור תופעות לא ליניאריות.

איך מודדים הצלחה?

כדי להעריך את טיב המודל ולדעת עד כמה הקו מתאר היטב את הנתונים, נהוג להסתכל על מספר מדדי ביצוע שמשלימים זה את זה.

נקודת המוצא היא לרוב הקורלציה בין המשתנה המסביר X למשתנה התלוי Y. מדד זה בוחן את עוצמת הקשר הלינארי שגלומה בנתונים עוד לפני בניית המודל, ומעיד על הפוטנציאל להצלחת הרגרסיה.

המדד המרכזי והנפוץ ביותר להערכת המודל עצמו הוא ה-R², שמבטא את אחוז השונות המוסברת על ידי המשתנים שהכנסנו למשוואה. ערך זה נע בין 0 ל-1, כך שציון של R² = 0.8 משמעותו ש-80% מההבדלים במשתנה התלוי מוסברים במלואם על ידי המודל. לצדו, ה-Adjusted R² פועל באופן דומה אך קונס את המודל על הוספת משתני סרק שאינם תורמים באמת לחיזוי, ובכך מונע הצגת מצג שווא של דיוק.

מעבר להסבר השונות, אנו בוחנים את גודל הטעות במדידות אבסולוטיות ויחסיות. מדד ה-MSE והשורש שלו, ה-RMSE, מודדים את ממוצע השגיאות של המודל במונחי יחידות המידה המקוריות. בעוד ה-MSE מחמיר עם טעויות גדולות בשל העלאתן בריבוע, ה-RMSE מאפשר להבין באופן אינטואיטיבי מהו מרחק התחזית מהמציאות ביחידות המקור.

כדי לקבל תמונה משלימה במונחים של אחוזי דיוק, משתמשים במדד ה-MAPE. מדד זה מבטא את ממוצע הטעויות באחוזים, מה שמאפשר להשוות את איכות המודל בין סטים שונים של נתונים ולקבוע, למשל, כי המודל טועה ב-5% בממוצע ללא קשר לקנה המידה של המספרים.

מתאם מול סיבתיות

זהו אולי הכלל החשוב ביותר בניתוח נתונים סטטיסטי: רגרסיה ליניארית יכולה למצוא קשרים סטטיסטיים בלבד, היא בשום אופן אינה מוכיחה סיבתיות. העובדה שמודל OLS מצא קו ישר ומובהק בין צריכת גלידה למספר מקרי הטביעה בים, אינה מוכיחה ואף אינה טוענת בשום צורה שאכילת גלידה גורמת לטביעה. במקרים כאלו פועל לרוב משתנה מושמט, כמו טמפרטורת הקיץ החמה, שגורם לעלייה מקבילה בשני הגורמים. אלגוריתם ה-OLS הוא בסופו של דבר תהליך חישובי ומתמטי שעיוור למשמעות העולם האמיתי, והאחריות המלאה להוכיח ולנמק את ההיגיון הסיבתי מוטלת על החוקר עצמו.

איך קוראים את הפלט?

הרצת מודל OLS בתוכנה סטטיסטית מפיקה טבלת נתונים עמוסה, אך קיימות מספר עמודות מרכזיות שחשוב לדעת לקרוא. העמודה הראשונה והחשובה מכל היא המקדם, Coefficient. זהו השיפוע שמהווה את לב המודל כי הוא מציין בכמה ישתנה ערך ה-y בעקבות עליית ערך ה-x ביחידה אחת, תחת ההנחה ששאר המשתנים נשארים קבועים.

הנתון הבא שכדאי לבחון הוא טעות התקן, Standard Error, שמהווה מדד לרמת הוודאות שלנו כלפי המקדם. טעות תקן קטנה מעידה על אומדן יציב ומדויק.

נתון חיוני נוסף לקבלת החלטות הוא ה-P-value. ערך זה קובע אם התוצאה שהתקבלה מובהקת סטטיסטית או שמא הקשר נמצא במקרה בלבד. הכלל המקובל בסטטיסטיקה קובע: במקרה שבו p < 0.05, הסיכוי למציאת קשר מקרי קטן מחמישה אחוזים, ולכן ניתן להתייחס לתוצאה כמובהקת ואמיתית.

לבסוף, הפלט מכיל את רווח בר-הסמך, Confidence Interval, שמציג את הטווח שבו אנו בטוחים במידה רבה כי נמצא המקדם האמיתי של האוכלוסייה. כך למשל, המודל עשוי להראות כי התוספת לשכר בגין שנת השכלה אחת נמצאת בסבירות גבוהה בטווח שבין 1,800 ל-2,200 ש"ח.

אנחנו ב- Mathematic.ai מספקים שירותי מחקר אלגוריתמי יישומי, שירותי מדען ראשי ו-CTO כשירות, יעוץ מדעי וטכנולוגי, אופטימיזציה, שיפור והאצה של תהליכים אלגוריתמים, תכן וניתוח ושיפור אלגוריתמים ומבני נתונים. כמובן, שאנחנו גם יודעים להרים מכסה מנוע לשפר ולבנות מערכות AI, GenAI, Agentic AI. דברו איתי:

שלמה יונה,

מייסד ומדען ראשי,

מתמטיקאי מחקר ופיתוח בע"מ

053-7326360

shlomo.yona@mathematic.ai

https://mathematic.ai

פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו:

A technical deep dive about Mathematic.ai