top of page

למידת חיזוק זה סבבה כשתנאי ההתחלה טובים

  • Writer: shlomoyona
    shlomoyona
  • Mar 26
  • 2 min read

ישנה התקדמות משמעותית ביכולותיהם של מודלי שפה גדולים שמונעת במידה רבה מהמעבר משיטות אימון מבוססות למידה מונחית לשיטות של למידת חיזוק. למידת חיזוק עם תגמולים שניתנים לאימות הפכה לפרדיגמה המובילה בשיפור יכולות החשיבה וההסקה של מודלים מורכבים. יחד עם זאת, החולשה המובנית בפרדיגמה ניכרת כאשר המודל נדרש להתמודד עם בעיות שבהן הידע ההתחלתי שלו חלש מאוד, ושיעור ההצלחה שלו בניסיון לפתור אותן טרם האימון שואף לאפס. במילים אחרות RL זה סבבה כשנקודת המוצא טובה אחרת הוא נחות לעומת fine tuning. ככה על רגל אחת.


במאמר מהחודש שעבר יש כמה טענות מעניינות שחלקן דיי נכונות, חלקן דיי מופרכות וחלקן... לא פה ולא שם... ז"א אולי נכונות במקרה הפרטי שנבדק אבל יש עוד דרך עד שאפשר יהיה להכליל את הטענות הללו.


Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability


הטענות המבוססות:


תגמולים מעוגני-מציאות עדיפים בהרבה על תגמולים פנימיים כדי להמנע מהטייה עקב חוסר מגוון. זוהי אחת הטענות החזקות במאמר. החוקרים הוכיחו שאלגוריתמים שמבוססים על תגמול פנימי, כמו Learnability, גורמים למודל לאבד את הגיוון הסמנטי שלו ולדעוך לתבניות צרות ומוטות.


מודלים יכולים ללמד את מה שהם אינם מסוגלים לפתור באמצעות אבני דרך. הטענה שמודל שפה מסוגל לייצר תרגילי ביניים יעילים גם עבור בעיות שבהן שיעור ההצלחה שלו הוא אפס, הוכחה מעל לכל ספק בניסוי.


החוקרים הצליחו להוכיח מתמטית וליישם בפועל אופטימיזציה דו-שלבית שמשתמשת ב- Rejection Sampling יחד עם אלגוריתם RLOO, מה שמאפשר לעדכן את מודל המורה ללא צורך בגזירה לאחור דרך כל צעדי האימון של התלמיד.


אבל ישנן במאמר גם טענות חלשות ואפילו חלקן מופרכות. הן משתמעות מרוח המאמר או מההבטחה הכללית של השיטה, אך הנתונים בפועל מחלישים או סותרים אותן:


"המערכת פועלת באופן אוטונומי לחלוטין". המאמר מציג את SOAR כמסגרת שמשחררת אותנו מהצורך בהתערבות אנושית או הנדסת נתונים. בפועל המערכת תלויה בהיפר-פרמטר סף הקידום, טאו, שנקבע על ידי אדם. שינוי קטן שלו מ- 0.01 ל-0.015 הוביל לירידת הביצועים. לכן, השיטה דורשת כוונון אנושי וניסוי וטעייה לכל אוסף נתונים חדש.


"המערכת סקלבילית ויעילה חישובית". למידת חיזוק דו-שלבית יוצרת צווארי בקבוק חישוביים. החוקרים נאלצו להריץ מספר תלמידים מקבילים עבור כל צעד בודד של המורה רק כדי לקבל אות למידה יציב. כתוצאה מכך אימון מודל זעיר במונחים מודרניים (3 מיליארד פרמטרים) ארך עשרות שעות על צבירי GPU יקרים מאוד. הטענה המשתמעת שניתן להשתמש בגישה למודלי ענק נראית לי מופרכת כלכלית וטכנולוגית.


וביקורת נוספת:


"מבנה השאלה חשוב יותר מנכונות הפתרון". החוקרים מראים שהתלמידים למדו והשתפרו גם כאשר קרוב ל-65% מהשאלות שייצר המורה הכילו פתרונות שגויים, כל עוד המבנה הלוגי של השאלה היה תקין וברור. בעוד שזה נכון, כי עצם סידור המשוואה מלמד את הרשת העצבית לפרוס מחשבה, יישום טענה כהכללה הוא בעייתי. בתחומים עתירי מלל כמו רפואה או משפטים, אימון על נתונים עם פתרונות שגויים עלול להוביל כידוע להרעלת המודל וגם להזיות ולפגוע באמינות המודל.


"תלות בידע החבוי כיכולת אוניברסלית". הצלחת ייצור אבני הדרך נשענת על ההנחה שהמודל אגר מספיק ידע חבוי בשלב האימון המקדים שלו כדי להרכיב בעיות פשוטות. אין זה ברור האם SOAR תעבוד בתחומי ידע שהמודל לא נחשף אליהם מספיק מראש. כיצד המורה יכול לייצר אבני דרך מדבר שכלל אינו מכיר?


דברו איתי:

שלמה יונה

מייסד ומדען ראשי, מתמטיקאי מחקר ופיתוח בע"מ

053-7326360


פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו: A technical deep dive about Mathematic.ai

 
 
 

Comments


  • Facebook Social Icon
  • LinkedIn Social Icon

© 2010-2026 mathematic.ai

bottom of page