top of page

משמעות פרמטר הטמפרטורה

  • Writer: shlomoyona
    shlomoyona
  • Mar 26
  • 2 min read

עוד פרסום מעניין ונגיש של ד"ר אורי איתי Uri Itai, Ph.D. הפעם על משמעות של פרמטר הטמפרטורה. המהות במאמר עוסקת ביופי מתמטי. המהות הזאת עטופה בסיפור יפה ומעניין מההיסטוריה של AI כיריב שקול לאדם במשחק גו.



כיף לקרוא על מתמטיקה בכלל, על שימושים של מתמטיקה בפרט. אבל הכי הכי כיף לראות שלוקחים משהו מתמטי, טכני ביותר, ומסבירים את המשמעויות שלו ואז מהמשמעויות מבינים עקרונות רחבים יותר.



הצגת דילמה של explore-exploit באמצעות פונקציית מטרה שבה הפרמטר T, הטמפרטורה, מתפקד כפרמטר ענישה ששולט במשקל שניתן לאנטרופיה. כאשר מציבים ב T ערך שהולך ושואף לאפס אז איבר האנטרופיה הולך ונעלם מהביטוי המתמטי והמערכת עוברת למקסימיזציה של התגמול. במצב הזה ההתפלגות מתרכזת בפעולה בעלת הערך Q הגבוה ביותר.



כאשר הערך שמוצב ב T הולך ושואף לאינסוף אז איבר האנטרופיה משתלט על פונקציית המטרה. במצה הזה המערכת פועלת על פי מקסימום אנטרופי, וההתפלגות האופטימלית שואפת להתפלגות אחידה שמאפשרת חקירה של כל אפשרות באותה ההסתברות. הכל אפשרי... נטיל מטבע (רק שיש יותר משתי אפשרויות...) ונראה מה יצא. ניתן לגורל להחליט כמו שאמר הוטרינר ג'ורג' במערכון על הטפיר בפרלמנט: בוא ניתן לגורל להכריע, הגורל יותר חכם משנינו ;-)



התובנה המשמעותית ביותר עולה באזור הביניים, כאשר T חיובי וסופי, ונוצר איזון בין תגמול לאנטרופיה. גזירת משוואת האופטימיזציה לפי p(a) מובילה באופן אלגברי וטבעי ישירות לפונקציית ה-Softmax. התובנה היא שההסתברויות במערכות אלו אינן נקבעות באופן שרירותי. הן צומחות כפתרון לבעיית אופטימיזציה שדורשת לנצל את האפשרויות בעלות הציונים הגבוהים, אך במקביל דורשת לשמור על מידה של אי-ודאות כדי להשאיר אפיקים חלופיים פתוחים. רוצים גם לנצל מהידע הקיים אבל גם רוצים להיות הרפתקניים ולהסתכן בתגליות חדשות.



ולפינת הקטנוניות: 


הארכיטקטורה של AlphaGo בגרסת 2016 לא הסתמכה על אופטימיזציית אנטרופיה מפורשת כבסיס לקבלת ההחלטות שלה בזמן אמת. מנגנון החיפוש וההערכה של התוכנה התבסס על אלגוריתם חיפוש עץ מונטה-קרלו, MCTS, ששילב רשתות עצביות עמוקות. האיזון בין exploration לבין exploitation הושג באמצעות נגזרת של אלגוריתם בשם Predictor Upper Confidence Bound for Trees, או בקיצור PUCT, שהכווין את עץ החיפוש בהתבסס על הסתברויות מוקדמות וספירת ביקורים בצמתים. אמנם פונקציית ה-Softmax אכן יושמה בשכבת הפלט של הPolicy Network של AlphaGo כדי לייצר התפלגות הסתברויות למהלכים אפשריים, אך המהלך הספציפי נבחר כתוצאה ממספר רב של סימולציות חיפוש מבוססות MCTS והערכות של ה-Value Network. התיאור במאמר מתאים יותר למשפחת האלגוריתמים של Maximum Entropy Reinforcement Learning, שהפכו לדומיננטיים בשנים מאוחרות יותר, ואינו משקף במדויק את המכניקה האלגוריתמית שהפיקה את מהלך 37. 



יחד עם זאת, השימוש במהלך 37 ככלי להמחשת החשיבות שבשמירת הסתברויות נמוכות, כדי לאפשר לערכן החבוי להתגלות, משרת היטב את ההסבר. המאמר מספק סקירה יעילה וברורה של הדרך שבה מודלים מודרניים של למידת מכונה, כגון מודלי שפה גדולים ומערכות המלצה, ממירים ציונים להסתברויות תוך שמירה על מרחב גילוי, ועושה זאת תוך פישוט מוצלח של התיאוריה שעומדת בבסיסם.



תמשיכו לעקוב אחרי הפרסומים של אורי: הם מעניינים כלשעצמם וגם מעוררי מחשבה ולאוהבי מתמטיקה שכמוני גם גורמים לחפור ולבדוק עוד על הנושא. לא משנה כמה חושבים שיודעים, תמיד תמיד תמיד לומדים דברים חדשים. זה נפלא!



משמעות פרמטר הטמפרטורה
משמעות פרמטר הטמפרטורה

דברו איתי:

שלמה יונה

מייסד ומדען ראשי, מתמטיקאי מחקר ופיתוח בע"מ

053-7326360


פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו: A technical deep dive about Mathematic.ai

 
 
 

Comments


  • Facebook Social Icon
  • LinkedIn Social Icon

© 2010-2026 mathematic.ai

bottom of page