מה זה TurboQuant ומה למדתי מגיא רגב?
- shlomoyona

- Mar 28
- 3 min read
מאז שיצאו פרסומי יחסי הציבור של גוגל על TurboQuant הרשת רועשת וגועשת. המאמר TurboQuant: Redefining AI efficiency with extreme compression מציג שיטת קוונטיזציה שמאפשרת להריץ מודלי שפה ענקיים על חומרה פשוטה וזולה משמעותית ממה שנדרש כיום. בעוד שבפרסום של גוגל אפשר להבין מה זה עושה ולמה זה חשוב לנו אז גם אפשר קצת להבין למה זה עובד. אבל יש כמה קפיצות רציניות מאוד בהבנה.
סוף סוף קראתי משהו שעזר לי קצת לסדר את הראש וזה פוסט של גיא רגב Guy Regev עשה מה שרבים נמנעים מלעשות וזה להתעסק במשמעות. אז את הפוסט שלו קראתי אמש. ממליץ גם לכם. ואני אנסה היום להבין לא רק מה עושה טורבוקוואנט, אלא גם איך, גם למה זה עובד ואיך להבין את זה באמצעות תהליכים אחרים שמבינים מתחומים אחרים. החידוש של גיא הוא ביצירת השרשרת המלאה: התמרת אדמר -> משפט הגבול המרכזי -> גאוסיאן -> זוויות אחידות -> תאים מוגדרים מראש -> אפס תקורה. הוא הצליח לתרגם מאמר אקדמי מורכב בתורת האינפורמציה לשפה הנדסית ברורה שמסבירה צעד אחר צעד כיצד התיאוריה המתמטית הופכת ליתרון ביצועי על גבי החומרה.
בינתיים גם ראיתי שיש את RaBitQ שפורסם בכלל ב-2024 שם הסבירו את הרעיון של הסיבוב האקראי והציגו דחיסה של פי 32 בנפח הזכרון. נראה שלחבר'ה של ראביטקיו יש טענות ותלונות על החבר'ה של טורבוקוואנט על כמה השוואות לא הוגנות. למשל החידוש העיקרי לכאורה הוצג בראביטקיו ולא בטורבוקוואנט...
גיא מסביר שהרוטציה האקראית אינה סתם פעולה אקראית, אלא התמרת אדמר בשילוב מטריצה של היפוכי סימן. התרומה שלו כאן היא ההסבר שפעולה זו משיגה שתי מטרות הנדסיות חיוניות בו-זמנית, אי-תלות ומהירות. הפעולה מפלגת באקראי את המופע והופכת את הקואורדינטות לבלתי תלויות. במקום סיבוכיות של O(d²) aנדרשת ברוטציה רגילה של מטריצה מלאה, המבנה של התמרת אדמר, בדומה ל-FFT, מוריד את העלות ל-O(d log d). וזה מה שהופך את האלגוריתם למעשי בכל טוקן במהלך זמן ההסקה.
גיא גם מזהה את משפט הגבול המרכזי כמנוע שאף אחד לא הזכיר. הוא עונה על השאלה מדוע הרוטציה עובדת. הוא מקשר בין פעולת הכפל להתפלגות הסטטיסטית בעזרת משפט הגבול המרכזי ותנאי לינדברג. הוא מסביר שכל קואורדינטת פלט היא סכום של d משתנים מקריים בלתי תלויים, ולכן נוצרת התפלגות גאוסית מובטחת
N(0, ||x||²/d)
הוא מדגיש שזה אינו קירוב, אלא ערובה מתמטית.
ההסבר המבריק ביותר של גיא מבחינתי לגבי אופן הפעולה של מנגנון הקוונטיזציה הוא שברגע שהקואורדינטות גאוסיאניות, כאשר ממירים זוג קואורדינטות לרדיוס וזווית, זאת אומרת לקורדינטות פולאריות, הזווית מתפלגת באופן אחיד. התפלגות אחידה היא תרחיש החלומות של קוונטיזציה, כי היא מאפשרת לקבוע דליים בגודל שווה וקבוע מראש. לכן, אין צורך לשמור גורמי קנה מידה או נקודות אפס מה שמוריד את תקורת הזיכרון כמעט לאפס מ-1.0 ביט לאלמנט בשיטות מסורתיות, עד ל-0.03 בטורבוקוואנט.
בסוף הפוסט שלו גיא גם מסדר את הנתונים המבלבלים שמסתובבים ברשתות החברתיות. הוא מחדד שאין דבר כזה דחיסה פי 6 ללא אובדן דיוק כלל. אובדן אפס מתקיים ב-3.5 ביטים שמספקים דחיסה של פי 4.6, בעוד שדחיסה של פי 6 מושגת ב-2.5 ביטים אך מלווה בפגיעה מדידה, גם אם שולית, באיכות.
אני ממשיך לנסות להבין בעצמי את המתמטיקה ומה קורה שם ולמה זה עובד ואנסה בדרכי להסביר בפוסטים הבאים.

צריכים עזרה עם מתמטיקה שימושית? צריכים מחקר אלגוריתמי יישומי? צריכים להאיץ תהליכים אלגוריתמיים? ה-AI שלכם צריך שיפור ביצועים, שיפור בדיוק, שיפור בנראות או שיפור בהסברתיות? דברו איתי:
שלמה יונה
מייסד ומדען ראשי, מתמטיקאי מחקר ופיתוח בע"מ
053-7326360
פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו: A technical deep dive about Mathematic.ai

.png)
Comments