המאמרים המכוננים שעליהם מבוססים החידושים של Nemotron 3 Super

shlomoyona
Apr 12
3 min read

כדי להבין את המתמטיקה של נמוטרון 3 סופר, עלינו לבנות בסיס מתחיל בקלאסי וממשיך עד למודרני ביותר. המודל הזה הוא שילוב של שלוש אסכולות שונות בעיבוד שפה. לו היינו מכינים סילבוס לימודים אז כך הוא היה נראה:

Transformers & Attention

מתחילים בבסיס אז, ראשית ולפני הכל, חייבים להבין את המנגנון שעליו נשען הזיכרון לטווח קצר של המודל. מנגנון ה-Self-Attention, Softmax normalization, ו-Positional Encodings (בפרט RoPE - Rotary Positional Embeddings) מתוך מאמר המפתח Attention Is All You Need (Vaswani et al., 2017).

Mamba-2 & State Space Models (SSMs)

נמוטרון 3 סופר הוא מודל היברידי. הוא משתמש ב-Mamba כדי לטפל בהקשרים ארוכים, עד מיליון טוקנים, ביעילות שטרנספורמר רגיל אינו מסוגל לה. אז כאן נלמד Linear Time Invariant (LTI) systems, הפיכת משוואות דיפרנציאליות למטריצות (Discretization), ופעולת ה-SSD (Structured State Space Duality) שמחברת בין SSM ל-Attention. נעשה זאת באמצעות המאמר Transformers are SSMs: Generalized Models and Structured State Space Duality (Mamba-2) (Dao & Gu, 2024).

Latent Mixture of Experts (MoE)

המודל אינו מפעיל את כל הפרמטרים שלו בכל רגע, אלא רק מומחים רלוונטיים, כדי לחסוך בחישוב. לשם כאן נלמד על פונקציות ניתוב, הבעיה של איזון עומסים בין מומחים, והחידוש של ייצוג המומחים במרחב וקטורי דחוס. המאמר שנשתמש בו כי זה הבסיס ל Latent MoE המודרני שאנבידיה אימצה: DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model.

Multi-Token Prediction (MTP)

כאן נכנסת המתמטיקה של ה-Speculative Decoding. המודל לומד לחזות כמה מילים קדימה בבת אחת. לצורך הנושא הזה נלמד Tree-based decoding, Shared Embedding heads, וכיצד פונקציית ההפסד משקללת חיזוי של טוקנים עתידיים. נעשה זאת באמצעות המאמר Better & Faster LLMs via Multi-token Prediction (Gloeckle et al., 2024).

הדו"ח של אנבידיה

אחרי שנבין את המרכיבים, נראה איך אנבידיה חיברה אותם יחד באמצעות המאמר NVIDIA Nemotron-3: Efficient and Open Intelligence (Technical Report, 2024/2025). זהו המסמך שמתאר את הארכיטקטורה הספציפית של Super.

אנבידיה אימצה טכנולוגיה מדיפסיק או מדיפמינד?

נמוטרון 3 סופר אכן מאמץ טכנולוגיות ורעיונות מרכזיים שמזוהים עם דיפסיק, אך הזיקה שלו לדיפמינד עקיפה יותר ומתבטאת בעיקר בשימוש בארכיטקטורות שהחברה תרמה לפיתוחן בעבר, כמו Transformer.

ההשפעות מדיפסיק

נמוטרון 3 סופר משלב שני פיתוחים טכנולוגיים בולטים שהוצגו או זכו לפופולריות משמעותית על ידי דיפסיק ה- Multi-Token Prediction (MTP) וה-Latent Mixture-of-Experts (LatentMoE).

השפעות מדיפמינד

הקשר לדיפמינד פחות ישיר ונובע מהתשתית המדעית הרחבה של התחום. דיפמינד הייתה שותפה מרכזית בפיתוח וקידום ארכיטקטורת ה-Transformer, שהיא חלק ממודל ה-Hybrid של Nemotron-3 Super.

אנבידיה משתמשת בשיטות למידת חיזוק כדי לאמן את המודל למשימות סבוכות כמו Agentic reasoning. תחום ה-RL הוא סימן ההיכר של DeepMind, למשל בפרויקטים כמו AlphaGo, אך אנבידיה פיתחה כאן סביבה ייעודית משלה שנקראת NeMo Gym.

המאפיינים הייחודיים של נמוטרון 3 סופר

למרות האימוץ של רעיונות אלו, אנבידיה הוסיפה חידושים משלה. בניגוד למודלים של דיפסיק שמבוססי Transformer טהור, נמוטרון משלב שכבות Mamba שמאפשרות עיבוד יעיל במיוחד של טקסטים ארוכים וצצריכת זיכרון נמוכה, וגם ה-NVFP4 Quantization שהוא פורמט 4 ביט ייחודי לחומרה של אנבידיה.

לסיכום

נקרא ונבין מאמרים שקשורים ב-4 שלבים: 1. כדי להבין את ה-מה, את מנגנון ה Attention 2. כדי להבין את ה-איך לטווח ארוך, את מנגנון ה Mamba-2 3. כדי להבין את הקיבולת ואת היעילות, את מנגנון ה MoE 4. כדי להבין את המהירות ואת ה Speculative Decoding, את מנגנון ה MTP 5. לבסוף, את החיבור של כולם יחדיו בפרסום של נמוטרון 3 סופר.

המאמרים המכוננים שעליהם מבוססים החידושים של Nemotron 3 Super

צריכים עזרה עם מתמטיקה שימושית? עיבוד אותות? בקרה? צריכים מחקר אלגוריתמי יישומי? צריכים להאיץ תהליכים אלגוריתמיים? ה-AI שלכם צריך שיפור ביצועים, שיפור בדיוק, שיפור בנראות או שיפור בהסברתיות? אנחנו ב-Mathematic.ai אלופים בדברים האלה!

דברו איתי:

שלמה יונה

מייסד ומדען ראשי, מתמטיקאי מחקר ופיתוח בע"מ

053-7326360

shlomo.yona@mathematic.ai

https://mathematic.ai

פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו: A technical deep dive about