מה מחדש BARRED לגבי גארדריילס?

shlomoyona
Apr 29
5 min read

הצוות שלכם הטמיע מודלי שפה ונותן אמצעים להעזר בהם בארגון. אבל ישנן דרישות שונות לוודא שהמודל אינו נותן שירותים או מגיב בצורה אסורה. במקום להסתמך על רשימות מילים פשוטות או על סינון כללי של תוכן פוגעני, שזה לא מזיק אבל גם לא גמיש ולא מספיק כללי, משתמשים במודלי בקרה, מודלי AI קטנים שתפקידם לסרוק את הקלט והפלט של הצ'אטבוט בזמן אמת ולחסום אותו אם הוא חורג מהמדיניות שהוגדרה. למה מודלים קטנים? כי אפשר לארח ולנהל ולהשתלט מקומית בחסכון ולא משלמים על טוקנים ולא קריאות API חיצוניות. יש גם תקורות אבל זה כלכלי יותר משימוש במודלים הגדולים והכבדים וזה גמיש יותר ונראה שגם נכון יותר. כדי לאמן מודל בקרה כזה שיבין חוקים ספציפיים (למשל: "אל תיתן הנחות מעל 10%"), צריך אלפי דוגמאות של ניסיונות עקיפה מצד משתמשים. ייצור ידני של דוגמאות כאלה על ידי בני אדם הוא תהליך יקר, איטי וקשה מאוד לביצוע בקנה מידה רחב. אז ממש אתמול פרסמו ארנון מצה ואלעד לוי את BARRED כאלטרנטיבה לשיטות הסינתטיות הקיימות.

עד היום, חברות השתמשו במודל חזק כדי שייצור עבורן דוגמאות של תקיפות ובקשות אסורות באופן אוטומטי. הבעיה היא שייצור אוטומטי כזה נוטה להיות שטחי וצפוי, ולכן מודל הבקרה שמתאמן עליו נשאר תמים וקל לעקיפה. הגישה של BARRED מציעה במקום זאת תהליך של וויכוח אסימטרי: שני מודלים מתעמתים ביניהם, אחד מנסה לשכנע שהבקשה תקינה והשני מנסה להוכיח שהיא מפרה את הכללים. התהליך הזה מייצר דוגמאות אימון הרבה יותר מתוחכמות, שמכסות מקרי קצה שקשה מאוד לחשוב עליהם מראש. הפתרון מיועד בעיקר לתרחישים של מדיניות מותאמת אישית, בהם הכללים הם חוקים עסקיים מורכבים. לדוגמה, עבור חברה שמפעילה בוט לייעוץ רפואי ראשוני, BARRED מאפשר לאמן במהירות מודל בקרה שיזהה מתי המשתמש מנסה לתחמן את הבוט כדי לקבל מרשם לתרופה, גם אם המשתמש משתמש בשפה עקיפה או מתוחכמת.

המטרה המרכזית של מחקר BARRED היא לפתח מסגרת עבודה גנרטיבית שמאפשרת לאמן מודלי שפה קטנים לשמש כבקרי בטיחות מותאמים אישית, בלי תלות בנתונים מתויגים ידנית, באוטומציה מלאה. המערכת מקבלת כקלט תיאור טקסטואלי של המשימה ומספר קטן של דוגמאות בסיס לא מתויגות, ומייצרת מתוכן אוסף נתונים סינתטי רחב, מגוון ואמין. המחברים טוענים שאימון מודלי סיווג קומפקטיים על גבי נתונים סינתטיים אלו מאפשר להשיג תוצאות מדויקות יותר מאשר שימוש במודלי שפה מסחריים עצומים. משמעות נוספת היא שהשימוש במודלי השפה העצומים משמשים בפתרון הזה מנועי כיול כוונות בשלב האימון המקדים בלבד ואין צורך בהם בפועל ומשתמשים רק במודלים הקטנים שכיילנו שהם כלכליים וזריזים ובשליטתינו לצורכי האכיפה.

איך עובד BARRED?

מסגרת העבודה של BARRED אינה מנותקת מהקשר תיאורטי, אלא משלבת שתי התפתחויות מחקריות קודמות: מתודולוגיית הדגימה המילולית, Verbalized Sampling, שפורסמה בסוף שנת 2025 שנועדה לפתור בעיה של צמצום גיוון התשובות במודלים, וארכיטקטורות ויכוח מרובה סוכנים שנועדו במקור לשיפור הסקה עובדתית.

התהליך מורכב מארבעה שלבים עוקבים:

השלב הראשון הוא חלוקת המשימה למאפיינים שונים. כשמודלים של שפה מייצרים נתוני אימון, הם נוטים לספק בעיקר את התשובות השכיחות והמוכרות ביותר ומתעלמים ממקרים פחות נפוצים. כדי למנוע את המצב הזה, המערכת מנתחת את המשימה ומפצלת אותה למאפיינים נפרדים. עבור כל מאפיין, המערכת מייצרת מגוון רחב של אפשרויות בעזרת טכניקת הדגימה המילולית כדי להבטיח כיסוי יסודי של כל חלופות הבעיה וכדי למנוע החמצה של מקרים חשובים.

השלב השני עוסק ביצירת מקרי קצה מאתגרים. המערכת בוחרת באקראי שילוב מסוים של מאפיינים יחד עם תווית המטרה, ומבקשת מהמודל לייצר דוגמה ספציפית ומאתגרת. הכוונה לדוגמה שנמצאת בדיוק על התפר או על הגבול בין קטגוריות שונות. במקביל המודל חייב להסביר צעד אחר צעד את צורת החשיבה שהובילה אותו לתשובה. ההסבר הזה הכרחי עבור שלבי הבדיקה הבאים.

השלב השלישי מתמקד באימות מבוסס עימות א-סימטרי. מאחר שתוויות המיוצרות על ידי מודלי שפה מכילות רעש רב, הוטמע מנגנון שמורכב מסוכן עורך דין נוקשה ומפאנל של סוכנים שופטים. עורך הדין מחויב להגן על התווית ללא פשרות, בעוד שהשופטים בוחנים את הדוגמה באופן עצמאי. דוגמה מתווספת לאוסף הנתונים אך ורק אם כל השופטים הגיעו להסכמה מלאה ביניהם ומסכימים עם התשובה שעורך הדין מגן עליה.

השלב הרביעי והאחרון הוא זיקוק איטרטיבי. דוגמאות שנפסלו אינן מושלכות, אלא המערכת אוספת את המשוב של השופטים שהתנגדו ומזינה אותו חזרה למודל שייצר את הדוגמה, שנדרש לייצר דוגמה מתוקנת, כזו שפותרת את הבעיות שהשופטים מצאו, אך עדיין שומרת על המאפיינים המקוריים שנדרשו בתחילת התהליך.

תובנות ומסקנות מ-BARRED

משימות שמבוססות על זיהוי תבניות ברורות מגיעות למיצוי פוטנציאל הלמידה שלהן כבר במודלים קטנים. לעומתן משימות שדורשות הבנה סמנטית רחבה ועמוקה יותר מחייבות שימוש במודלים גדולים יותר. במילים אחרות, להשתמש במודלים העצומים הכלליים או בקטנים המותאמים לפי הצורך ולא באופן עיוור.

סוגיה נוספת שאנחנו נתקלים בה היא עיוורון מודל. איכות הנתונים הסינתטיים תלויה לחלוטין ביכולות הידע וההסקה של מודל היסוד שמשמש גם יוצר/טוען וגם שופט. במקרים שבהם למודל השופט חסרה הבנה מוקדמת לגבי דקויות של רגולציה ספציפית אנחנו מסתכנים בכך שפאנל הדיון יתכנס לקונצנזוס שגוי וייצר אוסף נתונים לאימון שמכיל הטיה מובנית. נוסף על כך המערכת מגיבה ברגישות רבה לאיכות תיאור המשימה ההתחלתי שהמהנדס כותב וכל פער בהגדרת המדיניות יוביל בהכרח לאזורי עיוורון בנתונים. המגבלה הטכנית הזו מזכירה לנו שאנחנו לא יכולים לוותר על מעורבות של מומחה תוכן אנושי ואנחנו עדיין צריכים לשלב תהליכי משוב אנושי מדגמי כחלק מניהול סיכונים אלגוריתמי בסביבות מורכבות.

לבסוף כשבוחנים את דינמיקת הפולמוס המלאכותי אז מזהים שהיא פועלת ממש כמו מנוע חישוב. המודלים שמשתתפים במנגנון העימות מפגינים יכולת של עדכון הסתברותי. התצפית שלפיה בשליש מהמקרים הדיון אינו מסתיים בהסכמה עיוורת מראה לנו שהרכיב האסימטרי מצליח להוציא את המודלים ממצב של למידה תבניתית אל מצב של עיבוד מידע אקטיבי שמסוגל אפילו לשנות את דעתו של שופט שמתנגד.

דיון מקצועי וביקורת

הפרסום טרי אבל הספיק כבר לעורר תגובות. מפתחים בקהילות ובבלוגים מקצועיים קיבלו את המערכת באהדה ומתייחסים למערכת כמהלך טכנולוגי מתואם שמציע מענה אמיתי לבעיית צוואר הבקבוק בתהליך איסוף הנתונים. במקביל הפתרון גם מעורר דיון מקצועי וביקורת סביב שתי מחלוקות מרכזיות, שכוללות את התפיסות של Kalin Kostov מהנדס ראשי בחברת io.Intelligence שאינו חלק מצוות המחקר של מתודולוגיית BARRED.

המחלוקת הראשונה סובבת סביב ארכיטקטורה ומתמקדת במתח שבין דטרמיניזם להסתברות. גישות שקוסטוב הציג בכנס OSSF 2025 טוענות שמודלי שפה, מעצם טבעם ההסתברותי, אינם מסוגלים לספק את הוודאות שארגונים דורשים לשם בקרת נתונים. לכן מהנדסים צריכים להישען על שערי בקרה חיצוניים שמיישמים חוקים קשיחים כמו FDC3 intents. מבקרים מציינים כי מנגנוני משקולות בתוך מודלים עלולים לגרום שיתוק תפקודי או להוביל את המודל להתעלם מחוקים בעקבות פרשנות סטטיסטית. לעומת זאת תומכי מתודולוגיות כמו BARRED טוענים כי כללים דטרמיניסטיים יבשים מחמיצים הקשרים סמנטיים עדינים. מנגד מודל שלומד על בסיס דוגמאות קצה מצליח לזהות את מהות החריגה בגמישות רבה יותר.

המחלוקת השנייה היא סוציו טכנולוגית ועוסקת בחופש פעולה לעומת צנזורה. בקהילות קוד פתוח ברשתות חברתיות כמו הפורומים של Reddit אפשר לזהות מתח עמוק בין דרישת תאגידים לגארדריילס מחמירים לבין שאיפת מפתחים לעבוד עם מודלים חופשיים ששומרים על יכולתם המלאה ואינם סובלים מניוון. מפתחים מתארים מודלים שחברות מכוונות באופן אגרסיבי לבטיחות כמודלים ששוקעים לתוך אגן ציות. במצב כזה המודלים מאבדים את כושר הניתוח הביקורתי שלהם ומקבלים כל קלט כעובדה מוגמרת.

בנקודה זו נראה שהקהילה המקצועית רואה במתודולוגיית BARRED פשרה מעשית. השיטה מאפשרת למהנדסים להגדיר גארדריילס נקודתיים ומדויקים כדי למנוע, למשל, זליגת נתונים גיאוגרפיים, בלי לכפות צנזורה מוסרית רחבה ועמומה על המודל המרכזי. יכולת זו להפריד את פונקציית האכיפה הבינארית מיכולת ייצור הטקסט הכללית עשויה לגשר על הפער שבין דרישות אבטחה לבין חופש הפעולה המחקרי.

לסיכום, מומחים מתארים את מתודולוגיית BARRED כהישג הנדסי וכלכלי מרשים שנשען על תיאוריות כמו Verbalized Sampling ודיון מרובה סוכנים. אף על פי שהמתודולוגיה עוקפת חסמים בתחום אימון מודלים, המחקר מדגיש את החשיבות של ניהול סיכונים סביב רגישות הנחיות ועיוורון המודל. הפתרון אינו משנה רק את מודל ההקצאה החישובית בענן אלא גם מספק מענה אלגנטי למתח שקיים באופן מובנה בתעשייה בין הזרקת בטיחות אגרסיבית לבין שימור גמישות מחשבתית במודלים פתוחים. ונזכיר לסיום שבכל הקשור למעצורים וגבולות חשוב וחיוני להכניס ללולאה מומחה מעולם התוכן כדי לוודא (עם כל הכבוד ל-LLM as a judge ולפאנל הסוכנים המומחים) שיש מי שבודק את הבודקים ושיש שוער אמיתי בשער, גם אם מדגמית ורק לפעמים.

***

BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

https://huggingface.co/papers/2604.25203

צריכים עזרה עם AI/GenAI/AgenticAI/AI Platform ועם מעבר מהוכחת יכולת לעבודה בסקייל מלא באנטרפרייז?

זקוקים לשותף טכנולוגי עתיר ניסיון שיודע לספק שירותי מחקר ופיתוח Hands-on, מארגוני אנטרפרייז ועד סטארט-אפים, על מנת להוציא חזון אלגוריתמי שלכם מהכוח אל הפועל?

רוצים מחקר אלגוריתמי יישומי?

הבה נדבר!

שלמה יונה,

מייסד ומדען ראשי,

מתמטיקאי מחקר ופיתוח בע"מ

053-7326360

shlomo.yona@mathematic.ai

https://mathematic.ai

פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו:

A technical deep dive about Mathematic.ai

איך עובד BARRED?

תובנות ומסקנות מ-BARRED

דיון מקצועי וביקורת

Comments