אסטרטגיית חלוקה לצ'אנקס בסביבת עברית ואנגלית וכיווניות טקסט

shlomoyona
Apr 27
3 min read

ארגון גדול בנה מערכת מבוססת LLM עם סוכנים וארכיטקטורה. נראה שעובד על סדר גודל של כמה אלפים ואפילו 10-20 אלף מסמכים שבהם יש אנגלית ועברית משולבות.

האתגר

כיצד נכון לשלב טקסט בעברית ובאנגלית בתוך אותו הצ'אנק, במיוחד מבחינת ההתמודדות עם תווים כיווניים, RTL? האם יש להשמיט תווים אלו או להשאירם, ומתי נכון להשתמש באלגוריתמים דו-כיווניים, BiDi? בנוסף, הצוות מתלבט מהו הגודל הנכון של צ'אנק מבחינת כמות טוקנים כאשר הוא מורכב רק מעברית, רק מאנגלית, או משילוב של השתיים, והאם עדיף לפצל את הטקסט לפי יחידות סמנטיות, כגון משפטים או פסקאות בעלות נושא משותף, או שמא להשתמש בפיצול שרירותי וקבוע של yuebho תוך יצירת חפיפה.

המענה

סוגיית החלוקה לנתחים בסביבה מרובת שפות הכוללת שפות הנכתבות מימין לשמאל, RTL, כגון עברית, ושפות הנכתבות משמאל לימין, LTR, כגון אנגלית, מהווה אתגר אלגוריתמי שמשפיע ישירות על איכות האמבדינג ועל יכולות השליפה. כדי לפתור דילמה זו, יש להפריד באופן מוחלט בין האופן שבו בני אדם קוראים טקסט לבין האופן שבו מודלים חישוביים מעבדים טקסט.

בכל הנוגע ליישום אלגוריתמי BiDi וטיפול בתווי RTL, קיימת נטייה שגויה לנסות ולסדר את הטקסט ויזואלית עוד בשלב עיבוד הנתונים המוקדם כדי שייראה תקין במסופים חסרי תמיכה כיוונית. הפעלה של ספריות לעיבוד אלגוריתם דו-כיווני, כמו ספריית python-bidi, נועדה להמיר את רצף התווים מסדר לוגי לסדר ויזואלי, כך שהמילה שלום שמקודדת לוגית מהאות שי"ן ועד מם-סופית, תהפוך במערך הזיכרון למערך המתחיל במם-סופית ומסתיים בשי"ן. פעולה זו היא הרסנית עבור הדטה פייפליין של ה-RAG. מודלי הטמעה ומודלי שפה אומנו על קורפורה (קורפוס ביחיד, קורפורה ברבים...) שבהם השפה העברית נשמרה בסדר הלוגי של תקן ה-Unicode. הפיכת סדר האותיות באמצעות BiDi בשלב ה-chunking תוביל לכך שמודל ה-embedding יקבל מילים ג'יברישיות שאינן קיימות באוצר המילים שלו, ומכאן לייצוג וקטורי שגוי ולצניחה חדה ביכולת השליפה הסמנטית. לכן, ההמלצה החד-משמעית היא לא להשמיט תווי שליטה כיווניים ולא להפעיל מניפולציות BiDi בשלב ה-chunking וה-embedding. הטקסט חייב להישאר בסדרו הלוגי המקורי. מנגנוני ה-BiDi צריכים להיות מיושמים אך ורק בשכבת ממשק המשתמש בעת הצגת הנתונים הגולמיים למשתמש הקצה.

הסוגיה השנייה, שנוגעת לגודל הנתח ומגבלת האסימונים, נובעת מחוסר הסימטריה המובנה של אלגוריתמי טוקניזציה (כגון BPE - Byte Pair Encoding) בין אנגלית לעברית. רוב הטוקנייזרים מותאמים בצורה אידיאלית לאנגלית, כך שמילה ממוצעת באנגלית שקולה ל-1.25 עד 1.3 אסימונים. לעומת זאת, בשל מיעוט טקסטים בעברית בתהליכי האימון הראשוניים של טוקנייזרים רבים, מילים בעברית מפוצלות לרוב לרמת התו הבודד או לזוגות תווים, כך שמילה ממוצעת בעברית עשויה לצרוך בין 3.5 ל-5 אסימונים.

המשמעות ההנדסית של נתונים אלו היא שחלוקה שרירותית שמבוססת על גודל קבוע של טוקנים, Fixed-size chunking, היא גישה מועדת לכישלון בסביבה דו-לשונית. אם נגדיר גודל נתח שרירותי של 500 אסימונים, הרי שבמסמך באנגלית נתח זה יכיל פסקאות שלמות ועשירות בהקשר, בעוד שבמסמך בעברית אותו נתח בדיוק יחתוך את הטקסט באמצע פסקה או אפילו באמצע משפט, משום שמכסת האסימונים תתמלא מהר מאוד. חיתוכים שרירותיים אלו גורמים לאובדן המשמעות הסמנטית המלאה של המשפט, ומקשים על מודל ההטמעה למקם את הווקטור במרחב הלטנטי הנכון.

המענה המקצועי הראוי לבעיה זו הוא זניחה מוחלטת של רכיבי Text Splitters שמבוססים על ספירת נוקשה של תוים או של טוקנים, ומעבר מיידי לאסטרטגיית חלוקה סמנטית, Semantic Chunking. חלוקה סמנטית פועלת על ידי חישוב מוקדם של ה- embeddings ברמת המשפט הבודד, ומדידת Cosine Similarity בין משפטים עוקבים. כאשר ישנה ירידה חדה בדמיון הסמנטי בין שני משפטים סמוכים, האלגוריתם מזהה זאת כנקודת שבירה טבעית בטקסט, aמייצגת מעבר לנושא חדש. רק בנקודות אלו יתבצע החיתוך, תוך שמירה על רצף רעיוני ללא תלות במספר הטוקנים שנדרשו לייצוגו, בכפוף למגבלת גג רחבה שמונעת חריגה מחלון ההקשר של מודל ההטמעה המיועד. גישה זו מבטיחה שבין אם הטקסט בעברית ובין אם הוא באנגלית, הנתח יכיל תמיד רעיון קוהרנטי ושלם, ובכך תעלה איכות השליפה של המערכת באופן משמעותי.

אסטרטגיית חלוקה לצ'אנקס בסביבת עברית ואנגלית וכיווניות טקסט

זקוקים לשותף טכנולוגי עתיר ניסיון שיודע לספק שירותי מחקר ופיתוח Hands-on, מארגוני אנטרפרייז ועד סטארט-אפים, על מנת להוציא חזון אלגוריתמי שלכם מהכוח אל הפועל? צריכים עזרה עם AI/GenAI/AgenticAI/AI Platform ועם מעבר מהוכחות יכולת לעבודה בסקייל מלא באנטרפרייז? הבה נדבר!

שלמה יונה,

מייסד ומדען ראשי,

מתמטיקאי מחקר ופיתוח בע"מ

053-7326360

shlomo.yona@mathematic.ai

https://mathematic.ai

פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו:

A technical deep dive about Mathematic.ai

האתגר

המענה

Comments