top of page

חזית המחקר ב-Chunking עבור RAG

  • Writer: shlomoyona
    shlomoyona
  • 7 days ago
  • 4 min read

תחום החלוקה למקטעים מתפתח במהירות ולצד השיטות שנסקרו בפוסט קודם קיימות גישות עדכניות שפותחו לאחרונה ומייצגות את חזית המחקר הנוכחית. גישות אלו מתמודדות עם אתגרים מורכבים של הבנה גלובלית התאמה דינמית למסמך ויעילות בסדרי גודל נרחבים. להלן פירוט של שלוש גישות מרכזיות שמהוות את חזית המחקר הנוכחית.


חזית המחקר ב-Chunking עבור RAG
חזית המחקר ב-Chunking עבור RAG

גישת שחזור מבוססת גרף ידע משנה את תפיסת החלוקה בכך שהיא אינה מחלקת את הטקסט למקטעים רציפים אלא מחלצת ישויות וקשרים מתוך הטקסט לבניית רשת מידע מקושרת. המערכת משתמשת במודל שפה כדי לזהות ישויות ולתאר את הקשרים שביניהן ולאחר מכן מפעילה אלגוריתמים של זיהוי קהילות לאגוד צמתים שקשורים זה לזה. עבור כל קהילה שנוצרת מודל השפה מייצר סיכום טקסטואלי שמתאר את התובנות המרכזיות שעולות ממנה וכך נוצרת היררכיה של ידע שמייצגת את המסמך השלם.


מבחינת יתרונות וחסרונות היתרון המרכזי של שיטה זו הוא היכולת לענות על שאלות גלובליות שדורשות הבנה של נושאים רחבים שפזורים על פני מסמכים רבים תוך חיבור פרטי מידע קטנים לידי תמונה שלמה. החיסרון הבולט הוא הדרישה החישובית הגבוהה משום שכל טקסט המקור נדרש לעבור עיבוד במודל שפה לשם חילוץ הישויות ויצירת הסיכומים דבר שמייקר את שלב יצירת האינדקס.


גישה זו מתאימה לפרויקטים שבהם המשתמשים שואלים שאלות מחקר מורכבות על מגמות כלליות סיכומי נושאים או קשרים עקיפים בין גורמים שונים במסד הנתונים. לגבי איך להשתמש ואיך ליישם, היישום מתבצע על ידי הגדרת צינור נתונים שקורא למודל שפה עם הנחיות ייעודיות לחילוץ ישויות וקשרים. לאחר החילוץ הנתונים נשמרים במבנה גרף ומופעלים עליהם אלגוריתמים לזיהוי קהילות. לבסוף נכתבת לולאה שעוברת על הקהילות שזוהו ומייצרת דוח סיכום לכל אחת מהן שנשמר כווקטור בר חיפוש.


שיקולי הארכיטקטורה התכן והמימוש דורשים שילוב של מסד נתונים גרפי לצד מסד הנתונים הווקטורי דבר שמוסיף מורכבות לתחזוקת המערכת. מה שחשוב לבדוק ואיך לבדוק מתמקד ביכולת המערכת לענות על שאלות שמצריכות דילוגים מרובים ולמדוד את כמות ההזיות בשלב חילוץ הישויות כדי לוודא שהמודל אינו יוצר קשרים שאינם קיימים בטקסט.


חלוקה אדפטיבית מונחית מדדים מוותרת על בחירת שיטת חלוקה אחת לכלל המערכת ומעדיפה להתאים את אסטרטגיית החלוקה לכל מסמך באופן פרטני. המערכת מנתחת כל מסמך שנכנס באמצעות אוסף של מדדים פנימיים שמעריכים מאפיינים כמו שלמות הפניות הלכידות הפנימית של המקטע שלמות המבנה והתאמת הגודל. בהתבסס על ציונים אלו אלגוריתם הניתוב בוחר את שיטת החלוקה שמתאימה ביותר לאותו מסמך מתוך מגוון שיטות קיימות כגון חלוקה מבוססת ביטויים רגולריים או חלוקה רקורסיבית מפוצלת וממוזגת.


היתרון הוא שיפור בביצועי השחזור ובכמות התשובות הנכונות ללא צורך בהחלפת מודל השפה שכן כל מסמך מעובד בדרך שמשמרת את המבנה הייחודי שלו בצורה טובה. החיסרון נובע מכך שתהליך הקליטה הופך למורכב יותר בשל הצורך לחשב מדדים שונים לכל מסמך בטרם קבלת החלטת החלוקה דבר שמוסיף זמן עיבוד. מתי להשתמש מתייחס לארגונים שמנהלים מאגרי מידע מגוונים שכוללים תערובת של טקסטים משפטיים טכניים וכלליים שבהם הפעלת שיטת חלוקה אחידה פוגעת בחלק מסוגי המסמכים.


ביישום מטמיעים שלב עיבוד ביניים שמקבל את המסמך הגולמי ומחשב את המדדים שנדרשים. לאחר מכן נכתב מנגנון ניתוב שבוחר את כלי החלוקה שמתאים מתוך אוסף של כלים זמינים ומפעיל אותו על המסמך.


נדרש מנגנון שמתעד איזו שיטת חלוקה שהופעלה על כל מסמך כדי לאפשר מעקב. כרגיל, חשוב לבדוק גם את הדיוק של מדדי ההערכה מול קבוצת ביקורת ולמדוד את השיפור הכללי של המערכת.


חלוקה למסמכי רשת מודעת שחזור היא גישה שתוכננה לייעל עיבוד של תוכן רשתי רחב היקף תוך הפחתת משאבים. התהליך מפריד בין שלב חילוץ הטקסט לבין תכנון החלוקה. תחילה תוכן הרשת מעובד ליחידות מבניות שניתנות לזיהוי תוך שמירה על היררכיית כותרות העמוד . לאחר מכן מבנה זה ללא הטקסט המלא מועבר למודל שפה קל שמשמש כמתכנן בלבד. המודל שמנתח מחליט היכן כדאי לפצל את המידע כדי למטב את השחזור העתידי ומחזיר רק את מספרי גבולות החיתוך. החלוקה בפועל מתבצעת על טקסט המקור בהתאם להחלטות אלו ללא יצירת טקסט חדש .


היתרונות כוללים צמצום צריכת הטוקנים ומניעה מוחלטת של סיכוני הזיות בשלב יצירת המקטעים שכן מודל השפה אינו משכתב את הטקסט. החיסרון הוא שהשיטה מותאמת למסמכים שבעלי מבנה היררכי ברור כגון דפי רשת ולכן פחות יעילה על טקסטים חסרי תבנית מוגדרת .


מומלץ להשתמש בגישה זו בעת קליטה רחבת היקף של דפי אינטרנט מאמרי ויקיפדיה או מדריכים מקוונים שכוללים כותרות ותתי כותרות רבות. איך להשתמש ואיך ליישם מבוסס על שימוש במנתח תוכן שממיר עמודים למבנה עץ. מעבירים למודל השפה רק את תיאור המבנה ומבקשים ממנו להחזיר רשימה של מזהים שמייצגים את גבולות המקטעים שרצויים . לבסוף פונקציה פשוטה מחברת את הטקסט המקורי של הצמתים שנבחרו למקטעים סופיים. 


שיקולי הארכיטקטורה התכן והמימוש מפרידים בין לוגיקת החילוץ לבין ההחלטה הסמנטית כדי לשפר את יכולת הניפוי של המערכת. חשוב לנטר את חיסכון העלויות ביחס למספר הטוקנים שנשלחים למודל ולווידוא שמדד דיוק השחזור נשמר באותה רמה או משתפר ביחס לשיטות מסורתיות .


טבלת השוואה מקיפה בין גישות חזית המחקר (ושוב תודה לג'מיני על טבלת ההשוואה המסכמת).


מאפיין הנדסי וקריטריון

שחזור מבוסס גרף ידע

חלוקה אדפטיבית מונחית מדדים

חלוקה למסמכי רשת מודעת שחזור

ליבת אלגוריתמיקה

חילוץ ישויות וקשרים זיהוי קהילות ויצירת סיכומים היררכיים.

הערכת מסמך בעזרת מדדים פנימיים וניתוב דינמי לשיטת החלוקה שמתאימה.

הפרדה בין ניתוח מבנה רשת לתכנון גבולות המקטעים על ידי מודל שפה.


סיבוכיות יצירת האינדקס

גבוהה נדרש עיבוד של כלל הטקסט במודל שפה ובניית רשת.

בינונית דורשת חישוב מקדים של מדדים איכותיים לפני חלוקה.

נמוכה עד בינונית חוסכת משאבים על ידי העברת מבנה בלבד ללא שיכתוב.


מידת השלמות הסמנטית והקשרית

גבוהה לשאילתות רוחב ומייצרת הקשר שמחבר פרטי מידע רחוקים.

גבוהה המסמך מטופל בדרך שמשמרת את תכונותיו המבניות באופן מוצלח.

גבוהה שומרת על שלמות מבנית של מסמכי רשת ללא סכנת פברוק מידע.


השפעת וצריכת חלון הקשר בשלב היצירה

חסכונית בזמן יצירת התשובה שכן המודל מקבל סיכומים ממוקדים שרלוונטיים.

מיטבית המקטעים שנוצרים תואמים את גבולות המסמך ומפחיתים רעש.

מספקת מידע רלוונטי שמקורו במבנה הטבעי דבר שמשפר את מיקוד המודל.


תרחיש שימוש אידיאלי ואפיון יישום

מערכות שנדרשות לענות על שאלות שסוקרות את כלל מאגר המידע.

מאגרי מידע מעורבים שכוללים סוגי מסמכים שדורשים טיפול שונה.

קליטה יעילה של אתרי אינטרנט ותיעודים טכניים בקנה מידה רחב.


אנחנו ב- Mathematic.ai מומחים בבלשנות חישובית, עיבוד שפה טבעית ובעיבוד שפה פורמלית. צריכים עזרה בשיפורים אלגוריתמיים או הנדסיים או לשוניים במערכות שפה טבעית? דברו איתנו! צריכים עזרה עם מחקר אלגוריתמי יישומי? האצה של אלגוריתמים או של מערכות אלגוריתמיות? צריכים עזרה בארגון נתונים ובהפקת תובנות?


דברו איתי:

שלמה יונה

מייסד ומדען ראשי, מתמטיקאי מחקר ופיתוח בע"מ

053-7326360


פודקאסט על החברה ועליי, שלמה יונה, ואופן העבודה שלנו ואיתנו: A technical deep dive about


 
 
 

Comments


  • Facebook Social Icon
  • LinkedIn Social Icon

© 2010-2026 mathematic.ai

bottom of page