בניית Knowledge Graph: השלב הבא באבולוציה של אחזור מידע ארגוני מאת אילון אוריאל

בעולם שבו הנתונים הם הנפט החדש, היכולת לחבר בין הנקודות היא בית הזיקוק. בשנתיים האחרונות, ארגונים רבים השליכו את יהבם על מערכות RAG (Retrieval-Augmented Generation) מבוססות חיפוש וקטורי (Vector Search). זה עבד מצוין כצעד ראשון, אבל כעת, כשאנחנו מנסים לפתור בעיות מורכבות יותר, אנחנו נתקלים בתקרת זכוכית. התשובה לאתגר הזה היא ה-Knowledge Graph (גרף ידע).

המאמר הזה הוא מדריך מקיף וארכיטקטוני לבניית גרף ידע ארגוני. הוא לא מיועד למי שמחפש פתרונות קסם, אלא למי שרוצה להבין איך להפוך את ערימות המידע (Unstructured Data) לידע מובנה, מקושר ובעל ערך עסקי אמיתי.

השורה התחתונה: למה וקטורים לא מספיקים?

לפני שנצלול ל"איך", חשוב להבין את ה"למה". מערכות RAG קלאסיות עובדות על בסיס דמיון סמנטי (Semantic Similarity). הן לוקחות את שאלת המשתמש, הופכות אותה לווקטור מספרי, ומחפשות "חתיכות" טקסט (Chunks) דומות במסד הנתונים.

זה מצוין לשאלות כמו "מהי מדיניות החזרת המוצרים?". אבל מה קורה כשהשאלה היא: "כיצד השפיע השינוי ברגולציה האירופית מ-2023 על שרשרת האספקה של הספקים המשניים שלנו באסיה?".

כאן החיפוש הווקטורי נכשל. הוא רואה מילים דומות, אבל הוא עיוור לקשרים. הוא לא "יודע" שספק X הוא חברת בת של תאגיד Y, שנמצא תחת רגולציה Z. גרף ידע הוא המפה שמחברת את כל הישויות הללו ומאפשרת למודל השפה (LLM) להבין את התמונה הגדולה, ולא רק לקרוא פסקאות מבודדות.

יסודות הגרף: שפה של צמתים וקשתות

בניגוד לטבלאות ב-SQL או למסמכים ב-NoSQL, גרף ידע מנסה לחקות את האופן שבו המוח האנושי מאחסן מידע: דרך אסוציאציות וקשרים.

המרכיבים הבסיסיים הם:

צמתים (Nodes):

אלו הן הישויות בעולם שלנו. צומת יכול להיות "לקוח", "מוצר", "מסמך חוזי", "עובד" או "מיקום גיאוגרפי". כל צומת מכיל תווית (Label) שמגדירה את סוגו.

קשתות (Edges/Relationships):

זהו הדבק שמחזיק את המערכת. הקשתות מגדירות את אופי הקשר בין הצמתים. לדוגמה: עובד -> מועסק ב -> חברה. או: מוצר -> מכיל רכיב -> חומר גלם. הקשתות הן חד-כיווניות ובעלות משמעות סמנטית.

תכונות (Properties):

מידע נוסף שיושב על הצמתים או על הקשתות. למשל, לצומת "עובד" יהיו תכונות כמו "שם", "תאריך לידה", ו"תפקיד". לקשת "מכרה את" בין חברה למוצר, יכולה להיות תכונה "תאריך המכירה".

הכוח האמיתי מגיע כשאנחנו מיישמים את זה בקנה מידה רחב. פתאום, אפשר לשאול שאילתות שמדלגות בין ישויות שונות לחלוטין (Multi-hop Reasoning) ולגלות תובנות שהיו חבויות בתוך הררי הטקסט.

הגדרת האונטולוגיה (Ontology): המוח מאחורי הגרף

הטעות הכי גדולה שאני רואה בארגונים היא הניסיון "לזרוק" את כל הדאטה לתוך מסד נתונים גרפי (כמו Neo4j) ולצפות לנס. זה לא עובד ככה. השלב הראשון והקריטי ביותר הוא בניית האונטולוגיה.

אונטולוגיה היא ה"סכמה" של העולם שלנו. היא מגדירה אילו סוגי ישויות קיימים ואיזה קשרים מותרים ביניהם.

עקרונות לתכנון אונטולוגיה נכונה:

  • התחילו קטן: אל תנסו למפות את כל הארגון ביום הראשון. בחרו Use Case אחד (למשל: "ניהול סיכוני ספקים") ומפו את הישויות הקשורות אליו בלבד.
  • היררכיה: השתמשו בירושה. "מחשב נייד" הוא סוג של "ציוד מחשוב", שהוא סוג של "נכס". זה מאפשר שאילתות בכל הרמות.
  • סטנדרטיזציה: ודאו שאתם משתמשים בשמות אחידים. אל תקראו לקשר פעם אחת "Has_Bought" ופעם אחרת "Purchased".
  • גמישות: האונטולוגיה צריכה להיות מסוגלת להשתנות. העסק דינמי, וסוגי קשרים חדשים ייווצרו בעתיד.

שיטת העבודה המומלצת על ידי אילון אוריאל לבניית Pipeline

אז איך בונים את הדבר הזה בפועל? בעבר, בניית גרף ידע דרשה צבא של דאטה-אנליסטים ידניים. היום, בזכות ה-LLMs, אנחנו יכולים לבצע אוטומציה של כ-80% מהתהליך.

הנה הארכיטקטורה שאני מיישם ב-NeuralBridge Solutions:

1. עיבוד מקדים (Preprocessing)

לוקחים את המסמכים הגולמיים (PDFs, Emails, Docs) ומנקים אותם. מחלקים אותם ל-Chunks, אבל כאן יש טוויסט: במקום סתם לחתוך לפי מספר מילים, אנחנו מנסים לחתוך לפי הקשר לוגי או פסקאות שלמות.

2. חילוץ ישויות וקשרים (Entity & Relation Extraction)

זהו הלב של התהליך. אנו משתמשים ב-LLM חזק (כמו GPT-4o או Claude 3.5 Sonnet) עם פרומפט מדויק שמקבל את הטקסט ואת האונטולוגיה שהגדרנו.

ההוראה למודל היא: "עבור על הטקסט הבא, זהה את הישויות המוגדרות באונטולוגיה, וחלץ את הקשרים ביניהן בפורמט של שלשות (Triples): נושא-פרדיקט-מושא (Subject-Predicate-Object)".

3. רזולוציית ישויות (Entity Resolution)

זוהי הבעיה הקשה ביותר. הטקסט מכיל את השמות "Elon", "Mr. Uriel" ו-"E. Uriel". האם מדובר באותו אדם?

בשלב זה מפעילים אלגוריתמים של Deduplication. משתמשים גם בהשוואה פשוטה (String Matching) וגם בהשוואה וקטורית (Embedding Similarity) כדי לאחד צמתים כפולים לצומת קנוני אחד.

4. העשרה (Enrichment)

לאחר שיש לנו שלד של גרף, אפשר להעשיר אותו במידע ממקורות מובנים (SQL Databases). למשל, אם זיהינו "לקוח" מתוך אימייל, נשאב את ה-LTV (Life Time Value) שלו ממערכת ה-CRM ונוסיף את זה כתכונה לצומת בגרף.

5. אחסון (Storage)

המידע נשמר במסד נתונים גרפי. המובילים בשוק הם Neo4j, ArangoDB, ו-Amazon Neptune. הבחירה תלויה בתשתית הענן שלכם ובצורך בשפת שאילתות ספציפית (Cypher מול Gremlin).

GraphRAG: השילוב המנצח

הבאזז הגדול היום הוא סביב המונח GraphRAG. הרעיון הוא לשלב את הדיוק של גרף הידע עם הגמישות של המודלים הגנרטיביים.

כאשר משתמש שואל שאלה, המערכת מבצעת תהליך כפול:

חיפוש וקטורי: מוצא את הטקסטים הרלוונטיים ביותר בצורה גסה.

חיפוש גרפי: מזהה את הישויות המרכזיות בשאלה, "נוחת" עליהן בגרף, ומבצע "טיול" (Graph Traversal) לצמתים שכנים כדי לאסוף הקשר עמוק יותר.

למשל, אם השאלה היא על "סיכוני אבטחה בשרתים", החיפוש הווקטורי ימצא מסמכים על אבטחה. החיפוש הגרפי ימצא ש"שרת X" מריץ "תוכנה Y", שיש לה "חולשה Z" שפורסמה אתמול. המודל מקבל את כל המידע המקושר הזה ובונה תשובה הרבה יותר מדויקת ומבוססת עובדות.

יתרון נוסף הוא יכולת ה-Explainability (הסברתיות). כשמודל עונה על בסיס גרף, קל יותר להראות למשתמש את ה"מסלול" שהוביל לתשובה, בניגוד ל"קופסה השחורה" של הווקטורים.

נקודות למחשבה עבור מנהלים טכנולוגיים

תחזוקה היא לא מילה גסה

גרף ידע הוא יצור חי. הוא משתנה כל הזמן. אתם חייבים לבנות מנגנון (Pipeline) שמעדכן את הגרף באופן שוטף. מסמך חדש שנכנס צריך לעבור עיבוד ולעדכן את הגרף אוטומטית. גרף לא מעודכן שווה פחות ממסד נתונים רגיל.

אל תזניחו את הוויזואליזציה

אחד היתרונות הגדולים של גרפים הוא היכולת לראות אותם. השתמשו בכלים כמו Neo4j Bloom כדי לתת לאנליסטים שלכם יכולת לחקור את המידע ויזואלית. לפעמים העין האנושית תזהה דפוס (Pattern) של הונאה או כשל לוגי ששום אלגוריתם לא תפס.

האיזון בין אוטומציה לבקרה ידנית

אמנם אמרתי ש-LLMs יכולים לבנות את הגרף, אבל אסור לסמוך עליהם בעיניים עצומות. בשלבי ההקמה הראשונים, הכניסו שלב של Human in the Loop כדי לוודא שהאונטולוגיה נשמרת ושהמודל לא ממציא קשרים שלא קיימים.

שימושים מתקדמים מעבר לחיפוש מידע

בעוד ש-Search הוא היישום המיידי, הערך האמיתי של Knowledge Graphs מתגלה במקומות אחרים:

  • זיהוי הונאות (Fraud Detection): הונאות פיננסיות מורכבות לרוב בנויות על רשתות של קשרים (Circular Transactions). גרפים יודעים לזהות מעגלים סגורים כאלה במילי-שניות, משהו ש-SQL יתקשה מאוד לעשות.
  • מנועי המלצה (Recommendation Engines): במקום להמליץ רק על בסיס "מי שקנה X קנה Y", גרף מאפשר להמליץ על בסיס קשרים עמוקים יותר ("המוצר הזה מכיל רכיב שאתה אלרגי אליו, הנה תחליף מאותו יצרן").
  • ניתוח השפעה (Impact Analysis): בעולמות ה-DevOps וה-IT, גרף שמתאר את התלות בין שירותים (Microservices) מאפשר להבין מיידית איזה רכיב עסקי ייפגע אם שרת מסוים נופל.

שאלות ותשובות (Q&A)

שאלה: האם גרף ידע מייתר את הצורך ב-Vector Database?

תשובה: חד משמעית לא. הם משלימים זה את זה. וקטורים מצוינים לטיפול בעמימות שפתית (Fuzzy Matching) ובחיפוש על טקסט חופשי (Unstructured). גרפים מצוינים לטיפול בעובדות קשיחות ובלוגיקה מבנית (Structured). הארכיטקטורה הטובה ביותר היא היברידית.

שאלה: כמה זה יקר לבנות ולתחזק?

תשובה: עלות ההקמה הראשונית גבוהה יותר מאשר מערכת RAG פשוטה, בעיקר בגלל הצורך בתכנון אונטולוגיה ועלויות העיבוד של ה-LLM לחילוץ הישויות. עם זאת, התחזוקה הופכת לזולה יותר לאורך זמן כי ה-Context שהמודל מקבל הוא מדויק יותר, מה שמקטין את כמות הטוקנים המבוזבזים ואת הצורך בתיקון טעויות (Hallucinations).

שאלה: באיזה בסיס נתונים גרפי כדאי לבחור?

תשובה: Neo4j הוא הסטנדרט בתעשייה והכי בשל מבחינת פיצ'רים וקהילה. אם אתם כבר עמוק בתוך AWS, אז Neptune הוא בחירה טבעית. אם אתם צריכים גמישות של מסמכים וגרפים יחד, ArangoDB הוא אופציה מעניינת מאוד.

מקרה בוחן: חברת פארמה גלובלית

בואו נסתכל על פרויקט אמיתי (בשינוי פרטים מזהים). חברת תרופות גדולה החזיקה מאגר עצום של מאמרים מחקריים, תוצאות ניסויים קליניים ודוחות רגולטוריים.

המטרה הייתה לזהות התנגשויות בין תרופות חדשות לתרופות קיימות בשלב מוקדם של הפיתוח.

במערכת החיפוש הישנה, החוקרים היו צריכים לחפש מילות מפתח ולעבור ידנית על עשרות מסמכים.

לאחר הטמעת Knowledge Graph, המערכת מיפתה ישויות כמו: "מולקולה", "תופעת לוואי", "גן" (Gene), ו"מחלה".

כאשר חוקר שאל: "האם למולקולה X יש פוטנציאל לגרום לבעיות לב?", המערכת ביצעה שאילתה גרפית ומצאה:

מולקולה X -> משפיעה על -> חלבון Y -> מווסת את -> גן Z -> קשור ל -> אי ספיקת לב.

הקשר הזה היה חבוי על פני שלושה מאמרים שונים שנכתבו בהפרש של עשור. הגרף חיבר את הנקודות והציל לחברה מיליארדים בפיתוח תרופה שהייתה נכשלת בשלב הניסויים.

סיכום והסתכלות קדימה

אנחנו עומדים בפתחו של עידן שבו מערכות AI לא רק "פולטות מילים", אלא באמת "מבינות" את העולם שבו הן פועלות. גרף ידע הוא התשתית הקוגניטיבית של הארגון.

אם אתם בונים היום אסטרטגיית AI, אל תסתפקו בלזרוק מסמכים לתוך Vector Store. השקיעו במחשבה על מבנה הידע שלכם. אילון אוריאל מאמין שהשילוב בין החשיבה המובנית של הגרפים לבין היצירתיות של המודלים הגנרטיביים הוא המפתח למערכות AI אמינות, חכמות ובטוחות יותר.

זהו לא פרויקט של "שגר ושכח", אלא מסע מתמשך של בניית הנכס החשוב ביותר של הארגון שלכם: הידע המוסדי המקושר שלו. תתחילו בקטן, תמפו את הליבה העסקית, ותנו לרשת לצמוח. ההחזר על ההשקעה יגיע מהר יותר ממה שנדמה לכם.

טכנולוגיה עולם המשפט פיננסים
המשך לעוד מאמרים שיוכלו לעזור...
האם ידועים בציבור צריכים הסכם ממון?
בני זוג שנחשבים ידועים בציבור, הם כאלה שהחליטו לבלות את חייהם יחד - אבל רוצים לעגן את הקשר הזוגי שלהם,...
קרא עוד »
ינו 24, 2020
עורך דין מומלץ לדיני עבודה
השאלה הנפוצה ביותר שאנו נשאלים היא "על איזה עורך דין אתה ממליץ לטיפול בסוגיות דיני עבודה?" או "איזה...
קרא עוד »
אוק 30, 2022
לצאת מהבור: חובות ולאן – טיפים מעוררי השראה להתמודדות!
כולנו מתמודדים עם אתגרים כלכליים מפעם לפעם. הגבולות הבינלאומיים של חובות יכולים להיות מפחידים, אבל...
קרא עוד »
ינו 07, 2025
מיקרובליידינג גבות – למה כולם מתרגשים מזה כל כך?
אם אתם חושבים שגבות הן רק עוד פריט בטיפוח היומי, תתכוננו להסתכל עליהן בעיניים חדשות. מיקרובליידינג...
קרא עוד »
דצמ 02, 2025
שאלות שישאלו אתכם בכל ראיון עבודה בהייטק
תחום ההיי-טק כבר מזה שני עשורים שהולך ומשגשג ונראה שמדינת ישראל היא מבין המובילות בתחום זה. הייטק...
קרא עוד »
מאי 04, 2021
ניהול מבנים גדולים – ממה צריך להזהר בתחום ניהול מבנה גדול?
כל התחום הזה של ניהול מבנים הוא נושא מורכב מאוד. היות והניהול של מבנים גדולים מחייב שיתוף פעולה של כל...
קרא עוד »
ינו 16, 2022
שייט נהרות , לא רק לעשירים
בשנים האחרונות יותר ויותר אנשים מגלים כי שייט נהרות יכולה להיות חופשה מדהימה לכל הגילים ולסוגים...
קרא עוד »
אוק 13, 2018
תביעה לגמלת סיעוד – 3 טיפים חשובים
אזרחי מדינת ישראל, אשר מגיעים לגיל הפרישה, והם נתמכים בסיוע של אדם אחר בפעולות אותן יש לנקוט מדי יום,...
קרא עוד »
פבר 13, 2020
3 סיבות להיעזר בשירותו של בודק שכר
אם יש לכם עסק או חברה מתפתחת ואתם מעסיקים עובדים, נראה שלא יורחק היום שבו תצטרכו להעסיק בנוסף גם בודק...
קרא עוד »
דצמ 15, 2020
קידום אתרים לעסקים
קידום אתר, הוא משימה קשה עבור עסקים רבים. עם עליית המדיה החברתית וערוצי שיווק דיגיטליים אחרים,...
קרא עוד »
דצמ 03, 2022
הכנת מצגת משקיעים – כיצד עושים את זה בצורה נכונה
כשאנחנו חושבים על מצגות, בדרך כלל הנטייה שלנו היא לדמיין מצגת ליום הולדת, מצגת ליום נישואין או מצגת...
קרא עוד »
אוק 27, 2020
הפיכת משבר להזדמנות לצמיחה וחיבור מחדש דרך ייעוץ זוגי – הסוד שמונע מאיתנו להישאר תקועים
משבר בזוגיות? מי לא? כמעט אין זוג שלא נתקל בשלבים של קושי, אי־הבנה, או אפילו שקט מתוח שמסמן שמשהו לא...
קרא עוד »
דצמ 03, 2025
ביובית ברעננה: כול מה שרציתם לדעת על השירות שלא תכננתם לצרוך!
בואו נדבר רגע על הדברים שלא תמיד חשבנו עליהם בלילה. מה יקרה אם פתאום תתעוררנו בבוקר ונגלה בעיה חמורה...
קרא עוד »
נוב 26, 2024
הדגשים בכתיבת עבודה סמינריונית
בכדי לכתוב עבודה סמינריונית בצורה מוצלחת, צריך לוודא שמצד אחד לא מעתיקים ממקורות מידע בצורה ישירה,...
קרא עוד »
אוק 01, 2018
מחפש מוצרי פרסום יחודיים לעסק שלך? כאן תמצא כל מה שאתה צריך
עסק שלא מפרסם את עצמו הוא עסק אשר עלול להיקלע לבעיות חמורות ביותר. כל עסק צריך לחשוב לעומק כיצד הוא...
קרא עוד »
אוק 18, 2018
מתי יהיה אפשר לבצע יבוא טסלה לישראל?
אחד מכלי הרכב המדוברים ביותר בשנים האחרונות, הוא טסלה של אילון מאסק. מדובר על כלי רכב חשמלי שכבש את...
קרא עוד »
אפר 28, 2020
עורך דין פלילי
עקרון החופש במדינה מוכיח את מחויבותו של אומה זו לחזקת חפות במשפט פלילי. במדינות רבות אחרות, הנאשם...
קרא עוד »
ספט 15, 2020
תהליך החיתום של טריא – כל מה שרציתם לדעת (ולא העזתם לשאול)
כשעושים עסקה פיננסית עם פוטנציאל להצלחות גדולות (או סתם רוצים לישון טוב בלילה), מתהליך החיתום אין...
קרא עוד »
יונ 15, 2025
בחירת חברה לשאיבת הצפות: המפתח לטיפול מקצועי ומניעת נזקים עתידיים
הצפה היא אירוע טראומטי שעלול לגרום לנזקים משמעותיים לרכוש ואף לבריאות. טיפול מהיר ומקצועי הוא קריטי...
קרא עוד »
נוב 07, 2025
קבלת אזרחות ישראלית
ישראל היא מדינה שמקבלת אנשים מכל העולם. זוהי מדינה שקיבלה בזרועות פתוחות פליטים יהודים, ולעיתים גם...
קרא עוד »
דצמ 13, 2022
כיצד לזרז את תהליך העסקת עובדים
אם אתם מחפשים עובדים, אתם בוודאי יודעים כי תהליך מסוג זה דורש זמן רב והקפדה על בחירת העובדים, האו מפרך...
קרא עוד »
אוג 29, 2018