בניית Knowledge Graph: השלב הבא באבולוציה של אחזור מידע ארגוני מאת אילון אוריאל

בעולם שבו הנתונים הם הנפט החדש, היכולת לחבר בין הנקודות היא בית הזיקוק. בשנתיים האחרונות, ארגונים רבים השליכו את יהבם על מערכות RAG (Retrieval-Augmented Generation) מבוססות חיפוש וקטורי (Vector Search). זה עבד מצוין כצעד ראשון, אבל כעת, כשאנחנו מנסים לפתור בעיות מורכבות יותר, אנחנו נתקלים בתקרת זכוכית. התשובה לאתגר הזה היא ה-Knowledge Graph (גרף ידע).

המאמר הזה הוא מדריך מקיף וארכיטקטוני לבניית גרף ידע ארגוני. הוא לא מיועד למי שמחפש פתרונות קסם, אלא למי שרוצה להבין איך להפוך את ערימות המידע (Unstructured Data) לידע מובנה, מקושר ובעל ערך עסקי אמיתי.

השורה התחתונה: למה וקטורים לא מספיקים?

לפני שנצלול ל"איך", חשוב להבין את ה"למה". מערכות RAG קלאסיות עובדות על בסיס דמיון סמנטי (Semantic Similarity). הן לוקחות את שאלת המשתמש, הופכות אותה לווקטור מספרי, ומחפשות "חתיכות" טקסט (Chunks) דומות במסד הנתונים.

זה מצוין לשאלות כמו "מהי מדיניות החזרת המוצרים?". אבל מה קורה כשהשאלה היא: "כיצד השפיע השינוי ברגולציה האירופית מ-2023 על שרשרת האספקה של הספקים המשניים שלנו באסיה?".

כאן החיפוש הווקטורי נכשל. הוא רואה מילים דומות, אבל הוא עיוור לקשרים. הוא לא "יודע" שספק X הוא חברת בת של תאגיד Y, שנמצא תחת רגולציה Z. גרף ידע הוא המפה שמחברת את כל הישויות הללו ומאפשרת למודל השפה (LLM) להבין את התמונה הגדולה, ולא רק לקרוא פסקאות מבודדות.

יסודות הגרף: שפה של צמתים וקשתות

בניגוד לטבלאות ב-SQL או למסמכים ב-NoSQL, גרף ידע מנסה לחקות את האופן שבו המוח האנושי מאחסן מידע: דרך אסוציאציות וקשרים.

המרכיבים הבסיסיים הם:

צמתים (Nodes):

אלו הן הישויות בעולם שלנו. צומת יכול להיות "לקוח", "מוצר", "מסמך חוזי", "עובד" או "מיקום גיאוגרפי". כל צומת מכיל תווית (Label) שמגדירה את סוגו.

קשתות (Edges/Relationships):

זהו הדבק שמחזיק את המערכת. הקשתות מגדירות את אופי הקשר בין הצמתים. לדוגמה: עובד -> מועסק ב -> חברה. או: מוצר -> מכיל רכיב -> חומר גלם. הקשתות הן חד-כיווניות ובעלות משמעות סמנטית.

תכונות (Properties):

מידע נוסף שיושב על הצמתים או על הקשתות. למשל, לצומת "עובד" יהיו תכונות כמו "שם", "תאריך לידה", ו"תפקיד". לקשת "מכרה את" בין חברה למוצר, יכולה להיות תכונה "תאריך המכירה".

הכוח האמיתי מגיע כשאנחנו מיישמים את זה בקנה מידה רחב. פתאום, אפשר לשאול שאילתות שמדלגות בין ישויות שונות לחלוטין (Multi-hop Reasoning) ולגלות תובנות שהיו חבויות בתוך הררי הטקסט.

הגדרת האונטולוגיה (Ontology): המוח מאחורי הגרף

הטעות הכי גדולה שאני רואה בארגונים היא הניסיון "לזרוק" את כל הדאטה לתוך מסד נתונים גרפי (כמו Neo4j) ולצפות לנס. זה לא עובד ככה. השלב הראשון והקריטי ביותר הוא בניית האונטולוגיה.

אונטולוגיה היא ה"סכמה" של העולם שלנו. היא מגדירה אילו סוגי ישויות קיימים ואיזה קשרים מותרים ביניהם.

עקרונות לתכנון אונטולוגיה נכונה:

  • התחילו קטן: אל תנסו למפות את כל הארגון ביום הראשון. בחרו Use Case אחד (למשל: "ניהול סיכוני ספקים") ומפו את הישויות הקשורות אליו בלבד.
  • היררכיה: השתמשו בירושה. "מחשב נייד" הוא סוג של "ציוד מחשוב", שהוא סוג של "נכס". זה מאפשר שאילתות בכל הרמות.
  • סטנדרטיזציה: ודאו שאתם משתמשים בשמות אחידים. אל תקראו לקשר פעם אחת "Has_Bought" ופעם אחרת "Purchased".
  • גמישות: האונטולוגיה צריכה להיות מסוגלת להשתנות. העסק דינמי, וסוגי קשרים חדשים ייווצרו בעתיד.

שיטת העבודה המומלצת על ידי אילון אוריאל לבניית Pipeline

אז איך בונים את הדבר הזה בפועל? בעבר, בניית גרף ידע דרשה צבא של דאטה-אנליסטים ידניים. היום, בזכות ה-LLMs, אנחנו יכולים לבצע אוטומציה של כ-80% מהתהליך.

הנה הארכיטקטורה שאני מיישם ב-NeuralBridge Solutions:

1. עיבוד מקדים (Preprocessing)

לוקחים את המסמכים הגולמיים (PDFs, Emails, Docs) ומנקים אותם. מחלקים אותם ל-Chunks, אבל כאן יש טוויסט: במקום סתם לחתוך לפי מספר מילים, אנחנו מנסים לחתוך לפי הקשר לוגי או פסקאות שלמות.

2. חילוץ ישויות וקשרים (Entity & Relation Extraction)

זהו הלב של התהליך. אנו משתמשים ב-LLM חזק (כמו GPT-4o או Claude 3.5 Sonnet) עם פרומפט מדויק שמקבל את הטקסט ואת האונטולוגיה שהגדרנו.

ההוראה למודל היא: "עבור על הטקסט הבא, זהה את הישויות המוגדרות באונטולוגיה, וחלץ את הקשרים ביניהן בפורמט של שלשות (Triples): נושא-פרדיקט-מושא (Subject-Predicate-Object)".

3. רזולוציית ישויות (Entity Resolution)

זוהי הבעיה הקשה ביותר. הטקסט מכיל את השמות "Elon", "Mr. Uriel" ו-"E. Uriel". האם מדובר באותו אדם?

בשלב זה מפעילים אלגוריתמים של Deduplication. משתמשים גם בהשוואה פשוטה (String Matching) וגם בהשוואה וקטורית (Embedding Similarity) כדי לאחד צמתים כפולים לצומת קנוני אחד.

4. העשרה (Enrichment)

לאחר שיש לנו שלד של גרף, אפשר להעשיר אותו במידע ממקורות מובנים (SQL Databases). למשל, אם זיהינו "לקוח" מתוך אימייל, נשאב את ה-LTV (Life Time Value) שלו ממערכת ה-CRM ונוסיף את זה כתכונה לצומת בגרף.

5. אחסון (Storage)

המידע נשמר במסד נתונים גרפי. המובילים בשוק הם Neo4j, ArangoDB, ו-Amazon Neptune. הבחירה תלויה בתשתית הענן שלכם ובצורך בשפת שאילתות ספציפית (Cypher מול Gremlin).

GraphRAG: השילוב המנצח

הבאזז הגדול היום הוא סביב המונח GraphRAG. הרעיון הוא לשלב את הדיוק של גרף הידע עם הגמישות של המודלים הגנרטיביים.

כאשר משתמש שואל שאלה, המערכת מבצעת תהליך כפול:

חיפוש וקטורי: מוצא את הטקסטים הרלוונטיים ביותר בצורה גסה.

חיפוש גרפי: מזהה את הישויות המרכזיות בשאלה, "נוחת" עליהן בגרף, ומבצע "טיול" (Graph Traversal) לצמתים שכנים כדי לאסוף הקשר עמוק יותר.

למשל, אם השאלה היא על "סיכוני אבטחה בשרתים", החיפוש הווקטורי ימצא מסמכים על אבטחה. החיפוש הגרפי ימצא ש"שרת X" מריץ "תוכנה Y", שיש לה "חולשה Z" שפורסמה אתמול. המודל מקבל את כל המידע המקושר הזה ובונה תשובה הרבה יותר מדויקת ומבוססת עובדות.

יתרון נוסף הוא יכולת ה-Explainability (הסברתיות). כשמודל עונה על בסיס גרף, קל יותר להראות למשתמש את ה"מסלול" שהוביל לתשובה, בניגוד ל"קופסה השחורה" של הווקטורים.

נקודות למחשבה עבור מנהלים טכנולוגיים

תחזוקה היא לא מילה גסה

גרף ידע הוא יצור חי. הוא משתנה כל הזמן. אתם חייבים לבנות מנגנון (Pipeline) שמעדכן את הגרף באופן שוטף. מסמך חדש שנכנס צריך לעבור עיבוד ולעדכן את הגרף אוטומטית. גרף לא מעודכן שווה פחות ממסד נתונים רגיל.

אל תזניחו את הוויזואליזציה

אחד היתרונות הגדולים של גרפים הוא היכולת לראות אותם. השתמשו בכלים כמו Neo4j Bloom כדי לתת לאנליסטים שלכם יכולת לחקור את המידע ויזואלית. לפעמים העין האנושית תזהה דפוס (Pattern) של הונאה או כשל לוגי ששום אלגוריתם לא תפס.

האיזון בין אוטומציה לבקרה ידנית

אמנם אמרתי ש-LLMs יכולים לבנות את הגרף, אבל אסור לסמוך עליהם בעיניים עצומות. בשלבי ההקמה הראשונים, הכניסו שלב של Human in the Loop כדי לוודא שהאונטולוגיה נשמרת ושהמודל לא ממציא קשרים שלא קיימים.

שימושים מתקדמים מעבר לחיפוש מידע

בעוד ש-Search הוא היישום המיידי, הערך האמיתי של Knowledge Graphs מתגלה במקומות אחרים:

  • זיהוי הונאות (Fraud Detection): הונאות פיננסיות מורכבות לרוב בנויות על רשתות של קשרים (Circular Transactions). גרפים יודעים לזהות מעגלים סגורים כאלה במילי-שניות, משהו ש-SQL יתקשה מאוד לעשות.
  • מנועי המלצה (Recommendation Engines): במקום להמליץ רק על בסיס "מי שקנה X קנה Y", גרף מאפשר להמליץ על בסיס קשרים עמוקים יותר ("המוצר הזה מכיל רכיב שאתה אלרגי אליו, הנה תחליף מאותו יצרן").
  • ניתוח השפעה (Impact Analysis): בעולמות ה-DevOps וה-IT, גרף שמתאר את התלות בין שירותים (Microservices) מאפשר להבין מיידית איזה רכיב עסקי ייפגע אם שרת מסוים נופל.

שאלות ותשובות (Q&A)

שאלה: האם גרף ידע מייתר את הצורך ב-Vector Database?

תשובה: חד משמעית לא. הם משלימים זה את זה. וקטורים מצוינים לטיפול בעמימות שפתית (Fuzzy Matching) ובחיפוש על טקסט חופשי (Unstructured). גרפים מצוינים לטיפול בעובדות קשיחות ובלוגיקה מבנית (Structured). הארכיטקטורה הטובה ביותר היא היברידית.

שאלה: כמה זה יקר לבנות ולתחזק?

תשובה: עלות ההקמה הראשונית גבוהה יותר מאשר מערכת RAG פשוטה, בעיקר בגלל הצורך בתכנון אונטולוגיה ועלויות העיבוד של ה-LLM לחילוץ הישויות. עם זאת, התחזוקה הופכת לזולה יותר לאורך זמן כי ה-Context שהמודל מקבל הוא מדויק יותר, מה שמקטין את כמות הטוקנים המבוזבזים ואת הצורך בתיקון טעויות (Hallucinations).

שאלה: באיזה בסיס נתונים גרפי כדאי לבחור?

תשובה: Neo4j הוא הסטנדרט בתעשייה והכי בשל מבחינת פיצ'רים וקהילה. אם אתם כבר עמוק בתוך AWS, אז Neptune הוא בחירה טבעית. אם אתם צריכים גמישות של מסמכים וגרפים יחד, ArangoDB הוא אופציה מעניינת מאוד.

מקרה בוחן: חברת פארמה גלובלית

בואו נסתכל על פרויקט אמיתי (בשינוי פרטים מזהים). חברת תרופות גדולה החזיקה מאגר עצום של מאמרים מחקריים, תוצאות ניסויים קליניים ודוחות רגולטוריים.

המטרה הייתה לזהות התנגשויות בין תרופות חדשות לתרופות קיימות בשלב מוקדם של הפיתוח.

במערכת החיפוש הישנה, החוקרים היו צריכים לחפש מילות מפתח ולעבור ידנית על עשרות מסמכים.

לאחר הטמעת Knowledge Graph, המערכת מיפתה ישויות כמו: "מולקולה", "תופעת לוואי", "גן" (Gene), ו"מחלה".

כאשר חוקר שאל: "האם למולקולה X יש פוטנציאל לגרום לבעיות לב?", המערכת ביצעה שאילתה גרפית ומצאה:

מולקולה X -> משפיעה על -> חלבון Y -> מווסת את -> גן Z -> קשור ל -> אי ספיקת לב.

הקשר הזה היה חבוי על פני שלושה מאמרים שונים שנכתבו בהפרש של עשור. הגרף חיבר את הנקודות והציל לחברה מיליארדים בפיתוח תרופה שהייתה נכשלת בשלב הניסויים.

סיכום והסתכלות קדימה

אנחנו עומדים בפתחו של עידן שבו מערכות AI לא רק "פולטות מילים", אלא באמת "מבינות" את העולם שבו הן פועלות. גרף ידע הוא התשתית הקוגניטיבית של הארגון.

אם אתם בונים היום אסטרטגיית AI, אל תסתפקו בלזרוק מסמכים לתוך Vector Store. השקיעו במחשבה על מבנה הידע שלכם. אילון אוריאל מאמין שהשילוב בין החשיבה המובנית של הגרפים לבין היצירתיות של המודלים הגנרטיביים הוא המפתח למערכות AI אמינות, חכמות ובטוחות יותר.

זהו לא פרויקט של "שגר ושכח", אלא מסע מתמשך של בניית הנכס החשוב ביותר של הארגון שלכם: הידע המוסדי המקושר שלו. תתחילו בקטן, תמפו את הליבה העסקית, ותנו לרשת לצמוח. ההחזר על ההשקעה יגיע מהר יותר ממה שנדמה לכם.

טכנולוגיה עולם המשפט פיננסים
המשך לעוד מאמרים שיוכלו לעזור...
מבחן דרכים: אלה הרכבים המומלצים ביותר לשנת 2020
מדי שנה עולים על הכבישים בישראל למעל מ-150 אלף כלי רכב חדשים. מדובר על רכשים מהשנתון האחרון, חלקם הם...
קרא עוד »
אפר 19, 2020
הדרכת נוער – להשפיע על העתיד של הילדים
אם אתם מחפשים את הדרך להשפיע על העתיד של הילדים שלכם חשוב שתכירו סדנאות וגם הרצאות נוער כמו גם הדרכות...
קרא עוד »
ינו 22, 2022
האם כל רצפה יכולה לעבור פוליש?
אנשים רבים מעוניינים לעשות פוליש בביתם לאחר שיפוצים בבית או כאשר נכנסים לדירה חדשה. פוליש הוא למעשה...
קרא עוד »
אוק 24, 2021
דברים חשובים שכדאי לדעת על עורכי דין לפשיטת רגל והוצאה לפועל
לפני שאתה שוקל פשיטת רגל, חשוב להבין את הערך והתפקידים של עורך דין פשיטת רגל והוצאה לפועל. אנשי מקצוע...
קרא עוד »
מאי 12, 2024
סוגי תאורה לבית: מדריך להתאמה והעדפות
כשזה מגיע להארת הבית שלך, הבחירות באתר https://lagatbaor.co.il יכולות להיות מכריעות. עם זאת, הבנת סוגי התאורה...
קרא עוד »
דצמ 12, 2023
4 דגשים קריטיים בניהול תיק השקעות
מעדיפים תיק מנוהל או שרוצים לקבל את ההחלטות בעצמכם? בין אם אתם רוצים מישהו שינהל את תיק ההשקעות שלכם...
קרא עוד »
ינו 02, 2022
בנייה חכמה, תוצאה מושלמת: המדריך המלא לתהליך בנייה יעיל ומהנה
מי אמר שבנייה חייבת להיות סיוט? עם כל הכבוד למיתוסים, היום אפשר לבנות בצורה חכמה, לדעת מתי ללחוץ, מתי...
קרא עוד »
אוג 25, 2025
דרושים לעבודה משרדית – למה לצפות
אם אתם מחפשים עבודה, הרי שכיום תוכלו למצוא מגוון רחב של משרות בתחומים שונים באתרי דרושים, במודעות...
קרא עוד »
אוג 07, 2019
הבנת דוחות כספיים: כלי עוצמתי לקבלת החלטות עסקיות מושכלות
אם אתם חושבים שדוחות כספיים הם סתם ערימות של מספרים שנכתבו בשפה סגורה, הגיע הזמן לשנות את התפיסה שלכם....
קרא עוד »
מאי 20, 2025
השקעות נדל״ן – תהפכו להיות משקיעים חכמים
לא יודעים איפה להשקיע את הכסף שלכם בנדל״ן? יש כל כך הרבה יעדים להשקעה עד כדי כך שאתם חשים בלבול? נתחיל...
קרא עוד »
מאי 22, 2022
רופא נשים או רופאת נשים – הבחירה האמיתית של נוחות והאמפתיה
בין תחום הרפואה המגוון, רפואת נשים תופסת מקום ייחודי במיוחד, לא רק בשל המורכבות המיוחדת של מערכת...
קרא עוד »
דצמ 30, 2024
תפקידו של רואה חשבון יניב ארד
אם אתה זקוק לשירותים הקשורים לבנקאות, עליך לעבור על החשבונות והמסמכים הקשורים אליהם. עם זאת, לא כל...
קרא עוד »
ספט 23, 2022
שאלות שישאלו אתכם בכל ראיון עבודה בהייטק
תחום ההיי-טק כבר מזה שני עשורים שהולך ומשגשג ונראה שמדינת ישראל היא מבין המובילות בתחום זה. הייטק...
קרא עוד »
מאי 04, 2021
רבקה סגל – מה ניתן ללמוד ממנה?
לאורך חייה הצליחה רבקה סגל להשיג לא מעט דברים והיא עשתה זאת בצורה מאוד עקבית ותוך כדי שהיא תורמת המון...
קרא עוד »
ספט 27, 2021
ביטוח דירה
Hommie מסכימים שכאשר מדובר על הדירה שלכם, מדובר על הדבר החשוב ביותר עבורכם. הבית הפרטי שלכם משמש אתכם...
קרא עוד »
ספט 24, 2019
נקודות משמעותיות בחייו של אורי לופוליאנסקי
אחד מאנשי הציבור הישראלים עם הביוגרפיה המעניינת ביותר, ללא ספק הוא אורי לופוליאנסקי. על פניו,...
קרא עוד »
אוג 13, 2018
משכנתא מסחרית על קצה המזלג
משכנתאות מסחריות הן הלוואות המשמשות לרכישת נכס מסחרי. משכנתא מסחרית היא סוג של הלוואה המשמשת לרכישת...
קרא עוד »
ינו 04, 2023
עצמאות ובטיחות בחדר הרחצה: 7 פתרונות גאוניים שיהפכו את החוויה לבלתי נשכחת
כל אחד רוצה להרגיש בבית הכי בטוח ונוח, נכון? ובחדר הרחצה – המקום הכי פרטי וכל כך חשוב – הבטיחות...
קרא עוד »
ספט 16, 2025
שדרגו את התקשורת והקשרים שלכם: איך אימון אישי לחיים משדרג מערכות יחסים כמו שדמיינתם?
תקשורת ומ מערכות יחסים – נושא שמעסיק כל אחד מאיתנו במידה כזאת או אחרת. אבל בואו נודה על האמת – כמה...
קרא עוד »
ינו 12, 2026
חשוב להכיר: למה גיוון מקורות האשראי העסקי יכול להפוך אותך למלך הכסף?
אם חשבת שאשראי עסקי זה עניין פשוט – תשכח מזה! עידן העסקים המודרניים מחייב שיטות מתוחכמות וחדשניות,...
קרא עוד »
ינו 04, 2026
ליווי משפטי ומקצועי צמוד לדיירים בפרויקטים של התחדשות עירונית – למה זה כל כך קריטי?
אם אתם חושבים על התחדשות עירונית, כנראה שאתם עומדים בפני הפרויקט הכי משמעותי בחייכם בתחום הנדל"ן....
קרא עוד »
דצמ 27, 2025