RDF and the Semantic Web

Saturday, December 1, 2007 19:00
Posted in category Development, Web3.0

RDF הינם ראשי התיבות של Resource Description Framework, והינו מודל לבניית אוצר מילים (vocabulary). מיוצג ב-XML בגישת הרשת הסמנטית (Semantic Web) והוא מתוקנן על ידי הארגון W3C.

הרשת הסמנטית ידועה גם כשם Web 3.0 – הדור הבא (נכון להיום) של האינטרנט בו המידע באינטרנט מעבר להיותו מאורגן ומסודר לפי בשורת ה- Web2.0. הוא גם מידע שמכיל מידע מתאר (Meta Data) ומאפשר להקרא גם על ידי מכונות.

זהו תחום מאוד מעניין לדעתי, אני מפרסם בפוסט הזה הסבר קצר שגם פירסמתי ב- Wikit – האנציקלופדיה העברית הטכנולוגית הראשונה:

תאור הבעיה והמוטיבציה מאחורי RDF

היקף המידע האדיר באינטרנט הביא לבעיית חיפוש ולקושי בקבלת המידע הרלוונטי. חיפוש המידע היום ברשת מצומצם לחיפוש המתבסס על מונחים בלבד משמע המענה לשאלה: “האם המונח המסויים נמצא בדפים האלו”. מערכות החיפוש (מנועי חיפוש וכו’) לא מתייחסות לתוכן עצמו אלא לטקסט החיפוש כאוסף של תווים. למעשה היינו רוצים מערכת אשר תאפשר לנו חיפוש חכם יותר שיאפשר קבלת מידע מתאים יותר למטרת החיפוש. החזון אם כך, הוא שהמידע יהיה סמנטי כך שניתן יהיה להשתמש בו לצורכי אוטומציה ולא רק לתצוגה.
סמנטיקה = המשמעות של המידע.
לדוגמא : סריקת הטקסט “הביטלס הם להקה מליברפול” על ידי מערכת האינדוקס תגרום לא רק לאגירת המילים במסד הנתונים אלא לקשר של ממש בין שלושתם.
המעבר מרשת של קישורים חסרי משמעות לרשת של קישורים משמעותיים בין פיסות מידע הינו הכרחי על מנת לתת תוצאות טובות יותר.


הדרישות למימוש

על מנת שנוכל לבצע שאילתות מהסוג המתואר נזדקק לשפה בינלאומית לתשאול וכן להגדרת Meta Data ,מידע על המידע, שיאפשרו את חוכמת החיפוש. בנוסף נידרש להגדיר חוקים כלליים מספיק וחופשיים כך שכולם יוכלו להשתמש בהם.


אונטולוגיה

אונטולוגיה הינה מודל מידע המאפשרת הגדרת נתונים, שיוכם לקבוצות(מחלקות) ויצירת קשרים בניהם.
מודל המידע מייצג סט של הגדרות ומושגים מכל תחום שהוא והממויין בצורת מחלקות בדומה למחלקות בשפת תכנות מונחית עצמים. בנוסף, מאפשר המודל קישור בין מחלקות אלו ובין תתי המחלקות שלהם. לדוגמא הטקסט “ג’ון לנון הינו חבר בלהקת הביטלס” מכיל אובייקט/מחלקה ג’ון לנון ששייך לקבוצה אמן שהינה תת מחלקה של אנשים, מחלקה זו תכיל קישור למחלקה “להקת הביטלס” על אף שאינה יורשת מאותן המחלקות מהן יורש האובייקט “ג’ון לנון” מאפשר המודל להכניס קשרים המאפשרות חיבורים בין פיסות מידע אלו.
המטרה היא “להסביר” למחשב טקסטים שלנו כבני אדם ברורים כמעט מיידית באמצעות אובייקטים, מחלקות תתי מחלקות וההקשרים בניהם, ברגע שהמידע עצמו יהיה ערכי למערכות מחשב, נוכל לקבל תוצאות מדוייקות וטובות יותר לשאילתות חיפוש ואף לשכלל את השאילתא הניתנת למחשב.
כיוון שמודל זה בנוי בצורה הירארכית מונחה עצמים, אינטואיטיבי להגדיר אותו באמצעות XML המאפשר לתת מידע על המידע ולשייך אותו למחלקות.

פרוטוקול RDF יאפשר לנו לתת משמעות לדברים. על מנת לאמת את נכונות המידע ולמנוע מאנשים להגדיר מחלקות והקשרים שגויים בין בשוגג ובין במזיד – נטמיע בדרישות הפרוטוקול את השימוש בחתימה דיגטלית.


יצירת ה- RDF

תחילה נייצר גרף מכוון של הקשרים. קשרים אלו יחברו בין נושא מסויים לאובייקט באמצעות תכונה משותפת אותה ניתן לחבר ללינק באינטרנט. לדוגמא מוזיקת רוק ניתנת לקישור לאובייקט מסויים כמו כוכב רוק כלשהו באמצעות התכונה מוזיקה או רוק אותה ניתן לחבר לאתרי אינטרנט מתאימים.


הגדרות

  • נשתמש ב- RDF scheme על מנת להגדיר את המונחים והמחלקות שנשתמש בהם.
    כלי topic maps – כלים לארגון המידע בצורה שתאפשר ניווט אופטימלי בתוכו.
    sparql הינה השפה ליצירת שאילתות על המידע במבנה RDF. דוגמא לשאילתא הניתנת לייצוג בשפת sparql:
    “.find me the title t of any resource x that has the same creator and tell me who they work for”
    ארגון W3C יצר ספסיפיקציות המגדירות את שפת sparql.

קובי מגנזי, Kobi Magnezi.

You can leave a response, or trackback from your own site.

Leave a Reply

Your email address will not be published. Required fields are marked *

*

* Copy this password:

* Type or paste password here:

863 Spam Comments Blocked so far by Spam Free Wordpress