Πολυτεχνική Σχολή Πανεπιστηµίου Πατρών Τµήµα Μηχανικών Η/Υ και Πληροφορικής. Μεταπτυχιακό ίπλωµα Ειδίκευσης στην «Επιστήµη και Τεχνολογία Υπολογιστών»

Σχετικά έγγραφα
Εργαστήριο Σημασιολογικού Ιστού

ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ

Εργαστήριο Σημασιολογικού Ιστού

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Σχεδίαση και Ανάπτυξη Ιστότοπων

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0. Εφαρμογές Πληροφορικής Κεφ. 9 Καραμαούνας Πολύκαρπος 1

Aναπαράσταση Γνώσης στο Σημασιολογικό Ιστό

Εργαστήριο Σημασιολογικού Ιστού

Εισαγωγή στο RDF. Το Resource Description Framework (RDF) Σταύρος Πολυβίου

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Σχεδιασµός Ανάπτυξη Οντολογίας

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό

της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004

Ιόνιο Πανεπιστήμιο - Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας

ΑΝΑΠΤΥΞΗ ΥΠΟΔΟΜΩΝ ΑΝΟΙΚΤΗΣ ΠΡΟΣΒΑΣΗΣ ΙΔΡΥΜΑΤΙΚΟ ΑΠΟΘΕΤΗΡΙΟ «ΟΛΥΜΠΙΑΣ» Διαλειτουργικότητα Ιδρυματικών Αποθετηρίων

ΕΠΛ 012 Εισαγωγή στο Παγκόσμιο Πλέγμα Πληροφοριών

Σε παγκόσμιο επίπεδο, οιμηχανέςαναζήτησηςτουinternet αναπτύχθηκαν για να κάνουν αναζήτηση πληροφοριών σε πολλαπλές τοποθεσίες ιστού.

Βασίλειος Κοντογιάννης ΠΕ19

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΓΙΑ ΤΟ ΔΙΑΔΙΚΤΥΟ

Κεφάλαιο 10 ο Υποπρογράµµατα

Βάσεις Δεδομένων ΙΙ. Διάλεξη 5 η XML και ΒΔ στο Διαδίκτυο

Εννοιολογική Ομοιογένεια

Μεταπτυχιακή Διατριβή

Γλώσσες Σήµανσης (Markup Languages) Τεχνολογία ιαδικτύου και Ηλεκτρονικό Εµπόριο

Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014

Πολιτισμική Τεχνολογία. Πολυμέσα & Διαδίκτυο Παράμετροι Δικαίου Μέρος Α

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Εργαλεία ανάπτυξης εφαρμογών internet Ι

Νέες τεχνολογίες εισάγονται ή χρησιµοποιούνται

Κεφάλαιο 11: Εισαγωγή στην HTML. Εφαρμογές Πληροφορικής Κεφ. 11 Καραμαούνας Πολύκαρπος

Εισαγωγή στις ΤΠΕ ΙΙ Γιάννης Βρέλλης ΠΤΔΕ-Πανεπιστήμιο Ιωαννίνων. World Wide Web. Παγκόσμιος Ιστός

Ημερομηνία Παράδοσης: 4/4/2013

ΑΣΦΑΛΕΙΑ ΔΕΔΟΜΕΝΩΝ ΣΤΗΝ ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Μηχανισμοί Ελέγχου Προσπέλασης)

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού

Αναφορά εργασιών για το τρίμηνο Δεκέμβριος 2012 Φεβρουάριος 2013 Όνομα : Μπελούλη Αγάθη

Κεφάλαιο 6 ο Εισαγωγή στον Προγραμματισμό 1

Γλώσσες υψηλού επιπέδου Περιέχουν περισσότερες εντολές για την εκτέλεση πολύπλοκων εργασιών Τα προγράµµατα µεταφράζονται σε γλώσσα µηχανής είτε από το

ΥΠΗΡΕΣΙΑ «TAXISNET» - ΗΛΕΚΤΡΟΝΙΚΗ ΥΠΟΒΟΛΗ ΤΩΝ ΦΟΡΟΛΟΓΙΚΩΝ ΔΗΛΩΣΕΩΝ ΓΙΑ ΤΟ ΤΜΗΜΑ ΕΣΩΤΕΡΙΚΩΝ ΠΡΟΣΟΔΩΝ ΚΑΙ ΤΗΝ ΥΠΗΡΕΣΙΑ ΦΟΡΟΥ ΠΡΟΣΤΙΘΕΜΕΝΗΣ ΑΞΙΑΣ ΤΟΥ

Μεταδεδομένα στο Ψηφιακό περιβάλλον

Επιµέλεια Θοδωρής Πιερράτος

ΚΑΙΝΟΤΟΜΕΣ ΛΥΣΕΙΣ ΕΚΠΑΙΔΕΥΣΗΣ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗΣ ΟΔΗΓΟΣ E-LEARNING

Εργαστήριο Σημασιολογικού Ιστού

Πρωτόκολλα Επικοινωνίας και Τείχος Προστασίας

Διαχείριση Πολιτισμικών Δεδομένων

Γεώργιος Φίλιππας 23/8/2015

Αλγόριθμος. Αλγόριθμο ονομάζουμε τη σαφή και ακριβή περιγραφή μιας σειράς ξεχωριστών οδηγιών βημάτων με σκοπό την επίλυση ενός προβλήματος.

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΚΑΙ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ Γ.Τ.Π

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό,

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Διαλειτουργικότητα μεταξύ αρχείων (1/2)

Διαδίκτυο είναι ένα σύστημα διασυνδεδεμένων δικτύων και υπολογιστών που απλώνεται σε όλο τον κόσμο και έχουν πρόσβαση σε αυτό εκατομμύρια χρήστες.

GoDigital.CMS Content Management System. Πλήρης διαχείριση περιεχομένου ιστοσελίδας

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού

Ενσωματωμένα controls τα οποία προσαρμόζονται και χρησιμοποιούνται σε οποιαδήποτε ιστοσελίδα επιλέγει ο φορέας.

01 SOLUTIONS HELLAS Ε.Π.Ε. Χελμού 20, Μαρούσι Αττικής Τηλ FAX Ηλεκτρονικό Πρωτόκολλο & Διακίνηση Εγγράφων

Διαγραφή Επιλέγετε Διαγραφή για να διαγράψετε μία ήδη υπάρχουσα διαδικασία εισαγωγής ASCII

ΠΛΑΤΦΟΡΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΒΙΝΤΕΟΔΙΑΛΕΞΕΩΝ ΔΗΛΟΣ delos.uoa.gr. Εγχειρίδιο Χρήσης Μελών ΔΕΠ

Κεφ. 1: Εισαγωγή στην έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος

7.11 Πρωτόκολλα εφαρµογής

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15

Τα κύρια χαρακτηριστικά που καθιστούν τον δικτυακό κόµβο «καλή πρακτική», σε σχέση µε τις επιλεγµένες περιοχές είναι:

Ο ΗΓΙΕΣ ΣΥΜΠΛΗΡΩΣΗΣ ΤΗΣ ΦΟΡΜΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΥΠΟΒΟΛΗΣ

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

Διαχείριση Βάσης Δεδομένων (dbadmin)

...στις µέρες µας, όσο ποτέ άλλοτε, οι χώρες καταναλώνουν χρόνο και χρήµα στη µέτρηση της απόδοσης του δηµόσιου τοµέα...(oecd)

ΥΠΗΡΕΣΙΑ. Ηλεκτρονική ιαχείριση Τάξης. Οδηγίες χρήσης για τον µαθητή.

Υπάρχουν δύο τύποι μνήμης, η μνήμη τυχαίας προσπέλασης (Random Access Memory RAM) και η μνήμη ανάγνωσης-μόνο (Read-Only Memory ROM).

ίκτυα - Internet Υπηρεσίες Internet O Παγκόσµιος Ιστός (World Wide Web) Ηλεκτρονική Αλληλογραφία ( ) Υπηρεσία FTP (File Transfer Protocol)

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ. Στην αναγκαιότητα ύπαρξης των μεταγλωττιστών

Βάσεις εδοµένων. Βασίλειος Βεσκούκης, Εµµ. Στεφανάκης ΜΟΝΤΕΛΟΠΟΙΗΣΗ Ε ΟΜΕΝΩΝ, ΚΛΑΣΙΚΑ ΜΟΝΤΕΛΑ Ε ΟΜΕΝΩΝ


ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Προγραμματισμός Υπολογιστών

Αναφορά εργασιών για το τρίμηνο Σεπτέμβριος Νοέμβριος 2012

3 βήματα για την ένταξη των ΤΠΕ: 1. Εμπλουτισμός 2. Δραστηριότητα 3. Σενάριο Πέτρος Κλιάπης-Όλγα Κασσώτη Επιμόρφωση εκπαιδευτικών

Προγραμματισμός ΙI (Θ)

Linked Data for the Masses: Η προσέγγιση και το λογισμικό

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Ολοκληρωµένο Σύστηµα ιαχείρισης Ασφαλισµένου

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access...9. Κεφάλαιο 2 Χειρισμός πινάκων... 25

Επιλογή και επανάληψη. Λογική έκφραση ή συνθήκη

Προγράμματα για τη δημιουργία και διαχείριση θησαυρού

Τι διαφορά έχει μια ιστοσελίδα του Διαδραστικού Ιστού web 2.0 από εκείνη του Στατικού Ιστού web 1.0;

Έκδοσης 2005 Π. Κεντερλής

Transcript:

Πολυτεχνική Σχολή Πανεπιστηµίου Πατρών Τµήµα Μηχανικών Η/Υ και Πληροφορικής Μεταπτυχιακό ίπλωµα Ειδίκευσης στην «Επιστήµη και Τεχνολογία Υπολογιστών» ιπλωµατική Εργασία Σχεδιασµός και υλοποίηση δηµοσιογραφικού RDF portal µε µηχανή αναζήτησης άρθρων Χάιδος Γεώργιος Α.Μ. : 792 Επιβλέπων: Καθηγητής κ. Τσακαλίδης Αθανάσιος Πάτρα Φεβρουάριος 2013 i

Ευχαριστίες Θα ήθελα να ευχαριστήσω θερµά τον καθηγητή µου κύριο Αθανάσιο Τσακαλίδη για την ιδιαίτερη τιµή που µου έκανε µε την ανάθεση της παρούσας διπλωµατικής εργασίας και για τη συνεχή καθοδήγηση του. Θα ήθελα επίσης να ευχαριστήσω τον κύριο ηµήτριο Τσώλη για τη συνεχή υποστήριξη και βοήθεια του καθ όλη τη διάρκεια διεκπεραίωσης της εργασίας αυτής. Τέλος θα ήθελα να ευχαριστήσω ιδιαίτερα τη σύζυγο µου Γεωργία Φελέσκουρα και τα παιδιά µου Βασιλική και Παναγιώτη για την αµέριστη συµπαράσταση και τις ώρες που απαιτήθηκε να µην είµαι παρών. ii

Περιεχόµενα Περιεχόµενα... iii Περιεχόµενα Εικόνων ιαγραµµάτων...v Περίληψη...1 Εισαγωγή...1 2. Πρόβληµα προς επίλυση...3 2.1 Ο παγκόσµιος ιστός σήµερα...3 2.2 Η ενηµέρωση σήµερα...4 3. Υπόβαθρο...4 3.1 Σηµασιολογικός ιστός...4 3.1.2 Η επιλογή της γλώσσας...6 3.1.2 Η τεχνολογία του σηµασιολογικού ιστού σε επίπεδα...8 3.2 Η χρήση των URI...9 3.2.1 Η σύσταση και η παραποµπή ενός URI...10 3.3 RDF...11 3.3.1 Βασική δοµή RDF...12 3.3.2 Σύνθετες δοµές RDF...17 3.3.3 Typed Literals...20 3.3.4 RDF µε έκφραση XML (RDF/XML)...22 3.3.5 Οργάνωση παραποµπών URI...27 3.3.6 RDF containers...29 3.4 Καθορίζοντας λεξιλόγια RDF - το RDF Schema...33 3.5 To XML Schema...41 3.6 Λεξιλόγια Dublin Core και Prism...45 3.7 Web portal...51 3.8 Κριτήρια επιτυχίας web portals...52 3.9 HTML5...55 3.9.1 Στοιχείο video...55 3.9.2 Στοιχεία article-header...56 3.10 Inverted files- text indexing...57 3.11 Stemming...61 3.12 Stopwords...62 3.13 Αυτόµατη εξαγωγή keywords...63 4. Εκτέλεση...63 4.1 Προδιαγραφή...64 4.2 ιαγράµµατα δραστηριοτήτων...66 iii

4.3 Επιλογή τεχνολογιών υλοποίησης...70 4.3.1 Το πλαίσιο.net...70 4.3.2 Το Visual Studio...72 4.3.3 Η γλώσσα C#...74 4.3.4 H γλώσσα C++...75 4.4 Υλοποίηση...76 4.4.1 Το RDF/XML που δηµιουργείται...76 4.4.2 HTML5 video-article-header...79 4.4.3 Ευρετήριο portal...80 4.4.4 Stemming στο portal...81 4.4.5 Προσαρµοσµένη λίστα Ελληνικών stopwords...81 4.4.6 Καθορισµός keywords στο portal...83 4.4.7 Η µηχανή αναζήτησης...86 4.4.8 Η χρήση θησαυρού...86 4.4.9 Συλλογή άρθρων (article aggregation)...87 4.4.10 Ασφάλεια...88 5. Αποτελέσµατα...90 6. Μελλοντικές βελτιώσεις...101 6.1 Ενσωµάτωση επιπλέον εξωτερικών πηγών...101 6.2 Εισαγωγή πληρέστερου θησαυρού συνωνύµων λέξεων...101 6.3 Εισαγωγή υπηρεσιών εξατοµίκευσης...101 6.4 Ειδήσεις του παρελθόντος...102 6.5 Ενίσχυση της ασφάλειας...102 7. Κατακλείδα...102 Βιβλιογραφία...103 iv

Περιεχόµενα Εικόνων ιαγραµµάτων Εικόνα 1 Παράδειγµα HTML...6 Εικόνα 2 Παράδειγµα XML...7 Εικόνα 3 Σηµασιολογικός ιστός σε επίπεδα...8 Εικόνα 4 URI...9 Εικόνα 5 Γράφος RDF...11 Εικόνα 6 Mια απλή δήλωση RDF...13 Εικόνα 7 RDF µε URI ή plain literals...14 Εικόνα 8 Γράφος RDF µε κενό κόµβο...18 Εικόνα 9 Γράφος RDF µε εσφαλµένου τύπου typed literal...21 Εικόνα 10 Απλός γράφος RDF για µετατροπή σε RDF/XML...22 Εικόνα 11 Πιο σύνθετο RDF για µετατροπή σε RDF/XML...24 Εικόνα 12 RDF µε κενούς κόµβους...25 Εικόνα 13 Γράφος RDF bag...30 Εικόνα 14 RDF δηλώσεις ιεραρχίας...35 Εικόνα 15 XML datatypes...42 Εικόνα 16 ιάγραµµα δραστηριοτήτων υποβολής άρθρου...67 Εικόνα 17 ιάγραµµα δραστηριοτήτων µηχανής αναζήτησης...68 Εικόνα 18 ιάγραµµα δραστηριοτήτων ενσωµάτωσης άρθρων...69 Εικόνα 19.NET...70 Εικόνα 20 CLR της.νετ...71 Εικόνα 21 Visual Studio IDE...73 Εικόνα 22 Καθορισµός RDF λεξιλογίου του portal...76 Εικόνα 23 RDF για τον αρθρογράφο...77 Εικόνα 24 RDF για το άρθρο...78 Εικόνα 25 Μείωση πλήθους όρων µε το stemming...82 Εικόνα 26 Πρωτοσέλιδο στο portal...90 Εικόνα 27 Ενότητα οικονοµίας στο portal...91 Εικόνα 28 Φόρµα εισαγωγής διαπιστευτηρίων...92 Εικόνα 29 Φόρµα εγγραφής δηµοσιογράφου...92 Εικόνα 30 Υποβολή άρθρου...93 Εικόνα 31 H HTML που δηµιουργείται...94 Εικόνα 32 Redirection...94 Εικόνα 33 Εµφάνιση µεµονωµένου άρθρου...95 Εικόνα 34 RDF σε εσωτερικό άρθρο...96 Εικόνα 35 Εµφάνιση µεµονωµένου εξωτερικού άρθρου...97 v

Εικόνα 36 RDF σε εξωτερικό άρθρο...98 Εικόνα 37 Σύνθετη αναζήτηση...99 Εικόνα 38 Αποτελέσµατα αναζήτησης µε όρους...100 vi

Περίληψη Η ταχεία και ευπρόσιτη πρόσβαση σε εµπεριστατωµένη και πλήρη ενηµέρωση αποτελεί µια από τις πιο σηµαντικές ανάγκες της εποχής µας. Η παρούσα εργασία παρουσιάζει την υλοποίηση µιας εφαρµογής στον τοµέα της πληροφόρησης που ενσωµατώνει πλήθος τεχνολογιών. Με την εφαρµογή που παρουσιάζεται, παρέχεται η δυνατότητα αυτοµατοποιηµένης επεξεργασίας και δηµοσίευσης κειµένων από αρθρογράφους και ταυτόχρονα η συλλογή, επεξεργασία και παρουσίαση άρθρων εξωτερικών αξιόπιστων πηγών. Τα άρθρα ανεξάρτητα από την προέλευση τους παρουσιάζονται στο χρήστη οµογενοποιηµένα και σε ξεχωριστές θεµατικές ενότητες. Για τη διευκόλυνση του χρήστη στην αναζήτηση της επιδιωκόµενης πληροφόρησης, έχει υλοποιηθεί µια µηχανή αναζήτησης που προσφέρει δυνατότητες έρευνας µε όρους αλλά και φιλτράρισµα των επιστρεφόµενων αρχείων µε επιπλέον επιλογές. Για τη διευκόλυνση της µετάβασης στο µελλοντικό σηµασιολογικό ιστό όπου εφαρµογές θα έχουν τη δυνατότητα να αντιλαµβάνονται το περιεχόµενο του ιστού και να µας προσφέρουν πιο σύνθετες υπηρεσίες, η εφαρµογή εξάγει µεταδεδοµένα µε τη µορφή RDF/XML για κάθε άρθρο. Εισαγωγή Το Resource Description Framework (RDF) αποτελεί ένα πλαίσιο περιγραφής πόρων ως µεταδεδοµένα για το σηµασιολογικό ιστό. Ο σκοπός του σηµασιολογικού ιστού είναι η εξέλιξη και επέκταση του υπάρχοντος παγκόσµιου ιστού, έτσι ώστε οι χρήστες του να µπορούν ευκολότερα να αντλούν συνδυασµένη την παρεχόµενη πληροφορία. Ο σηµερινός ιστός είναι προσανατολισµένος στον άνθρωπο. Για τη διευκόλυνση σύνθετων αναζητήσεων και σύνθεσης επιµέρους πληροφοριών, ο ιστός αλλάζει προσανατολισµό, έτσι ώστε να µπορεί να ερµηνεύεται από µηχανές και να απαλλάσσει το χρήστη από τον επιπλέον φόρτο. Η πιο φιλόδοξη µορφή ενσωµάτωσης κατάλληλων µεταδεδοµένων στον παγκόσµιο ιστό είναι µε την περιγραφή των δεδοµένων µε RDF triples αποθηκευµένων ως XML. Το πλαίσιο RDF περιγράφει πόρους, ορισµένους µε Uniform Resource Identifiers (URI s) ή literals µε τη µορφή υποκείµενου-κατηγορήµατος-αντικειµένου. Για την ορθή περιγραφή των πόρων ενθαρρύνεται από το W3C η χρήση υπαρχόντων λεξιλογίων και σχηµάτων, που περιγράφουν κλάσεις και ιδιότητες. Στην παρούσα εργασία γίνεται υλοποίηση ενός δηµοσιογραφικού RDF portal. Για τη δηµιουργία RDF/XML, έχουν χρησιµοποιηθεί τα λεξιλόγια και σχήµατα που συνιστούνται από το W3C καθώς και των DCMI και PRISM. Επίσης χρησιµοποιείται για την περιγραφή typed literals to XML σχήµα του W3C και ένα σχήµα του portal. Η δηµιουργία των µεταδεδοµένων γίνεται αυτόµατα από το portal µε τη χρήση των 1

στοιχείων που συµπληρώνονται στις φόρµες δηµοσίευσης άρθρων και δηµιουργίας λογαριασµών. Για τον περιορισµό του χώρου αποθήκευσης τα µεταδεδοµένα δεν αποθηκεύονται αλλά δηµιουργούνται όταν ζητηθούν. Στην υλοποίηση έχει δοθεί έµφαση στην ασφάλεια κατά τη δηµιουργία λογαριασµών χρήστη µε captcha και κωδικό ενεργοποίησης µε hashing. Για τη διευκόλυνση του έργου του αρθρογράφου, έχει εισαχθεί και επεκταθεί ο TinyMCE Rich Text Editor, o οποίος επιτρέπει τη µορφοποίηση του κειµένου αλλά και την εισαγωγή εικόνων και media. Ο editor παράγει αυτόµατα HTML κώδικα από το εµπλουτισµένο κείµενο. Οι δυνατότητες του editor επεκτάθηκαν κυρίως µε τη δυνατότητα για upload εικόνων και media και µε την αλλαγή κωδικοποίησης για συµβατότητα µε τα πρότυπα της HTML5. Για επιπλέον συµβατότητα µε την HTML5 εισάγονται από το portal στα άρθρα ετικέτες σηµασιολογικής δοµής. Εκτός από τα άρθρα που δηµιουργούνται µε τη χρήση του Editor, δηµοσιοποιούνται και άρθρα από εξωτερικές πηγές. Στη διαδικασία που είναι αυτόµατη και επαναλαµβανόµενη, γίνεται επεξεργασία και αποθήκευση µέρους των δεδοµένων των εξωτερικών άρθρων. Στον αναγνώστη του portal παρουσιάζεται ένα πρωτοσέλιδο και σελίδες ανά κατηγορία µε τα πρόσφατα άρθρα. Στο portal υπάρχει ενσωµατωµένη µηχανή αναζήτησης των άρθρων, µε πεδία για φιλτράρισµα χρονικά, κατηγορίας, αρθρογράφου-πηγής αλλά και λέξεων κλειδιών. Οι λέξεις αυτές προκύπτουν από την περιγραφή του άρθρου στη φόρµα δηµιουργίας ή αυτόµατα. Όταν τα άρθρα προέρχονται από εξωτερικές πηγές, η διαδικασία είναι υποχρεωτικά αυτόµατη. Για την αυτόµατη ανεύρεση των λέξεων κλειδιών από ένα άρθρο χρησιµοποιείται η συχνότητα της λέξης στο άρθρο, µε τη βαρύτητα που δίνεται από την HTML για τη λέξη (τίτλος, έντονη γραφή), κανονικοποιηµένη για το µέγεθος του άρθρου και η συχνότητα της ίδιου όρου σε ένα σύνολο άρθρων που ανανεώνεται. Για την ανάκτηση των άρθρων χρησιµοποιείται η τεχνική των inverted files για όλες τις λέξεις κλειδιά. Για τη µείωση του όγκου των δεδοµένων και την επιτάχυνση απάντησης ερωτηµάτων, αφαιρούνται από την περιγραφή λέξεις που παρουσιάζουν µεγάλη συχνότητα και µικρή αξία αναζήτησης stopwords. Η επιλογή µιας αντιπροσωπευτικής λίστας µε stopwords πραγµατοποιήθηκε µε τη χρήση ενός σώµατος κειµένων από άρθρα εφηµερίδων, τη µέτρηση της συχνότητας των λέξεων και τη σύγκριση τους µε τη λίστα stop words της Google. Επίσης για τον περιορισµό του όγκου των δεδοµένων αλλά και την ορθότερη απάντηση των ερωτηµάτων, το portal κάνει stemming στις λέξεις κλειδιά, παράγοντας όρους που µοιάζουν µε τα λήµµατα των λέξεων. Για to stemming έγινε χρήση της διατριβής του Γεώργιου Νταή του Πανεπιστηµίου της Στοκχόλµης που βασίζεται στη Γραµµατική της Νεοελληνικής Γραµµατικής του Μανώλη Τριανταφυλλίδη. Η επιστροφή των άρθρων στα ερωτήµατα που περιλαµβάνουν λέξεις κλειδιά γίνεται µε κατάταξη εγγύτητας των λέξεων κλειδιών του άρθρου µε εκείνο του ερωτήµατος. Γίνεται χρήση της 2

συχνότητας των λέξεων κλειδιών και της συχνότητας που έχουν οι ίδιες λέξεις σε ένα σύνολο άρθρων που ανανεώνεται. Επίσης για την αναζήτηση γίνεται η χρήση συνώνυµων λέξεων. 2. Πρόβληµα προς επίλυση Ο παγκόσµιος ιστός τείνει να αποτελέσει τη µεγαλύτερη πηγή παροχής ενηµέρωσης. Το συνεχώς αυξανόµενο πλήθος αρχείων που φιλοξενεί, δηµιουργεί την ανάγκη εξέλιξης τεχνολογιών που µπορούν να αξιοποιήσουν την πληροφορία σύµφωνα µε τις εξειδικευµένες ανάγκες κάθε χρήστη. 2.1 Ο παγκόσµιος ιστός σήµερα Στο σηµερινό παγκόσµιο ιστό, ο άνθρωπος χρήστης συνήθως απαιτείται να εκτελέσει πολύπλοκες διεργασίες προκειµένου να αντλήσει πληροφορίες ή να ολοκληρώσει µια ενέργεια. Για την εξερεύνηση του ιστού, εκτός από τη χρήση απλών συνδέσµων και την άµεση πλοήγηση µεταξύ εγγράφων, γίνεται συνήθως χρήση µηχανών αναζήτησης µε την εισαγωγή λέξεων κλειδιών ως ερωτηµάτων. [2] Είναι σίγουρο ότι χωρίς τις µηχανές αναζήτησης ο παγκόσµιος ιστός δε θα είχε τόσο µεγάλη απήχηση, όµως παρόλη την τεράστια επιτυχία τους, η χρήση τους δε στερείται ελαττωµάτων. Έτσι οι µηχανές αναζήτησης έχουν πολύ µεγάλη ανάκληση και µικρή ακρίβεια και µαζί µε τα επιθυµητά έγγραφα µας επιστρέφουν και χιλιάδες έγγραφα µη σχετικά µε το ερώτηµα µας, αναγκάζοντας µας να τροποποιήσουµε πολλές φορές το ερώτηµα µας και να δαπανήσουµε πολύτιµο χρόνο σε φιλτράρισµα. Άλλες φορές όταν το ερώτηµα µας είναι πολύ συγκεκριµένο η ανάκληση είναι πολύ µικρή και η µηχανή αναζήτησης δεν επιστρέφει κανένα ή κανένα σχετικό έγγραφο. Όπως έχει ήδη φανεί, για την επιστροφή της επιθυµητής πληροφορίας είναι πολύ σηµαντική η λεπτοµερής ρύθµιση των ερωτηµάτων έτσι ώστε να περιλαµβάνουν λέξεις κλειδιά επιλεγµένες ώστε να είναι τόσο γενικές και ταυτόχρονα τόσο ειδικές όσο απαιτείται κάθε φορά. Η απάντηση των ερωτηµάτων από τις µηχανές αναζήτησης είναι πολύ ευαίσθητη στο λεξιλόγιο και µπορεί έτσι να µην επιστρέφει καθόλου έγγραφα που σχετίζονται άµεσα εννοιολογικά αλλά στα οποία έχουν χρησιµοποιηθεί συνώνυµες λέξεις και επιπλέον να επιστρέφει έγγραφα που περιέχουν τις λέξεις κλειδιά αλλά µε διαφορετικό εννοιολογικό νόηµα. Συχνά δεν υπάρχει εννοιολογική συνέπεια στη χρήση των λέξεων ή οι πληροφορίες των επιστρεφόµενων έγγραφων είναι απαρχαιωµένες. Είναι κατανοητό ότι για το φιλτράρισµα της πληροφορίας απαιτούνται πολλαπλές αναδιατυπώσεις του ερωτήµατος µε την τροποποίηση των λέξεων κλειδιών, έως ότου υπάρξει το επιθυµητό αποτέλεσµα. Το αποτέλεσµα αυτό όµως είναι µεµονωµένα έγγραφα. Εάν η αναζητούµενη πληροφορία είναι διασκορπισµένη, τότε θα πρέπει να επαναληφθούν πολλές φορές τα ερωτήµατα 3

και να συλλεχτεί όλη η επιµέρους πληροφορία και στη συνέχεια να εκτελεστούν συγκρίσεις, συνθέσεις και διαµερισµοί. Για την ανάκτηση της πληροφορίας αλλά και για την αξιοποίηση της από άλλες εφαρµογές είναι αποκλειστικά υπεύθυνος ο άνθρωπος. Έτσι ο όρος ανάκτηση πληροφορίας σε σχέση µε τις µηχανές αναζήτησης είναι άστοχος. Οι βελτιώσεις στις µηχανές αναζήτησης δεν καλύπτουν το πρόβληµα, που οξύνεται µε το ρυθµό αύξησης του παγκόσµιου ιστού. 2.2 Η ενηµέρωση σήµερα Ένα σχετικά µικρό υποσύνολο του παγκόσµιου ιστού απαρτίζει το πλήθος των εφαρµογών και αρχείων που σχετίζονται µε την ενηµέρωση των χρηστών σε ειδήσεις. Πρόκειται για ηλεκτρονικές εκδόσεις εφηµερίδων, blogs ενηµέρωσης και δηµοσιογραφικά portals. Ο σύγχρονος τρόπος ζωής αυξάνει σηµαντικά την ανάγκη για ταχύτερη πληρέστερη και εγκυρότερη ενηµέρωση. Η ανάγκη αυτή οδηγεί τις εξελίξεις στις τεχνολογίες ενηµέρωσης. Οι ηλεκτρονικές εφηµερίδες αν και αποτελούν σηµαντική βελτίωση σε σχέση µε τις αντίστοιχες έντυπες εκδόσεις, δεν µπορούν να καλύψουν πλήρως τις απαιτήσεις ενός σύγχρονου αναγνώστη. Η χρήση µιας αποκλειστικής πηγής ενηµέρωσης ενέχει συχνά τον κίνδυνο µη σφαιρικής και πλήρους ενηµέρωσης. Μια πιο ανεξάρτητη πηγή ενηµέρωσης από τις εφηµερίδες αποτελούν τα blogs, όπου ο χρήστης ενηµερώνεται αλλά αποτελεί ταυτόχρονα και πηγή ενηµέρωσης. Η ποικιλία και ανεξαρτησία του λόγου που παρέχουν τέτοιες πηγές αντισταθµίζεται πολλές φορές από την εγκυρότητα του περιεχοµένου τους, καθώς δύσκολα µπορεί να εξαχθεί αξιόπιστη ενηµέρωση από µη εξειδικευµένους χρήστες. Το πρόβληµα µπορεί να αντιµετωπιστεί είτε µε την αύξηση του πλήθους των πηγών ενηµέρωσης, µε άµεσο αντίκτυπο στην ταχύτητα και την πολυπλοκότητα ή µε τη χρήση ενός portal ενηµέρωσης. Σε ένα portal ενηµέρωσης παρέχεται συνήθως αρκετά µεγαλύτερη ποικιλία στην ενηµέρωση σε σύγκριση µε πιο παραδοσιακά µέσα. Ωστόσο το όφελος σε πληροφόρηση αντισταθµίζεται συχνά µε την ανοµοιογένεια σε εµφάνιση και δυσχέρειες στο φιλτράρισµα της πληροφορίας. 3. Υπόβαθρο Η ενότητα αυτή επιχειρεί να επιβοηθήσει την εξοικείωση µε τις έννοιες και τεχνολογίες που χρησιµοποιούνται στην εργασία που αναλύονται στις επόµενες ενότητες. 3.1 Σηµασιολογικός ιστός Η επίπονη διαδικασία αναζήτησης, που αποτελεί µεγάλο µέρος της αλληλεπίδρασης ενός χρήστη µε τον παγκόσµιο ιστό, θα µπορούσε να εκτελείται αυτόµατα από κάποιο έξυπνο και εξειδικευµένο πρόγραµµα. Κύριο εµπόδιο στη 4

εξέλιξη αυτή αποτελεί το γεγονός ότι το περιεχόµενο του παγκόσµιου ιστού δεν είναι προσανατολισµένο σε εφαρµογές αλλά προορίζεται µόνο για τον άνθρωπο. Αν και υπάρχουν αρκετές εφαρµογές για διάφορες µορφές επεξεργασίας κειµένου, η καθεαυτή νοηµατική ερµηνεία και κατανόηση µιας πρότασης είναι ιδιαίτερα περιορισµένη. Το πρόβληµα της κατανόησης του κειµένου προϋποθέτει την ανάπτυξη πολύ εξειδικευµένων τεχνικών τεχνητής νοηµοσύνης και ανάλυσης της φυσικής γλώσσας. Προς την κατεύθυνση αυτή, έχουν γίνει κάποια βήµατα όµως προς το παρών η επιλογή φαίνεται µη ρεαλιστική. Έτσι υιοθετείται µια προσέγγιση επίλυσης του προβλήµατος που αντί για την κατανόηση του καθεαυτού κειµένου από τις εφαρµογές στηρίζεται στον εµπλουτισµό των εγγράφων µε στοιχεία τα οποία να είναι κατανοητά από τις εφαρµογές. Αυτή η προσέγγιση είναι γνωστή ως η πρωτοβουλία για το σηµασιολογικό ιστό. Ο σηµασιολογικός ιστός δεν αναµένεται να αποτελέσει ένα διαφορετικό ιστό από το σηµερινό αλλά απλά µια εξέλιξη του. [1] Σύµφωνα µε τον Tim Berners Lee, εµπνευστή του παγκόσµιου ιστού το 1989 και στη συνέχεια ιδρυτή του W3C (World Wide Web Consortium, κοινοπραξίας για τον παγκόσµιο ιστό), ο σηµασιολογικός ιστός (Semantic Web) θα φέρει δοµή στο νοηµατικό περιεχόµενο των σελίδων του υπάρχοντος ιστού (Syntactic Web), δηµιουργώντας ένα περιβάλλον όπου εξειδικευµένα προγράµµατα θα εκτελούν πολύπλοκες διεργασίες για τους χρήστες τους µε αυτόµατη περιαγωγή από ιστοσελίδα σε ιστοσελίδα και συλλογή των απαραίτητων πληροφοριών. Τα ειδικευµένα αυτά προγράµµατα δε θα απαιτείται να έχουν τεχνητή νοηµοσύνη µεγάλης κλίµακας. Ο σηµασιολογικός ιστός δεν είναι ένας ξεχωριστός ιστός αλλά αποτελεί την επέκταση του ήδη υπάρχοντος ιστού, µε έναν τρόπο όπου η πληροφορία θα είναι πιο καθορισµένη νοηµατικά, επιτρέποντας σε ανθρώπους και υπολογιστές να δουλεύουν παράλληλα και να συνεργάζονται. Ο σηµερινός ιστός έχει αναπτυχθεί ταχύτατα ως συλλογή αυτόνοµων εγγράφων που απευθύνονται σε ανθρώπους και όχι µε τη µορφή πληροφοριών και δεδοµένων που επιτρέπουν την αυτόµατη επεξεργασία. Ο σηµασιολογικός ιστός έχει ως στόχο τη διόρθωση αυτής της εξέλιξης. Στο σηµασιολογικό ιστό η αναζήτηση λέξεων κλειδιών µε τη βοήθεια των µηχανών αναζήτησης και η επεξεργασία τους από τον άνθρωπο χρήστη, θα αντικατασταθεί από την απάντηση σύνθετων ερωτηµάτων από προγράµµατα αντιπροσώπους agents σε µια µορφή πιο φιλική προς το χρήστη. Η απάντηση των ερωτηµάτων θα βασίζεται στην ανάκτηση δεδοµένων από πολλαπλές πηγές, στην αξιολόγηση της αξιοπιστίας τους και τη σύνθεση των πληροφοριών. Θα πρέπει να σηµειωθεί εδώ ότι τα προγράµµατα αντιπρόσωποι δε θα αντικαταστήσουν τον άνθρωπο στο σηµασιολογικό ιστό ούτε θα λαµβάνουν αποφάσεις αντί για εκείνον. Ο ρόλος τους θα είναι να συλλέγουν και να οργανώνουν την πληροφορία και να παρουσιάζουν στον άνθρωπο δυνατότητες επιλογής. 5

3.1.2 Η επιλογή της γλώσσας Ο σηµερινός παγκόσµιος ιστός αποτελείται κυρίως από έγγραφα µε τη µορφή HTML (HyperText Markup Language, Γλώσσα Σήµανσης Υπερκειµένου). Η HTML υιοθετήθηκε πολύ σύντοµα για την απεικόνιση των πληροφοριών του παγκόσµιου ιστού, καθώς ενώ από τη µία επιτρέπει τη µορφοποίηση των πληροφοριών σε πολύ µεγάλο βαθµό, από την άλλη είναι αρκετά αυστηρή έτσι ώστε να είναι δυνατή η ερµηνεία των εγγράφων µε τον ίδιο περίπου τρόπο από όλα τα προγράµµατα περιήγησης. Για να επιτευχθούν οι παραπάνω ιδιότητες η HTML οφείλει να έχει πεπερασµένο πλήθος στοιχείων «ετικετών» και συγκεκριµένες συντακτικές ιδιότητες. Στην εικόνα 1 φαίνεται ένα έγγραφο HTML και ο τρόπος ερµηνείας-παρουσίασης του από ένα πρόγραµµα περιήγησης του παγκόσµιου ιστού. Εικόνα 1 Παράδειγµα HTML Έτσι η HTML αδυνατεί να υποστηρίξει τις απαιτήσεις που τέθηκαν για την επέκταση στο σηµασιολογικό ιστό. Για το λόγο αυτό από το W3C έχει υιοθετηθεί η χρήση ως βασικό συστατικό του σηµασιολογικού ιστού η XML (Extensive Markup Language, Επεκτάσιµη Γλώσσα Σήµανσης). Η γλώσσα XML έχει λίγους συντακτικούς περιορισµούς, µη καθορισµένο λεξιλόγιο (ετικέτες) και απεριόριστες δυνατότητες ένθεσης, προσδίνοντας έτσι το επιθυµητό επίπεδο ελευθερίας που απαιτείται στο σηµασιολογικό ιστό. Στην εικόνα 2 φαίνεται ένα παράδειγµα XML. 6

Εικόνα 2 Παράδειγµα XML Η χρήση της XML αποτελεί µια σηµαντική βελτίωση, όµως αντιστάθµισµα της µεγάλης ελευθερίας στη γλώσσα αποτελεί το γεγονός ότι η δηµιουργία και η ερµηνεία κάποιου λεξιλογίου της καθώς και ο έλεγχος της συντακτικής ορθότητας επαφίεται αποκλειστικά στο χρήστη. Στην εικόνα 2 φαίνεται ο τρόπος ερµηνείαςπαρουσίασης ενός έγγραφου XML από ένα πρόγραµµα περιήγησης του παγκόσµιου ιστού. H XML, που ήδη χρησιµοποιείται πολύ συχνά για την επικοινωνία δεδοµένων µεταξύ επιχειρήσεων απαιτεί τη χρήση επιπλέων τεχνολογιών, για την επέκταση των δυνατοτήτων της σε επικοινωνία δεδοµένων σε παγκόσµιο επίπεδο. Για την ολοκλήρωση προς την κατεύθυνση του σηµασιολογικού ιστού απαιτείται η χρήση και κυρίως η ευρεία αποδοχή τεχνολογιών που θα επιτρέπουν την κοινή ερµηνεία των πληροφοριών που παρουσιάζονται µε τη µορφή XML. Το πρόβληµα της µετάβασης από τον συντακτικό ιστό στον σηµασιολογικό, είναι περισσότερο πρόβληµα αποδοχής κοινών τεχνολογιών και λιγότερο επιστηµονικό, καθώς τα επιµέρους προβλήµατα έχουν κατά το µεγαλύτερο µέρος επιλυθεί. Τα µεγαλύτερα βήµατα που παραµένουν είναι στις περιοχές της τυποποίησης, της ενσωµάτωσης και της κοινής αποδοχής των τεχνολογιών αυτών. 7

3.1.2 Η τεχνολογία του σηµασιολογικού ιστού σε επίπεδα Οι τεχνολογίες που θα οδηγήσουν στην ολοκλήρωση του σηµασιολογικού ιστού όπως τον αντιλαµβανόµαστε σήµερα, αναπτύσσονται µε παράλληλα βήµατα σε πολλά επίπεδα, όπου το ένα επίπεδο εφαρµόζεται πάνω στο άλλο. Ο λόγος για την εξέλιξη αυτή είναι ότι είναι πιο εύκολο να υπάρξει οµοφωνία σε µικρά τεχνολογικά βήµατα. Αν επέλθει µια µεγάλη αλλαγή θα είναι πολύ πιο δύσκολο να γίνει κοινά αποδεκτή. Η φύση του σηµασιολογικού ιστού απαιτεί τη δηµιουργία νέων εργαλείων και περιεχοµένου από τα εµπλεκόµενα µέρη, γεγονός που θα πρέπει να πραγµατοποιηθεί σταδιακά χωρίς να περιµένουµε πρώτα την ολοκλήρωση του. Στην εικόνα 3 φαίνονται τα επίπεδα του σηµασιολογικού ιστού όπως τον φανταζόµαστε σήµερα. Εικόνα 3 Σηµασιολογικός ιστός σε επίπεδα Όπως φαίνεται η γλώσσα XML, στο πλαίσιο της ολοκλήρωσης του σηµασιολογικού ιστού, βασίζεται στη χρήση του προτύπου Unicode. Το διεθνές πρότυπο Unicode υιοθετείται επειδή στοχεύει στην κωδικοποίηση όλων των συστηµάτων γραφής και των επιστηµονικών συµβόλων που χρησιµοποιούνται στον πλανήτη µας. 8

3.2 Η χρήση των URI Για την περιγραφή κάποιας έννοιας στο σηµασιολογικό ιστό, εκτός από το πρότυπο Unicode, χρησιµοποιούνται ως δοµικό συστατικό, τα Uniform Resource Identifiers (URI). [3] Τo URI αποτελεί µία σειρά αλφαριθµητικών που χρησιµοποιούνται από κάποιον χρήστη για να περιγράψει µια οποιαδήποτε έννοια ή σύµφωνα µε τη µετάφραση έναν «πόρο» µε ενιαίο τρόπο. Η περιγραφή αυτή µπορεί να αποτελεί απλά έναν τρόπο «ονοµασίας» οπότε και ονοµάζεται Uniform Resource Name ή να αποτελεί τη θέση «διεύθυνση» στην οποία ο πόρος αυτός είναι διαθέσιµος οπότε ονοµάζεται Uniform Resource Location. Οι έννοιες σχετίζονται όπως φαίνεται στην εικόνα 4. Εικόνα 4 URI Ένα URL είναι ένα URI το οποίο εκτός από τον προσδιορισµό ενός πόρου που φιλοξενείται στο διαδίκτυο, υποδηλώνει τη θέση του αλλά τον τρόπο που µπορεί να ανακτηθεί. Έτσι για παράδειγµα το URL http://en.wikipedia.org/wiki/main_page υποδηλώνει έναν πόρο προσβάσιµο µέσω HTTP (HyperText Transfer Protocol, Πρωτοκόλλου Μεταφοράς Υπερκειµένου) που έχει τη µορφή HTML και που φιλοξενείται στη διεύθυνση en.wikipedia.org. Ένα URN είναι ένα URI που απλά υποδηλώνει έναν πόρο µε ένα όνοµα σε ένα συγκεκριµένο namespace (αφηρηµένο χώρο ονοµασίας) και δεν υποδηλώνει ούτε τη θέση του ούτε τον τρόπο ανάκτησης του. Για παράδειγµα το URN urn:isbn:0-395-36341-1 είναι ένα URI που προσδιορίζει ένα βιβλίο µε το ISBN (international standard book number, διεθνής µοναδικός αριθµός βιβλίου) του. Τα URI, URN και URL είναι γνωστά από την περιγραφή πραγµατικών πόρων του φυσικού κόσµου όπως τα βιβλία, πόρων του παγκόσµιου ιστού όπως έγγραφα ή πολυµέσα αλλά χρησιµοποιούνται επίσης για την περιγραφή εννοιών στο σηµασιολογικό ιστό. Η ενιαία περιγραφή ενός πόρου, µε ένα URN, είναι ενιαία µόνο ως προς τον τρόπο που περιγράφεται από το συγκεκριµένο χρήστη, µέσα στο συγκεκριµένο namespace. Έτσι ενώ ο ίδιος πόρος µπορεί να περιγράφεται µε πολλά URI, κάθε URI περιγράφει ένα µοναδικό πόρο. Η τυπική σύσταση ενός URI αποτελείται από ένα URI scheme name (όπως τα "http", "ftp", "mailto" ή "file") ακολουθούµενη από ένα χαρακτήρα άνω κάτω τελείας και στη συνέχεια το υπόλοιπο προσδιοριστικό, αν και αυτό δεν αποτελεί αυστηρή 9

προδιαγραφή. Η τυποποίηση των URI απαιτεί την τήρηση συγκεκριµένων συντακτικών κανόνων, όπως τη δέσµευση συγκεκριµένων χαρακτήρων για ειδικούς σκοπούς και περιορισµούς στο scheme για σκοπούς συνέπειας στις περιπτώσεις που υπάρχει ιεραρχική δοµή. Στο σηµασιολογικό ιστό, τα URI χρησιµοποιούνται για να περιγράψουν τόσο έγγραφα όσο και έννοιες του πραγµατικού κόσµου, γεγονός που αρχικά προκάλεσε αρκετή σύγχυση και αποσαφηνίστηκε µε την απόφαση httprange- 14 του W3C. 3.2.1 Η σύσταση και η παραποµπή ενός URI Ένα URI µπορεί να απεικονίζεται µε την πλήρη µορφή του ή µόνο µε ένα µέρος του. Το πραγµατικό URI λέγεται και απόλυτο ενώ το απεικονιζόµενο σχετικό. Το απεικονιζόµενο µέρος µπορεί να είναι είτε το αρχικό µέρος schema είτε κάποιο τελικό µέρος. Επίσης το URI µπορεί να περιλαµβάνει ένα προαιρετικό διαχωριστικό σύµβολο #. Σε αυτή την περίπτωση το µέρος του URI έως το διαχωριστικό σύµβολο αναπαριστά κάποιον πόρο, ενώ το µέρος µετά το διαχωριστικό αναπαριστά ένα µέρος του πόρου. Η εξαγωγή ενός απόλυτου URI από ένα σχετικό γίνεται µε προγράµµατα που ενώνουν το σχετικό URI µε ένα URI «βάση». Συνηθίζεται ως βάση να χρησιµοποιείται το URI του πόρου-αρχείου στο οποίο περιέχεται το σχετικό. Σε έγγραφα µε τη χρήση γλωσσών σήµανσης (HTML-XML), συχνά χρησιµοποιούνται URI παραποµπές, οι οποίες παραπέµπουν σε άλλα εξωτερικά έγγραφα ή στοιχεία του ίδιου εγγράφου. Έτσι σε ένα έγγραφο HTML µία URI παραποµπή µπορεί να είναι το src (προέλευση) ενός στοιχείου εικόνας ή το href (παραποµπή) ενός συνδέσµου. Παραδείγµατα απόλυτων URI είναι: http://example.org/absolute/uri/with/absolute/path/to/resource.txt ftp://example.org/resource.txt urn:issn:1535-3613 Ενώ παραδείγµατα URI παραποµπών είναι: //scheme-relative/uri/with/absolute/path/to/resource.txt../../../resource.txt./resource.txt#frag01 Ως αποσαφήνιση resolution ενός URI εννοείται είτε η µετατροπή του από σχετικό σε απόλυτο ή η κατάργηση της παραποµπής µε την προσπάθεια της απεικόνισης του πόρου σε περίπτωση που κάτι τέτοιο είναι εφικτό (εικόνες, έγγραφα HTML XML). 10

3.3 RDF [4] Στην εικόνα µε τα επίπεδα του σηµασιολογικού ιστού, ένα επίπεδο πάνω από το επίπεδο της XML, βρίσκεται το RDF (Resource Description Framework, Πλαίσιο Περιγραφής Πόρων). Το RDF αποτελεί ένα κοινό πλαίσιο για την αναπαράσταση µεταδεδοµένων ως πόρων του διαδικτύου και διευκολύνει την επικοινωνία δεδοµένων µεταξύ εφαρµογών στο διαδίκτυο αποτρέποντας παρερµηνείες. Αν και δηµιουργήθηκε για την αποκλειστική περιγραφή πόρων που είναι προσπελάσιµοι στον παγκόσµιο ιστό (ιστοσελίδες, αρχεία multimedia κ.α.), µπορεί να χρησιµοποιηθεί επίσης για πόρους που δεν έχουν φυσική υπόσταση. Το RDF, παρά την εντύπωση που δηµιουργεί η εικόνα µε τα επίπεδα του σηµασιολογικού ιστού, δε στηρίζεται στην XML, όµως περιλαµβάνει και µια πολύ διαδεδοµένη µορφή, που εκφράζεται έτσι γνωστή ως RDF/XML. Στην πραγµατικότητα το RDF βασίζεται στο θεµέλιο λίθο περιγραφής πόρων (τα URI) και περιγράφει πόρους του διαδικτύου µε απλές δηλώσεις. Ένας διαδεδοµένος τρόπος για την αναπαράσταση τέτοιων δηλώσεων είναι µε τη µορφή γράφου. Ως παράδειγµα, έστω ότι υπάρχει ένα άτοµο µε όνοµα Eric Miller, email em@w3.org και τίτλο Dr που προσδιορίζεται µε το URI http://www.w3.org/people/em/contact#me. Εικόνα 5 Γράφος RDF Ο γράφος RDF της εικόνας 5, δείχνει ότι το RDF µε την βοήθεια URI επιτυγχάνει: Να προσδιορίσει ένα συγκεκριµένο πόρο Να προσδιορίσει ότι ο πόρος αυτός είναι ένα άτοµο Person Να προσδιορίσει ορισµένες ιδιότητες-χαρακτηριστικά του ατόµου, όπως είναι το όνοµα και η διεύθυνση email του. Να δώσει τιµές σε αυτές τις ιδιότητες. 11

Η έκφραση σε RDF/XML για την απόδοση των ίδιων πληροφοριών είναι: <?xml version="1.0"?> <rdf:rdf xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:contact="http://www.w3.org/2000/10/swap/pim/contact#"> <contact:person rdf:about="http://www.w3.org/people/em/contact#me"> <contact:fullname>eric Miller</contact:fullName> <contact:mailbox rdf:resource="mailto:em@w3.org"/> <contact:personaltitle>dr.</contact:personaltitle> </contact:person> </rdf:rdf> Με τη µορφή αυτή, που απευθύνεται κυρίως σε εφαρµογές, το RDF κάνοντας απλές δηλώσεις, συνθέτει επιµέρους πληροφορίες στον παγκόσµιο ιστό. 3.3.1 Βασική δοµή RDF Αν υποτεθεί ότι είναι επιθυµητό να γίνει µια απλή δήλωση για κάποιον πόρο του διαδικτύου, ο πιο απλός τρόπος θα ήταν να χρησιµοποιηθεί η φυσική γλώσσα. Έτσι για παράδειγµα θα µπορούσε να δηλωθεί ότι η ιστοσελίδα http://www.example.org/index.html έχει ένα δηµιουργό που έχει τιµή John Smith. Αυτή η δήλωση περιλαµβάνει τον πόρο του διαδικτύου που περιγράφεται, µια συγκεκριµένη ιδιότητα του πόρου που η δήλωση παρουσιάζει και ένα πεδίο που η δήλωση αναφέρει ως τιµή της ιδιότητας του πόρου. Στη συγκεκριµένη δήλωση ο πόρος αναφέρεται µε το URL του καθώς έχει πραγµατική υπόσταση στον παγκόσµιο ιστό. Η ιδιότητα εκφράζεται µε τη λέξη δηµιουργός, της οποίας η τιµή είναι John Smith. Άλλες δηλώσεις που θα µπορούσαν να γραφτούν για τη συγκεκριµένη ιστοσελίδα αφορούν την ηµεροµηνία δηµιουργίας της ή τη γλώσσα στην οποία είναι γραµµένη, µε τις ακόλουθες εκφράσεις: http://www.example.org/index.html έχει ηµεροµηνία δηµιουργίας µε τιµή August 16 1999. http://www.example.org/index.html έχει γλώσσα µε τιµή English. Γενικά το RDF βασίζεται στην ιδέα της δηµιουργίας δηλώσεων µε ιδιότητες και τιµές µε τη µορφή υποκείµενο (http://www.example.org/index.html) κατηγόρηµα δηµιουργός και αντικείµενο John Smith. Οι παραπάνω προτάσεις-δηλώσεις, καθώς είναι σε φυσική γλώσσα, είναι κατάλληλες για την επικοινωνία µόνο µεταξύ ανθρώπων. Για να τροποποιηθούν οι δηλώσεις της φυσικής γλώσσας, ώστε να είναι κατάλληλες για επικοινωνία µεταξύ προγραµµάτων, απαιτούνται δύο πράγµατα: 12

Ένα σύστηµα αναγνωριστικών, το οποίο θα εκφράζει πόρους αλλά και κατηγορήµατα και τιµές, µε τρόπο που δε θα είναι δυνατή η παρερµηνεία τους. Μια γλώσσα για την αναπαράσταση τέτοιων εκφράσεων µε τρόπο που να είναι κατάλληλος για την επεξεργασία και επικοινωνία µεταξύ υπολογιστών. Οι τεχνολογίες για τις δύο απαιτήσεις του RDF υπάρχουν και εκφράζονται όπως έχει ήδη φανεί µε τη µορφή των URI και της XML. Πιο συγκεκριµένα, όπως έχει αναφερθεί, το RDF χρησιµοποιεί παραποµπές URI µε χαρακτήρες UNICODE και µε προαιρετική κατάληξη µετά από διαχωριστικό χαρακτήρα #. Για την αναπαράσταση χρησιµοποιείται µια ειδική έκδοση της XML η RDF/XML. Στο παράδειγµα RDF/XML που δόθηκε για το άτοµο µε όνοµα Eric Miller, χρησιµοποιήθηκαν ετικέτες όπως <contact:fullname> και <contact:personaltitle> για να περιβάλλουν το περιεχόµενο Eric Miller και Dr. Τέτοιες ετικέτες επιτρέπουν σε προγράµµατα που έχουν δηµιουργηθεί για το σκοπό αυτό, την ερµηνεία του περιεχοµένου τους. Στο παράδειγµα µε την ιστοσελίδα http://www.example.org/index.html που έχει δηµιουργό µε όνοµα John Smith, για να µετατραπεί η δήλωση σε RDF, θα πρέπει εκτός από το υποκείµενο να εκφραστούν µε µοναδικά URI και το κατηγόρηµα αλλά και το αντικείµενο. Σε µια RDF δήλωση θα µπορούσαν να χρησιµοποιηθούν ως URIs οι ακόλουθες εκφράσεις: υποκείµενο http://www.example.org/index.html κατηγόρηµα http://purl.org/dc/elements/1.1/creator αντικείµενο http://www.example.org/staffid/85740 Ένας τρόπος έκφρασης δηλώσεων RDF είναι µε την απεικόνιση σε γράφο όπου το υποκείµενο και το αντικείµενο θα παριστούν κόµβους και το κατηγόρηµα ακµή που ενώνει τους κόµβους αυτούς. Έτσι η παραπάνω έκφραση θα µπορούσε να απεικονιστεί όπως στην εικόνα 6. Εικόνα 6 Mια απλή δήλωση RDF Αν ήταν επιθυµητό να γίνουν επιπλέον δηλώσεις σε RDF για τον ίδιο πόρο σε ότι έχει σχέση µε την ηµεροµηνία δηµιουργίας του και µε τη γλώσσα γραφής του, θα µπορούσαν να εισαχθούν επιπλέον κόµβοι και ακµές καταλήγοντας στην εικόνα 7. 13

Στην εικόνα αυτή φαίνεται ότι στις δηλώσεις RDF χρησιµοποιούνται είτε παραποµπές URI ή σταθερές τιµές που ονοµάζονται literals και αναπαριστώνται µε ένα σύνολο αλφαριθµητικών όπως το en και το August 16, 1999. Ως literals, που στο σχήµα ενθέτονται σε πορτοκαλί ορθογώνια, µπορούν να χρησιµοποιηθούν τιµές για την απεικόνιση αντικειµένων µόνο και όχι υποκειµένων ή κατηγορηµάτων. Εικόνα 7 RDF µε URI ή plain literals Τα υποκείµενα λαµβάνουν υποχρεωτικά ως τιµές παραποµπές URI, που απεικονίζονται εδώ µε πράσινες ελλείψεις. Τα literals που αναφέρθηκαν πιο πάνω είναι τύπου plain literals, σε αντιδιαστολή µε τα typed literals, που θα αναλυθούν στη συνέχεια. Συχνά αντί για την απεικόνιση ως γράφου, χρησιµοποιείται η εναλλακτική απεικόνιση προτάσεων RDF ως triples. Σε αυτή τη µορφή κάθε δήλωση καταγράφεται ως τριάδα ετικετών < > που αφορούν το υποκείµενο, το κατηγόρηµα και το αντικείµενο και πάντα µε αυτή τη σειρά. Κάθε τριάδα ετικετών αναπαριστά δύο κόµβους του γράφου και την ακµή που τους συνδέει. Σε περίπτωση πολλών δηλώσεων για τον ίδιο κόµβο, ενώ στο γράφο απλά θα ξεκινούσαν πολλές ακµές από τον ίδιο κόµβο, στην περίπτωση των τριάδων ετικετών ο κόµβος εµπεριέχεται σε κάθε τριάδα που συµµετέχει. Ο πιο πάνω γράφος θα µπορούσε να αντικατασταθεί από τις έκφρασεις: <http://www.example.org/index.html> <http://purl.org/dc/elements/1.1/creator> <http://www.example.org/staffid/85740>. <http://www.example.org/index.html> <http://www.example.org/terms/creationdate> "August 16, 1999". <http://www.example.org/index.html> <http://purl.org/dc/elements/1.1/language> "en". To µοντέλο του γράφου είναι θεµελιώδες για το RDF, ενώ ο τρόπος που ο γράφος αυτός απεικονίζεται (όπως εδώ µε τις τριάδες ετικετών), είναι δευτερεύων. 14

Για την καταγραφή κάθε τριάδας δηλώσεων, µε τις πλήρης παραποµπές URI σε ετικέτες, απαιτείται συχνά ένα έγγραφο µε άσκοπα µεγάλο µήκος γραµµών. Για το λόγω αυτό περιλαµβάνεται στις συστάσεις της W3C η χρήση συντµήσεων. Οι συντµήσεις αυτές αποτελούν έναν επίσηµο τρόπο (QName ή qualified name) απεικόνισης της παραποµπής URI χωρίς ετικέτες. Ένα QName περιλαµβάνει ένα πρόθεµα που έχει κατοχυρωθεί σε ένα namespace URI, ακολουθούµενο από άνω κάτω τελεία και στη συνέχεια το τοπικό όνοµα. Η πλήρης παραποµπή URI εξάγεται µε την προσθήκη του τοπικού ονόµατος µετά το namespace URI, που αντιστοιχεί στο πρόθεµα. Κάποια πολύ διαδεδοµένα URI namespaces µε τα αντίστοιχα προθέµατα τους ακολουθούν: πρόθεµα rdf:, namespace URI: http://www.w3.org/1999/02/22-rdf-syntax-ns# πρόθεµα rdfs:, namespace URI: http://www.w3.org/2000/01/rdf-schema# πρόθεµα dc:, namespace URI: http://purl.org/dc/elements/1.1/ πρόθεµα owl:, namespace URI: http://www.w3.org/2002/07/owl# πρόθεµα xsd:, namespace URI: http://www.w3.org/2001/xmlschema# Κάθε οργανισµός έχει το δικαίωµα να δηµιουργεί δικά του URI namespaces και να χρησιµοποιεί δικά του προθέµατα. Αν υποτεθεί ότι ένας οργανισµός δηµιουργεί τα παρακάτω προθέµατα για τα αντίστοιχα URI namespaces πρόθεµα ex:, namespace URI: http://www.example.org/. πρόθεµα exterms:, namespace URI: http://www.example.org/terms/ (για τεχνικούς όρους που χρησιµοποιεί ο οργανισµός). πρόθεµα exstaff:, namespace URI: http://www.example.org/staffid/ (για αναγνωριστικά εργαζοµένων στον οργανισµό). Με τα προθέµατα αυτά οι προηγούµενες τριάδες µπορούν να γραφτούν πιο σύντοµα.: ex:index.html dc:creator exstaff:85740. ex:index.html exterms:creation-date "August 16, 1999". ex:index.html dc:language "en". Στο RDF ένα σύνολο παραποµπών URI, που έχει κοντινό νόηµα ή χρησιµοποιείται για την περιγραφή πόρων του ίδιου αντικειµένου, αναφέρεται ως λεξιλόγιο. Συνηθίζεται παραποµπές URI του ίδιου λεξιλογίου να περιλαµβάνονται σε κοινά URI namespaces και να έχουν κοινά προθέµατα. Για παράδειγµα, ένας οργανισµός θα ενσωµάτωνε όλους τους τεχνικούς όρους που περιλαµβάνονται στο λεξιλόγιο του, όπως ηµεροµηνία δηµιουργίας ή γλώσσα στο URI namespace http://www.example.org/terms/, ενώ θα περιελάµβανε τα αναγνωριστικά των υπαλλήλων του στο URI namespace http://www.example.org/staffid/. Έπιπλέον θα 15

δηµιουργούσε προθέµατα για κάθε namespace. Επίσης ένας οργανισµός µπορεί να ορίσει το λεξιλόγιο του ενσωµατώνοντας λεξιλόγια άλλων οργανισµών. Σε τέτοιες περιπτώσεις συνηθίζεται να χρησιµοποιείται ως URI reference το URL από το οποίο παρέχονται επιπλέον πληροφορίες για το συγκεκριµένο λεξιλόγιο. Έτσι το πρόθεµα dc: που σχετίζεται µε το URI namespace http://purl.org/dc/elements/1.1/. παραπέµπει στην περιγραφή του πολύ γνωστού λεξιλογίου Dublin Core. Το RDF δεν επιβάλει περιορισµούς στο πλήθος των δηλώσεων που µπορούν να έχουν το ίδιο αντικείµενο και κατηγόρηµα στον ίδιο γράφο. Έτσι για παράδειγµα ένας πόρος που έχει δηµιουργηθεί από δύο υπαλλήλους ενός οργανισµού θα φαίνεται µε τις τριάδες: ex:index.html dc:creator exstaff:85740. ex:index.html dc:creator exstaff:27354. Μερικά από τα πλεονεκτήµατα της χρήσης παραποµπών URI φαίνονται ήδη στα παραδείγµατα. Έτσι για παράδειγµα µε τη χρήση της παραποµπής URI http://www.example.org/staffid/85740 αντί της σειράς αλφαριθµητικών "John Smith" η έκφραση γίνεται πιο ακριβής καθώς αναφέρεται στο συγκεκριµένο John Smith που είναι καταγεγραµµένος στα αρχεία του οργανισµού και όχι σε κάποιον άλλο που πιθανώς έχει το ίδιο όνοµα. Επιπλέον έτσι υπάρχει η δυνατότητα να γίνουν και άλλες δηλώσεις RDF για τον ίδιο πόρο, προσδιορίζοντας τον περισσότερο. Για παρόµοιους λόγους φαίνεται η προτίµηση στη χρήση παραποµπών URI αντί για σειρές αλφαριθµητικών όταν περιγράφονται κατηγορήµατα. Έτσι για παράδειγµα κάποιος οργανισµός όταν αναφέρεται στο κατηγόρηµα «όνοµα», περιγράφει το πλήρες ονοµατεπώνυµο ενός ατόµου, ενώ άλλος περιγράφει το όνοµα µια µεταβλητής ενός προγράµµατος. Η διαφορετική αντίληψη του κατηγορήµατος, που θα προκαλούσε σηµαντικό πρόβληµα κατά την ερµηνεία και πολύ περισσότερο κατά τη σύνθεση πληροφοριών από ένα πρόγραµµα, αποφεύγεται µε τη χρήση παραποµπών URI καθώς είναι προφανές στο πρόγραµµα ότι οι παραποµπές URI http://www.example.org/terms/name και http://www.domain2.example.org/genealogy/terms/name είναι τελείως διαφορετικές. Επιπλέον ο τρόπος προσέγγισης αυτός επιτρέπει την προσθήκη επιπλέον δηλώσεων RDF µε το «όνοµα» ως υποκείµενο βοηθώντας σε επιπλέον αποσαφήνιση. Η χρήση παραποµπών URI ως υποκείµενα, αντικείµενα και κατηγορήµατα εξυπηρετεί την ανάπτυξη και χρήση κοινά αποδεκτών λεξιλογίων. Έτσι µε τη χρήση κοινών λεξιλογίων στον παγκόσµιο ιστό, αυξάνεται η κοινή αντίληψη που έχουµε για τις έννοιες που περιέχουν. Για παράδειγµα στην τριάδα ex:index.html dc:creator exstaff:85740. 16

Το πλήρως ανεπτυγµένο κατηγόρηµα http://purl.org/dc/elements/1.1/creator αναφέρεται αδιαµφισβήτητα στο χαρακτηριστικό «δηµιουργός» του συνόλου µεταδεδοµένων Dublin Core. Έτσι ένα άλλο άτοµο ή οργανισµός που είναι εξοικειωµένος µε αυτό το λεξιλόγιο ή που θα αναζητήσει στον παγκόσµιο ιστό τη σηµασία του συγκεκριµένου πόρου, θα κατανοήσει πλήρως την έννοια που ήθελε να του προσδώσει ο οργανισµός που το χρησιµοποίησε. Όσο πιο πολύ χρησιµοποιείται µια παραποµπή URI και είναι κοινή η εννοιολογική ερµηνεία της από µεγαλύτερο πλήθος οργανισµών και ατόµων, τόσο περισσότερο ενθαρρύνεται η δηµιουργία προγραµµάτων που όταν συναντούν σε µια τριάδα την παραποµπή αυτή θα την ερµηνεύουν µε τον ίδιο τρόπο και που όταν δηµιουργούν τριάδες και θέλουν να αποδώσουν το ίδιο νόηµα θα χρησιµοποιούν τη συγκεκριµένη παραποµπή. Το RDF δεν επιβάλει τη χρήση παραποµπών URI, αντί για σειρές αλφαριθµητικών, ούτε την αποδοχή κοινά χρησιµοποιούµενων λεξιλογίων, όµως επειδή είναι επιθυµητή η επέκταση στο σηµασιολογικό ιστό, η χρήση κοινών λεξιλογίων στις περιπτώσεις που µπορούν να καλύψουν το χρήστη νοηµατικά, βοηθάει προς αυτή την κατεύθυνση. Φυσικά µια εφαρµογή δε µπορεί να κατανοήσει η να αποδώσει νόηµα σε µια τριάδα RDF, όµως είναι δυνατό να φτιαχτεί µε τέτοιον τρόπο από κάποιο άτοµο ή οργανισµό που κατανοεί τα νοήµατα αυτά, έτσι ώστε να φαίνεται ότι τα αντιλαµβάνεται. 3.3.2 Σύνθετες δοµές RDF Πολλές φορές τα δεδοµένα του πραγµατικού κόσµου έχουν πιο πολύπλοκη µορφή, κάνοντας το RDF που µέχρι τώρα έχει περιγραφτεί ανεπαρκές. Αν για παράδειγµα ήταν επιθυµητή η δήλωση της διεύθυνσης ενός ατόµου ή της ηµεροµηνίας δηµιουργίας ενός πόρου του διαδικτύου, θα µπορούσε να δηµιουργηθεί µια απλή δήλωση που θα είχε σαν αντικείµενο τη διεύθυνση ή την ηµεροµηνία ως σειρά αλφαριθµητικών δηλαδή µε ένα plain literal. Όµως η διεύθυνση ή η ηµεροµηνία έχουν στην πραγµατικότητα µια πιο σύνθετη δοµή και αποτελούνται από αρκετά διαφορετικά συστατικά. Για παράδειγµα η ηµεροµηνία έχει ως συστατικά την ηµέρα, το µήνα και το χρόνο ενώ η διεύθυνση έχει την οδό, τον αριθµό, την πόλη, τον ταχυδροµικό κώδικα και τη Χώρα. Συσσωρεύοντας ακατάστατα όλη αυτή τη διαφορετική πληροφορία σε ένα και µοναδικό κόµβο σε ένα γράφο, µε τη µορφή ενός plain literal, δε µας δίνει την επιθυµητή ευελιξία που απαιτείται στο σηµασιολογικό ιστό. Αν για παράδειγµα στη συνέχεια απαιτούνταν να χρησιµοποιηθεί µόνο ο ταχυδροµικός κώδικας ή µόνο η χρονολογία δηµιουργίας από µια εφαρµογή, αυτό δε θα ήταν εύκολα εφικτό. Για την αποφυγή του προβλήµατος θα µπορούσε να δηµιουργηθεί ένας κόµβος στο γράφο RDF που να αναπαριστά το συγκεκριµένο στοιχείο συνολικά και στη συνέχεια να ξεκινούν από τον κόµβο αυτό άλλες εκφράσεις που η κάθε µια τους να συµβάλει µε την περιγραφή επιµέρους 17

χαρακτηριστικών του στοιχείου. Έτσι για την αναπαράσταση του κόµβου θα απαιτούνταν η δηµιουργία µιας πρόσθετης παραποµπής URI από όπου θα ξεκινούσαν οι επιπλέον εκφράσεις. Όµως µε αυτό το νόηµα η ηµεροµηνία ή η διεύθυνση για παράδειγµα, δεν έχει πραγµατική υπόσταση και είναι απλά µια γενικότερη έννοια που γίνεται συγκεκριµένη µετά τον προσδιορισµό των επιµέρους χαρακτηριστικών τους. εν έχει νόηµα συνεπώς να δηµιουργηθεί µια παραποµπή URI για την αναπαράσταση µιας τέτοιας έννοιας. Αντί γι αυτό υιοθετείται η αναπαράσταση ενός κενού κόµβου στο γράφο RDF, ο οποίος θα αποτελεί την κατάληξη της ακµής µε κατηγόρηµα τη διεύθυνση ή την ηµεροµηνία και από τον οποίο θα ξεκινούν αρκετές ακµές για την περιγραφή του. Για την αναπαράσταση του γράφου σε τριάδες RDF το κενό σίγουρα δεν εξυπηρετεί. Θα µπορούσε να υιοθετηθεί ένα συγκεκριµένο σύµβολο που θα χρησιµοποιείται όποτε υπάρχει η ανάγκη αναπαράστασης ενός κενού κόµβου του γράφου. Με αυτή την προσέγγιση θα µπορούσε να δηµιουργηθεί σύγχυση αν ήταν ανάγκη να παρασταθούν δύο ή περισσότεροι κενοί κόµβοι στο ίδιο έγγραφο. Έτσι προτείνεται να χρησιµοποιείται ένα εσωτερικό για το κείµενο αναγνωριστικό, διαφορετικό για κάθε ξεχωριστό κενό κόµβο, το οποίο σε αντίθεση µε τις παραποµπές URI δε θα έχει καµία πραγµατική υπόσταση ως αναγνωριστικό εκτός του συγκεκριµένου εγγράφου. Έτσι για παράδειγµα σε αντίθεση µε τις παραποµπές URI δύο ίδια εσωτερικά χαρακτηριστικά διαφορετικών εγγράφων, παριστάνουν διαφορετικά στοιχεία. Εικόνα 8 Γράφος RDF µε κενό κόµβο Στην εικόνα 8 φαίνεται ο γράφος RDF που αναπαριστά τη διεύθυνση ενός υπαλλήλου ενός υποθετικού οργανισµού. Αξίζει να σηµειωθεί ότι αν αναµένεται ότι είναι πιθανή η αναφορά σε έναν κόµβο από κάποια θέση εξωτερική του γράφου, τότε θα πρέπει να αποδοθεί σε αυτόν µια παραποµπή URI. ηλαδή οι κενοί κόµβοι και τα αναγνωριστικά τους εξυπηρετούν µόνο τις εσωτερικές στο γράφο ανάγκες. Οι κενοί 18

κόµβοι µπορούν να χρησιµοποιηθούν µόνο ως υποκείµενα ή αντικείµενα και όχι ως κατηγορήµατα. Συνηθίζεται τα αναγνωριστικά κενών κόµβων να ξεκινούν µε _: έτσι ώστε να είναι ξεκάθαρο ότι δεν πρόκειται για παραποµπές URI. Ο πιο πάνω γράφος RDF θα µπορούσε τηρώντας αυτή τη σύµβαση να απεικονιστεί µε τη µορφή τριάδων ως εξής: exstaff:85740 exterms:address _:johnaddress. _:johnaddress exterms:street "1501 Grant Avenue". _:johnaddress exterms:city "Bedford". _:johnaddress exterms:state "Massachusetts". _:johnaddress exterms:postalcode "01730". Στο παράδειγµα τονίζεται ένα ακόµη χαρακτηριστικό του RDF. Η γλώσσα έχει δηµιουργηθεί έτσι ώστε να µπορεί να εξυπηρετεί µόνο δυαδικές σχέσεις, δηλαδή σχέσεις ενός πόρου µε έναν άλλο. Αν είναι επιθυµητό να παρασταθεί µια πιο πολύπλοκη σχέση, τότε αυτή η απεικόνιση γίνεται εφικτή µε τη χρήση κενών κόµβων. Οι κενοί κόµβοι δίνουν τη δυνατότητα πιο ορθής χρήσης του RDF. Αν για παράδειγµα είναι επιθυµητή η περιγραφή ενός πόρου που δεν έχει δική του παραποµπή URI, πολλές φορές για ευκολία χρησιµοποιείται το URI κάποιου χαρακτηριστικού του. Για παράδειγµα αν είναι επιθυµητή η περιγραφή κάποιου ατόµου, αντί για παραποµπή URI χρησιµοποιείται το email του ή αν είναι επιθυµητή η περιγραφή µιας εταιρίας χρησιµοποιείται το URL της ιστοσελίδας της εταιρίας. Αυτό σε γενικές γραµµές είναι αποδεκτό, όµως δηµιουργεί περιπλοκές στην περίπτωση που δεν είναι ξεκάθαρο σε ποιον αναφέρεται η περιγραφή. Έτσι αν µια εταιρία απεικονίζεται µε το URL της ιστοσελίδας της και αναφερθεί κάποιο άτοµο ως δηµιουργός, προφανώς θα δηµιουργηθεί σύγχυση για το αν πρόκειται για το δηµιουργό της εταιρίας ή της ιστοσελίδας. Παρόµοια µπορεί να δηµιουργηθεί σύγχυση όταν ένα άτοµο απεικονίζεται µε το email του και είναι επιθυµητή η περιγραφή της θέσης. Σε αυτή την περίπτωση δε θα είναι ξεκάθαρο αν πρόκειται για τη θέση του ατόµου ή του server που φιλοξενεί την αλληλογραφία. Έτσι σε τέτοιες περιπτώσεις είναι πιο ξεκάθαρη η χρήση ενός κενού κόµβου όταν δεν υπάρχει προσδιορισµένη παραποµπή URI όπως στο παράδειγµα: _:jane exterms:mailbox <mailto:jane@example.org>. _:jane rdf:type exterms:person. _:jane exterms:name "Jane Smith". _:jane exterms:age "27". 19

Εδώ η µετάφραση σε φυσική γλώσσα θα ήταν «υπάρχει ένας πόρος που είναι άτοµο, µε τα παρακάτω στοιχεία. Επισηµαίνεται ότι το email περιέχεται σε < > καθώς δεν πρόκειται για σύντµηση αλλά για παραποµπή URI. Επιπλέον στο παράδειγµα αναφέρεται η ηλικία του ατόµου ως µια σειρά αλφαριθµητικών 27, υπονοώντας ότι είναι 27 χρονών. Όµως στον παγκόσµιο σηµασιολογικό ιστό δεν είναι ασφαλές να γίνονται τέτοιες υποθέσεις κυρίως σε ότι αφορά τις µονάδες µέτρησης. 3.3.3 Typed Literals Στην ανάλυση της δοµής του RDF που πραγµατοποιήθηκε έως εδώ, φάνηκε ότι για την καλύτερη παρουσίαση ενός σύνθετου πόρου όπως για παράδειγµα µια ηµεροµηνία, ο πόρος αυτός µπορεί να διασπαστεί σε επιµέρους στοιχεία. Ακόµη και έτσι όµως τελικά κάθε στοιχείο θα περιγραφεί ως µια απλή σειρά αλφαριθµητικού που έχει χαρακτηριστεί ως plain literal. Με αυτή τη µορφή το RDF δε µπορεί να περιγράψει µε ακρίβεια εξειδικευµένες τιµές. Έτσι δε µπορεί για παράδειγµα να δηλωθεί ότι το 27 στο προηγούµενο παράδειγµα αποτελεί έναν integer και πολύ περισσότερο έναν integer που αντιπροσωπεύει ηλικία. Στην τριάδα RDF _:jane exterms:age "27" ή στον αντίστοιχο γράφο, δεν υπάρχει κάποια ένδειξη ότι το αλφαριθµητικό 27 αναπαριστά έναν αριθµό και ότι δεν πρόκειται για κείµενο. Επιπλέον δεν υπάρχει καµία ένδειξη ότι η εταιρία χρησιµοποιεί τον αριθµό αυτό στο δεκαδικό σύστηµα και όχι σε κάποιο άλλο, που θα άλλαζε την αξία του. Φυσικά ένα πρόγραµµα θα µπορούσε να γραφτεί ώστε να θεωρεί ότι το 27 είναι δεκαδικός αριθµός, όµως καθώς αναφερόµαστε στον παγκόσµιο ιστό, δε θα ήταν σωστό το πρόγραµµα να εξειδικεύεται και να µη µπορεί να ακολουθήσει γενικότερους κανόνες. Η πληροφορία σε RDF θα πρέπει να είναι διαθέσιµη σωστά και για το κάθε τυχαίο πρόγραµµα που θέλει να την επεξεργαστεί. Συνηθίζεται στις γλώσσες προγραµµατισµού και στα συστήµατα βάσεων δεδοµένων, η απαιτούµενη επιπλέον πληροφορία να παρέχεται µε τη µορφή ενός datatype (τύπου δεδοµένων) που συνδέεται µε το literal. Στο RDF όταν ένας plain literal συνδυάζεται µε ένα data type, για την αποσαφήνιση του τύπου δεδοµένων του, µετατρέπεται σε typed literal. Με τη µορφή αυτή το προηγούµενο παράδειγµα περιγραφής της ηλικίας του υπαλλήλου µπορεί να γίνει µε πλήρης παραποµπές URI ως εξής: <http://www.example.org/staffid/85740> <http://www.example.org/terms/age> "27"^^<http://www.w3.org/2001/XMLSchema#integer>. ή πιο απλά µε συντµήσεις: exstaff:85740 exterms:age "27"^^xsd:integer. 20

Όπως φαίνεται η δηµιουργία του typed literal επιτυγχάνεται µε τη συνένωση του αλφαριθµητικού µε το URI που αντιπροσωπεύει το συγκεκριµένο datatype µε τη βοήθεια του συµβόλου ^^. Υπάρχουν κατάλληλα datatypes και για πιο σύνθετους τύπους δεδοµένων όπως οι ηµεροµηνίες, έτσι η σύντµηση "1999-08-16"^^xsd:date απεικονίζει µε τρόπο κοινά αποδεκτό την ηµεροµηνία 16 Αυγούστου του 1999. Σηµειώνεται εδώ ότι το πρώτο µέρος του typed literal παραµένει σε εισαγωγικά. Αντίθετα µε άλλες γλώσσες που χρησιµοποιούνται στον προγραµµατισµό και τις βάσεις δεδοµένων, το RDF δεν έχει εσωτερικά δικά του datatypes (µε την εξαίρεση του rdf:xmlliteral). Τα datatypes του RDF στηρίζονται στο πλαίσιο που υπάρχει στη συλλογή datatype της XML schema. Σε αυτό το πλαίσιο ένα datatype περιγράφεται ότι αποτελείται από: Ένα σύνολο τιµών που για παράδειγµα στο datatype xsd:date αντιπροσωπεύει το σύνολο των τιµών-ηµεροµηνιών που µπορούν να καταγραφούν. Ένα σύνολο χαρακτήρων που µπορούν ή πρέπει να συµπεριλαµβάνονται στην απεικόνιση, όπως στο παράδειγµα της ηµεροµηνίας 1999-08-16 είναι οι ενδιάµεσες παύλες. Έναν τρόπο αντιστοίχησης της απεικονιζόµενης τιµής µε την πραγµατική, που έτσι στο παράδειγµα αντιστοιχεί τη σειρά αλφαριθµητικών 1999-08-16 στην ηµεροµηνία 16 Αυγούστου του 1999. Αξίζει να αναφερθεί ότι το RDF δεν έχει κάποιον εσωτερικό µηχανισµό για τον έλεγχο της τήρησης του πλαισίου της XML Schema που αφορά τα datatypes. Η ευθύνη για την ορθότητα της καταγραφής και ερµηνείας επαφίεται στα προγράµµατα που χειρίζονται τη γλώσσα. Έτσι θα µπορούσε για παράδειγµα από λάθος να δηµιουργηθεί ο γράφος που φαίνεται στην εικόνα 9. Εικόνα 9 Γράφος RDF µε εσφαλµένου τύπου typed literal Στο γράφο ενώ δηλώνεται ότι ο τύπος δεδοµένων θα είναι integer δίνει µια τιµή που δε µπορεί να µετατραπεί στη µορφή αυτή. Τα προγράµµατα που δηµιουργούνται για την παραγωγή, ανταλλαγή και ερµηνεία της γλώσσας θα πρέπει να έχουν δηµιουργηθεί µε τρόπο που να αναγνωρίζουν τέτοια σφάλµατα. Σίγουρα η ορθή χρήση των typed literals παρέχει επιπλέον πληροφορίες για τη σωστή ερµηνεία των 21

παρουσιαζόµενων τιµών και συνεισφέρει σηµαντικά στην επέκταση προς το σηµασιολογικό ιστό. 3.3.4 RDF µε έκφραση XML (RDF/XML) Όπως έχει αναφερθεί ήδη, το εννοιολογικό µοντέλο του RDF αποτελεί ένα γράφο. Υπάρχουν όµως και άλλες δυνατές εκφράσεις της, κάποιες από τις οποίες έχουν ήδη αναλυθεί (τριάδες µε παραποµπές URI ή µε συντµήσεις τους) ενώ άλλες έχουν απλά αναφερθεί. Στην αναφορά που έγινε για τα στρώµατα του σηµασιολογικού ιστού, είχε αναφερθεί ότι το RDF στο σηµασιολογικό ιστό παίρνει τη µορφή XML, εκµεταλλευόµενο την αποδοχή και τις δυνατότητες της XML για την εξυπηρέτηση της ανάγκης για µετάδοση δεδοµένων µεταξύ προγραµµάτων. Το RDF για το σκοπό αυτό παρέχει ένα συντακτικό XML που ονοµάζεται RDF/XML. Εικόνα 10 Απλός γράφος RDF για µετατροπή σε RDF/XML Αν για παράδειγµα θωρηθεί ο απλός γράφος RDF της εικόνας 10, που δεν περιέχει typed literals, τo αρχείο RDF/XML που τον αναπαριστά θα ήταν ως εξής: 1. <?xml version="1.0"?> 2. <rdf:rdf xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 3. xmlns:exterms="http://www.example.org/terms/"> 4. <rdf:description rdf:about="http://www.example.org/index.html"> 5. <exterms:creation-date>august 16, 1999</exterms:creation-date> 6. </rdf:description> 7. </rdf:rdf> Με µια πρώτη µατιά φαίνεται ότι σίγουρα υπάρχει επιπλέων φόρτος και σίγουρα η απεικόνιση φαίνεται αρχικά πολύ πιο σύνθετη από εκείνη του γράφου ή της τριάδας URI. Όµως µε µια εξέταση του αρχείου γραµµή-γραµµή φαίνεται ότι η απεικόνιση δεν είναι και τόσο πολύπλοκη. Στη γραµµή 1 η ετικέτα <?xml version="1.0"?> είναι µια ετικέτα που µπαίνει σε κάθε αρχείο XML και υποδηλώνει την έκδοση XML που χρησιµοποιείται. Η γραµµή 2 περιέχει µια ετικέτα που ξεκινάει ως rdf:rdf που υποδηλώνει ότι πρόκειται για 22