Πολυτεχνική Σχολή. Τμήμα Μηχανικών Η/Υ & Πληροφορικής. Διπλωματική εργασία για την απόκτηση του μεταπτυχιακού διπλώματος ειδίκευσης στην

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Πολυτεχνική Σχολή. Τμήμα Μηχανικών Η/Υ & Πληροφορικής. Διπλωματική εργασία για την απόκτηση του μεταπτυχιακού διπλώματος ειδίκευσης στην"

Transcript

1 Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής ΕΝΝΟΙΟΛΟΓΙΚΟΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΣ ΤΗΣ ΑΝΑΖΗΤΗΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΔΑΝΑΗ ΒΕΡΓΕΤΗ Διπλωματική εργασία για την απόκτηση του μεταπτυχιακού διπλώματος ειδίκευσης στην Επιστήμη και Τεχνολογία των Υπολογιστών Σύμβουλος καθηγητής: Καθηγητής Ιωάννης Γαροφαλάκης Τριμελής Εξεταστική Επιτροπή Καθηγητής Ιωάννης Γαροφαλάκης Επικ. Καθηγητής Χρήστος Μακρής Αναπ. Καθηγητής Ιωάννης Χατζηλυγερούδης

2 2

3 Στη Μάχη, την Πούλια και την Ευαγγελία 3

4 4

5 Ευχαριστίες Θα ήθελα να ευχαριστήσω θερμά τον Καθηγητή κ. Ιωάννη Γαροφαλάκη για την πολύτιμη βοήθεια του και την άριστη συνεργασία μας. Τον ευχαριστώ, ιδιαίτερα, για όλες τις ευκαιρίες και την ενθάρρυνση που μου έχει προσφέρει αυτά τα δέκα χρόνια της συνεργασίας μας. Είναι ένας πραγματικός δάσκαλος. Του εύχομαι να συνεχίσει την ανοδική πορεία του με πολλές ακόμα επιτυχίες και πολλή δύναμη. Θα ήθελα να ευχαριστήσω τον Επίκουρο Καθηγητή κ. Χρήστο Μακρή και τον Αναπληρωτή Καθηγητή κ. Ιωάννη Χατζηλυγερούδη για τη συνεργασία μας στα πλαίσια της διπλωματικής εργασίας. Θα ήθελα, ακόμα, να ευχαριστήσω στην υποψήφια διδάκτωρ και φίλη Θεοδούλα Γιαννακούδη για την πολύτιμη καθοδήγηση και βοήθεια της σε όλη τη διάρκεια της εκπόνησης της διπλωματικής εργασίας. Τέλος, ένα μεγάλο ευχαριστώ στο φίλο και συνάδελφο Κωστή Περάκη για την υποστήριξη του. Τους εύχομαι κάθε ευτυχία και επιτυχία. 5

6 6

7 Περίληψη Tα τελευταία χρόνια, η εξάπλωση του διαδικτύου και το εύρος της πληροφορίας που διατίθεται στο χρήστη, καθιστούν αναγκαία τη χρησιμοποίηση σημασιολογικών τεχνικών προσωποποίησης, προκειμένου να βελτιώσουν την εμπειρία του χρήστη στο διαδίκτυο. Στις μηχανές αναζήτησης, οι χρήστες βελτιώνουν το επερώτημά τους με την προσθήκη, την αφαίρεση ή την αντικατάσταση των λέξεων. Παρ 'όλα αυτά, εκτός από την αλληλεπίδραση με μια μηχανή αναζήτησης, η εμπειρία ενός χρήστη στο διαδίκτυο κατά την αναζήτηση της σωστής πληροφορίας, περιλαμβάνει και την περιήγησή του σε σελίδες ενός δικτυακού τόπου ή μια σειρά από δικτυακούς τόπους. Κατά τη διάρκεια της συνεδρίας του, ο χρήστης αναδιαμορφώνει την αναζήτησή του. Ωστόσο, τόσο ο καθορισμός της σημασιολογίας της αναζήτησής του, όσο και ο προσανατολισμός της αναζήτησής του (γενίκευση ή εξειδίκευση σε ένα σημασιολογικό πεδίο) με βάση την πλοήγηση μέσα από τις σελίδες, δεν είναι τόσο εύκολοι. Κάθε σελίδα περιέχει περισσότερες από μία έννοιες. Επιπλέον, η επιλογή των αντιπροσωπευτικότερων είναι πολύπλοκη διαδικασία. Σκοπός της παρούσας εργασίας είναι η παρουσίαση της μεθοδολογίας SOSACT. Η μεθοδολογία SOSACT αποτελεί μια σημασιολογική μεθοδολογία εξατομίκευσης που παρακολουθεί τις επιλογές του χρήστη κατά τη συνεδρία του και καθορίζει αν ο χρήστης ειδικεύει ή γενικεύει την πλοήγηση του μέσα από τη σημασιολογική ανάλυση των σελίδων, σε ένα εννοιολογικό πεδίο. Η μεθοδολογία SOSACT ορίζει το σημασιολογικό προσανατολισμό της πλοήγησης του χρήστη. Επιπλέον, στην παρούσα εργασία προτείνεται ο αλγόριθμος SOSACT, ο οποίος εντοπίζει το σημασιολογικό προσανατολισμό του χρήστη με τη βοήθεια μίας ταξινομίας. Η μεθοδολογία SOSACT υλοποιείται από το σύστημα SOSACT. Το σύστημα SOSACT εφαρμόζει τον αλγόριθμο SOSACT και προτείνει χρήσιμες συστάσεις προς το χρήστη για τη βελτίωση της διαδικτυακής αναζήτησής του. Το σύστημα SOSACT αξιολογήθηκε με τη χρησιμοποίηση πραγματικής δραστηριότητας χρηστών σε μια ιστοσελίδα, για ορισμένο χρονικό διάστημα. Η μεθοδολογία SOSACT μπορεί να εφαρμοστεί και σε ένα σώμα κειμένων και όχι μόνο σε διαδικτυακές πηγές. Μπορεί να γίνει ένα χρήσιμο εργαλείο για τη βελτίωση της πλοήγησης στο διαδίκτυο. Επιπλέον, η προτεινόμενη μεθοδολογία μπορεί να γεφυρώσει τις τεχνικές αποσαφήνισης του επερωτήματος στις μηχανές αναζήτησης και τις τεχνικές αναδιαμόρφωσης του αντικειμένου περιήγησης. Η μεθοδολογία SOSACT θα μπορούσε να χρησιμοποιηθεί σε μια συγκριτική μελέτη μεταξύ των δύο αυτών τομέων και να οδηγήσει σε νέες τεχνικές και στις δύο περιοχές έρευνας του Σημασιολογικού Ιστού. 7

8 Abstract In recent years, the spread of the World Wide Web, as well as the range of information available to the user make the use of semantic personalization techniques a necessity in order to enhance the user experience on the web. In search engines, users refine their query by adding, removing or replacing the keywords in their query. Thus, query refinement is easy to be detected and tell whether a user generalizes or specializes his web search. Nevertheless, besides interaction with a search engine, a user web search involves browsing and navigating through the pages of a web site or a number of web sites while seeking the right information. During this session the user reformulates his search. But, defining search orientation (generalization or specialization) based on navigation through web pages is not that easy. Each page contains more than one concept. Furthermore, the concepts may be developed in the same extend and it is difficult to tell about the representative semantics of a certain page and thus a user session s orientation. In order to define user navigation s orientation a semantic web personalization methodology is developed, the SOSACT methodology, which tracks user s hits through a session and defines whether a user specializes or generalizes his navigation through semantics analysis of the pages in his session window. Moreover, the SOSACT algorithm is proposed of capturing user session orientation based on concept taxonomy. The SOSACT methodology is implemented by the SOSACT system. The SOSACT system applies the SOSACT algorithm and proposes useful recommendation to the user to improve his web search. The SOSACT system is evaluated on real user activity in a web site for a certain period of time. The experimental outcomes satisfied the prospective results. The SOSACT methodology could become a useful tool for navigation refinement. Furthermore, this work is proved to bridge search engine query refinement and browsing reformulation techniques. It could be a comparative study between these two fields and lead to new techniques in both areas or migration techniques between both areas. 8

9 Περιεχόμενα Ευχαριστίες... 5 Περίληψη... 7 Abstract... 8 Περιεχόμενα... 9 Εικόνες Πίνακες Εισαγωγή Σημασιολογικός Προσανατολισμός και βελτίωση αναζήτησης στο Διαδίκτυο Η μεθοδολογία SOSACT Τεχνολογίες Αιχμής Γενικά Ο Σημασιολογικός Ιστός Διασυνδεδεμένα Δεδομένα Η Οντολογία Η Ταξινομία Μαθηματική Θεμελίωση των Γλωσσών των Οντολογιών Λογική Πρώτου Βαθμού (First-order logic) Περιγραφική Λογική Λογική Πλαισίων (Frame Logic) Βασικές Γλώσσες Οντολογιών XML RDF RDFS OWL OWL Εργαλεία Ανάπτυξης Οντολογιών Σημασιολογική Επισήμανση Εργαλεία Σημασιολογικής Επισήμανσης Εργαλεία Χειροκίνητης Σημασιολογικής Επισήμανσης

10 Αυτόματη επισήμανση Περιβάλλοντα Ενσωματωμένης Επισήμανσης Επισήμανση κατόπιν αίτησης Αυτοματοποίηση Σημασιολογική Ομοιότητα Μέτρα σημασιολογικής ομοιότητας βασισμένες σε Οντολογία Μηχανές Αναζήτησης και Αναδιαμόρφωση Επερωτήματος Σημασιολογική Ομοιότητα βασισμένη στην Ιεραρχία των εννοιών Σημασιολογικά Συστήματα Παραγωγής Συστάσεων Σημασιολογικός Χαρακτηρισμός του Περιεχομένου των Σελίδων του Δικτυακού Τόπου Πλοήγησης του Χρήστη Γενικά Επισκόπηση της μεθοδολογίας του σημασιολογικού χαρακτηρισμού του περιεχομένου του δικτυακού τόπου πλοήγησης Διαχείριση του περιεχομένου του δικτυακού τόπου Οι πηγές περιεχομένου Επεξεργασία των πηγών περιεχομένου Μετρικές Σημαντικότητας των Όρων Μέθοδος Εξαγωγής Λέξεων-Κλειδιών Δημιουργία Ταξινομίας Κατασκευή της SOSACT Ταξινομίας Σημασιολογική Επισήμανση και Υπολογισμός Κυριαρχίας Εννοιών Η SOSACT τεχνική επισήμανσης Σημασιολογική Ομοιότητα Το Wordnet Το μέτρο ομοιότητας στη SOSACT μεθοδολογία Κυριαρχία Εννοιών Σχεδιασμός και Υλοποίηση του συστήματος SOSACT Γενικά Αρχιτεκτονική Συστήματος SOSACT Υποσύστημα Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου 82 10

11 Πηγές Πληροφορίας Υποσυστήματος Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου Λειτουργικές Υπομονάδες του Υποσυστήματος Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου Το Υποσύστημα Αλληλεπίδρασης Πραγματικού Χρόνου (ΥΑΠ) Πηγές Πληροφορίας Υποσυστήματος Αλληλεπίδρασης Πραγματικού Χρόνου Λειτουργικές Υπομονάδες Υποσυστήματος Αλληλεπίδρασης Πραγματικού Χρόνου Περιπτώσεις Χρήσης Περιπτώσεις Χρήσης Υποσυστήματος Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου Σημασιολογική Αντιστοίχιση των Σελίδων του Δικτυακού Τόπου Υπολογισμός Κυριαρχίας των Όρων της Ταξινομίας Περιπτώσεις Χρήσης Υποσυστήματος Αλληλεπίδρασης Πραγματικού Χρόνου με το χρήστη Παραγωγή Συστάσεων στον Τελικό Χρήστη Υπομονάδες Υπομονάδες Υποσύστηματος Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου Λεξικός Αναλυτής Περιεχομένου Αναλυτής Ταξινομίας Σημασιολογικός Σχολιαστής Υπομονάδες Υποσυστήματος Αλληλεπίδρασης Πραγματικού Χρόνου Υπομονάδα Διαχείρισης Συνόδου του Χρήστη Υπομονάδα Προσδιορισμού Προσανατολισμού της Συνόδου του Χρήστη Λειτουργικό Τμήμα Κατασκευής Μονοπατιών Λειτουργικό Τμήμα Παραγωγής Συστάσεων Πιλοτική εφαρμογή και Αξιολόγηση Το περιβάλλον διεπαφής του συστήματος SOSACT Παράδειγμα χρήσης του συστήματος SOSACT

12 6 Συμπεράσματα Προτεινόμενες Επεκτάσεις Παράρτημα H κλάση TaxonomyClassUnit Η υλοποίηση του Αναλυτή Ταξινομίας Η υλοποίηση του Σημασιολογικού Σχολιαστή Υλοποίηση του Λειτουργικού Συστήματος Κατασκευής Μονοπατιών Η κλάση PathLibrary Η κλάση ConceptPair Η κλάση Path Η υλοποίηση του Λειτουργικού Τμήματος Παραγωγής Συστάσεων Η κλάση OrientationIdentifier Η κλάση DirectionLibrary Η κλάση Direction Η κλάση RecommendUnit Αναφορές κεφαλαίου

13 Εικόνες Εικόνα 2.1 Διαδικασία DL συλλογισμού Εικόνα 2.2 Παράδειγμα βάσης γνώσης [19] Εικόνα 3.1 Βήματα Μεθοδολογίας Σημασιολογικού Χαρακτηρισμού του Περιεχομένου του Ιστοτόπου Πλοήγησης του Χρήστη Εικόνα Εξαγωγή απλού κειμένου από μία όψη σελίδας Εικόνα SOSACT Ταξινομία: Arts, Business Εικόνα SOSACT Ταξινομία: Education Εικόνα SOSACT Ταξινομία: Libraries, Maps, Museums Εικόνα SOSACT Ταξινομία: Person, Recreation Εικόνα SOSACT Ταξινομία: Regional Εικόνα SOSACT Ταξινομία: Society, Sports, Work Εικόνα 3.9 Παράδειγμα Χρήσης του WordNet Εικόνα 3.10 Παράδειγμα χρήσης του υποσυστήματος WordMatching Εικόνα 4.1 Τα δύο βασικά υποσυστήματα του SOSACT συστήματος Εικόνα 4.2 Αρχιτεκτονική Υποσυστήματος Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου Εικόνα 4.3 Αρχιτεκτονική Υποσυστήματος Αλληλεπίδρασης Πραγματικού Χρόνου Εικόνα 4.4 Λεξικός Αναλυτής Περιεχομένου Εικόνα 4.5 Λειτουργικά Τμήματα του Λεξικού Αναλυτή Περιεχομένου Εικόνα 4.6 Αναλυτής Ταξινομίας Εικόνα 4.7 Διαδικασία Μετατροπής της Ταξινομίας σε Αντικειμενοστρεφή Αναπαράσταση Εικόνα 4.8 Ορισμός και αρχικοποίηση του TaxonomyClassUnit Εικόνα 4.9 Σημασιολογικός Σχολιαστής Εικόνα 4.10 Λειτουργικά Τμήματα του Σημασιολογικού Σχολιαστή Εικόνα 4.11 Αρχιτεκτονική Λειτουργικού Τμήματος Υπολογισμού Σημασιολογικής Ομοιότητας Εικόνα 4.12 Λειτουργικό Τμήμα Υπολογισμού Κυριαρχίας Εννοιών Εικόνα 4.13 Υπομονάδα Διαχείρισης Συνόδου Εικόνα 4.14 Υπομονάδα Προσδιορισμού Προσανατολισμού της Συνόδου του Χρήστη Εικόνα 4.15 Αρχικός Γράφος Ταξινομίας Τ Εικόνα 4.16 Προβολή των Εννοιών στο Γράφο Τ Εικόνα 4.17 Αλγόριθμος εντοπισμού και της κατασκευής των ζευγών των Εννοιών του παραθύρου της Συνεδρίας του χρήστη - Φάση Α Εικόνα 4.18 Λογικό Διάγραμμα αλγορίθμου Φάσης Β

14 Εικόνα Αλγόριθμος εντοπισμού των μονοπατιών του παραθύρου της Συνεδρίας του χρήστη - Φάση Β Εικόνα 4.20 Λογικό διάγραμμα Φάσης Γ Εικόνα Αλγόριθμος κατασκευής των μονοπατιών των Εννοιών του παραθύρου αλληλεπίδρασης του χρήστη Εικόνα 4.22 Λογικό Διάγραμμα Φάσης Δ Εικόνα Αλγόριθμος κατασκευής των μονοπατιών των Εννοιών του παραθύρου αλληλεπίδρασης του χρήστη Εικόνα Εξειδίκευση και γενίκευση σε ένα μονοπάτι εννοιών του παραθύρου του χρήστη Εικόνα Περιβάλλον διεπαφής του συστήματος SOSACT Εικόνα Πλοήγηση στον δικτυακό τόπο Εικόνα Πλοήγηση στη σελίδα Education Εικόνα Υλοποίηση της κλάσης TaxonomyClassUnit Εικόνα Υλοποίηση του Αναλυτή Ταξινομίας Εικόνα Υλοποίηση του Σημασιολογικού Σχολιαστή Εικόνα Υλοποίηση του Λειτουργικού Συστήματος Κατασκευής Μονοπατιών Κλάση PathLibrary Εικόνα Υλοποίηση του Λειτουργικού Συστήματος Κατασκευής Μονοπατιών Κλάση ConceptPair Εικόνα Υλοποίηση του Λειτουργικού Συστήματος Κατασκευής Μονοπατιών Η κλάση Path Εικόνα Υλοποίηση του Λειτουργικού Συστήματος Παραγωγής Συστάσεων Η κλάση OrientationIdentifier Εικόνα Υλοποίηση του Λειτουργικού Συστήματος Παραγωγής Συστάσεων Η κλάση DirectionLibrary Εικόνα Υλοποίηση του Λειτουργικού Συστήματος Παραγωγής Συστάσεων Η κλάση Direction Εικόνα Υλοποίηση του Λειτουργικού Συστήματος Παραγωγής Συστάσεων Η κλάση RecommendUnit

15 Πίνακες Πίνακας Οι βασικές έννοιες της SOSACT ταξινομίας Πίνακας Ενέργειες Μετατροπής της Ταξινομίας σε Αντικειμενοστρεφή Αναπαράσταση Πίνακας Ζεύγη των Εννοιών του παραθύρου της Συνεδρίας του χρήστη

16 16

17 1 Εισαγωγή Ο αριθμός και η πολυπλοκότητα των πηγών στο Διαδίκτυο γνωρίζουν τεράστια ανάπτυξη τα τελευταία χρόνια. Όπως παρατηρούν οι Dai et al. [14], η Προσωποποίηση στο Διαδίκτυο περιλαμβάνει οποιαδήποτε δραστηριότητα στο διαδίκτυο προσαρμοζόμενη στις προτιμήσεις του χρήστη. Η Προσωποποίηση στο Διαδίκτυο αποτελεί ένα αξιόλογο εργαλείο στον εντοπισμό της έγκυρης πληροφορίας για το χρήστη. Η Προσωποποίηση στο Διαδίκτυο η οποία εμπλουτίζεται με τεχνικές Σημασιολογικής Εξόρυξης [39] παρέχει ακόμα περισσότερη αξιόπιστη πληροφορία, κοντά σε έννοιες και σημασιολογικές σχέσεις του πραγματικού κόσμου. Κοιτάζοντας βαθύτερα στη φύση της εμπειρίας του χρήστη στο διαδίκτυο, προκύπτει ότι η εμπειρία αυτή περιλαμβάνει συνήθως, την εύρεση μίας απάντησης σε ένα ερώτημα του χρήστη. Η εύρεση της απάντησης συνεπώς, περιλαμβάνει την ανάκτηση πληροφορίας από έναν αριθμό διαδικτυακών πηγών. Ο χρήστης ξεκινά την αναζήτηση του από ένα σημείο εκκίνησης και ερευνά το περιεχόμενο. Συνεχίζει την αναζήτησή του με διαδοχικά κλικ (clickthrough) σε ένα συγκεκριμένο σύνολο από διαδικτυακές σελίδες, μέχρι να καταλήξει στο κατάλληλο κείμενο το οποίο και σηματοδοτεί τον τελικό προορισμό του. Με μία περισσότερο κοντινή παρατήρηση, ο χρήστης μεταφέρεται σε διάφορες έννοιες του διαδικτυακού περιεχομένου, ή περνά από γενικότερες έννοιες σε περισσότερο εξειδικευμένες οι οποίες ανήκουν στο ίδιο πεδίο γνώσης. 1.1 Σημασιολογικός Προσανατολισμός και βελτίωση αναζήτησης στο Διαδίκτυο Ένας τρόπος προκειμένου να εκπληρωθεί η ανάγκη εύρεσης της κατάλληλης πληροφορίας στο διαδίκτυο, είναι η μετατροπή της ερώτησης σε ένα επερώτημα με λέξεις κλειδιά και η εισαγωγή του σαν είσοδος σε μία μηχανή αναζήτησης. Οι μηχανές αναζήτησης είναι ένα βασικό εργαλείο για τη λήψη ενός αριθμού υπερσυνδέσμων σε διαδικτυακές πηγές, βασισμένες σε ένα συγκεκριμένο αριθμό λέξεων κλειδιών. Οι μηχανές αναζήτησης χρησιμοποιούν τεχνικές εξόρυξης στο Σημασιολογικό Ιστό και τις ενσωματώνουν σε εξελιγμένους αλγορίθμους ανάκτησης πληροφορίας στο διαδίκτυο, προκειμένου να ενισχύσουν τα αποτελέσματα που επιστρέφονται με πληροφορία μεγαλύτερης εγκυρότητας. Κατά τη διάρκεια μίας αναζήτησης στο διαδίκτυο μέσω μίας μηχανής αναζήτησης, ο χρήστης βελτιώνει το επερώτημα του με την προσθήκη, την 17

18 παράλειψη ή την αντικατάσταση των λέξεων κλειδιών. Επομένως, η βελτίωση του επερωτήματος είναι ένας εύκολος τρόπος να εντοπιστεί εάν ο χρήστης γενικεύει ή εξειδικεύει την αναζήτηση του. Αλλά, τι συμβαίνει στην περίπτωση όπου ο χρήστης πλοηγείται σε μία διαδικτυακή σελίδα όπου δεν παρεμβάλλεται μία μηχανή αναζήτησης; Η εμπειρία του χρήστη στο Διαδίκτυο κατά την αναζήτηση της κατάλληλης πληροφορίας περιλαμβάνει την πλοήγησή του σε μία ιστοσελίδα ή σε έναν αριθμό ιστοσελίδων. Αυτές οι ιστοσελίδες ανήκουν σε έναν δικτυακό τόπο ο οποίος επιλέγεται κατόπιν πρωτοβουλίας του χρήστη. Συνεπώς, ανεξάρτητα από το σημείο εκκίνησης της αναζήτησής του, ο χρήστης συνεχίζει να βελτιώνει την αναζήτησή του μέσω των διαδοχικών σελίδων στις οποίες πλοηγείται. Η παρούσα εργασία επικεντρώνεται στον προσανατολισμό των εννοιών σε μία συνεδρία του χρήστη. Ο προσδιορισμός του εννοιολογικού προσανατολισμού της συνεδρίας του χρήστη περιλαμβάνει τη διάκριση μεταξύ της εννοιολογικής γενίκευσης και της εννοιολογικής ειδίκευσης της συνεδρίας του χρήστη. Πιο αναλυτικά, ο όρος εννοιολογική γενίκευση αναφέρεται στην περίπτωση όπου ο χρήστης γενικεύει την αναζήτησή του σε έννοιες γενικότερου περιεχομένου σε ένα συγκεκριμένο πεδίο γνώσης. Αντίθετα, ο όρος εννοιολογική ειδίκευση αναφέρεται στην περίπτωση όπου ο χρήστης εξειδικεύει την αναζήτησή του σε έννοιες εξειδικευμένου περιεχομένου σε ένα συγκεκριμένο πεδίο γνώσης. Η μετάβαση σε περισσότερο γενικές ή εξειδικευμένες έννοιες ορίζεται και ως βελτίωση πλοήγησης. 1.2 Η μεθοδολογία SOSACT Η παρούσα εργασία παρουσιάζει τη μεθοδολογία SOSACT (User Session Orientation Based on Semantic Analysis and Concept Taxonomy Προσανατολισμός της Συνεδρίας του Χρήστη Βασισμένος στη Σημασιολογική Ανάλυση και στην Ταξινομία Εννοιών). Η μεθοδολογία συλλαμβάνει τον προσανατολισμό της συνεδρίας του χρήστη με τη χρησιμοποίηση σημασιολογικής ανάλυσης και μίας ιεραρχίας εννοιών. Στα πλαίσια της μεθοδολογίας κατασκευάζεται ένα σύστημα το οποίο παρακολουθεί τη συνεδρία του χρήστη, παρατηρεί τον προσανατολισμό των εννοιών, προβλέπει τον τελικό προορισμό του χρήστη και προτείνει ένα σύνολο από σελίδες σχετικές με την έννοια του τελικού προορισμού αυτού. Η μέθοδος που αναπτύσσεται στην παρούσα εργασία, δεν απαιτεί ένα αρχικό σύνολο από λέξεις-κλειδιά, όπως στην περίπτωση των μηχανών αναζήτησης. Αντίθετα, η μέθοδος εφαρμόζεται σε διάφορους δικτυακούς τόπους, είτε αυτοί σχετίζονται με μία συγκεκριμένη εξειδικευμένη οντολογία πεδίου, είτε με μία 18

19 γενικότερη οντολογία, όπως στην περίπτωση των web portals, των wikis κλπ. Με τον τρόπο αυτό, η μέθοδος SOSACT απαλλάσσεται από πιθανή εσφαλμένη καθοδήγηση από το χρήστη, η οποία οφείλεται στην επιλογή ανακριβών λέξεωνκλειδιών. Εντούτοις, μπορεί να υιοθετηθεί από μηχανές αναζήτησης και δικτυακούς τόπους καθώς μπορεί να ενσωματώσει γνώση από διάφορα πεδία. Η στρατηγική αυτή ακολουθείται προκειμένου να αναπτυχθεί μία γενικότερη προσέγγιση η οποία δύναται να υιοθετηθεί από διάφορες τεχνικές αναζήτησης στο διαδίκτυο. Η παρούσα εργασία είναι μία προσπάθεια γεφύρωσης των τεχνικών βελτίωσης του επερωτήματος στις μηχανές αναζήτησης και των τεχνικών αναδιαμόρφωσης πλοήγησης. Επεκτείνει τον ορισμό της βελτίωσης του επερωτήματος στον ορισμό της βελτίωσης της πλοήγησης και αντίστροφα. Τέλος, μέσα από αυτή τη μετάβαση από το ένα πεδίο έρευνας στο άλλο, η παρούσα εργασία δημιουργεί νέες τεχνικές σε αυτές τις δύο περιοχές έρευνας. 19

20 20

21 2 Τεχνολογίες Αιχμής 2.1 Γενικά Το παρόν κεφάλαιο παρουσιάζει την τρέχουσα τεχνολογία αιχμής στα πεδία έρευνας που καλύπτει η μεθοδολογία SOSACT. Στις παρακάτω υποενότητες παρατίθενται αναλυτικά θεμελιώδεις και πρόσφατες εργασίες σχετικά με ευρείες έννοιες όπως ο Σημασιολογικός Ιστός και οι τελευταίες τάσεις της έρευνας και της τεχνολογίας στο χώρο αυτό, οι βασικές αρχές των Οντολογιών και των Ταξινομιών, καθώς και οι τεχνολογίες υλοποίησης τους. Παρουσιάζονται σχετικές εργασίες πάνω σε εξειδικευμένα ερευνητικά πεδία του Σημασιολογικού Ιστού, στα οποία δραστηριοποιείται και η SOSACT μεθοδολογία. Τα πεδία αυτά αφορούν στο πεδίο της αναδιαμόρφωσης του επερωτήματος σε μία μηχανή αναζήτησης, στο πεδίο των συστημάτων προσωποποίησης που χρησιμοποιούν σημασιολογική πληροφορία, στο πεδίο της σημασιολογικής ομοιότητας βάσει ιεραρχιών εννοιών και οντολογιών, καθώς και στο πεδίο του προσδιορισμού του σημασιολογικού πεδίου σε γενικευμένες ή εξειδικευμένες έννοιες. 2.2 Ο Σημασιολογικός Ιστός Όλες οι παραπάνω περιοχές έρευνας που αναφέρθηκαν ανήκουν στον ευρύ τομέα του Σημασιολογικού Ιστού, ο οποίος αποτελεί ένα σημαντικό κομμάτι της σύγχρονης Διαχείρισης της Γνώσης (Knowledge Management). Ο Σημασιολογικός Ιστός (Semantic Web) αποτελεί μία επέκταση του σημερινού Παγκόσμιου Ιστού, όπου οι πληροφορίες έχουν σαφώς ορισμένες έννοιες, διευκολύνοντας τους χρήστες και τους υπολογιστές να συνεργαστούν καλύτερα [2]. Ο Σημασιολογικός Ιστός φιλοδοξεί να μετατρέψει τον Παγκόσμιο Ιστό, ο οποίος αποτελείται από αδόμητα ή ημι-δομημένα κείμενα, σε ένα δίκτυο δεδομένων. Η βάση του Σημασιολογικού Ιστού είναι η περιγραφή των πηγών με τρόπο ο οποίος γίνεται κατανοητός από τις μηχανές. Οι περιγραφές αυτές υλοποιούνται με την επισήμανση των πηγών με μεταδεδομένα, οι οποίες αποτελούν τις «επισημάνσεις» για αυτή την πηγή. Ο Σημασιολογικός Ιστός οραματίζεται τεχνολογίες οι οποίες μπορούν να κάνουν δυνατή την παραγωγή «έξυπνων» κειμένων. Ένα «έξυπνο» κείμενο είναι ένα κείμενο το οποίο «γνωρίζει σχετικά» με το αντικείμενο του περιεχόμενο του, 21

22 ώστε οι αυτόματες διαδικασίες να «ξέρουν πώς να το αξιοποιήσουν» [60]. Τα μεταδεδομένα αποτελούν το «περιβάλλον» γύρω από το κείμενο. Η χρήση των μεταδεδομένων περιλαμβάνει τη διαχείριση της γνώσης για ένα κείμενο. Ο Σημασιολογικός Ιστός προτείνει την επισήμανση των κειμένων με τη χρήση σημασιολογικής πληροφορίας από Οντολογίες Πεδίου (domain ontologies). Το αποτέλεσμα περιλαμβάνει σελίδες με επισημάνσεις κατανοητές από τις μηχανές με τις οποίες μπορούν να αλληλεπιδράσουν οι σημασιολογικές υπηρεσίες και οι σημασιολογικοί εξυπηρετητές. Ο στόχος του Σημασιολογικού Ιστού είναι η δημιουργία σαφώς ορισμένων επισημάνσεων των οποίων η ερμηνεία βασίζεται σε μοντελο-θεωρητικούς ορισμούς, προκειμένου να επιτευχθεί η ορθή αλληλεπίδραση ανάμεσα σε αυτόν που επισημάνει και αυτόν που χρησιμοποιεί τις επισημάνσεις. Οι σαφείς σημασιολογικές επισημάνσεις αυξάνουν την πιθανότητα αποτελεσματικής διαλειτουργικότητας ανάμεσα σε ετερογενείς πηγές παρέχοντας μία γέφυρα κοινής σύνταξης, μεθόδων επεξεργασίας κ.α. 2.3 Διασυνδεδεμένα Δεδομένα Όπως αναφέρθηκε και στην προηγούμενη παράγραφο, ο Σημασιολογικός Ιστός είναι ένα Δίκτυο Δεδομένων. Οι τρέχουσες Σημασιολογικές Τεχνολογίες παρέχουν ένα περιβάλλον λειτουργίας, όπου οι εφαρμογές μπορούν να συλλέξουν δεδομένα με επερωτήματα, να εφαρμόσουν εξαρτήσεις ανάμεσα στα δεδομένα με τη χρήση λεξιλογίων κλπ. [71] Προκειμένου το Δίκτυο των Δεδομένων να γίνει μια πραγματικότητα, είναι σημαντικό η μορφή με την οποία βρίσκονται τα δεδομένα στο διαδίκτυο να είναι συγκεκριμένη και διαχειρίσιμη από τα Σημασιολογικά εργαλεία. Πιο συγκεκριμένα, εκτός από τα ίδια τα δεδομένα, οι σχέσεις τους μεταξύ τους πρέπει να είναι εξίσου διαθέσιμες. Αυτή η συλλογή των σχετιζόμενων συνόλων δεδομένων στο Διαδίκτυο, αποτελεί τα Διασυνδεδεμένα Δεδομένα. Η δημιουργία των Διασυνδεδεμένων Δεδομένων βασίζεται στην παροχή τεχνολογιών που αναγνωρίζουν μια κοινή μορφή (RDF) της πληροφορίας με στόχο τη μετατροπή των δεδομένων ή την πρόσβαση, σε πραγματικό χρόνο, στις βάσεις δεδομένων. Εξίσου σημαντική κρίνεται και η διάθεση των συνδέσμων επικοινωνίας (endpoints), προκειμένου να παρέχεται άμεση πρόσβαση στα δεδομένα. Το W3C παρέχει ένα σύνολο τεχνολογιών (RDF, GRDDL, POWDER, RDFa, R2RML, RIF, SPARQL) προκειμένου να υπάρχει πρόσβαση στα δεδομένα. Τα Διασυνδεδεμένα Δεδομένα αναφέρονται στην ενσωμάτωση και τη συλλογιστική (reasoning) των δεδομένων στο Διαδίκτυο, σε διάφορα επίπεδα πολυπλοκότητας. 22

23 Τα Διασυνδεδεμένα Δεδομένα διαθέτουν τέσσερις αρχές, σύμφωνα με τον Tim Berners Lee [70] οι οποίες είναι: Αναγνώριση των δεδομένων με URIs Χρησιμοποίηση των HTTP URIs Παροχή της πληροφορίας στο διαδίκτυο μέσω ενός URI και με τη μορφή RDF, RDFS και OWL Διάθεση συνδέσμων με σχετική πληροφορία (με τη χρήση URIs) κατά τη δημοσίευση δεδομένων στο Διαδίκτυο. 2.4 Η Οντολογία Ο ορισμός της Οντολογίας προτάθηκε το 1992 από τον Tom Gruber και διατυπώθηκε ως εξής: η οντολογία είναι ο ορισμός μίας εννοιολογικής σύλληψης. Στα πλαίσια της επιστήμης της πληροφορικής και των υπολογιστών, η Οντολογία ορίζει ένα σύνολο από αντιπροσωπευτικές αρχέγονες έννοιες οι οποίες μοντελοποιούν έναν τομέα γνώσης (domain knowledge) [37]. Η οντολογία είναι ένας τεχνικός όρος ο οποίος δηλώνει ένα αντικείμενο το οποίο σχεδιάζεται με σκοπό να θέσει ικανή τη μοντελοποίηση της γνώσης για κάποιο πεδίο πραγματικό ή φανταστικό. Οι έννοιες είναι, τυπικά, κλάσεις (class), χαρακτηριστικά (sets) και σχέσεις (relationships) μεταξύ των μελών μίας κλάσης. Οι ορισμοί μεταξύ των σχετιζόμενων εννοιών περιλαμβάνουν πληροφορία που αφορά το νόημα τους και περιορισμούς στην λογική και συνεπή εφαρμογή τους. Οι οντολογίες ορίζονται, τυπικά, από γλώσσες που επιτρέπουν την αφαίρεση από της δομές δεδομένων και στρατηγικές υλοποίησης και διαθέτουν εκφραστική δύναμη ώστε να τοποθετούνται στο «σημασιολογικό» επίπεδο, ενώ άλλα μοντέλα δεδομένων, όπως το σχήμα της Βάσης Δεδομένων, τοποθετούνται στο «λογικό» ή «φυσικό» επίπεδο. Η ανεξάρτητη φύση της οντολογίας από μοντέλα δεδομένων χαμηλότερου επιπέδου δίνει τη δυνατότητα για την ενσωμάτωση και τη διασύνδεση ετερογενών συστημάτων, καθώς και τον ορισμό διεπαφών μεταξύ ανεξάρτητων υπηρεσίων. Οι οντολογίες πεδίου για ένα δικτυακό τόπο, συνήθως, περιλαμβάνουν έννοιες, σχέσεις ανάμεσα στις έννοιες (ιεραρχίες εννοιών) και άλλες σχέσεις ανάμεσα στις έννοιες που ανήκουν στο πεδίο γνώσης που αναπαριστά ο δικτυακός τόπος. Για παράδειγμα, οι οντολογίες πεδίου ενός δικτυακού τόπου ο οποίος αναφέρεται στη λογοτεχνία, συνήθως περιλαμβάνει έννοιες όπως «βιβλίο», «συγγραφέας», «εκδοτικός οίκος» κλπ. Οι σχέσεις μεταξύ των εννοιών για το συγκεκριμένο πεδίο γνώσης είναι «έχει συγγράψει», «έχει εκδώσει» κλπ. 23

24 Η οντολογία ενός δικτυακού τόπου μπορεί να κατασκευαστεί με την εξαγωγή σχετικών εννοιών από το περιεχόμενο και τη δομή του δικτυακού τόπου [1] με τη βοήθεια τεχνικών εξόρυξης πληροφορίας στον Παγκόσμιο Ιστό (web mining). Ωστόσο, εκτός από τις έννοιες και τις σχέσεις που λαμβάνονται, εξίσου σημαντικές είναι και οι έννοιες που σχετίζονται με τη χρησιμοποίηση του δικτυακού τόπου. Η ενσωμάτωση σχέσεων βασισμένων στη χρησιμοποίηση οι οποίες αναπαριστούν τις βαθύτερες έννοιες και τα χαρακτηριστικά που ενσωματώνονται σε ένα δικτυακό τόπο επιτρέπει μία περισσότερο αποτελεσματική εξόρυξη γνώσης. Στα πλαίσια της Προσωποποίησης στο Διαδίκτυο και των Συστημάτων παραγωγής Συστάσεων, η χρησιμοποίηση σημασιολογικής γνώσης μπορεί να οδηγήσει σε βαθύτερη αλληλεπίδραση με τους χρήστες ενός δικτυακού τόπου. Η ενσωμάτωση της γνώσης πεδίου επιτρέπει σε τέτοια συστήματα να περιλαμβάνουν, επιπλέον, χρήσιμες συστάσεις προς τους χρήστες, βασισμένες σε πιο λεπτομερή χαρακτηριστικά των αντικειμένων και παρέχουν την δυνατότητα να εξηγήσουν τη συμπεριφορά των χρηστών. Η γνώση πεδίου μπορεί να ενσωματωθεί στη Εξόρυξη Γνώσης στο Διαδίκτυο με πολλούς τρόπους. Αυτό περιλαμβάνει τη χρησιμοποίηση σαφών οντολογιών πεδίου ή σημασιολογικά πεδίου τα οποία προέρχονται από το περιεχόμενο ή τη δομή του δικτυακού τόπου. Γενικά, η διαδικασία αυτή μπορεί να περιλαμβάνει τρεις σημαντικές δραστηριότητες: την ενσωμάτωση οντολογίας πεδίου, την κατασκευή της βάσης γνώσης και την ανακάλυψη προτύπων. Δημιουργία Οντολογίας Πεδίου Για μικρούς δικτυακούς τόπους με στατικές σελίδες, η κατασκευή μίας βάσης γνώσης μπορεί να γίνει χειροκίνητα ή με ημιαυτόματο τρόπο (πχ. Διανύσματα όρων και χρησιμοποίηση λεξιλογίου και εργαλείων επεξεργασίας φυσικής γλώσσας [38] ). Παρ όλ αυτά, η χειροκίνητη κατασκευή και διατήρηση οντολογιών πεδίου απαιτούν μεγάλη προσπάθεια, ιδιαίτερα για μεγάλους δικτυακούς τόπους με δυναμικό περιεχόμενο. Σε τέτοιες περιπτώσεις, η οντολογική πληροφορία μπορεί να εμπλουτιστεί από το σχήμα της βάσης δεδομένων ή από δομημένα αρχεία δεδομένων. Όταν δεν υπάρχει άμεση πηγή για την λήψη οντολογιών πεδίου, εφαρμόζονται τεχνικές εξόρυξης κειμένου και εκμάθησης μηχανών προκειμένου να εξαχθεί γνώση πεδίου από το περιεχόμενο ή τη δομή των σελίδων του Δικτυακού Τόπου. Οι τεχνικές αυτές περιλαμβάνουν ιεραρχικούς αλγόριθμους ομαδοποίησης για την κατασκευή ιεραρχίας εννοιών [1], ανάλυση εννοιών για την εξαγωγή ενός δικτύου εννοιών [58], εξαγωγή Κανόνων Συσχέτισης κλπ. Όλες αυτές οι 24

25 προσεγγίσεις στοχεύουν στην αυτόματη κατασκευή οντολογιών πεδίου Δικτυακών Τόπων κατανοητών από τις μηχανές. Το αποτέλεσμα αυτής της φάσης είναι ένα σύνολο από επίσημες οντολογίες πεδίου που αντιπροσωπεύουν τον Δικτυακό Τόπο. Η αναπαράσταση από οντολογίες πεδίου πρέπει να παρέχει κατανόηση από τη μηχανή, λογική και υπολογιστική αποτελεσματικότητα. Η επιλογή της γλώσσας αναπαράστασης της οντολογίας έχει άμεση επιρροή στην ευελιξία της φάσης εξόρυξης δεδομένων. Όμοιες προσεγγίσεις αναπαράστασης είναι διανυσματικά μοντέλα, περιγραφικές λογικές (DAML+OIL), λογική πρώτου βαθμού (first order logic), σχεσιακά μοντέλα και πιθανοτικά μοντέλα Markov. Η φάση αυτή δημιουργεί μία επίσημη αναπαράσταση των εννοιών και των σχέσεων μεταξύ τους. Όταν οι σχέσεις αυτές υποδηλώνουν ιεραρχία, τότε η οντολογία αυτή αποτελεί μία Ταξινομία. Η SOSACT οντολογία είναι μία ταξινομία όρων, η οποία κατασκευάστηκε χειροκίνητα, καθώς το μέγεθος του δικτυακού τόπου είναι περιορισμένο και σύμφωνα με τα παραπάνω επιτρέπει τη δημιουργία μίας οντολογίας από ανθρώπινες πηγές. Οι σχέσεις της ταξινομίας του δικτυακού τόπου δείχνουν την ιεραρχία μεταξύ των εννοιών Η Ταξινομία Ένα ελεγχόμενο λεξιλόγιο είναι μία λίστα από όρους. Όλοι οι όροι που ανήκουν στο λεξιλόγιο πρέπει να είναι να διαθέτουν έναν έγκυρο και σαφή ορισμό και να μην είναι αμφιλεγόμενοι. Η Ταξινομία είναι μία συλλογή από όρους ενός ελεγχόμενου λεξιλογίου οι οποίοι οργανώνονται σε μία ιεραρχική δομή. Κάθε όρος της ταξινομίας ανήκει σε μία σχέση γονέα-απογόνου με τους υπόλοιπους όρους της ταξινομίας. Μερικές ταξινομίες επιτρέπουν την πολυ-ιεαρχία, δηλαδή, την κατάσταση εκείνη όπου ένας όρος μπορεί να έχει πάνω από έναν γονείς. Η ιεραρχία των εννοιών που παρέχεται από την ταξινομία αποτελεί το βασικό δείκτη του σημασιολογικού προσανατολισμού της τρέχουσας συνόδου, στη SOSACT μεθοδολογία Μαθηματική Θεμελίωση των Γλωσσών των Οντολογιών Η παρούσα ενότητα αναφέρεται στη μαθηματική λογική και το θεωρητικό υπόβαθρο των γλωσσών αναπαράστασης μίας Οντολογίας/Ταξινομίας. Γενικά, η Λογική αποτελείται από τρία μέρη [19] : 25

26 I. Η σύνταξη του τυπικού συστήματος (formal system) είναι μια γραμματική που ορίζει τις σαφώς ορισμένες (well-formed) φόρμουλες. II. Η σημασιολογία της γλώσσας εκφράζει το νόημα της φόρμουλας, δεδομένου του νοήματος των βασικών στοιχείων, όπως είναι η συνάρτηση και τα κατηγορήματα. III. Η απόδειξη της θεωρίας είναι ένα σύνολο από κανόνες. Ένας συμπερασματικός κανόνας είναι δυνατόν να εξάγει μία νέα φόρμουλα από μία ή περισσότερες βασικές φόρμουλες (αξιώματα). Η σημασία μίας φόρμουλας ικανοποιείται βάσει μίας δοθείσης ερμηνείας. Μια φόρμουλα ικανοποιείται εφόσον υπάρχει μία ερμηνεία η οποία ισχύει. Μία φόρμουλα είναι έγκυρη εφόσον ισχύει για κάθε ερμηνεία. Μία τέτοια φόρμουλα ονομάζεται αναλυτική πρόταση ή ταυτολογία. Η απόδειξη μίας φόρμουλας από ένα σύνολο από αξιώματα είναι μία ακολουθία από φόρμουλες στις οποίες κάθε στοιχείο είναι είτε ένα αξίωμα, είτε εξάγεται από ένα υποσύνολο προηγούμενων στοιχείων. Μία διαδικασία εξαγωγής καλείται αληθής εφόσον διαθέτει μόνο λογικά συμπεράσματα (consequence): αν η φόρμουλα είναι ένα λογικό συμπέρασμα ενός συνόλου αξιωμάτων, S, εφόσον σε κάθε ερμηνεία για την οποία ισχύει το S, ισχύει και το. Μία διαδικασία εξαγωγής είναι πλήρης εφόσον διαθέτει μία απόδειξη για κάθε συμπέρασμα των αξιωμάτων. Υπάρχουν δύο βήματα εξαγωγής σε μία βάση γνώσης: η εύρεση όλων των συμπερασμάτων ενός συνόλου αξιωμάτων ή η επιλογή εάν μία δεδομένη φόρμουλα είναι ένα λογικό συμπέρασμα της βάσης γνώσης Λογική Πρώτου Βαθμού (First-order logic) Η Λογική Πρώτου βαθμού είναι γνωστή σαν τη γλώσσα των μαθηματικών, καθώς αποτελεί τη βάση αρκετών γλωσσών των επιστημών. Η Λογική Πρώτου Βαθμού αποτελείται από τα παρακάτω τρία μέρη: 1. Όλα τα πιθανά λογικά και μη λογικά σύμβολα αποτελούν το αλφάβητο της γλώσσας. Τα λογικά σύμβολα περιλαμβάνουν τα σημεία στίξης, τους λογικούς συνδέσμους (άρνηση (-), τομή ( ), ένωση ( ), ο καθολικός και υπαρξιακός ποσοδείκτης &, το σύμβολο της ισότητας (=) και οι μεταβλητές. Οι λογικοί σύνδεσμοι και τα σύμβολα επιτρέπουν την κατασκευή σύνθετων προτάσεων. Τα μη λογικά σύμβολα είναι τα σχεσιακά σύμβολα (συνάρτηση, κατηγόρημα). Κάθε ένα από αυτά σχετίζεται με ένα πλήθος το οποίο καθορίζει τον αριθμό των παραμέτρων που μπορεί να πάρει αυτό το σύμβολο. 26

27 2. Οι όροι παράγονται με την αναδρομική εφαρμογή των ακόλουθων κανόνων για έναν πεπερασμένο αριθμό φορών: Οι σταθερές και οι μεταβλητές είναι όροι. Αν F είναι μια συνάρτηση με n παραμέτρους και t1,t2,..,tn είναι όροι, τότε το F(t1,t2,..,tn) είναι όρος. Συμπερασματικά, οι φόρμουλες είναι σειρές συμβόλων πεπερασμένου μήκους που αναφέρονται σε αντικείμενα του πραγματικού κόσμου. 3. Οι φόρμουλες είναι επίσης σειρές συμβόλων πεπερασμένου μήκους και παράγονται από τα ακόλουθα βήματα: Αν P είναι ένα σχεσιακό σύμβολο με με n παραμέτρους και τα t1,t2,..,tn είναι όροι, τότε το P(t1,t2,..,tn) είναι μια φόρμουλα, τα οποία ονομάζονται και ατομικές φόρμουλες. Αν τα t1 και t2 είναι όροι, τότε το t1=t2 είναι μία φόρμουλα. Αν τα and είναι φόρμουλες, τότε τα,,,, είναι φόρμουλες. Αν το α είναι μία φόρμουλα και το x είναι μία μεταβλητή, τότε τα x και x είναι φόρμουλες. Οι όροι και οι φόρμουλες είναι τα μικρότερα σύνολα τα οποία ικανοποιούν τον αναδρομικό ορισμό που αναφέρεται παραπάνω Περιγραφική Λογική Οι Περιγραφικές Λογικές (Description Logics, DLs) είναι μία οικογένεια φορμαλισμών αναπαράστασης γνώσης η οποία σχεδιάστηκε για την αναπαράσταση και την απόδειξη της τεχνολογικής γνώσης. Ορίστηκε σαν την επέκταση σε frame συστήματα και σημασιολογικά δίκτυα, τα οποία δε διέθεταν επίσημη λογική σημασιολογία. Οι Περιγραφικές Λογικές χρησιμοποιούν λογική σημασιολογία η οποία προκύπτει από μετάφραση λογικής πρώτου βαθμού. Οι γλώσσες αυτές είναι υποσύνολο της λογικής Πρώτου Βαθμού και η απόφαση είναι το βασικό τους χαρακτηριστικό. Αυτό σημαίνει ότι υπάρχουν αλγόριθμοι που αποφασίζουν αν μια δεδομένη DL φόρμουλα ικανοποιείται σε ένα πεπερασμένο αριθμό βημάτων. 27

28 Knowledge Base T-Box A-Box Goals, Queries Reasoner Results, Answers Εικόνα 2.1 Διαδικασία DL συλλογισμού Η παραπάνω εικόνα (Εικόνα 2.1) αναπαριστά την τυπική κατασκευή της ενός συστήματος αναπαράστασης DL γνώσης, Κάθε βάση DL γνώσης αποτελείται από δύο μέρη, το TBox και το ABox. To TBox εισάγει την ορολογία, το λεξιλόγιο ενός τομέα εφαρμογής: έννοιες και ρόλους οι οποίοι αντιστοιχούν σε μοναδικές και δυικές σχέσεις της Λογικής Πρώτου Βαθμού. Κατά συνέπεια υπάρχουν δύο τύποι αξιωμάτων που αφορούν την ορολογία, τα αξιώματα των ρόλων και τα αξιώματα των εννοιών. Ένα ABox περιλαμβάνει ισχυρισμούς σύμφωνους με το TBox. Εικόνα 2.2 Παράδειγμα βάσης γνώσης [19] Η παραπάνω εικόνα δίνει ένα απλό παράδειγμα μίας γραφικής αναπαράστασης μερικών ισχυρισμών του TBox. Τα ορθογώνια αναπαριστούν τις έννοιες και οι ρόμβοι αναπαριστούν τους ρόλους: Ένας παραγωγός (producer) προμηθεύει με προϊόντα (products) τον διανομέα (distributor), έτσι ο τομέας του ρόλου των προμηθειών είναι ο παραγωγός, και το εύρος του είναι ο διανομέας. Οι παραγωγοί μπορούν να πιστοποιηθούν (certifies) με πιστοποιητικά (certification), 28

29 τα οποία έχουν έναν τύπο και ορίζονται (set out) από έναν ελεγκτή (auditor). Η OWL φόρμα της βάσης γνώσης αναπαρίσταται παρακάτω. Τα επερωτήματα μεταφράζονται από τον reasoner, ο οποίος αποτελεί τη λογική μονάδα του συστήματος αναπαράστασης γνώσης. Ένα TBox είναι έγκυρο εφόσον έχει ένα μοντέλο. Ένα επόμενο βήμα είναι ο έλεγχος εάν μια δοθείσα έννοια ικανοποιείται βάσει ενός TBox. Κάτι τέτοιο ισχύει εφόσον υπάρχει ένα μοντέλο το οποίο ικανοποιεί τα αξιώματα του TBox στα οποία μία δοθείσα έννοια δεν είναι κενή. Ένα ακόμα πιο πολύπλοκο πρόβλημα είναι ο έλεγχος της συνοχής του TBox. Ένα TBox διαθέτει συνοχή αν κάθε ατομική έννοια ικανοποιείται. Οι σχέσεις μεταξύ των εννοιών μπορεί να είναι η ακόλουθη: περίληψη, ισότητα και ασυνέχεια. Ο συνήθης αλγόριθμος που ελέγχει εάν η μία έννοια ικανοποιείται βασίζεται σε μία μέθοδο δένδρου αληθείας. Αυτή η διαδικασία κατασκευάζει ένα μοντέλο για μία έννοια, σε ένα πλήρη τρόπο Λογική Πλαισίων (Frame Logic) Η Λογική Πλαισίων (Frame Logic, F-Logic) είναι ένας φορμαλισμός ο οποίος είναι κατάλληλος για τον ορισμό, την εξαγωγή και τη χρήση ενός σχήματος Βάσης Δεδομένων [30]. Αναπαριστά, συντακτικά και σημασιολογικά αντικειμενοστρεφείς έννοιες. Ένας μικρός αριθμός θεμελιωδών εννοιών οι οποίες προκύπτουν τον αντικειμενοστρεφή προγραμματισμό, έχουν άμεση αναπαράσταση σε F-Logic. Η F-Logic αποτελεί επέκταση της FOL και περιλαμβάνει την περιγραφή των κλάσεων, των αντικειμένων και των μεθόδων, αλλά όπως και στη FOL τα θεμελιώδη δομικά στοιχεία της είναι οι όροι που συντίθενται από συναρτήσεις συμβόλων, σταθερές και μεταβλητές. Οι επεκτάσεις διαφοροποιούν τη σύνταξη, όπως και τη σημασιολογία, αλλά οι περισσότερες επεκτάσεις μπορούν να αντιστοιχηθούν σε σημασιολογικά πρώτου βαθμού [40]. Η F-Logic είναι μία επεκτάσιμη λογική, καθώς μπορεί να συνδυαστεί με λογικές αναπαράστασης γνώσης όπως η HiLog, η Transaction Logic και η Επισημασμένη Κατηγορηματική Λογική (Annotated Predicate Logic) [30]. Η F-Logic χτίζεται γύρω από την έννοια του αντικειμένου. Δεν υπάρχει διάκριση ανάμεσα στις κλάσεις και στα μεμονωμένα αντικείμενα: και τα δύο ανήκουν στον ίδιο τομέα. Στην πιο βασική της έκδοση η F-Logic δεν κάνει διάκριση ανάμεσα στα σύνθετα αντικείμενα και στις ατομικές τιμές Βασικές Γλώσσες Οντολογιών Η παρούσα ενότητα παρουσιάζει συνοπτικά τις βασικές γλώσσες Οντολογιών, σύμφωνα με τις λογικές που αναφέρθηκαν στις προηγούμενες παραγράφους. 29

30 XML Η XML(Extensible Markup Language) σχεδιάστηκε αρχικά, για την αναπαράσταση των δομημένων κειμένων. Παρέχει ένα συντακτικό πλαίσιο εργασίας για συγκεκριμένους τύπους κειμένων, χωρίς να επιβάλλει σημασιολογικούς περιορισμούς στο περιεχόμενο τους. Η XML ανήκει σε μία κλάση Γλωσσών Επισήμανσης (markup) οι οποίες επιτρέπουν την εισαγωγή δομημένης πληροφορίας σε κείμενο. Για παράδειγμα, ένα μέρος του κειμένου περικλείεται από συγκεκριμένα σημεία επισήμανσης τα οποία δηλώνουν ότι το κείμενο που περιλαμβάνουν αντιπροσωπεύει ένα όνομα, μία διεύθυνση ή ένα τηλέφωνο. Η XML είναι μία ευρέως διαδεδομένη μετα-γλώσσα η οποία ακολουθεί το W3C στάνταρτ, το οποίο χρησιμοποιείται για την περιγραφή και τον ορισμό άλλων γλωσσών. Ένα κείμενο XML είναι ένα κείμενο το οποίο αποθηκεύει δεδομένα με ένα πρότυπο τρόπο. Τα δυο βασικά δομικά στοιχεία ενός XML κειμένου είναι τα στοιχεία (elements) και τα χαρακτηριστικά (attributes). Ένα element αποτελείται από τρία μέρη: την αρχική ετικέτα, τα δεδομένα και την τελική ετικέτα. Κάθε κείμενο έχει την πρωταρχική ετικέτα, αλλά. δεν υπάρχουν προκαθορισμένες ετικέτες, όπως στην HTML. Το element είναι σύνθετο εφόσον περιέχει και άλλα elements. Αντίθετα, όταν περιέχει μόνο κείμενο αποτελεί ένα απλό element. Ένα element μπορεί να είναι κενό, ή μεικτό. Ένα κείμενο XML ορίζει ένα δένδρο, συνεπώς, ένα κείμενο δεν παρέχει, μόνο, τα elements και το περιεχόμενο του, αλλά και την ιεραρχία του. Ένα element μπορεί να κατηγοριοποιηθεί από χαρακτηριστικά (attributes). Η τιμή ενός attribute μπορεί να είναι μία ατομική τιμή (κείμενο ή αριθμός). Το πλήθος των attributes που ανήκουν σε ένα κείμενο είναι απεριόριστο. Ένα element θεωρείται σύνθετο εφόσον περιέχει attributes. Η XML επιτρέπει την εμφωλευμένη επισήμανση και, συνεπώς, την αναπαράσταση ιεραρχικών δομών, όπως παρακάτω: <person> <name><first>joe</first><last>doe</last></name> e> <telephone><areacode>123</areacode><number> </number></telephon <address>...</address>... </person> Τα attributes και τα elements είναι μοναδικά σε ένα XML κείμενο. Κατά την ενοποίηση XML κειμένων, συνεπώς, υπάρχει πιθανότητα να συμβούν 30

31 συγκρούσεις ονομάτων, καθώς, τα κείμενα, πιθανόν, να έχουν κοινά ονόματα elements και attributes. Κάτι τέτοιο μπορεί να αποφευχθεί με τη χρησιμοποίηση ενός προθέματος (prefix). Τα ονόματα αυτά ονομάζονται παγκόσμια (universal). Ένα πρόθεμα είναι ένα URI το οποίο είναι ένα συγκεκριμένο κείμενο, το οποίο συνήθως ανήκει σε ένα πρόσωπο ή οργανισμό. Ένα URI, συνήθως είναι μεγάλο σε μέγεθος, συνεπώς, σε ένα XML, χρησιμοποιείται ένα μικρότερο κείμενο και ένα namespace το οποίο αναλαμβάνει τη σύνδεση με το prefix. Ένα namespace έχει μία εμβέλεια: είναι ορατό μέσα στο element, όπου αυτό ορίζεται. Το πλεονέκτημα της XML είναι ότι παρέχει μια πρότυπη αναπαράσταση ανάμεσα στους διακομιστές. Με το μηχανισμό των XML namespaces, είναι δυνατόν να περιληφθούν περιγραφές γραμμένες σε διαφορετικές XML γλώσσες στο ίδιο κείμενο, χωρίς τον κίνδυνο για συγκρούσεις. Ακόμα, η γλώσσα του XML schema επιτρέπει μία λεπτομερή περιγραφή των προδιαγραφών της δομής του XML κειμένου, περιλαμβάνοντας τα μηνύματα SOAP που χρησιμοποιούνται στην κλήση των web services. Η ιεραρχική δομή των XML κειμένων δεν αρκεί για την αναπαράσταση και τη χρησιμοποίηση της πληροφορίας. Ένα XML κείμενο, συνοδεύεται από ένα δεύτερο κείμενο το οποίο περιγράφει το πώς μπορεί να γίνει η διαχείριση του XML κειμένου. Οι γλώσσες XSLT, XPath, XSL-FO ανήκουν σε μία κοινή οικογένεια, την οικογένεια Extensive Stylesheet Language, και είναι κατάλληλες για την περιγραφή της αναζήτησης και διαμόρφωσης XML κειμένων, για την αναπαράσταση τους σε μία αναγνώσιμη μορφή από τους ανθρώπους. Η κύρια ιδέα είναι ο διαχωρισμός της πληροφορίας και της εμφάνισης της. Ένα από τα πιο σημαντικά χαρακτηριστικά της XML είναι ότι μπορεί να επαληθευτεί εάν ένα κείμενο είναι ένα στιγμιότυπο μίας δεδομένης γλώσσας. Η στάνταρτ περιγραφή της γραμματικής της γλώσσας (DTD) είναι απαραίτητη προκειμένου να εντοπιστεί κάτι τέτοιο. Τα DTDs και τα XML schemas παρέχουν μία περιγραφή των πιθανών στοιχείων και χαρακτηριστικών που επιτρέπονται σε ένα XML κείμενο και περιγράφουν το περιεχόμενο και τη σχέση ανάμεσα τους. Συνεπώς, αν υπάρχει ένα XML schema και ένα κείμενο μπορεί να αποσαφηνιστεί εάν ένα κείμενο είναι ένα στιγμιότυπο ενός schema. Συνεπώς, οι εφαρμογές επεξεργασίας δεδομένων μπορούν να είναι πιο απλές και αξιόπιστες. Η XML αποτελεί μία μορφή ανταλλαγής πληροφορίας για αρκετές γλώσσες όπως η UML, η OWL κλπ RDF Το RDF (Resource Description Framework) εξυπηρετεί στην προσθήκη σημασιολογίας σε ένα κείμενο, ανεξάρτητα από τη δομή του. Είναι ένα W3C 31

32 στάνταρντ και στοχεύει στην αναπαράσταση μεταδεδομένων για web based πηγές. Η βασική ιδέα των RDF γλωσσών είναι η διασύνδεση των πηγών που εντοπίζονται με URI με άλλες πηγές ή απλά με απλό κείμενο, με τη χρησιμοποίηση ιδιοτήτων. Το RDF χρησιμεύει στην περιγραφή δυαδικών σχέσεων ανάμεσα σε αντικείμενα. Συνεπώς, οι RDF διατυπώσεις, γνωστές και ως τριπλέτες, αποτελούνται από ένα υποκείμενο, ένα κατηγόρημα και ένα αντικείμενο. Μϊα RDF περιγραφή είναι ένα σύνολο από τριπλέτες. Η έννοια μίας περιγραφής είναι ότι οι διατυπωσεις που περιέχει είναι αληθείς. Οι RDF τριπλέτες μπορούν να κατασκευάσουν ένα γράφο όπου οι κόμβοι αναπαριστούν τα υποκείμενα και τα αντικείμενα, ενώ οι ακμές αναπαριστούν τα κατηγορήματα. Όμοιες πηγές, δηλαδή, αυτές που αναφέρονται στο ίδιο URI, αναπαρίστανται από τον ίδιο κόμβο. Ο RDF γράφος μπορεί να περιέχει κενούς κόμβους που αναπαριστούν πηγές με τις οποίες δε συσχετίζεται κανένα URI., καθώς, ενδέχεται να μην είναι γνωστά τη δεδομένη στιγμή. Οι κενοί κόμβοι χρησιμοποιούνται συχνά για να αποδώσουν δομημένα τη δεδομένη πληροφορία. Η RDF γλώσσα έχει πολλαπλές αναπαραστάσεις, ανάμεσα στις οποίες η XML μορφή είναι η ευρύτερα διαδεδομένη. Στην RDF γλώσσα, οι μη δυαδικές σχέσεις μπορούν να αναπαρασταθούν με τη χρησιμοποίηση της ιδιότητας rdf:value. Η ιδιότητα rdf:type αναφέρεται στο στιγμιότυπο μίας RDF κλάσης. Η απλοποιημένη XML μορφή ενός στιγμιότυπου, έχει το πλεονέκτημα ότι μοιάζει με τη σύνταξη της XML αναπαράστασης. Η RDF γλώσσα έχει μερικές ιδιότητες οι οποίες μπορούν να χρησιμοποιηθούν στη δημιουργία στιγμιότυπων. Μία από τις ενσωματωμένες κλάσεις, για παράδειγμα, περιλαμβάνει τα στιγμιότυπα διατυπώσεων υψηλότερης τάξης. Μία RDF διατύπωση καλείται υψηλότερης τάξης εάν αναφέρεται σε μία άλλη διατύπωση. Προκειμένου να πραγματοποιηθεί κάτι τέτοιο, η διατύπωση πρέπει να μοντελοποιηθεί σαν μία συγκεκριμένη πηγή. Η διαδικασία αυτή αποκαλείται πραγματοποίηση και η συγκεκριμένη πηγή είναι μία πραγματοποιημένη διατύπωση. Η RDF γλώσσα υποστηρίζει τη χρήση τριών τύπων κλάσεων, που αναγνωρίζονται από τα εξής URIs: rdf:bag, rdf:seq και rdf:alt. Η RDF γλώσσα δίνει τη δυνατότητα να περιγραφεί ένα σύνολο από πηγές το οποίο είναι κλειστό, δηλαδή, περιλαμβάνει μόνο τα διαθέσιμα στοιχεία (elements). Ένα τέτοιο σύνολο αποκαλείται RDF συλλογή, η οποία στην πραγματικότητα, είναι μία λίστα. 32

33 Η μετά-πληροφορία μπορεί να περιγραφή με τη χρήση του RDF schema (RDFS), το οποίο αποτελεί σημαντικό ρόλο σε αρκετές εφαρμογές. Ανάμεσα σε αυτές είναι και το Open Directory Project, του οποίου τα δεδομένα μπορούν να ληφθούν σε RDF μορφή, και πάνω στο οποίο βασίστηκε η ανάπτυξη της Ταξινομίας της παρούσας εργασίας. Το RSS είναι μία από τις ευρέως διαδεδομένες μορφές του web-based syndication και είναι υλοποιημένο είτε σε XML είτε σε RDF. Το RDF ορίστηκε, αρχικά, για την αναπαράσταση της μετά-πληροφορίας των Διαδικτυακών Πηγών. Ένα RDF κείμενο δεν είναι μία ιεραρχία αλλά μία συλλογή τριπλέτων οι οποίες μπορούν να αναπαραστήσουν έναν κατευθυνόμενο γράφο με ετικέτες. Το πλεονέκτημα του RDF έναντι στην XML είναι ότι υποστηρίζει την ιδέα συλλογής πληροφορίας από πολλαπλές πηγές στον Παγκόσμιο Ιστό και περιλαμβάνει επιπλέον πληροφορία RDFS Η RDF γλώσσα δεν είναι από μόνη της αρκετή να υποστηρίξει τη λογική που εφαρμόζεται κατά τα επερωτήματα στον Παγκόσμιο Ιστό, καθώς είναι δύσκολο να διατυπωθεί μία μετα-γλώσσα. Για παράδειγμα, η χρησιμοποίηση της απλής RDF δε μπορεί να δώσει αποτελέσματα στην αναζήτηση φίλων κάποιου, όταν η αναζήτηση λαμβάνει χώρα στις γνωριμίες του. Και αυτό γιατί το σύστημα που εκτελεί την αναζήτηση δε γνωρίζει ότι οι φίλοι γνωρίζονται μεταξύ τους. Το πρόβλημα λύνεται με τη χρησιμοποίηση του RDF Schema (RDFS), το οποίο εμπλουτίζει το βασικό RDF μοντέλο, με την παροχή ενός RDF λεξιλογίου, το οποίο περιλαμβάνει μία σημασιολογία. Συνεπώς, το νόημα μίας πηγής γίνεται περισσότερο συγκεκριμένο με την τυπική περιγραφή των σχέσεων που υπάρχουν μεταξύ των εννοιών. Σε μία πρώτη ματιά το RDF schema μοιάζει σαν ένα σύνολο κάποιων επιπλέον πηγών, με σαφή ερμηνεία, οι οποίες προστίθενται στο λεξιλόγιο του RDF. Οι πηγές αυτές μπορούν να χρησιμοποιηθούν σε RDF διατυπώσεις. Συνεπώς, δεν εισάγεται μία νέα γλώσσα, αλλά χρησιμοποιείται η σημειογραφία του RDF. Οι χρήστες μπορούν να ορίσουν τις δικές τους RDF κλάσεις και να θέσουν ιεραρχικές σχέσεις ανάμεσα τους. Μία κλάση ορισμένη από το χρήστη μπορεί να οριστεί με την κλάση rdfs:class, η οποία μπορεί να θεωρηθεί η υπερκλάση όλων των κλάσεων. Η ιδιότητα rdfs:subclassof ορίζει ότι μία κλάση Α είναι υποκλάση μίας κλάσης Β. Η κλάση rdf:property ορίζει μία ιδιότητα. Όμοια με τις κλάσεις, το RDF schema μπορεί να ορίζει ιεραρχικές σχέσεις μεταξύ των ιδιοτήτων, μέσω τις ιδιότητας rdfs:subpropertyof. Το RDF schema, επίσης, υποστηρίζει την περιγραφή των σχέσεων ανάμεσα σε κλάσεις και ιδιότητες. Δηλαδή, με τη χρησιμοποίηση των 33

34 schemas ο χρήστης μπορεί να περιγράψει τον τομέα και το εύρος των ιδιοτήτων. Η πληροφορία μπορεί να χρησιμοποιηθεί για έλεγχο της συνέπειας, της λογικής ή την ενίσχυση της ευφυΐας ενός RDF editor. Οι έννοιες που χρησιμοποιούνται από ένα RDF schema εμφανίζουν ομοιότητες με τις αντικειμενοστρεφείς γλώσσες. Οι RDF ιδιότητες, διαθέτουν ένα ενδιαφέρον χαρακτηριστικό: συνδέονται με μία πηγή κατά το χρόνο εκτέλεσης. Σε αντικειμενοστρεφή συστήματα, ο ορισμός μίας κλάσης περιλαμβάνει όλα τα χαρακτηριστικά των αντικειμένων τα οποία δημιουργούνται από ένα στιγμιότυπο της κλάσης. Αντίθετα, στον κόσμο του RDF, μία ιδιότητα ορίζεται βάσει των κλάσεων που εφαρμόζεται, ενώ μία κλάση ορίζεται βάσει των χαρακτηριστικών των στοιχείων της. Όλα αυτά δείχνουν ότι γλώσσες που υποστηρίζουν ιδιότητες, όπως το RDF schema, μπορούν να ενσωματώσουν τη φιλοσοφία του Σημασιολογικού Δικτύου OWL Η γλώσσα OWL (Web Ontology Language) κατασκευάζεται βάσει ενός RDF και RDF schema και προσθέτει περισσότερο λεξιλόγιο για την περιγραφή των ιδιοτήτων και των κλάσεων, όπως οι σχέσεις ανάμεσα στις κλάσεις, ο πληθάριθμος, η ισότητα, οι ιδιότητες των κλάσεων κλπ. Για παράδειγμα, η OWL περιγραφή της βάσης γνώσης που παρουσιάστηκε παραπάνω, είναι ως εξής: <owl:class rdf:id="monitor"> <rdfs:subclassof> <owl:class rdf:id="product"/> </rdfs:subclassof> </owl:class> <owl:objectproperty rdf:id="supplies"> <rdfs:range rdf:resource="#distributor"/> <rdfs:domain rdf:resource="#producer"/> </owl:objectproperty> Η ανάπτυξη της OWL γλώσσας οφείλεται στις αδυναμίες του RDF schema. Ωστόσο, η OWL γλώσσα, διατηρεί το βασικό χαρακτηριστικό του RDF schema: είναι ένα σύνολο από πηγές. Κατά συνέπεια, τα OWL κείμενα είναι RDF περιγραφές, με τη διαφορά ότι μερικά αναγνωριστικά διαθέτουν σταθερές ερμηνείες. Το πρότυπο OWL ορίζει τρεις υπογλώσσες, κάθε μία από τις οποίες διαθέτει διαφορετική δύναμη έκφρασης. Η περισσότερο δυνατή OWL 34

35 υπογλώσσα δεν θέτει κανένα περιορισμό στη χρήση των OWL πηγών. Οι υπόλοιπες υπογλώσσες περιλαμβάνουν περιορισμούς, η ύπαρξη των οποίων εξασφαλίζει περισσότερη αποτελεσματικότητα στην ορθότητα και τη λογική. Οι τρεις υπογλώσσες αναλύονται σε επόμενη παράγραφο. Αντίθετα με το RDF schema, η OWL επιτρέπει τον ορισμό των περιγραφών των κλάσεων. Με τον τρόπο αυτό κάποιος μπορεί να δημιουργήσει κλάσεις απαριθμητές, κλάσεις με περιορισμούς στις ιδιότητες, ή κλάσεις που ορίζονται σαν τομή, ένωση ή συμπληρώματα άλλων κλάσεων. Στην OWL, οι ιδιότητες των αντικειμένων και οι ιδιότητες των τύπων δεδομένων μπορούν να διαχωριστούν. Οι ιδιότητες αντικειμένων συνδέουν άτομα με άτομα, ενώ οι ιδιότητες των τύπων δεδομένων συνδέουν άτομα με τιμές. Η OWL δεν επιτρέπει τον ορισμό των σύνθετων ιδιοτήτων. Αντίθετα, η έκφραση της γνώσης για κάποιες ιδιότητες μπορεί να πραγματοποιηθεί με την χρησιμοποίηση αξιωμάτων. Εκτός από τις δομές που χρησιμοποιούνται στο RDF schema, η OWL επιτρέπει την ισότητα των ιδιοτήτων ή ότι μία ιδιότητα είναι αντιστροφη κάποιας άλλης. Επιπλέον, είναι δυνατόν να οριστεί ένα πλήθος περιορισμών, όπως και χαρακτηριστικά ιδιοτήτων όπως η μετάβαση και η συμμετρία. Ένα βασικό χαρακτηριστικό της OWL είναι ότι επιτρέπει τον ορισμό των περιορισμών των καθολικών ιδιοτήτων, οι οποίοι είναι παρόντες στο RDF schema, αλλά και των τοπικών παραλλαγών. Η ερμηνεία των OWL κειμένων παρέχεται από την First-Order Logic. Αντίθετα, το RDF schema δεν χρησιμοποιεί μία θεωρία ενός πρότυπου μοντέλου. Ένα επιπλέον χαρακτηριστικό του RDF είναι ότι οι ενσωματωμένες πηγές είναι επίσης στοιχεία του πεδίου γνώσης. Το χαρακτηριστικό αυτό καθιστά δύσκολη την απόδοση των επιπέδων του Σημασιολογικού Ιστού. Μια σημαντική εφαρμογή της OWL είναι ο ορισμός των Σημασιολογικών Υπηρεσιών Διαδικτύου (Semantic Web Services). Η οντολογία OWL-S είναι ένα σύνολο από OWL κείμενα τα οποία περιγράφουν τις πιο σημαντικές ιδέες και σχέσεις στο πεδίο των web services. Η OWL [69] επεκτείνει το RDF και το RDF Schema με επιπρόσθετες αντιπροσωπευτικές δομές, οι οποίες, για παράδειγμα, επιτρέπουν δύο κλάσεις να είναι ασυνεχείς, ή ο αριθμός τιμών κάποιας ιδιότητας είναι περιορισμένος κ.ο.κ. Η γλώσσα βασίζεται στη Περιγραφική Λογική (description logics) και στην αναπαράσταση γνώσης. Η περιγραφική λογική υποστηρίζει την ταξινόμηση των δομικών περιγραφών των οντοτήτων 35

36 Η OWL διαθέτει τρεις υπογλώσσες, όπως αναφέρθηκε και παραπάνω. Οι τρεις OWL διάλεκτοι είναι: OWL Lite: Ανταποκρίνεται στην ιεραρχία κλάσεων και απλών περιορισμών, όπως στην περίπτωση των υπαρκτών θησαυρών ή ταξινομιών. Παρέχει λιγότερο εκφραστική δύναμη από την OWL DL και την OWL Full. H OWL Lite δεν είναι αρκετά εκφραστική για τις ανάγκες της OWL-S. OWL DL: Παρέχει τη μέγιστη εκφραστικότητα, ενώ διατηρεί την υπολογιστική πληρότητα. Περιλαμβάνει την OWL Lite. OWL Full: Περιλαμβάνει την OWL DL και υποστηρίζει το ίδιο σύνολο δομών της OWL γλώσσας. Η OWL Full επιτρέπει τον ελεύθερο συνδυασμό της OWL και του RDF schema και δεν επιβάλλει τον αυστηρό διαχωρισμό των κλάσεων, των ιδιοτήτων, τον ατόμων και των τιμών των δεδομένων OWL 2 Τον Οκτώβριο του 2009 το OWL Working Group παρήγαγε μία νέα W3C έκδοση της OWL η οποία είναι συμβατή με την έκδοση του 2004, ενώ προσθέτει κάποια επιπλέον, χαρακτηριστικά. Η OWL 2 σχεδιάστηκε για τη διευκόλυνση της ανάπτυξης των οντολογιών και το διαμοιρασμό τους στο Διαδίκτυο. Στην OWL 2 οι οντολογίες μπορούν να θεωρηθούν δομές οντολογίας ή RDF γράφοι. Οι οντολογίες αυτές μπορούν να διαμοιραστούν με διάφορες συντάξεις. Η σημασία των OWL 2 οντολογιών μπορεί να εκφραστεί με σημασιολογικούς ορισμούς. Η αντιστοίχιση ανάμεσα σε δύο φόρμες οντολογιών ορίζεται από την αντιστοίχιση RDF. Ένα άλλο χαρακτηριστικό της OWL 2 είναι τα Προφίλ. Τα OWL 2 Προφίλ είναι υπογλώσσες (συντακτικά υποσύνολα) της OWL 2 τα οποία προσφέρουν σημαντικά πλεονεκτήματα σε συγκεκριμένα σενάρια εφαρμογών. Τα Προφίλ που ορίζονται είναι τρία: OWL 2 EL, OWL 2 QL, και OWL 2 RL. Κάθε Προφίλ ορίζεται σαν συντακτικός περιορισμός της OWL 2, δηλαδή, ένα υποσύνολο των δομικών στοιχείων τα οποία μπορούν να χρησιμοποιηθούν σε μία συμβατή οντολογία. Κάθε ένα Προφίλ διαθέτει περισσότερους περιορισμούς από την OWL DL. Επιπλέον, κάθε Προφίλ διαθέτει εκφραστική δύναμη και υπολογιστικά πλεονεκτήματα σε διαφορερτικό βαθμό. Η OWL 2 έχει τα ίδια δομικά χαρακτηριστικά με την OWL, ενώ παράλληλα, εισάγει μία νέα λειτουργικότητα και εκφραστικότητα στους τύπους δεδομένων, στους περιορισμούς και στις ιδιότητες. 36

37 2.4.4 Εργαλεία Ανάπτυξης Οντολογιών Το τεχνικό πεδίο του Σημασιολογικού Ιστού διαθέτει ένα πλήθος από εργαλεία ανάπτυξης Οντολογιών. Ανάμεσα σε αυτά, διακρίνονται τα εξής: Altova SemanticWorks: Προσφέρει ένα γραφικό περιβάλλον ανάπτυξης για RDF και OWL για το Σημασιολογικό Ιστό. Υποστηρίζει το σχεδιασμό RDF στιγμιοτύπων, RDFS λεξιλογίων και OWL οντολογιών καθώς και την εξαγωγή τους σε RDF/XML ή N-Τριπλετών [56]. Knoodl: Διευκολύνει την ανάπτυξη OWL οντολογιών και RDF βάσεις γνώσεων, προσανατολισμένες στην διαδικτυακή κοινότητα. Αποτελεί μία σημασιολογική τεχνολογική πλατφόρμα η οποία προσφέρει μία διεπαφή σε Java services και SPARQL με στόχο την κατασκευή σημασιολογικών εφαρμογών από τη διαδικτυακή κοινότητα, με τη χρησιμοποίηση των οντολογιών ή των βάσεων γνώσης. Η πλατφόρμα διατίθεται διαδικτυακά από το Amazon EC2 cloud [31]. Protégé: Αποτελεί ένα ελεύθερο και ανοιχτού κώδικα εργαλείο ανάπτυξης οντολογιών και βάσεων γνώσης [48]. Η πλατφόρμα του Protégé υποστηρίζει δύο βασικούς τρόπους μοντελοποίησης των οντολογιών μέσω των εργαλείων Protégé-Frames και Protégé-OWL. Οι οντολογίες εξάγονται σε RDF(S), OWL και XML Schema. Το Protégé είναι ένα εργαλείο που επιτρέπει στους χρήστες να κατασκευάζουν οντολογίες για συγκεκριμένα πεδία, να μορφοποιούν τις φόρμες για την εισαγωγή δεδομένων και να εισάγουν δεδομένα. Υπάρχει ένα πλήθος από επεκτάσεις, οι οποίες ενισχύουν τη λειτουργικότητα της πλατφόρμας: Protégé Plugin Library 1 : περιλαμβάνει ένα πλήθος από επεκτάσεις ανοιχτού κώδικα που αναφέρονται στο Σημασιολογικό Δίκτυο. Collaborative Protégé 2 : υποστηρίζει τη συνεργατική δημιουργία μίας οντολογίας. Web Protégé 3 : αποτελεί την online έκδοση του Protégé. Sigma: Αποτελεί ένα περιβάλλον το οποίο περιλαμβάνει αντιστοίχιση οντολογιών, απόδειξη θεωρημάτων (theorem proving), εξαγωγή γλωσσών και υποστήριξη πολυγλωσσικότητας, επεξεργασία γλώσσας OWL και ανάλυση. Περιλαμβάνει την επίσημα μεγαλύτερη Άνω Οντολογία SUMO 4 (Suggested Upper Merged Ontology) η οποία χρησιμοποιείται σε περιοχές όπως η αναζήτηση, η γλωσσολογία και η συλλογιστική και έχει αναπαρασταθεί πλήρως στο WordNet

38 2.5 Σημασιολογική Επισήμανση Γενικά, ο όρος επισήμανση αναφέρεται στη σύνδεση δεδομένων με άλλα δεδομένα [45]. Στην περίπτωση επισήμανσης κειμένων (και περιεχομένου σελίδων δικτυακών τόπων) γίνεται αναφορά στην επισήμανση ενός τυχαίου αριθμού κειμένων ή μέρη αυτών. Η επισήμανση μπορεί να γίνει χειροκίνητα, ημι-αυτόματα ή αυτόματα. Οι επισημάνσεις στο Σημασιολογικό Ιστό εξελίσσονται σε κάτι περισσότερο από απλές επισημάνσεις κειμένου. Η Σημασιολογική Επισήμανση αναγνωρίζει τις έννοιες που πραγματεύεται ένα κείμενο και τις και σχέσεις ανάμεσα τους με στόχο, να χρησιμοποιηθούν από τις μηχανές [60]. Για παράδειγμα, μία σημασιολογική επισήμανση μπορεί να σχετίζει την έννοια «Αθήνα» με μία οντολογία η οποία αναγνωρίζει την ίδια έννοια σαν την αφαιρετική έννοια «Πόλη» και να την συνδέει στο στιγμιότυπο «Ελλάδα». Με τον τρόπο αυτό παραλείπεται οποιαδήποτε ασάφεια που εμπεριέχεται στην έννοια «Αθήνα». Πλεονεκτήματα Σημασιολογικής Επισήμανσης Η Σημασιολογική Επισήμανση στον Παγκόσμιο Ιστό διαθέτει δύο είδη πλεονεκτημάτων: αποτελεσματική ανάκτηση πληροφορίας και διαλειτουργικότητα. Η Ανάκτηση Πληροφορίας βελτιώνεται με τη δυνατότητα εκτέλεσης αναζητήσεων, οι οποίες χρησιμοποιούν την οντολογία προκειμένου να ενσωματώσουν δεδομένα από ετερογενείς πηγές. Πιο αναλυτικά. οι σημασιολογικές επισημάνσεις αναγνωρίζουν έννοιες που αναφέρονται στο περιεχόμενο των ιστοσελίδων (ή ενός συνόλου κειμένων) και μπορούν να υποστηρίξουν περισσότερο πολύπλοκα ή ειδικά επερωτήματα. Επιπλέον, οι σημασιολογικές επισημάνσεις που βασίζονται στην οντολογία επιτρέπουν τον εντοπισμό και την επίλυση ανωμαλιών στις αναζητήσεις, κυρίως στην περίπτωση της χρησιμοποίησης των ίδιων λέξεων ή ονομάτων για έννοιες με διαφορετική ερμηνεία. Η διαλειτουργικότητα είναι απαραίτητη σε οργανισμούς οι οποίοι διαθέτουν μεγάλες τοπικές Βάσεις Δεδομένων, συχνά σε διαφορετικές μορφές οι οποίες πιθανόν, δε μπορούν να αλληλεπιδράσουν. Υπό αυτές τις συνθήκες, οι επισημάνσεις οι οποίες βασίζονται σε μία κοινή οντολογία μπορούν να παρέχουν ένα κοινό πλαίσιο λειτουργίας για την ενσωμάτωση πληροφορίας από ετερογενείς πηγές. Η διαλειτουργικότητα και ο διαμοιρασμός γνώσης είναι αναγκαίος όχι μόνο σε οργανισμούς, αλλά αφορά και ένα ευρύτερο σύνολο επιστημονικών πεδίων τα οποία εμφανίζουν την ανάγκη αλληλεπίδρασης μεταξύ τους, προκειμένου να βελτιώσουν την έρευνα και την εξέλιξη που λαμβάνει χώρα σε κάθε πεδίο. Η 38

39 σημασιολογική επισήμανση πηγών υπό μία ευρύτερη κοινή οντολογία συμβάλλει στον διαμοιρασμό πηγών και στην προώθηση της επιστημονικής έρευνας. Επιπλέον, οι σημασιολογικές επισημάνσεις μπορούν να προσφέρουν αυτοματοποιημένες υπηρεσίες, οι οποίες μπορούν να υποστηρίξουν λογισμικό διαχείρισης φυσικής γλώσσας, βελτιώνοντας τη χρησιμοποίηση υπηρεσιών από τους χρήστες. Υπάρχει ένα πλήθος εργαλείων σημασιολογικής επισήμανσης το οποία διακρίνονται σε εργαλεία χειροκίνητης επισήμανσης, ημι-αυτόματης και αυτόματης. Η διάκριση αυτή βασίζεται στο ποσοστό του ανθρώπινο παράγοντα που συμμετέχει στη διαδικασία. Στην παρούσα εργασία η επισήμανση γίνεται αυτόματα, βασισμένη στην εξαγωγή λέξεων κλειδιών από το περιεχόμενο των σελίδων και την αντιστοίχιση τους σε όρους της Ταξινομίας βάσει μίας μετρικής ομοιότητας Εργαλεία Σημασιολογικής Επισήμανσης Τα εργαλεία Σημασιολογικής Επισήμανσης αφορούν εργαλεία τα οποία μπορούν να παράγουν σημασιολογικές επισημάνσεις, δηλαδή, επισημάνσεις που αναφέρονται σε μία οντολογία. Στην παρούσα ενότητα, παρουσιάζονται εργαλεία Σημασιολογικής Επισήμανσης, τα οποία, όπως αναφέρθηκε και παραπάνω, διακρίνονται σε εργαλεία χειροκίνητης σημασιολογικής επισήμανσης και εργαλεία αυτόματης σημασιολογικής επισήμανσης, τα οποία και παρουσιάζονται στις παρακάτω υποενότητες Εργαλεία Χειροκίνητης Σημασιολογικής Επισήμανσης Τα εργαλεία χειροκίνητης σημασιολογικής επισήμανσης διαθέτουν αρκετά κοινά στοιχεία με τα εργαλεία επισήμανσης κειμένου, αλλά παρέχουν και υποστήριξη για οντολογίες. Για παράδειγμα, ο κειμενογράφος και W3C φυλλομετρητής Amaya [49] μπορεί να επισημάνει δικτυακά έγγραφα σε XML ή HTML. Ο χρήστης μπορεί να κάνει επισημάνσεις με το ίδιο εργαλείο με το οποίο μπορεί να πλοηγηθεί και να γράψει κείμενο. Διαθέτει διευκολύνσεις για χειροκίνητη επισήμανση των σελίδων, αλλά δεν υποστηρίζει αυτόματη επισήμανση. Ο διαφυλλιστής Annozilla στοχεύει στο να μετατρέψει όλες τις επισημάνσεις του Amaya σε αναγνώσιμες στον διαφυλλιστή Mozilla. Το σύστημα Mangrove [42] αποτελεί ένα άλλο παράδειγμα χειροκίνητης επισήμανσης. Ο στόχος του συστήματος είναι να προσελκύσει τους χρήστες προκειμένου να επισημάνουν την HTML τους με τη χρησιμοποίηση των δεδομένων που έχουν δημιουργηθεί με έναν αριθμό σημασιολογικών υπηρεσιών 39

40 όπως πχ. ένα ημερολόγιο γεγονότων. Το εργαλείο επισήμανσης είναι ένα σαφές GUI το οποίο επιτρέπει στους χρήστες να συσχετίσουν μία επιλογή από ετικέτες στο κείμενο που επισημαίνουν. Το Mangrove ενσωματώθηκε με μία σημασιολογική υπηρεσία η οποία υποστηρίζει την αρχικοποίηση σημασιολογικών διαδικασιών , μέσω φορμών κειμένου. Η επισήμανση multimedia αρχείων είναι η επόμενη φάση ανάπτυξης της επισήμανσης η οποία επεκτείνει το εύρος των τύπων των αρχείων προς επισήμανση με εικόνες, βίντεο και ήχο. Ανάμεσα στα εργαλεία επισήμανσης αρχείων multimedia διακρίνεται το Vannotea [55] το οποίο προσθέτει meta-data στα MPEG-2, JPEG2000 και Direct 3D αρχεία. Μερικά εργαλεία χειροκίνητης επισήμανσης έχουν αναπτυχθεί ώστε να παρέχουν υποστήριξη του χρήστη και ένα σύνολο από λειτουργικότητες ημιαυτόματης ή αυτόματης επισήμανσης. Το εργαλείο επισήμανσης OntoMat είναι ένα εργαλείο επισήμανσης το οποίο δημιουργήθηκε στις αρχές του CREAM framework. Διαθέτει έναν διαφυλλιστή προκειμένου να οπτικοποιήσει τη σελίδα που επισημαίνεται και παρέχει μερικές συναρτήσεις φιλικές στο χρήστη για χειροκίνητη επισήμανση. Το OntoMat επεκτάθηκε ώστε να συμπεριλάβει υποστήριξη ημι-αυτόματης επισήμανσης. Η πρώτη από αυτές τις επεκτάσεις ήταν η S-CREAM [24] η οποία χρησιμοποιεί ένα σύστημα εξαγωγής πληροφορίας. Ο χρήστης επισημαίνει και το σύστημα εντοπίζει πώς μπορεί να αναπαράγει την επισήμανση του χρήστη, προκειμένου να μπορεί να δώσει συστάσεις για άλλες επισημάνσεις. Το OntoMat επιπλέον, ενσωματώνει μεθόδους για βαθιά επισήμανση [63], δηλαδή, επισήμανση η οποία προέρχεται από βάσεις δεδομένων. Επιπλέον έρευνα πάνω στην οικογένεια CREAM εστιάζει στην επέκταση της επισήμανσης σε μορφές πολυμέσων. Το M-OntoMat- Annotizer [1] υποστηρίζει τη χειροκίνητη επισήμανση δεδομένων εικόνας και βίντεο. Η εμπορική έκδοση του OntoMat, ονομάζεται OntoAnnotate και διατίθεται από την Ontoprise. Συστήματα επισήμανσης Simple HTML Ontology Extensions και RDF έχουν αναπτυχθεί από το πανεπιστήμιο του Maryland. Η εφαρμογή SHOE Knowledge Annotator [25] είναι ένα σύστημα το οποίο επιτρέπει στους χρήστες την επισήμανση των HTML σελίδων σε SHOE, οδηγούμενοι με οντολογίες οι οποίες διατίθενται τοπικά ή μέσω URL. Ο χρήστης υποστηρίζεται από μία λειτουργικότητα κατά την οποία προτρέπεται να δώσει είσοδο στο σύστημα. Το SHOE Knowledge Annotator, ωστόσο, δε διαθέτει διαφυλλιστή για την οπτικοποίηση των σελίδων. Το Running SHOE προχώρησε ένα βήμα προς την αυτόματη επισήμανση βοηθώντας το χρήστη να δημιουργήσει wrappers για τις σελίδες του δικτυακού τόπου οι οποίες ορίζουν την εξαγωγή των οντοτήτων από λίστες και άλλες σελίδες με κανονικές μορφές. Μία πρόσφατη υλοποίηση είναι 40

41 το εργαλείο επισήμανσης RDF περιεχομένου, SMORE, ο οποίος επιτρέπει την επισήμανση εικόνων, , HTML και απλού κειμένου. Ένα εργαλείο με όμοια χαρακτηριστικά με το SMORE είναι το Open Ontology Forge (OOF) [13]. Το OOF είναι ένας κειμενογράφος οντολογιών ο οποίος υποστηρίζει επισήμανση προσφέροντας ένα ενσωματωμένο περιβάλλον διαχείρισης κειμένων, οντολογιών και επισημάνσεων. Το εργαλείο επισήμανσης COHSE [3] παράγει επισημάνσεις οι οποίες είναι συμβατές με τα πρότυπα Annotea, αν και οι επισημάνσεις συλλαμβάνονται σαν σύνδεσμοι αποθηκευμένοι με τη χρησιμοποίηση της Υπηρεσίας Κατανεμημένων Συνδέσμων [10]. Σε αυτό το σενάριο, οι υπερσύνδεσμοι που παράγονται αυτόματα είναι αποδεκτοί, αλλά μόνο μία υπηρεσία ταιριάσματος λέξης η οποία επισημαίνει τους όρους της οντολογίας έχει υλοποιηθεί μέχρι στιγμής. Το εργαλείο επισήμανσης διατίθεται σαν πρόσθετο εργαλείο στο διαφυλλιστή Mozilla 5 ή στον Interner Explorer 6, προκειμένου να προσφέρει στο χρήστη τη δυνατότητα επιλογής του περιβάλλοντος εργασίας του. Η αρχιτεκτονική COHSE έχει χρησιμοποιηθεί στη δημιουργία ενός αριθμού εφαρμογών, διαφορετικών τομέων, συμπεριλαμβανομένης και της γενιάς των εργαλείων σημασιολογικής επισήμανσης Αυτόματη επισήμανση Στην παρούσα ενότητα παρουσιάζονται εργαλεία επισήμανσης τα οποία περιλαμβάνουν τμήματα αυτοματοποίησης τα οποία παρέχουν προτάσεις για επισήμανση, αλλά εξακολουθούν να χρειάζονται την παρέμβαση του ανθρώπινου παράγοντα όπως και εργαλεία τα οποία εντοπίζουν επισημάνσεις αυτόματα σε μεγάλη κλίμακα. Η αυτοματοποίηση διαθέτει τρεις κατηγορίες. Η πιο βασική χρησιμοποιεί κανόνες γραμμένους με το χέρι οι οποίες συλλαμβάνουν πρότυπα για τις επισημάνσεις. Υπάρχουν δύο είδη συστημάτων τα οποία μαθαίνουν πώς να κάνουν επισημάνσεις: Τα συστήματα υπό επίβλεψη και τα συστήματα χωρίς επίβλεψη. Τα συστήματα υπό επίβλεψη μαθαίνουν από δειγματοληπτικές επισημάνσεις οι οποίες έχουν πραγματοποιηθεί από το χρήστη. Ωστόσο, οι μέθοδοι αυτοί διαθέτουν ένα πρόβλημα: η επιλογή ενός συνόλου καλών παραδειγμάτων είναι μία επίπονη διαδικασία επιρρεπής σε λάθη. Προκειμένου να διαχειριστούν αυτό το πρόβλημα, τα συστήματα χωρίς επίβλεψη χρησιμοποιούν μία ποικιλία στρατηγικών με στόχο να μάθουν πώς να πραγματοποιούν επισημάνσεις χωρίς την επίβλεψη του χρήστη, αλλά η ακρίβεια

42 τους είναι περιορισμένη. Μία συνοψη των συστημάτων αυτών ακολουθεί, παρακάτω: Το Lixto είναι ένα διαδικτυακό σύστημα εξαγωγής πληροφορίας το οποίο επιτρέπει τον ορισμό wrappers προκειμένου να μετατρέψουν τις αδόμητες πηγές σε δομημένες. Το εργαλείο επιτρέπει στους χρήστες να δημιουργήσουν wrappers με αλληλεπίδραση και οπτικοποίηση, επιλέγοντας σχετιζόμενα κομμάτια πληροφορίας [1]. Αρχικά, αναπτύχθηκε από το Τεχνικό Πανεπιστήμιο της Βιέννης. Το MnM σχεδιάστηκε για την επισήμανση δεδομένων για εργαλεία του IE παρά σαν ένα εργαλείο σημασιολογικής επισήμανσης [61]. Αυτό σημαίνει ότι αποθηκεύει τα επισημασμένα κείμενα σαν εκδόσεις του αρχικού με ταμπέλες, παρά σαν RDF μορφές. Το MnM παρέχει ένα ανοιχτό API διασύνδεσης με εξυπηρετητές οντολογιών και ενσωμάτωσης εργαλείων εξαγωγής πληροφορίας. Το Melita [12] είναι ένα εργαλείο σημασιολογικής επισήμανσης το οποίο καθιστά δύο κύριες στρατηγικές διαθέσιμες στο χρήστη. Από τη μία μεριά, παρέχει ένα σύστημα εξαγωγής το οποίο μαθαίνει πώς να επισημαίνει κείμενα γενικεύοντας τις επισημάνσεις του χρήστη. Η επισήμανση είναι μία διαδικασία η οποία ξεκινά με την πλήρη επισήμανση του χρήστη, από τα αρχικά στάδια. Από την άλλη μεριά, παρέχει διευκολύνσεις για την εγγραφή κανόνων (βασισμένες σε regular expressions) προκειμένου να επιτρέψουν σε προχωρημένους χρήστες να ορίσουν τους δικούς τους κανόνες. Στο Melita, τα κείμενα δεν επιλέγονται τυχαία για επισήμανση, αλλά επιλέγονται αυτόματα, βάσει της αναμενόμενης χρησιμότητας τους. Το CAFETIERE [5] είναι ένα σύστημα βασισμένο σε κανόνες για την παραγωγή XML επισημάνσεων τα οποία αναπτύσσονται σαν μέρος του έργου Parmenides το οποίο έχει χρησιμοποιηθεί, για παράδειγμα, στην επισήμανση του GENIA corpus [52]. Τεχνικές εξόρυξης κειμένου χρησιμοποιούνται προκειμένου να προταθούν επισημάνσεις στους αναλυτές [62]. Το έργο Parmenides συμπεριλαμβάνει και μία προσέγγιση με clustering προκειμένου να γίνουν συστάσεις για έννοιες και σχέσεις ώστε να επεκταθούν οι οντολογίες. Το σύστημα Armadillo περιλαμβάνει τη δημιουργία βάσεων γνώσεων από μεγάλα repositories (πχ. το Διαδίκτυο) καθώς και την επισήμανση κειμένων [11]. Χρησιμοποιεί τον πλεονασμό της πληροφορίας στα repositories προκειμένου να ξεκινήσει την εκμάθηση από ένα σύνολο παραδειγμάτων που έχουν επιλεχθεί από το χρήστη. Τα αρχικά παραδείγματα αναζητούνται στο repository. Τα παραδείγματα γενικεύονται με τη χρήση του προσαρμοστικού ΙΕ. Η επιβεβαίωση από διάφορες πηγές απαιτείται για τον έλεγχο της ποιότητας των νεότερων δεδομένων. Μετά την επιβεβαίωση ένας καινούριος γύρος εκμάθησης μπορεί να 42

43 αρχίσει. Αυτή η διαδικασία μπορεί να επαναληφθεί μέχρι ο χρήστης να ικανοποιηθεί με την ποιότητα της πληροφορίας. Το Armadillo χρησιμοποιεί ένα σύνολο από τεχνικές, από αναζητήσεις βασισμένες σε λέξεις κλειδιά, μέχρι ενσωμάτωση της πληροφορίας. To KnowItAll [18] αυτοματοποιεί την εξαγωγή μεγάλων βάσεων γνώσης από το Διαδίκτυο, παρόμοια με το Armadillo. Η μεγαλύτερη διαφορά είναι ο τρόπος με τον οποίο το σύστημα αξιολογεί την πιθανότητα υποψήφιων εξαγωγών. Αυτό υλοποιείται με τη μετρική Δεσμευμένης Πιθανότητας της Πληροφορίας (Pointwise Mutual Information, PMI). Η μετρική PMI είναι ο λόγος ανάμεσα στον αριθμό των hits σε μία μηχανή αναζήτησης που λαμβάνονται με τη χρησιμοποίηση μίας επερώτησης μιας φράσης προς τον αριθμό των hits που λαμβάνονται με τη χρησιμοποίηση μιας επερώτησης ενός εξαχθέντος γεγονότος. Επιπλέον, το KnowItAll δεν απαιτεί κάποιο σύνολο αρχικών δεδομένων. Το έργο SmartWeb επίσης ερευνά προσεγγίσεις για εμπλουτισμό βάσεων γνώσης σε RDF [8]. Η προσέγγιση τους επιλύει το πρόβλημα της μη υπαρκτής επισήμανσης στη δημιουργία της γνώσης με τη χρησιμοποίηση ονομάτων κλάσεων και υποκλάσεων μίας οντολογίας για την κατασκευή παραδειγμάτων. Το περιεχόμενο αυτών των παραδειγμάτων, στη συνέχεια, μαθαίνεται. Με τον τρόπο αυτό, τα στιγμιότυπα μπορούν να διακριθούν εφόσον έχουν το ίδιο περιεχόμενο, αλλά διαφορετική ορολογία στην οντολογία. Μία άλλη προσέγγιση στην εκμάθηση των επισημάνσεων η οποία χρησιμοποιεί το καθαρό μέγεθος του διαδικτύου είναι η επισήμανση βασισμένη σε πρότυπα μέσα από την Γνώση στο Διαδικτυο (Knowledge On the Web, PANKOW). Το PANKOW χρησιμοποιεί ένα εύρος από σχετικά σπάνια συντακτικά πρότυπα προκειμένου να επισημανθούν υποψήφιες φράσεις στις σελίδες του Διαδικτύου, χωρίς να χρειαστεί η χειροκίνητη παραγωγή ενός αρχικού συνόλου δικτυακών σελίδων. Το AeroSWARM είναι ένα αυτόματο εργαλείο επισήμανσης το οποίο χρησιμοποιεί OWL οντολογίες βασισμένο στον DAML annotator AeroDAML [32].Διαθέτει μια έκδοση πελάτη-εξυπηρετητή καθώς και μία διαδικτυακή έκδοση στην οποία οι χρήστες εισάγουν ένα URI και το σύστημα επιστρέφει αυτόματα ένα αρχείο με επισημάνσεις σε μία δεύτερη διαδικτυακή σελίδα. Προκειμένου να ληφθεί το περιεχόμενο της σελίδας, οι χρήστες πρέπει να σώσουν το RDF αρχείο σε έναν εξυπηρετητή επισήμανσης και να προβάλλουν τα αποτελέσματα σε ένα διαφυλλιστή που υποστηρίζει επισημάνσεις, όπως ο Amaya. Το SemTag είναι ένα άλλο παράδειγμα εργαλείου το οποίο εστιάζει στην αυτόματη επισήμανση [15]. Βασίζεται στην πλατφόρμα ανάλυσης κειμένου της 43

44 IBM, την Seeker, και χρησιμοποιεί συναρτήσεις ομοιότητας προκειμένου να αναγνωρίσει οντότητες οι οποίες εμφανίζονται σε περιεχόμενα όμοια με παραδείγματα επισήμανσης. Το πρόβλημα-κλειδί της αυτόματης επισήμανσης μεγάλης κλίμακας αναγνωρίζεται ως ασάφεια, πχ. όμοια strings όπως το «Niger» μπορούν να αναφέρονται σε διαφορετικές έννοιες, ο ποταμός ή η χώρα. Ο αλγόριθμός Taxonomy Based Disambiguation (TBD) προτείνεται προκειμένου να αντιμετωπιστεί αυτό το πρόβλημα. Το SemTag προτείνεται ως μία λύση στη λήψη μίας σημασιολογικά επισημασμένης συλλογής, απευθυνόμενο, περισσότερο σε εξειδικευμένους χρήστες. Το KIM [46], [47] χρησιμοποιεί τεχνικές εξαγωγής πληροφορίας προκειμένου να κατασκευάσει μίεα μεγάλη βάση γνώσης επισημάνσεων. Οι επισημάνσεις στο KIM είναι μεταδεδομένα στη μορφή γενικών εννοιών τα οποία ορίζονται στην οντολογία KIMO και αναγνωρίζονται κυρίως από την αναφορά τους σε μεγάλα σώματα κειμένου. Η τακτική αυτή χαρακτηρίζεται περιοριστική και η επέκταση της KIM μεθοδολογίας σε οντολογίες συγκεκριμένων τομέων αποτελεί μία πρόκληση. Παρ όλ αυτά, οι γενικές οντότητες είναι μία τάξη μεταδεδομένων με ευρεία χρήση. Για παράδειγμα, η εφαρμογή Rich News χρησιμοποιεί το KIM στην επισήμανση νέων από την τηλεόραση και το ράδιο, εκμεταλλευόμενη το γεγονός ότι τα ίδια θέματα δημοσιεύονται ταυτόχρονα. Η πλατφόρμα KIM χρησιμοποιείται προκειμένου να δείξει τα είδη των υπηρεσιών ανάκτησης και ανάλυσης δεδομένων, οι οποίες, παρέχονται πάνω από μεγάλες βάσεις γνώσεις επισημάνσεων. Για παράδειγμα, ο εξυπηρετητής KIM είναι ικανός να χρησιμοποιήσει μία ποικιλία από front ends, συμπεριλαμβανομένου και του Internet Explorer της Microsoft, ένα Web UI το οποίο παρέχει διαφορετικές υπηρεσίες σημασιολογικής αναζήτησης, και μία εφαρμογή οπτικοποίησης γράφων για την εκμετάλλευση των συνδέσεων μεταξύ των οντοτήτων. Μία παραδοσιακή προσέγγιση στην εξαγωγή πληροφορίας χρησιμοποιείται από την πλατφόρμα διαχείρισης γνώσης h-techsight, στην οποία το σύστημα GATE το οποίο βασίζεται σε κανόνες, χρησιμοποιείται προκειμένου να παρέχει είσοδο σε ένα σημασιολογικό πόρταλ [41]. Οι επισημάνσεις παράγονται αυτόματα και παρακολουθούνται ώστε να παράγουν μετρικές που περιγράφουν τη δυναμικότητα των εννοιών και τα στιγμιότυπα, τα οποία δίνονται πίσω στους χρήστες. Θεωρείται ότι τα δυναμικά δεδομένα θα χρησιμοποιηθούν στην χειροκίνητη εξέλιξη των οντολογιών Περιβάλλοντα Ενσωματωμένης Επισήμανσης Στην παρούσα ενότητα γίνεται μία επισκόπηση συστημάτων που στοχεύουν στην ενσωμάτωση της επισήμανσης σε στάνταρτ εργαλεία, κάνοντας την επισήμανση ταυτόχρονη με τη συγγραφή. 44

45 Το WiCKOffice [9] παρουσιάζει πώς η συγγραφή σε ένα περιβάλλον γνώσης έχει χρήσιμες δυνατότητες υποστήριξης, όπως η αυτόματη υποστήριξη συμπλήρωσης φορμών με τη χρησιμοποίηση δεδομένων που εξάγονται από βάσεις γνώσης. Το AktiveDoc [34] επιτρέπει την επισήμανση των εγγράφων σε τρία επίπεδα: επισήμανση περιεχομένου βασισμένο στην οντολογία, επιχειρήματα ελεύθερου κειμένου και εμπλουτισμός κειμένου κατ απαίτηση. Η υποστήριξη παρέχεται κατά τη διάρκεια συγγραφής και ανάγνωσης. Η ημιαυτόματη επισήμανση περιεχομένου παρέχεται μέσω της Προσαρμοσμένης Εξαγωγής Πληροφορίας από κείμενο. Καθώς το AktiveDoc σχεδιάζεται για επαναχρησιμοποίηση γνώσης, είναι ικανό να παρακολουθήσει ενέργειες συγγραφής και να παρέχει αυτόματες συστάσεις για σχετικό περιεχόμενο. Η υποστήριξη δεν περιορίζεται στη συμπλήρωση των φορμών και άλλων προκαθορισμένων φορμών, αλλά επεκτείνεται και στο ελεύθερο κείμενο. Αυτό επιτρέπει επαναχρησιμοποίηση της υπαρκτής γνώσης όταν είναι διαθέσιμη. Το Armadillo υποστηρίζει την αναζήτηση σχετικής γνώσης σε μεγάλα repositories. Οι επισημάνσεις στο κείμενο χρησιμοποιούνται σαν περιεχόμενο για αναζητήσεις. Οι επισημάνσεις αποθηκεύονται σε μία ξεχωριστή βάση δεδομένων. Τα επίπεδα της εμπιστευτικότητας συνδέονται με επισημάνσεις ώστε να διασφαλίσουν την εμπιστευτικότητα της γνώσης όταν είναι απαραίτητο. Η AeroDAML μπορεί να παρέχει μία αυτοματοποίηση ανάμεσα στα περιβάλλοντα διαχείρισης. Για παράδειγμα, το σύστημα επισήμανσης SemanticWord [59] το οποίο παρέχει γραφικά εργαλεία ώστε να βοηθήσει τους αναλυτές να επισημάνουν έγγραφα Microsoft Word με DAML οντολογίες, καθώς γράφουν. Ένα εμπορικό σύστημα επισήμανσης για το Microsoft Office είναι το OntoOffice Επισήμανση κατόπιν αίτησης Σε αυτή την ενότητα, περιγράφονται δύο συστήματα τα οποία δεν είναι αυστηρά εργαλεία επισήμανσης. Παρέχουν υπηρεσίες επισήμανσης ύστερα από ζήτηση από το χρήστη με τη χρησιμοποίηση μη επισημασμένων πηγών. Με τον τρόπο αυτό συμπληρώνουν ένα σύνολο από πηγές οι οποίες είτε είναι αδύνατον να επισημανθούν, όπως οι εξωτερικές σελίδες, κείμενα που αλλάζουν περιεχόμενο διαρκώς, ή αυτά τα οποία έχουν επισημανθεί με μία ακατάλληλη οντολογία. Το Magpie [16], για παράδειγμα, λειτουργεί μέσω ενός web browser και εφαρμόζει επισήμανση σε πραγματικό χρόνο των διαδικτυακών πηγών με την επισήμανση κειμένου σχετικών μιας οντολογίας που έχει επιλεχθεί από τον χρήστη. Σχετικές web services συνδέονται με το επισημασμένο κείμενο. Ενώ η 7 OntoOffice tutorial (http://www.semafora-systems.com/documents/tutorial_ontooffice.pdf). 45

46 επισήμανση των κειμένων είναι αυτόματη, το Magpie έχει το μειονέκτημα ότι μερικά μέρη των λεξικών του κειμένου για κάθε οντολογία πρέπει να παραχθούν χειροκίνητα. Το σύστημα Thresher είναι όμοιο με το Magpie στο ότι χρησιμοποιεί wrappers για να παράγει RDF δυναμικά, καθώς οι χρήστες φυλλομετρούν πηγές του κρυμμένου ιστού [26]. Όπως και με το Magpie, ο χρήστης μπορεί να έχει πρόσβαση σε σημασιολογικές υπηρεσίες για αντικείμενα που έχουν αναγνωριστεί. Η συγγραφή των wrappers είναι μία πολύπλοκη εργασία την οποία το Thresher αντιμετωπίζει με το να παρέχει διευκολύνσεις για τους μη τεχνικούς χρήστες να επισημαίνουν παραδείγματα συγκεκριμένων κλάσεων. Το Thresher είναι μέρος του σημασιολογικού διαφυλλιστή Haystack και οι χρήστες μπορούν να προσωποποιήσουν τις οντολογίες που χρησιμοποιούν Αυτοματοποίηση Η αυτοματοποίηση είναι μία σημαντική προδιαγραφή διότι είναι απαραίτητη στη διευκόλυνση της απόκτησης γνώσης κυρίως σε περιπτώσεις επισήμανσης μεγάλων συλλογών κειμένων. Τα είδη υποστήριξης που παρέχονται για την επισήμανση κειμένου ανήκουν σε τέσσερεις κατηγορίες: wrappers, συστήματα IE που ενσωματώνουν την επιτηρούμενη εκμάθηση, συστήματα IE που χρησιμοποιούν μη επιτηρούμενη εκμάθηση μηχανής, και συστήματα επεξεργασίας φυσικής γλώσσας. Πολλά από τα συστήματα που παρουσιάστηκαν στις προηγούμενες ενότητες διαθέτουν αυτόματη υποστήριξη η οποία ανήκει σε ένα ή περισσότερα ήδη. Η πιο συχνή κατηγορία στην τρέχουσα γενιά εργαλείων είναι οι wrappers, όπως αυτοί αναπτύχθηκαν από τον Kushmerick et al. [33]. Οι wrappers εκμεταλλεύονται τη δομή των Ιστοσελίδων προκειμένου να αναγνωρίσουν την πληροφορία που πρέπει να μαρκαριστεί. Οι wrappers και οι κανόνες είναι περισσότερο χρήσιμοι όταν υπάρχουν πολύ σταθερά πρότυπα στα κείμενα, όπως οι σταθεροί πίνακες δεδομένων. Απαιτούν επιδεξιότητα από τη μεριά του χρήστη. Οι Ciravegna et al [12] δίνουν ένα παράδειγμα ενός τυπικού προτύπου διατυπωμένου από το χρήστη, προκειμένου να εντοπιστούν οι χρόνοι των γεγονότων στο σύστημα Melita: \d : \d\d\w+ (AM PM am pm) Η παραπάνω κανονική έκφραση εξάγει χρονικές εκφράσεις: ένα ψηφίο ακολουθείται από ένα :, δύο ψηφία, μία λέξη και είτε ένα AM, είτε ένα PM και είναι σχεδόν πασιφανής σε έναν προγραμματιστή ή σε ειδικούς εξαγωγής γνώσης. Ένας όχι και τόσο έμπειρος χρήστης, εντούτοις, θα χρειαζόταν υποστήριξη στην αποκρυπτογράφηση των συμβόλων, και ενδεχομένως να επιθυμούσε τη μετάφραση του σε μία μορφή φυσικής γλώσσας. 46

47 Το σύστημα Thresher, το οποίο επιτρέπει σε μη τεχνικούς χρήστες να παράγουν αυτόματα τους wrappers από παραδείγματα, είναι ένα καλό παράδειγμα από το πώς η εξέλιξη κινείται σε μία προσέγγιση πιο κοντά στο χρήστη. Τα ΙΕ συστήματα που βρίσκονται υπό επιτήρηση (πχ. το Amilcare που χρησιμοποιείται από το S-CREAM, το MnM και το Melita) μαθαίνουν πώς να αναγνωρίζουν τα αντικείμενα που απαιτούν επισήμανση από μία συλλογή κειμένων που έχουν επισημανθεί ήδη. Αυτό συνήθως απαιτεί την επισήμανση μίας ικανής συλλογής από κείμενα. Το σύστημα MnM, για παράδειγμα, δημιουργήθηκε προκειμένου να διερευνηθεί πώς αυτή η εργασία θα μπορούσε να γίνει πιο εύκολη για τους ειδικούς. Η επισήμανση ενός αριθμού κειμένων δεν είναι αρκετή. Τα αντικείμενα που μαρκάρονται πρέπει να είναι καλά παραδείγματα και αντιπροσωπευτικά. Η εύρεση ενός αντιπροσωπευτικού δείγματος είναι μία επίπονη διαδικασία για τους μη IE ειδικούς. Το σύστημα Melita διαχειρίστηκε αυτό το πρόβλημα με την πρόταση του καλύτερου συνόλου των κειμένων για επισήμανση. Συστήματα που δε χρησιμοποιούν επιτήρηση όπως το Amarillo, αντιμετωπίζουν αυτές τις προκλήσεις με την εκμετάλλευση τεχνικών εκμάθησης μη επιτηρούμενων. Το PANKOW, για παράδειγμα, δείχνει το πώς η κατανομή συγκεκριμένων προτύπων στο διαδίκτυο μπορεί να χρησιμοποιηθεί σαν απόδειξη με στόχο την εκτίμηση της επίσημης επισήμανσης των οντοτήτων των Ιστοσελίδων, από μία αρχή της «επισήμανσης της μέγιστης συντακτικής απόδειξης». Για παράδειγμα, ο αριθμός των εμφανίσεων της φράσης «πόλεις όπως το Παρίσι» στις Ιστοσελίδες παρέχει ένα μέρος της απόδειξης ότι Παρίσι είναι μία πόλη, η οποία μπορεί προσμετρηθεί σε άλλα πρότυπα που περιλαμβάνουν το «Παρίσι». Οι χρήστες συστημάτων αυτόματης επισήμανσης υπόκεινται σε περιορισμούς. Οι περιορισμοί αυτοί περιλαμβάνουν επισημάνσεις που παραλείπονται (χαμηλή ανάκληση (low recall)) και λανθασμένες επισημάνσεις (χαμηλή προσέγγιση (low precision)). Παρ όλ αυτά, σε οργανισμούς με μεγάλες συλλογές επίσημων δεδομένων η λανθασμένη επισήμανση είναι προτιμητέα από την παράλειψη της. Τα περισσότερα IE συστήματα μπορούν να αναγνωρίσουν στιγμιότυπα οντοτήτων και τιμές, αλλά δεν είναι ικανά να θέσουν σχέσεις ανάμεσα στις οντότητες. Για το λόγο αυτό, εάν ένα κείμενο περιλαμβάνει περισσότερα του ενός στιγμιότυπων μία οντότητας, το σύστημα δε θα είναι ικανό να θέσει τις σωστές ιδιότητες στο σωστό στιγμιότυπο, καθώς είναι ανίκανο να ξεχωρίσει ανάμεσα τους. 47

48 2.6 Σημασιολογική Ομοιότητα Όπως αναφέρεται στο [6] η Σημασιολογική Ομοιότητα αξιολογεί την ομοιότητα ανάμεσα σε δύο έννοιες από ένα υποσύνολο σημαντικών σημασιολογικών συνδέσμων (πχ. is-a ή part-of). Η Σημασιολογική Σχετικότητα αξιολογεί την εγγύτητα ανάμεσα σε δύο έννοιες από το σύνολο των σημασιολογικών τους συνδέσμων. Όλα τα ζεύγη των εννοιών με μεγάλη σημασιολογική ομοιότητα έχουν μεγάλη σημασιολογική σχετικότητα, ενώ το αντίστροφο δεν είναι, απαραίτητα, αναγκαίο. Η Σημασιολογική Απόσταση αξιολογεί την διαφορά ανάμεσα σε δύο έννοιες. Είναι το αντίστροφο από τη σημασιολογική σχετικότητα Μέτρα σημασιολογικής ομοιότητας βασισμένες σε Οντολογία Στην τρέχουσα βιβλιογραφία συναντώνται ένα πλήθος από μέτρα σημασιολογικής ομοιότητας βασισμένες στην Οντολογία. Όπως αναφέρεται στη μελέτη που κάνει ο R. Ichise στο [27] μερικά παραδείγματα περιλαμβάνουν την ομοιότητα βασισμένη στη λέξη, την ομοιότητα βασισμένη στο γράφο και την ομοιότητα βασισμένη στη γνώση. Η ομοιότητα βασισμένη στη λέξη χρησιμοποιείται ευρέως από τα συστήματα οντολογικής αντιστοίχισης. Η ομοιότητα βασισμένη στο γράφο χρησιμοποιεί την ομοιότητα των δομών των οντολογιών. Σε αυτό το μέτρο, οι οντολογίες οργανώνονται σαν δενδρικές δομές από τις οποίες υπολογίζεται η ομοιότητα του γράφου. Ομοιότητα βασισμένη στη λέξη Η ομοιότητα βασισμένη στη λέξη υπολογίζεται για λέξεις. Στην μελέτη του R. Ichise αναλύει τις μετρικές: πρόθεμα, επίθεμα, απόσταση και n-gram. Η μετρική ομοιότητας που χρησιμοποιεί το πρόθεμα συγκρίνει λέξεις με το ίδιο πρόθεμα. Η μετρική ομοιότητας που χρησιμοποιεί το επίθεμα συγκρίνει λέξεις με το ίδιο επίθεμα. Το μέτρο ομοιότητας που χρησιμοποιεί την απόσταση συγκρίνει τις λέξεις από τον αριθμό των υποκαταστάσεων, αφαιρέσεων και προσθέσεων του αλφαριθμητικού. Για τη μετρική n-gram μία λέξη διαχωρίζεται σε n αλφαριθμητικά και η ομοιότητα υπολογίζεται από τον αριθμό των ίδιων συνόλων αλφαριθμητικών. Ομοιότητα βασισμένη στη γνώση Η ομοιότητα βασισμένη στη γνώση επίσης υπολογίζεται για λέξεις. Η πηγή για τον υπολογισμό της ομοιότητας είναι το WordNet. Το πλήθος των μέτρων ομοιότητας είναι μεγάλο. Ενδεικτικά παρουσιάζεται το synset, το μέτρο Wu & Palmer [68], η περιγραφή (description) και το μέτρο Lin. 48

49 Το μέτρο synset χρησιμοποιεί το μήκος του μονοπατιού των synsets στο WordNet. Συγκεκριμένα, υπολογίζεται το μικρότερο μονοπάτι των διαφορετικών ζευγών λέξεων με τη χρησιμοποίηση των synsets. Το μέτρο Wu & Palmer χρησιμοποιεί το βάθος της ελάχιστης κοινής υπερέννοιας/πρόγονος (least common superconcept, LCS) των λέξεων. Η ομοιότητα υπολογίζεται με την παρακάτω ισότητα: ( ) ( ) ( ) ( ) όπου και είναι το ζεύγος των λέξεων, το depth είναι το βάθος από τη ρίζα στην ταξινομία του WordNet και LCS είναι ο ελάχιστος κοινός πρόγονος των δύο εννοιών. Το τρίτο μέτρο, η περιγραφή, χρησιμοποιεί την περιγραφή μίας έννοιας στο WordNet. Η ομοιότητα υπολογίζεται σαν το τετράγωνο του μήκους των κοινών λέξεων στην περιγραφή κάθε λέξης στο ζεύγος. Το τελευταίο μέτρο ομοιότητας είναι ένας υπολογισμός βασισμένος σε μία φόρμουλα όμοια με αυτή των Wu & Palmer εκτός του ότι χρησιμοποιεί κριτήρια πληροφορίας στη θέση του μήκους. Ομοιότητα βασισμένη στην ιεραρχία των εννοιών Η ομοιότητα βασισμένη στην ιεραρχία των εννοιών αναφέρεται στην ομοιότητα της ιεραρχίας των όρων μίας οντολογίας. Το μέτρο της ομοιότητας υπολογίζεται για το μονοπάτι από τη ρίζα έως την έννοια. Κάθε μονοπάτι διαχωρίζεται σε μια λίστα από έννοιες, όπου κάθε έννοια αντιμετωπίζεται ως λέξη ή λίστα λέξεων. Για κάθε μονοπάτι υπολογίζεται το μέτρο ομοιότητας που χρησιμοποιεί την απόσταση που αναφέρθηκε παραπάνω. Ομοιότητα βασισμένη στη δομή (γράφος) Ο ομοιότητα βασισμένη στη δομή στηρίζεται στον υπολογισμό ομοιότητας βάσει της ιεραρχίας των εννοιών ο οποίος επεκτείνεται λαμβάνοντας υπόψη και την ομοιότητα ενός γονέα. Η ομοιότητα υπολογίζει τις «γειτονιές» στους γράφους. 2.7 Μηχανές Αναζήτησης και Αναδιαμόρφωση Επερωτήματος Η Αναδιαμόρφωση Επερωτήματος (Query Reformulation) και η Σημασιολογική Ανάλυση πάνω στον σημασιολογικό προσανατολισμό της τρέχουσας συνεδρίας του χρήστη βρίσκεται υπό μελέτη εδώ και αρκετά χρόνια. Στην εργασία [51] οι Reih et al. ανακαλύπτουν πρότυπα και ακολουθίες της αναδιαμόρφωσης του επερωτήματος βάσει των logs των επερωτημάτων σε μία 49

50 Μηχανή Αναζήτησης. Η ανάλυση των δεδομένων καταλήγει σε τρεις όψεις αναδιαμόρφωσης: περιεχόμενο, μορφή και πηγή. Η όψη περιεχομένου είναι η πιο κοινή και περιλαμβάνει: Ειδίκευση, Γενίκευση, Αντικατάσταση με Συνώνυμο, παράλληλη Κίνηση. Στην παρούσα εργασία επιδιώκεται η διάκριση ανάμεσα στις δύο πρώτες κατηγορίες, όχι σε μία μηχανή αναζήτησης, αλλά σε ένα διαφυλλιστή. Οι Yates et al. [1] προτείνουν μία μέθοδο η οποία, δοθείσης ενός επερωτήματος σε μία μηχανή αναζήτησης, προτείνει μία λίστα σχετικών επερωτημάτων. Στην εργασία αυτή ορίζεται το QuerySession ως το σύνολο του αρχικού επερωτήματος και σχετικών URLs που επισκέπτεται ο χρήστης. Η SOSACT μεθοδολογία παρακολουθεί τα διαδοχικά URLs στη συνεδρία του χρήστη. Η μέθοδος των Yates er al. εφαρμόζει ομαδοποίηση (clustering) των επερωτημάτων και των επισκεπτόμενων URLs κατά την προπαρασκευαστική φάση. Κάθε επερώτημα έχει μία βαθμολογία κατάταξης η οποία υπολογίζεται βάσει της ομοιότητας του επερωτήματος και μίας τιμής υποστήριξης (support). Η ομαδοποίηση επιτυγχάνεται μέσω ενός διανυσματικού μοντέλου ομοιότητας, όπου ο κάθε όρος διαθέτει ένα βάρος βάσει του αριθμού εμφανίσεων και του αριθμού των clicks των εγγράφων όπου εμφανίζεται ο κάθε όρος. Ένα άλλο σύστημα προσωποποίησης το οποίο χρησιμοποιεί σημασιολογική ομαδοποίηση για την κατασκευή προφίλ χρήσης μελετάται στην εργασία [22]. Η μεθοδολογία καταγράφει το ιστορικό χρήσης του χρήστη και κατασκευάζει σημασιολογικές συστάδες ισοδύναμων εννοιών. Επιπλέον, ορίζει προφίλ χρήσης βασισμένα στις έννοιες και αναδιατάσσει τα αποτελέσματα της μηχανής αναζήτησης βάσει των οντολογικών προφίλ. Άλλες προσεγγίσεις της μεθόδου Αναδιαμόρφωσης του Επερωτήματος περιλαμβάνουν πιθανοτικές μεθόδους, όπως παρουσιάζεται στο [35]. Στο [35] οι συγγραφείς χρησιμοποιούν πιθανοτικά μοντέλα προκειμένου να επιτύχουν σχέσεις ανάμεσα στους στόχους των χρηστών και πρότυπα αναδιαμόρφωσης επερωτήματος. Οι Lau et. al. δε λαμβάνουν υπόψη την επεξεργασία των συνδέσμων που έχει επιλέξει ο χρήστης, αλλά επικεντρώνονται στην αλληλεπίδραση του χρήστη με τη μηχανή αναζήτησης. Εμπλουτίζουν σημασιολογικά τα δεδομένα χρήσης (log data) και διαχωρίζουν χειροκίνητα τη δραστηριότητα αναζήτησης σε δύο αμοιβαία αποκλειόμενες ομάδες: αναζήτηση ενός καινούριο θέματος, γενίκευση του θέματος αναζήτησης, ειδίκευση του θέματος αναζήτησης, αναδιαμόρφωση του επερωτήματος ενός συγκεκριμένου θέματος, διακοπή ενός θέματος αναζήτησης, αίτηση για επιπλέον αποτελέσματα σε ένα θέμα. Τελικά, ένα πιθανοτικό μοντέλο και ένα δίκτυο Bayes χρησιμοποιούνται προκειμένου να προβλεφθούν οι επόμενες ενέργειες αναζήτησης. 50

51 Οι διαδικτυακοί γράφοι αποτελούν μία άλλη περιοχή ανάπτυξης τεχνικών αναδιαμόρφωσης του επερωτήματος. Οι Leskovec et al. [36] χρησιμοποιούν της διαδικτυακές προβολές (web projections) προκειμένου να κατασκευάσουν προγνωστικά μοντέλα για το περιεχόμενο των σελίδων του διαδικτύου και της συμπεριφοράς του χρήστη, βάσει των γραφικών χαρακτηριστικών των διαδικτυακών υπογράφων. Αφού οριστεί η πιθανότητα μίας αναδιαμόρφωσης του επερωτήματος, προβλέπεται ο τύπος της αναδιαμόρφωσης του επερωτήματος: γενίκευση ή ειδίκευση. Οι Leskovec et al. δεν περιλαμβάνουν σημασιολογική ανάλυση ή χρησιμοποίηση οντολογιών. Η SOSACT μεθοδολογία αναγνωρίζει περιοχές ενδιαφέροντος στο γράφο της ταξινομίας και χρησιμοποιεί τις περιοχές αυτές προκειμένου να προτείνει ένα σύνολο από συστάσεις στο χρήστη. Η SOSACT μεθοδολογία μοιράζεται την κεντρική ιδέα των Leskovec et al. την εφαρμόζει σε μία οντολογία και την επεκτείνει σημασιολογικά. 2.8 Σημασιολογική Ομοιότητα βασισμένη στην Ιεραρχία των εννοιών Κάποιες άλλες προσεγγίσεις επικεντρώνονται στην εννοιολογική ιεραρχία ή στις σχέσεις μεταξύ των εννοιών. Στο [66] οι Wen et al. διαπιστώνουν ομοιότητα των επερωτημάτων προκειμένου να βελτιώσουν την απόδοση των μηχανών αναζήτησης. Χρησιμοποιούν δεδομένα χρήσης επερωτημάτων και παράγουν ένα σύνολο από συναρτήσεις ομοιότητας. Καταλήγουν σε ένα μέτρο ομοιότητας το οποίο συνδυάζει την ομοιότητα που βασίζεται στα περιερχόμενα των επερωτημάτων και την ομοιότητα που βασίζεται στην επανατροφοδότηση του χρήστη. Μία άλλη ενδιαφέρουσα εργασία είναι η [20] όπου οι Fotzo et al. επίσης μελετούν της σχέσης γενίκευσης/ειδίκευσης ανάμεσα σε έννοιες και κατασκευάζουν μία εφαρμογή για την αυτόματη κατασκευή θεματικών ιεραρχιών εγγράφων. Οι συγγραφείς επεκτείνουν την μέθοδο που περιγράφεται στο [54] με τη χρησιμοποίηση ενός συνόλου λέξεων-κλειδιών. Στην παρούσα εργασία αναγνωρίζονται σχέσεις γενίκευσης ή ειδίκευσης μέσω της μίας ταξινομίας εννοιών. Οι Fotzo et al. καταλήγουν σε ένα αντιπροσωπευτικό σύνολο θεμάτων για ένα σύνολο κειμένων. Κάθε θέμα αντιπροσωπεύεται από ένα σύνολο λέξεων-κλειδιών από τα οποία αναγνωρίζονται οι έννοιες. Χρησιμοποιούν ιεραρχίες με όρους και πιθανότητες με στόχο να εφαρμόσουν ορισμούς σε έννοιες και επομένως να εξάγουν σχέσεις γενίκευσης/ειδίκευσης ανάμεσα στα αντίστοιχα κείμενα. 51

52 Οι Sicilia et al. [57] απαντούν στην ερώτηση του «πόσο πολύ» ένας ταξινομητής ειδικεύει μία έννοια μέσω μίας σχέσης ομοιότητας μεταξύ των εννοιών. Βασίζονται σε διαφορετικά διαχωριστικά των κλάσεων τα οποία ορίζουν διαφορετικά σύνολα από υποκλάσεις με στόχο να ορίσουν τις σχέσεις ειδίκευσης. Στην παρούσα εργασία, οι σχέσεις γενίκευσης/ειδίκευσης αποκαλύπτονται μέσω της ιεραρχίας της Ταξινομίας και τη δομή του υποδένδρου της ταξινομίας. 2.9 Σημασιολογικά Συστήματα Παραγωγής Συστάσεων Παρόμοια συστήματα με το σύστημα SOSACT που χρησιμοποιούν περιεχόμενα δικτυακών τόπων και οντολογίες με στόχο να παρέχουν είτε λειτουργικότητες προσωποποίησης, είτε στατιστική ανάλυση των δικτυακών δεδομένων χρήσης είναι το SEWeP [17], το ORGAN [21] και το THESUS. To σύστημα SEWeP είναι ένα σύστημα παραγωγής συστάσεων το οποίο χρησιμοποιεί δεδομένα χρήσης και σημασιολογία. Το Διαδικτυακό περιεχόμενο επισημαίνεται σημασιολογικά με τη χρησιμοποίηση μίας ταξινομίας. Οι εγγραφές στο αρχείο χρήσης του διαδικτυακού τόπου εμπλουτίζονται σημασιολογικά και δημιουργούν τα C-Logs (Concept-Logs). Το σύστημα εφαρμόζει αλγορίθμους εξόρυξης στο διαδίκτυο στα C-Logs και παρέχει ένα σύνολο από συστάσεις οι οποίες περιλαμβάνουν θεματικές κατηγορίες. Το σύστημα ORGAN επισημαίνει το διαδικτυακό περιεχόμενο με τη χρησιμοποίηση όπως το SEWeP, αλλά χρησιμοποιεί μία οντολογία πεδίου. Το σύστημα ORGAN παρέχει μία γενικότερη σημασιολογική επισήμανση με στόχο να ανακαλύψει σημασιολογικά σύνολα διαδικτυακών σελίδων οι οποίες σχετίζονται με περισσότερο πολύπλοκους συσχετισμούς. Το αποτέλεσμα της μεθόδου του συστήματος ORGAN είναι ένας μηχανισμός στατιστικής ανάλυσης των δεδομένων χρήσης του διαδικτυακού τόπου και απαντά σε ερωτήματα συσχετιζόμενα με τη χρήση του διαδικτυακού τόπου όπως τα περισσότερο δημοφιλή θέματα διαδικτυακών τόπων, το ποσοστό των συνεδριών χρηστών που επισκέπτονται τα σημαντικά θεματικά πεδία κλπ. Το THESUS [23] εφαρμόζει σημασιολογία στους εισερχόμενους συνδέσμους σε ένα συνόλου δικτυακών κείμενων, τα αντιστοιχίζει σε μία οντολογία πεδίου και εφαρμόζει ομαδοποίηση με στόχο να ανακαλύψει όμοια σύνολα κειμένων. Η παρούσα εργασία ακολουθεί την ίδια μεθοδολογία με το συστήματα SEWeP, ORGAN και THESUS κατά τη σημασιολογική επισήμανση. Παράλληλα, επικεντρώνεται στην μεταφορά από την πλοήγηση του χρήστη στις έννοιες, απαλλασσόμενη από το φόρτο της επεξεργασίας των δεδομένων χρήσης. Αντίθετα, ακολουθεί μία γενική προσέγγιση και εφαρμόζει σημασιολογική ανάλυση στις σελίδες του δικτυακού τόπου. Προτείνει μία πρωτότυπη 52

53 μεθοδολογία και ένα μέτρο προκειμένου να εντοπιστεί ο σημασιολογικός προσανατολισμός της πλοήγησης του χρήστη: γενίκευση ή ειδίκευση. 53

54 54

55 3 Σημασιολογικός Χαρακτηρισμός του Περιεχομένου των Σελίδων του Δικτυακού Τόπου Πλοήγησης του Χρήστη 3.1 Γενικά Στις παραγράφους που ακολουθούν, παρουσιάζονται αναλυτικά τα βήματα της μεθοδολογίας που ακολουθείται για τον σημασιολογικό χαρακτηρισμό του περιεχομένου του δικτυακού τόπου πλοήγησης του χρήστη. Στην παρούσα εργασία, η μελέτη περιλαμβάνει ένα σύνολο από πηγές που βρίσκονται διαθέσιμες στο διαδίκτυο και αφορούν το σύνολο των σελίδων ενός ιστοτόπου, χωρίς απώλεια της γενικότητας, καθώς η μεθοδολογία μπορεί να εφαρμοστεί σε ένα σύνολο πηγών κειμένων ανεξάρτητα από το είδος τους. Στην επιστήμη των Υπολογιστών, ο σημασιολογικός χαρακτηρισμός του περιεχομένου ενός κειμένου αφορά τη μετάφραση μίας έκφρασης. Το κείμενο μπορεί να ανήκει σε ένα σύνολο από έγγραφα, στο λεκτικό περιεχόμενο ενός ιστοτόπου, στο σχήμα μίας βάσης δεδομένων, κλπ. Η εμπειρία του χρήστη αφορά την αλληλεπίδραση του με ένα σύνολο από κείμενα, τα οποία μπορούν να ανήκουν στις κατηγορίες που αναφέρθηκαν και όχι αποκλειστικά στις σελίδες ενός ιστοτόπου πλοήγησης. Επισημαίνεται ότι η μεθοδολογία που αναφέρεται στην παρούσα εργασία ακολουθεί αυτές τις βασικές αρχές και μπορεί να εφαρμοστεί και σε μία ποικιλία από κείμενα. Αρχικά, παρουσιάζονται συνοπτικά τα βασικά βήματα της μεθοδολογίας. Στη συνέχεια, περιγράφεται αναλυτικά κάθε βήμα όπου εξετάζονται οι παράμετροι οι οποίοι καθορίζουν το σημασιολογικό χαρακτηρισμό (σημασιολογική επισήμανση ή σημασιολογική ανάθεση) του περιεχομένου των σελίδων. Η ανάλυση των επιμέρους βημάτων ακολουθεί στις παρακάτω υποενότητες. 55

56 3.2 Επισκόπηση της μεθοδολογίας του σημασιολογικού χαρακτηρισμού του περιεχομένου του δικτυακού τόπου πλοήγησης Στην τρέχουσα ενότητα παρουσιάζονται τα βασικά βήματα της SOSACT μεθοδολογίας, προκειμένου να χαρακτηριστούν σημασιολογικά οι σελίδες του Ιστοτόπου. Οι βασικές παράμετροι της μεθοδολογίας και ο τρόπος που αφορούν τη διαδικασία σημασιολογικού χαρακτηρισμού (Εικόνα 3.1) περιγράφονται παρακάτω. Ο Ιστότοπος Οι σελίδες του Ιστοτόπου αποτελούν την πηγή από την οποία λαμβάνεται το περιεχόμενο στο οποίο γίνεται ο σημασιολογικός χαρακτηρισμός. Το περιεχόμενο υπόκειται σε διαδικασίες επεξεργασίας οι οποίες περιλαμβάνουν ενέργειες όπως η εξαγωγή αντιπροσωπευτικών λεξεων-κλειδιών και η δημιουργία ενός μοντέλου δεδομένων για την ορθή αποθήκευση και διαχείριση των σελίδων και των λέξεων-κλειδιών. Η Ταξινομία Προκειμένου να εκτελεστεί η σημασιολογική ανάθεση, απαιτείται η χρησιμοποίηση ενός σημασιολογικού μοντέλου το οποίο αποτελεί το πρότυπο το οποίο χαρακτηρίζει σημασιολογικά το περιεχόμενο των σελίδων. Ένα σύνολο εννοιών-προτύπων χαρακτηρίζει σημασιολογικά το περιεχόμενο των σελίδων εφόσον γίνει ανάθεση των όρων στις σελίδες. Προκειμένου να γίνει η κατάταξη των σελίδων σύμφωνα με το αν γενικεύουν ή εξειδικεύονται σε ένα πεδίο γνώσης, απαιτείται, επιπλέον, και η ιεραρχία των όρων που ανατίθενται στο περιεχόμενο. Συνεπώς, το σημασιολογικό μοντέλο είναι μία ταξινομία όρων η οποία χαρακτηρίζει και κατατάσσει σημασιολογικά το σύνολο των σελίδων του Ιστοτόπου που πλοηγείται ο χρήστης. Σημασιολογική Ανάθεση Η Σημασιολογική Ανάθεση περιλαμβάνει όλες τις διαδικασίες με τις οποίες οι σελίδες αντιστοιχίζονται σε ένα σύνολο από όρους της Ταξινομίας. Συνεπώς, με τον τρόπο αυτό λαμβάνεται ένα σύνολο από οντότητες ενός συγκεκριμένου πεδίου γνώσης που αντιπροσωπεύουν τις σελίδες, ενώ, η ιεραρχία μεταξύ τους υποδεικνύει την ιεραρχία μεταξύ των σελίδων, αποκαλύπτοντας, με τον τρόπο αυτό, εάν οι σελίδες ειδικεύονται ή γενικεύουν στις έννοιες που περιλαμβάνουν. 56

57 Το επόμενο βήμα της μεθοδολογίας περιλαμβάνει την παρακολούθηση της συμπεριφοράς του χρήστη στο σύνολο των σελίδων. Κάθε σελίδα, αφού λάβει χώρα η σημασιολογική ανάθεση, αντιμετωπίζεται σαν ένα σύνολο από έννοιες. Η δραστηριότητα του χρήστη καταγράφεται σε ένα παράθυρο συνόδου. Ένας αλγόριθμος απόφασης καταγράφει το σύνολο των εννοιών που χαρακτηρίζουν τις σελίδες που ο χρήστης έχει επισκεφτεί και αποφασίζει κατά πόσον ο χρήστης γενικεύει ή ειδικεύει κατά τη σύνοδο του, σε ένα συγκεκριμένο πεδίο γνώσης. Συνεπώς, ο αλγόριθμος εντοπίζει τον προσανατολισμό της συνόδου του χρήστη. Η μεθοδολογία για τον σημασιολογικό χαρακτηρισμό του περιεχομένου του Ιστοτόπου πλοήγησης του χρήστη αναλύεται στις επόμενες ενότητες. Εικόνα 3.1 Βήματα Μεθοδολογίας Σημασιολογικού Χαρακτηρισμού του Περιεχομένου του Ιστοτόπου Πλοήγησης του Χρήστη 57

58 3.3 Διαχείριση του περιεχομένου του δικτυακού τόπου Η παρούσα ενότητα παρουσιάζει, αναλυτικά, τη διαδικασία επεξεργασίας και προετοιμασίας του περιεχομένου των σελίδων του ιστοτόπου που πλοηγείται ο χρήστης. Αρχικά, περιγράφονται οι πηγές οι οποίες προσφέρουν το περιεχόμενο επεξεργασίας, στη συνέχεια αναλύεται η διαδικασία επεξεργασίας, και τέλος γίνεται παρουσίαση των αποτελεσμάτων της διαχείρισης του περιεχομένου του ιστοτόπου Οι πηγές περιεχομένου Όπως αναφέρθηκε και παραπάνω, οι πηγές περιεχομένου μπορούν να περιλαμβάνουν και ένα σύνολο αρχείων κειμένου, τα οποία δε χρειάζεται να είναι HTML σελίδες οι οποίες ανήκουν στον ίδιο ιστότοπο. Οι πηγές είναι δυνατόν να περιλαμβάνουν HTML σελίδες οι οποίες ανήκουν σε διαφορετικούς ιστοτόπους ή, ακόμα, και απλά αρχεία κειμένου στα οποία μπορούν να εφαρμοστούν τεχνικές εξόρυξης δεδομένων και πληροφορίας. Στην παρούσα εργασία, η μελέτη λαμβάνει χώρα σε ένα ιστότοπο στο διαδίκτυο. Συνεπώς, οι πηγές περιεχομένου περιλαμβάνουν HTML σελίδες οι οποίες ανήκουν στο διαδικτυακό τομέα (web domain) του ιστοτόπου. Κάθε HTML σελίδα προσφέρει μία όψη σελίδας. Κάθε όψη σελίδας προσφέρει ένα συγκεκριμένο περιεχόμενο, το οποίο υπόκειται σε τεχνικές ανάκτησης πληροφορίας, οι οποίες αναλύονται στην επόμενη παράγραφο Επεξεργασία των πηγών περιεχομένου Μία όψη σελίδας (pageview) είναι το σύνολο των αντικειμένων περιεχομένου που εμφανίζονται στην οθόνη του χρήστη ύστερα από μία ενέργεια αλληλεπίδρασης του χρήστη με τη σελίδα. Η ενέργεια αλληλεπίδρασης του χρήστη είναι ένα κλίκ το οποίο ενεργοποιεί ένα γεγονός φόρτωσης (page load event) της σελίδας. Στην παρούσα εργασία, το κρυφό περιεχόμενο των σελίδων δε λαμβάνεται υπόψη, χωρίς αυτό να επηρεάζει την ποιότητα των αποτελεσμάτων. Κάθε όψη σελίδας περιλαμβάνει ένα σύνολο αντικειμένων περιεχομένου όπως κείμενο, εικόνες, στοιχεία HTML, ετικέτες XML κλπ. Όπως αναφέρεται και στο [14], τα αντικείμενα που λαμβάνονται υπόψη στην επεξεργασία απομονώνονται από τα δεδομένα δομής της σελίδας. Συνεπώς, το περιεχόμενο που λαμβάνεται υπόψη περιλαμβάνει το απλό κείμενο της όψης της σελίδας. 58

59 Εικόνα Εξαγωγή απλού κειμένου από μία όψη σελίδας Το περιεχόμενο της όψης σελίδας διατρέχεται και αποδίδει ένα σύνολο από λέξεις-κλειδιά. Η μέθοδος εξαγωγής λέξεων-κλειδιών στηρίζεται στη συχνότητα εμφάνισης των διαφορετικών όρων στο περιεχόμενο της όψης σελίδας, η οποία αναλύεται στην επόμενη παράγραφο Μετρικές Σημαντικότητας των Όρων Ο υπολογισμός της σημαντικότητας των όρων ενός κειμένου κρίνεται αναγκαίος κατά το προπαρασκευαστικό στάδιο της επεξεργασίας του περιεχομένου σε διάφορες τεχνικές Ανάκτησης Πληροφορίας και Σημασιολογικής Ανάλυσης στο Διαδίκτυο. Προκειμένου να υπολογιστεί η σημαντικότητα των όρων έχουν αναπτυχθεί ένα πλήθος από μετρικές, οι οποίες αναφέρονται παρακάτω: TF*IDF Η tf*idf [28] μετρική είναι μία στατιστική μετρική η οποία δείχνει πόσο σημαντικός είναι ένας όρος σε ένα σύνολο κειμένων ή ένα corpus (σύνολο δομημένων κειμένων). Η μετρική προέκυψε από εξαντλητικές εμπειρικές μελέτες στο συνδυασμό μετρικών-βαρών [53]. Η σημαντικότητα είναι ανάλογη του αριθμού εμφανίσεων του όρου σε ένα κείμενο και αντιστρόφως ανάλογη του αριθμού των κειμένων του corpus που εμφανίζεται ο όρος. Στην παρούσα εργασία, το σύνολο των κειμένων είναι το περιεχόμενο των διαφορετικών όψεων των σελίδων. Επιπλέον, η δομή του δικτυακού τόπου είναι σαφώς καθορισμένη σε διακριτές ενότητες με σαφή σημασιολογία η κάθε μία. Συνεπώς, ένας όρος που συνεισφέρει σημασιολογικά σε ένα περιεχόμενο εμφανίζεται σε ένα πολύ μικρό αριθμό όψεων σελίδων. Συνεπώς, η χρησιμοποίηση αυτής της μετρικής δε συνεισφέρει σημαντικά στη 59

60 σημαντικότητα ενός όρου για μία όψη σελίδας, αυξάνοντας την πολυπλοκότητα των υπολογισμών. BM25 Η μετρική Okapi BM25 ή BM25 είναι μία συνάρτηση υπολογισμού βάρους η οποία αναπτύχθηκε από τους Stephen E. Robertson, Karen Spärck Jones και άλλους, για το σύστημα ανάκτησης πληροφορίας Okapi το Η μετρική αποτελεί μία από τις πιο γνωστές και ευρέως διαδεδομένες μετρικές με εφαρμογή, κυρίως στις μηχανές αναζήτησης. Η μετρική είναι μία συνάρτηση «συνόλου λέξεων» (bag-of-words) η οποία κατατάσσει τα κείμενα βάσει των όρων ενός επερωτήματος που εμφανίζονται σε κάθε κείμενο, ανεξάρτητα από την συσχέτιση ανάμεσα στους όρους μέσα σε ένα κείμενο. Η συνάρτηση περιλαμβάνει μία οικογένεια συναρτήσεων με ελάχιστα διαφορετικές παραμέτρους. Ένα από τα πιο αντιπροσωπευτικά στιγμιότυπα της συνάρτησης είναι το παρακάτω: Δεδομένου ενός επερωτήματος Q το οποίο περιλαμβάνει λέξεις κλειδιά q 1,, q n το σκορ MB25 του κειμένου D είναι: ( ) ( ) ( )( ) ( ) ( ) όπου, ( ) είναι η συχνότητα εμφάνισης του όρου στο κείμενο, είναι το μήκος του κειμένου σε λέξεις και είναι το μέσο μήκος κειμένου της συλλογής των κειμένων, τα και είναι παράμετροι βελτιστοποίησης και το ( )είναι το βάρος IDF του όρου. Η μετρική ΒΜ25 αναπτύχθηκε ως ένας τρόπος δημιουργίας ενός πιθανοτικού μοντέλου το οποίο λαμβάνει υπόψη το μήκος των κειμένων και τη συχνότητα των όρων [29]. Η μετρική χρησιμοποιείται, κυρίως, στις μηχανές αναζήτησης. Επιπλέον, στην παρούσα εργασία, ο υπολογισμός του σημασιολογικού βάρους ενός όρου λαμβάνει χώρα σε επόμενο βήμα της μεθοδολογίας και όχι κατά την προετοιμασία των δεδομένων. Συνεπώς, η συγκεκριμένη μετρική αυξάνει την πολυπλοκότητα στο στάδιο προετοιμασίας των δεδομένων. Η βιβλιογραφία περιλαμβάνει και άλλες σημαντικές μετρικές και μεθοδολογίες για τον υπολογισμό του βάρους που διαθέτει ένας όρος για ένα συγκεκριμένο περιεχόμενο όπως οι LSA, LSI, LDA (Latent Dirichlet Allocation). Οι περισσότερες από αυτές υπολογίζουν την αλληλεξάρτηση ή την ομοιότητα των όρων. 60

61 Στην παρούσα εργασία η σημασιολογική ομοιότητα των όρων υπολογίζεται βάσει ενός σημασιολογικού ιεραρχικού μοντέλου (Ταξινομία). Συνεπώς, οι μεθοδολογίες αυτές δε χρησιμοποιούνται προκειμένου να εξεταστεί αποκλειστικά η χρησιμοποίηση του σημασιολογικού μοντέλου, το οποίο παρουσιάζεται σε επόμενο κεφάλαιο Μέθοδος Εξαγωγής Λέξεων-Κλειδιών Διάφορες μέθοδοι εξαγωγής λέξεων κλειδιών (όρων) έχουν προταθεί στη βιβλιογραφία. Στην παρούσα εργασία η μέθοδος εξαγωγής κλειδιών εστιάζει σε δύο παραμέτρους: στην επιλογή ενός όρου και στη σημαντικότητα που έχει ο όρος για το περιεχόμενο. Συνεπώς, η μέθοδος αρχικά, αποφασίζει ποίοι είναι οι όροι που επιλέγονται να χαρακτηρίσουν σημασιολογικά μία σελίδα και στη συνέχεια, αποδίδει σε κάθε έναν ένα βάρος το οποίο εκφράζει το πόσο σημαντικός είναι ένας όρος για το περιεχόμενο της σελίδας. Επιλογή Όρων Το περιεχόμενο κάθε σελίδας διατρέχεται σε όλο το μήκος του και λαμβάνεται κάθε λέξη που συναντάται. Όπως αναφέρεται και στο [21], αρχικά, αφαιρούνται λέξεις οι οποίες δεν έχουν μεγάλη σημασιολογική αξία για το περιεχόμενο της σελίδας, όπως, σύνδεσμοι, προθέσεις, άρθρα, αριθμοί, σύμβολα κλπ. Οι όροι που λαμβάνονται είναι συνήθως ουσιαστικά, επίθετα, ρήματα τα οποία διαθέτουν σημασιολογικό περιεχόμενο. Σε δεύτερο βήμα, η μέθοδος απομακρύνει διπλές εμφανίσεις όρων εφόσον αυτοί εμφανίζονται στο κείμενο πάνω από μία φορές. Τελικά, λαμβάνονται 50 διαφορετικοί και πιο συχνοί όροι για κάθε περιεχόμενο. Ο αριθμός των όρων είναι εμπειρικός και αποτελεί μία παράμετρο της μεθόδου. Συνεπώς, ο αριθμός μπορεί να ποικίλει ανάλογα με το μέσο πλήθος λέξεωνκλειδιών που εμφανίζονται στο περιεχόμενο μίας σελίδας. Βάρος Όρων για μία σελίδα Κάθε όρος είναι δυνατόν να εμφανιστεί σε κάποιο συγκεκριμένο περιεχόμενο είτε σπάνια, είτε εκτενώς, σε όλη την έκταση του περιεχομένου. Όσο περισσότερο συναντάται ένας όρος, τόσο περισσότερο καλύπτει το περιεχόμενο και, πιθανόν, το χαρακτηρίζει και σημασιολογικά. Η έκταση στην οποία ένας όρος καλύπτει κάποιο συγκεκριμένο περιεχόμενο αφορά και τη σημαντικότητα του όρου για το συγκεκριμένο περιεχόμενο. Η σημαντικότητα ενός όρου για ένα περιεχόμενο προσδιορίζεται, όπως αναφέρθηκε και παραπάνω, με ένα πραγματικό αριθμό, το βάρος. Το βάρος προσδιορίζεται από τον αριθμό των εμφανίσεων του όρου στο περιεχόμενο. Η βιβλιογραφία προσφέρει ένα πλήθος μετρικών οι οποίες θα 61

62 μπορούσαν να χρησιμοποιηθούν για τον υπολογισμό του βάρους, όπως η μετρική TF *IDF (Term Frequency Inverse Document Frequency). Στην παρούσα εργασία χρησιμοποιείται ο απλός αριθμός εμφανίσεων των όρων για το περιεχόμενο μίας όψης σελίδας, καθώς η μετρική TF*IDF αποφεύγεται να χρησιμοποιηθεί σε περιπτώσεις όπου οι όψεις σελίδων διαθέτουν περιεχόμενο διαφορετικού πεδίου γνώσης [14], και, συνεπώς, η σημασιολογική συνεισφορά ενός όρου είναι δυσδιάκριτη. Το σύνολο των όρων και η σημαντικότητα τους θα μπορούσαν να εμπλουτιστούν με λέξεις-κλειδιά οι οποίες προκύπτουν από άλλες πηγές [14] [21], όπως, το περιεχόμενο των όψεων σελίδων οι οποίες δείχνουν στην τρέχουσα όψη σελίδας, ή, το περιεχόμενο των οψεων σελίδων στις οποίες δείχνει η τρέχουσα όψη σελίδας. Στην παρούσα εργασία, οι επιπλέον πηγές δε χρησιμοποιούνται καθώς οι όψεις σελίδων των επιπλέον πηγών, ανήκουν στον δικτυακό τόπο που εξετάζεται και συνεπώς, το περιεχόμενο τους μελετάται και υπόκειται στις διαδικασίες επεξεργασίας μία φορά, (όταν η όψη σελίδας είναι υπό επεξεργασία), χωρίς να χρειάζεται να επαναληφθεί η διαδικασία (όταν η όψη σελίδας ανήκει στις επιπλέον πηγές). 3.4 Δημιουργία Ταξινομίας Όπως αναφέρθηκε και παραπάνω, η σημασιολογική ανάλυση του περιεχομένου των ιστοσελίδων περιλαμβάνει τη χρησιμοποίηση ενός σημασιολογικού μοντέλου το οποίο περιλαμβάνει και αναπαριστά τη γνώση πεδίου που αναφέρεται ο δικτυακός τόπος. Το σημασιολογικό μοντέλο αναφέρεται σε ένα σύνολο από έννοιες του πραγματικού κόσμου οι οποίες εμφανίζονται στο περιεχόμενο των σελίδων και οφείλει να αναπαρίσταται με τρόπο ώστε να είναι κατανοητό από τις μηχανές. Οι προϋποθέσεις αυτές καταδεικνύουν τη χρησιμοποίηση μίας οντολογίας με ιεραρχία όρων, την ταξινομία Κατασκευή της SOSACT Ταξινομίας Το πεδίο γνώσης της παρούσας εργασίας αναπαρίσταται από την SOSACT Ταξινομία. Η επιλογή της Ταξινομίας Η επιλογή της Ταξινομίας ως μορφή αναπαράστασης του πεδίου γνώσης στην παρούσα εργασία βασίζεται κυρίως στους παρακάτω λόγους: Το πεδίο γνώσης που καλύπτει μία Ταξινομία είναι οργανωμένο σε μία ιεραρχική δομή εννοιών. Κάθε έννοια ορίζει μία κατηγορία. Κάθε 62

63 κατηγορία αναλύεται σε υποκατηγορίες. Συνεπώς, η ταξινομία ορίζει τη σχέση πατέρα-παιδιού ανάμεσα στις κατηγορίες. Το περιεχόμενο αντιστοιχίζεται σε κάθε μία κατηγορία του όρου. Κατά συνέπεια, το περιεχόμενο κατηγοριοποιείται αυτόματα σε μία ιεραρχική κατάταξη, χωρίς να εμπλέκει επιπλέον σχέσεις μεταξύ των όρων, όπως αυτές θα ορίζονταν σε μία οντολογία. Η υποβολή επερωτημάτων αφορά το σημασιολογικό προσανατολισμό του χρήστη και χρησιμοποιεί την ιεραρχική δομή για να επιστρέψει αποτελέσματα. Πιο συγκεκριμένα, τα επερωτήματα που υποβάλλονται στην Ταξινομία κατά την εκτέλεση του αλγορίθμου είναι τα εξής: o Εντοπισμός της έννοιας Α. o Εντοπισμός του υποδένδρου με ρίζα την έννοια Α. Προκειμένου να επιστραφούν αποτελέσματα στα παραπάνω επερωτήματα, αρκεί να εντοπιστεί η κόμβος που αντιστοιχίζεται στην έννοια Α. Οι έννοιες που ανήκουν στο υποδένδρο επιστρέφονται βάσει της ιεραρχικής δομής της Ταξινομίας. Συνεπώς, αρκεί να εκτελεστεί μία αναζήτηση στην ιεραρχική δομή της Ταξινομίας για την έννοια Α, προκειμένου να επιστραφεί το υποδένδρο της. Η κατασκευή της Ταξινομίας που χρησιμοποιείται, στην παρούσα μελέτη, από το σύστημα SOSACT (SOSACT Ταξινομία) κατασκευάστηκε χειροκίνητα και στηρίζεται στην ιεραρχία που ακολουθεί το Open Directory Project (ODP) [44]. Open Directory Project Το Open Directory Project, γνωστό και ως Dmoz είναι ένας πολυγλωσσικός κατάλογος ανοιχτού περιεχομένου, ο οποίος περιλαμβάνει συνδέσμους του Παγκόσμιου Ιστού. Ανήκει στον Netscape και συντηρείται από εθελοντές συντάκτες. Το Open Directory Project αποτελεί μία σημαντική εργασία του 20 ου αιώνα στα πλαίσια τέτοιων έργων εθελοντικής συμμετοχής καθώς, επιχειρεί να γίνει ένας σαφής και οριστικός κατάλογος καταγραφής του Παγκόσμιου Ιστού. Αποτελεί τη μεγαλύτερη κατανεμημένη βάση δεδομένων του περιεχομένου του Παγκόσμιου Ιστού το οποίο κατατάσσεται από ανθρώπινο δυναμικό. Τα πρότυπα που ακολουθούνται κατά τη σύνταξη αποτελούν και τη βάση εντοπισμού των πηγών του στον Παγκόσμιο Ιστό. Το ODP ενισχύει τις υπηρεσίες καταλόγου διαφόρων μηχανών αναζήτησης, όπως οι Google, AOL, Netscape Search, Lycos κλπ. Το ODP χρησιμοποιεί ένα ιεραρχικό σχήμα οντολογίας προκειμένου να οργανώσει τους συνδέσμους των δικτυακών τόπων. Πιο συγκεκριμένα, σύνδεσμοι που αφορούν παρόμοια θέματα ομαδοποιούνται σε κατηγορίες οι οποίες περιλαμβάνουν μικρότερες κατηγορίες κ.ο.κ. Το σύνολο των κατηγοριών 63

64 και η ιεραρχία τους αποτελούν μία γενική κατάταξη των εννοιών που συναντώνται στον Παγκόσμιο Ιστό. Η SOSACT ταξινομία που αναπτύχθηκε συμμορφώνεται με την κατάταξη των εννοιών του ODP. Ωστόσο, διαθέτει κάποιες διαφοροποιήσεις προκειμένου να καλύψει περισσότερο άρτια την γνώση πεδίου του δικτυακού τόπου που είναι υπό μελέτη.. Το ODP επιλέγεται ως ένας κατάλογος του Παγκόσμιου Ιστού ο οποίος συλλαμβάνει τις διαστάσεις του. Η ταξινομία υλοποιήθηκε σε OWL και αναπτύχθηκε με το Protégé. Η SOSACT Ταξινομία Η SOSACT Ταξινομία αναφέρεται στον ιστότοπο του Πανεπιστημίου Πατρών Οι έννοιες που εμφανίζονται στην Ταξινομία, ανήκουν κυρίως στον τομέα γνώσης της Πανεπιστημιακής Εκπαίδευσης. Επιπλέον, αναφέρονται και έννοιες που καλύπτονται από τις σελίδες του δικτυακού τόπου οι οποίες ανήκουν σε άλλους τομείς γνώσης. Οι βασικές έννοιες είναι οι παρακάτω: Έννοια Επεξήγηση Arts Περιλαμβάνει έννοιες όπως οι τέχνες, η μουσική, το θέατρο κλπ. Business Περιλαμβάνει έννοιες όπως οι ακαδημαϊκές εκδόσεις κλπ. Education Αναφέρεται στη Διοίκηση του Πανεπιστημίου και τις Πανεπιστημιακές Αρχές, τη διαμονή και τις παροχές, την υποδομή και τις Πανεπιστημιακές Σχολές κλπ. Libraries Αναφέρεται στις ακαδημαϊκές και ψηφιακές βιβλιοθήκες κλπ. Museums Αναφέρεται σε μουσεία διάφορων επιστημών Person Περιλαμβάνει τους ρόλους ενός ατόμου, στα πλαίσια της Πανεπιστημιακής Εκπαίδευσης, όπως, Μαθητής ή Εργαζόμενος κλπ. Recreation Αναφέρεται σε έννοιες αναψυχής όπως ταξίδια, προγράμματα Erasmus κλπ. Regional Αναφέρεται σε γεωγραφικές περιοχές Science Περιλαμβάνει έννοιες όπως τα επιστημονικά ιδρύματα, εκδόσεις, έρευνα κλπ. Society Περιλαμβάνει έννοιες που αφορούν την κοινωνία, όπως ο πολιτισμός, η υγεία, ο νόμος κλπ. Sports Αναφέρεται στον αθλητισμό και περιλαμβάνει έννοιες όπως οι αθλητικές υποδομές, αθλητικές υποδομές στους πανεπιστημιακούς χώρους κλπ. Work Αναφέρεται στην έννοια της εργασίας και περιλαμβάνει έννοιες όπως τα πανεπιστημιακά μαθήματα, οι ερευνητικές δραστηριότητες κλπ. 64

65 Πίνακας Οι βασικές έννοιες της SOSACT ταξινομίας Το δένδρο της Ταξινομίας παρουσιάζεται στις παρακάτω εικόνες. Εικόνα SOSACT Ταξινομία: Arts, Business 65

66 66

67 67

68 68

69 69

70 Εικόνα SOSACT Ταξινομία: Education Εικόνα SOSACT Ταξινομία: Libraries, Maps, Museums 70

71 Εικόνα SOSACT Ταξινομία: Person, Recreation 71

72 72

73 Εικόνα SOSACT Ταξινομία: Regional 73

74 Εικόνα SOSACT Ταξινομία: Society, Sports, Work 3.5 Σημασιολογική Επισήμανση και Υπολογισμός Κυριαρχίας Εννοιών Η παρούσα ενότητα αφορά τη σημασιολογική επισήμανση του περιεχομένου των σελίδων του Δικτυακού Τόπου, καθώς επίσης και τον υπολογισμό της κυριαρχίας των εννοιών που εμφανίζονται στις σελίδες Η SOSACT τεχνική επισήμανσης Η SOSACT τεχνική επισήμανσης αντιστοιχίζει το περιεχόμενο των σελίδων του ιστότοπου στις έννοιες της SOSACT Ταξινομίας. Προκειμένου να πραγματοποιηθεί μία τέτοια αντιστοιχία απαιτείται ένα μέτρο ομοιότητας το οποίο εκφράζει την εγγύτητα του περιεχομένου μίας ιστοσελίδας στη σημασία ενός όρου της οντολογίας. Το μέτρο ομοιότητας χρησιμοποιείται σε συνεργασία με το Wordnet [67]. To Wordnet οργανώνει τις εγγραφές του σε σύνολα συνωνύμων, τα λεγόμενα synsets. Κάθε synset αναπαριστά μία λεκτική έννοια. Στις επόμενες παραγράφους γίνεται μία ανασκόπηση του Wordnet, των μέτρων ομοιότητας που συναντώνται στη βιβλιογραφία, καθώς και μία λεπτομερής ανάλυση του μέτρου ομοιότητας που χρησιμοποιείται στην SOSACT τεχνική επισήμανσης Σημασιολογική Ομοιότητα Στην προηγούμενη παράγραφο χρησιμοποιείται ο όρος «μέτρο ομοιότητας». Το μέτρο ομοιότητας αναφέρεται στις έννοιες που εμπλέκονται στο σώμα των κειμένων της SOSACT τεχνικής και των όρων της ταξινομίας και επιδιώκει να 74

75 υπολογίσει πόσο όμοιες είναι σημασιολογικά δύο έννοιες, βάσει μίας συγκεκριμένης βάσης γνώσης. Η Σημασιολογική Ομοιότητα είναι μία μετρική πάνω σε ένα σύνολο κειμένων ή μία λίστα όρων, όπου η απόσταση ανάμεσα στους όρους βασίζεται στην ομοιότητα της σημασίας τους και στο σημασιολογικό τους περιεχόμενο. Η Σημασιολογική Ομοιότητα μπορεί να επιτευχθεί με τον ορισμό μίας τοπολογικής ομοιότητας, με τη χρησιμοποίηση οντολογιών, όπου η απόσταση ανάμεσα στις λέξεις δείχνει την ομοιότητα των λέξεων Το Wordnet Το Wordnet παρέχει έναν αποδοτικό συνδυασμό παραδοσιακής λεξικογραφικής πληροφορίας η οποία απευθύνεται σε αναγνώστες και σύγχρονης υπολογιστικής. Το Wordnet είναι μία διαδικτυακή λεξική βάση δεδομένων η οποία σχεδιάστηκε για να χρησιμοποιείται με τον έλεγχο ενός προγράμματος ελέγχου. Περιλαμβάνει λέξεις στα αγγλικά όπως ονόματα, ρήματα, επίθετα και επιρρήματα, τα οποία είναι οργανωμένα σε σύνολα συνώνυμων, κάθε ένα από τα οποία αντιπροσωπεύει μία λεκτική έννοια. Οι σημασιολογικές σχέσεις συνδέουν τα σύνολα των συνωνύμων. To WordNet επιχειρεί να θέσει συνδέσεις μεταξύ διαφορετικών τύπων Μερών του Λόγου. Γλωσσικοί Ορισμοί του WordNet To WordNet ορίζει το λεξιλόγιο μίας γλώσσας ως ένα σύνολο W με ζεύγη (f, s), όπου f είναι μία φόρμα και αποτελείται από ένα αλφαριθμητικό πεπερασμένης αλφαβήτου, και s μία έννοια η οποία αποτελείται από ένα στοιχείο από ένα δεδομένο σύνολο ερμηνειών. Οι φόρμες μπορούν να είναι εκφράσεις που αποτελούνται από ένα αλφαριθμητικό χαρακτήρων. Κάθε φόρμα με μία έννοια σε μία γλώσσα λέγεται λέξη, στη γλώσσα αυτή. Ένα λεξικό είναι μία αλφαβητική λίστα λέξεων. Μία λέξη η οποία έχει περισσότερες από μία έννοιες ονομάζεται πολυσημία. Δύο λέξεις που μοιράζονται τουλάχιστον μία έννοια από κοινού είναι συνώνυμα. Η χρησιμοποίηση μίας λέξης είναι το σύνολο γλωσσολογικών περιεχομένων, C, που μπορεί αυτή η λέξη να χρησιμοποιηθεί. Η σύνταξη της γλώσσας διαχωρίζει το C σε συντακτικές κατηγορίες. Οι λέξεις που εμφανίζονται στο υποσύνολο N είναι ουσιαστικά, οι λέξεις που εμφανίζονται στο υποσύνολο V είναι ρήματα κ.ο.κ. Σε κάθε κατηγορία συντακτικών περιεχομένων υπάρχουν επιπλέον κατηγορίες σημασιολογικού περιεχομένου. Το WordNet περιλαμβάνει περισσότερες από διαφορετικές φόρμες λέξεων και περισσότερες από διαφορετικές λέξεις εννοιών. Διακρίνει ανάμεσα στις συντακτικές κατηγορίες: ουσιαστικό, ρήμα, επίθετο και επίρρημα. 75

76 Μία μεγαλύτερη ποικιλία σημασιολογικών σχέσεων ορίζεται ανάμεσα σε λέξεις και έννοιες από αυτή που ενσωματώνεται στο WordNet. Οι σημασιολογικές σχέσεις στο WordNet είναι οι παρακάτω: Συνωνυμία: Αποτελεί τη βασική σχέση στο WordNet, καθώς το WordNet χρησιμοποιεί σύνολα συνώνυμων (synsets) προκειμένου να αναπαραστήσει έννοιες λέξεων. Η συνωνυμία είναι μία συμμετρική σχέση μεταξύ των φορμών. Αντωνυμία: Είναι μία συμμετρική σχέση ανάμεσα σε φόρμες λέξεων που δηλώνεται «αντί του ονόματος». Υπωνυμία και το αντίθετό της, η υπερωνυμία είναι μεταφορικές σχέσεις ανάμεσα σε synsets. Δεδομένου ότι υπάρχει μόνο μία υπερωνυμία, αυτή η σημασιολογική σχέση οργανώνει τις έννοιες σε μία ιεραρχική δομή. Μερωνυμία (είναι-μέρος-του) και το αντίθετο η ολωνυμία (είναι-είδοςτου) είναι σύνθετες σημασιολογικές σχέσεις. Τροπωνυμία: αποτελεί για τα ρήματα ό,τι για τα ουσιαστικά η υπωνυμία. Οι παραπάνω σημασιολογικές σχέσεις φαίνονται στο παρακάτω παράδειγμα: Το δένδρο είναι ένα είδος φυτού, το δένδρο είναι μία υπωνυμία του φυτού, και το φυτό μία υπερωνυμία του δένδρου. Ανάλογα, ο κορμός είναι ένα μέρος του δένδρου. Ο κορμός είναι μερωνυμία του δένδρου, ενώ το δένδρο είναι ολωνυμία του κορμού. Κάθε μία από αυτές τις σημασιολογικές σχέσεις αναπαρίσταται με δείκτες ανάμεσα στις φόρμες λέξεων και στα synsets. Το περιβάλλον διαχείρισης του WordNet είναι ένα παραθυρικό περιβάλλον όπου ο χρήστης εισάγει μια λέξη-φόρμα και με τη βοήθεια ενός menu επιλογών επιλέγει την κατάλληλη συντακτική κατηγορία προκειμένου να αναπαρασταθεί η λεκτική πληροφορία. Για κάθε κατηγορία το WordNet παρέχει επιλογές με τις αντίστοιχες σημασιολογικές σχέσεις. 76

77 Εικόνα 3.9 Παράδειγμα Χρήσης του WordNet Υπολογισμός Σημασιολογικής Ομοιότητας με το WordNet Στην παρούσα εργασία η σημασιολογική ομοιότητα δύο όρων υπολογίζεται με τη βοήθεια του WordNet. Η υλοποίηση βασίζεται στην C#.NET WordNet βιβλιοθήκη που αναπτύχθηκε από τους Malcolm Crowe and Troy Simpson [67]. Η εφαρμογή είναι ανοιχτού κώδικα και επιτρέπει τον υπολογισμό της σημασιολογικής ομοιότητας μεταξύ δύο όρων, με τη χρησιμοποίηση του WordNet (και της βάσης δεδομένων του). Η σημασιολογική ομοιότητα υπολογίζεται σύμφωνα με ένα σύνολο από μετρικές οι οποίες βασίζονται στη χρησιμοποίηση οντολογίας ή/και ταξινομίας. Στην παρούσα εργασία χρησιμοποιείται το μέτρο των Wu & Palmer. Η μεθοδολογία των Malcolm Crowe and Troy Simpson περιλαμβάνει τον υπολογισμό της σημασιολογικής ομοιότητας μεταξύ όρων και προτάσεων. Τα βασικά βήματα για τον υπολογισμό της περιλαμβάνουν α) το διαχωρισμό της πρότασης σε λέξεις β) την αναγνώριση του Μέρους του Λόγου που ανήκει κάθε όρος γ) την διατήρηση της ρίζας της λέξης δ) την εύρεση της κατάλληλης 'έννοιας του κάθε όρου στην πρόταση και ε) ο υπολογισμός της ομοιότητας των προτάσεων βάσει της ομοιότητας των ζευγών των λέξεων. Ο υπολογισμός της σημασιολογικής ομοιότητας μεταξύ των όρων (synsets) βασίζεται στο μήκος του μονοπατιού ομοιότητας. Το μονοπάτι ομοιότητας αναφέρεται στην ταξινομία των synsets που ορίζει το WordNet. Η ταξινομία 77

78 αντιμετωπίζεται σαν ένας μη κατευθυνόμενος γράφος. Το κοντινότερο μονοπάτι μεταξύ των synsets δείχνει το πόσο όμοιοι είναι οι όροι. Το μέτρο ομοιότητας που χρησιμοποιείται στην παρούσα εργασία είναι το μέτρο Wu & Palmer, που αναλύεται στην επόμενη ενότητα. Η σημασιολογική ομοιότητα στην παρούσα εργασία υλοποιείται από το Υποσύστημα Σημασιολογικής Ομοιότητας, WordMatching module. Στην Εικόνα 3.10 παρουσιάζεται ένα παράδειγμα υπολογισμού ομοιότητας ανάμεσα σε ζεύγη εννοιών. Για κάθε ζεύγος υπολογίζεται η σημασιολογική ομοιότητα η οποία είναι μία τιμή μεταξύ 0 και 1.Όσο μεγαλύτερη είναι η σημασιολογική ομοιότητα, τόσο η τιμή της πλησιάζει το 1. Η σημασιολογική ομοιότητα των όρων μίας σελίδας του ιστότοπου και της ταξινομίας αναλύεται στο κεφάλαιο 4. Εικόνα 3.10 Παράδειγμα χρήσης του υποσυστήματος WordMatching 78

79 Το μέτρο ομοιότητας στη SOSACT μεθοδολογία Στην παρούσα εργασία, το μέτρο ομοιότητας που χρησιμοποιείται είναι το μέτρο Wu & Palmer, καθώς το ίδιο το μέτρο χρησιμοποιεί την ιεραρχία του WordNet. Επιπλέον, το μέτρο Wu & Palmer χρησιμοποιείται για οντολογίες που ανήκουν στο ίδιο πεδίο γνώσης [64]. Στην παρούσα εργασία, η SOSACT ταξινομία καθώς και το περιεχόμενο των σελίδων ανήκουν στο ίδιο εννοιολογικό/σημασιολογικό τομέα. Επιπλέον, το μέτρο Wu & Palmer αντιμετωπίζει τον εννοιολογικό τομέα, ως μία ιεραρχική δομή, κάτι το οποίο ταυτίζεται με τη δομή της SOSACT ταξινομίας. Η ομοιότητα μεταξύ δύο εννοιών καταδεικνύεται από την τιμή του μέτρου ομοιότητας που υπολογίζεται για τις έννοιες αυτές. Όσο μεγαλύτερη είναι η τιμή, τόσο περισσότερο όμοιες σημασιολογικά θεωρούνται οι δύο έννοιες. Στην περίπτωση του μέτρου Wu & Palmer, δύο έννοιες είναι περισσότερο όμοιες όσο η τιμή ομοιότητας τους πλησιάζει το 1. Η SOSACT μεθοδολογία αναθέτει μία έννοια σε μία ιστοσελίδα υπολογίζοντας το μέτρο ομοιότητας ανάμεσα στη σημασία μίας λέξης-κλειδιού και μίας κλάσης της ταξινομίας. Η μεθοδολογία χρησιμοποιεί ένα άνω όριο ομοιότητας με στόχο να ορίσει το σύνολο των όμοιων εννοιών που χαρακτηρίζουν σημασιολογικά μία ιστοσελίδα και να απομακρύνει τις έννοιες που παρουσιάζουν μικρή ομοιότητα Κυριαρχία Εννοιών Η SOSACT μεθοδολογία εντοπίζει τις σχετικές έννοιες μίας ιστοσελίδας, καθώς επίσης, εντοπίζει και τις κυρίαρχες έννοιες της ταξινομίας που χαρακτηρίζουν σημασιολογικά το περιεχόμενο μίας ιστοσελίδας. Μία έννοια της ταξινομίας είναι κυρίαρχη για μία ιστοσελίδα, εφόσον, α) χαρακτηρίζει σημασιολογικά το περιεχόμενο της ιστοσελίδας και β) εμφανίζει μεγαλύτερη σημασιολογική ομοιότητα σε σχέση με τις υπόλοιπες έννοιες που χαρακτηρίζουν σημασιολογικά τη σελίδα. Το μέτρο κυριαρχίας ή η κυριαρχία μίας έννοιας στο περιεχόμενο μίας ιστοσελίδας βασίζεται σε μία σχετική κατάταξη μεταξύ των εννοιών που χαρακτηρίζουν σημασιολογικά την ιστοσελίδα, σύμφωνα με την τιμή της σημασιολογικής τους ομοιότητας. Η κυριαρχία μίας έννοιας της ταξινομίας, στο περιεχόμενο μίας ιστοσελίδας ορίζεται ως η μέση κανονικοποιημένη τιμή της σημασιολογικής ομοιότητας της έννοιας, στο σύνολο των όλων υπολογισμένων τιμών των σημασιολογικών ομοιοτήτων για το περιεχόμενο αυτό. 79

80 Πιο αναλυτικά, αν μία σελίδα χαρακτηρίζεται σημασιολογικά από n έννοιες, c 1, c 2,,c n, με τιμές σημασιολογικής ομοιότητας s 1, s 2,,s n, η κυριαρχία d i για την έννοια i είναι: Η κυριαρχία μίας έννοιας εκφράζει το ποσοστό που καταλαμβάνει σημασιολογικά μία έννοια στο περιεχόμενο της ιστοσελίδας. Με τον τρόπο αυτό, έννοιες της ταξινομίας με μεγάλη τιμή σημασιολογικής ομοιότητα προωθούνται ως περισσότερο κυρίαρχες, ενώ, έννοιες της ταξινομίας με μικρή τιμή σημασιολογική ομοιότητα αποσύρονται ως έννοιες λιγότερο κυρίαρχες. Κατά το τέλος της διαδικασίας, το σύνολο των ιστοσελίδων ανατίθεται σημασιολογικά στις σχετικές κλάσεις της ταξινομίας. 80

81 4 Σχεδιασμός και Υλοποίηση του συστήματος SOSACT 4.1 Γενικά Στις παρακάτω παραγράφους παρουσιάζεται αναλυτικά ο σχεδιασμός και η υλοποίηση του μηχανισμού εντοπισμού του εννοιολογικού προσανατολισμού της πλοήγησης του χρήστη. Αρχικά, παρουσιάζεται η αρχιτεκτονική του SOSACT συστήματος, η οποία περιλαμβάνει τα βασικά λειτουργικά μοντέλα. Εξηγούνται οι αρχές λειτουργίας τους, καθώς και η διασύνδεση μεταξύ τους. Στη συνέχεια, αναλύονται σε μεγαλύτερη λεπτομέρεια τα επιμέρους τμήματα του συστήματος και παρουσιάζονται οι τεχνολογίες και τεχνικές υλοποίησης τους. 4.2 Αρχιτεκτονική Συστήματος SOSACT Το Σύστημα Προσδιορισμού του Εννοιολογικού Προσανατολισμού της Συνόδου του Χρήστη διαχωρίζεται σε δύο βασικά υποσυστήματα: 1. Το Υποσύστημα Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου που λαμβάνει χώρα η δραστηριότητα του χρήστη, και 2. Το Υποσύστημα Αλληλεπίδρασης Πραγματικού Χρόνου με τον χρήστη. Εικόνα 4.1 Τα δύο βασικά υποσυστήματα του SOSACT συστήματος 81

82 Όπως φαίνεται και παραπάνω, η προετοιμασία του δικτυακού τόπου προηγείται της αλληλεπίδρασης του με τον χρήστη προκειμένου να γίνουν οι απαραίτητες εργασίες σημασιολογικής ανάθεσης στις ιστοσελίδες για πιο γρήγορη και έγκαιρη αλληλεπίδραση με τον χρήστη. Όπως αναλύεται και παρακάτω, τα δύο υποσυστήματα είναι ανεξάρτητα μεταξύ τους και μπορούν να λειτουργήσουν και σαν αυτόνομα συστήματα σε εργασίες πρoετοιμασίας δεδομένων ή σε εργασίες σημασιολογικής ανάλυσης. Στην παρούσα εργασία, επιλέγεται η συνεργασία τους προκειμένου να βελτιστοποιηθεί η διαδικασία εντοπισμού του εννοιολογικού προσανατολισμού του χρήστη Υποσύστημα Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου Το Υποσύστημα Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου (ΥΠΠ) (Web Site Processing Subsystem, WSPS) αναλαμβάνει όλη τη διαδικασία που απαιτείται για την επεξεργασία των πόρων με τους οποίους αλληλεπιδρά ο χρήστης καθώς πραγματοποιεί την αναζήτηση του. Η διαδικασία περιλαμβάνει τη συλλογή των πόρων, τον καθαρισμό τους, την εξαγωγή πληροφορίας από αυτούς, και την αποθήκευση της πληροφορίας αυτής. Στις παρακάτω παραγράφους αναλύεται η δομή του ΥΠΠ και οι επιμέρους λειτουργικές του μονάδες. Πιο συγκεκριμένα, για κάθε λειτουργική μονάδα του ΥΠΠ παρουσιάζονται οι λειτουργίες της και η διασύνδεση της με τις υπόλοιπες. Το ΥΠΠ αποτελείται από τρία βασικά υποσυστήματα: τον Λεξικό Αναλυτή Ταξινομίας, τον Λεξικό Αναλυτή Περιεχομένου Δικτυακού Τόπου και τον Σημασιολογικό Σχολιαστή. Τα υποσυστήματα αυτά διαθέτουν την λογική και την ευφυΐα για την προετοιμασία των πόρων πληροφορίας, ώστε αυτοί να εμπλουτιστούν σημασιολογικά. Τα συστήματα αλληλεπιδρούν άμεσα με της πηγές πληροφορίας, οι οποίες περιλαμβάνουν τις ιστοσελίδες του δικτυακού τόπου, τη SOSACT ταξινομία και τις σημασιολογικά εμπλουτισμένες σελίδες του δικτυακού τόπου. Το ΥΠΠ παρουσιάζεται στην Εικόνα 4.2. Το σχεδιάγραμμα περιλαμβάνει τις πηγές πληροφορίας, τα υποσυστήματα του ΥΠΠ, όπως και τον τρόπο με τον οποίο διασυνδέονται. 82

83 Εικόνα 4.2 Αρχιτεκτονική Υποσυστήματος Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου Πηγές Πληροφορίας Υποσυστήματος Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου Οι Πηγές Πληροφορίας του ΥΠΠ περιλαμβάνουν τους πόρους άντλησης πληροφορίας είτε αυτή έχει τεθεί υπό επεξεργασία, είτε όχι. Η πληροφορία προέρχεται από δεδομένα τα οποία, αρχικά, βρίσκονται σε μία πρωτογενή μορφή. Τα δεδομένα υπόκεινται σε διαδικασίες μετατροπής σε ενδιάμεσες μορφές. Κάθε τέτοιου είδους μορφή, ανήκει σε ένα ενδιάμεσο στάδιο μετατροπής της αρχικής και ακατέργαστης πληροφορίας σε τελική, επεξεργάσιμη πολύτιμη πληροφορία για περεταίρω αξιοποίηση. Οι πηγές πληροφορίας, των διαφορετικών σταδίων μετατροπής αναλύονται παρακάτω. Σελίδες Δικτυακού Τόπου Οι Σελίδες Δικτυακού Τόπου περιλαμβάνουν τις ιστοσελίδες του δικτυακού τόπου που συμμετέχει στην διαδικασία. Πιο συγκεκριμένα, περιλαμβάνει όλες τις δυνατές όψεις ιστοσελίδων που προκύπτουν από οποιαδήποτε διαδραστική διαδικασία του χρήστη με το δικτυακό τόπο. Στο χώρο Εξόρυξης Σημασιολογικού Ιστού βάση Χρησιμοποίησης (Web Usage Mining) μία όψη ιστοσελίδας είναι το βασικό επίπεδο αφαίρεσης των δεδομένων. Μία όψη ιστοσελίδας είναι η συνολική αναπαράσταση μίας συλλογής διαδικτυακών αντικειμένων τα οποία συμμετέχουν στο περιεχόμενο που και 83

84 εμφανίζεται στο φυλλομετρητή του χρήστη, ύστερα από μία μοναδική ενέργεια του χρήστη. Πιο απλά, είναι οτιδήποτε εμφανίζεται στον φυλλομετρητή του χρήστη μετά από μία ενέργεια (πχ. ένα κλικ). Το περιεχόμενο των αντικείμενων μπορεί να ποικίλει αναλόγως το σχεδιασμό και την τεχνολογία υλοποίησης της ιστοσελίδας. Πιο συγκεκριμένα, τα αντικείμενα μπορούν να περιλαμβάνουν πολλαπλές ιστοσελίδες (για framebased ιστότοπους), εικόνες, scripts, ερωτήματα σε βάσεις δεδομένων κλπ. Κατά συνέπεια, κάθε όψη σελίδας αναπαριστά ένα συγκεκριμένο τύπο δραστηριότητας του χρήστη στο δικτυακό τόπο, όπως, μία απλή ανάγνωση για ενημέρωση, μία φυλλομέτρηση των αποτελεσμάτων μίας μηχανής αναζήτησης κλπ. Η παρούσα μελέτη εξετάζει την περίπτωση που ο χρήστης πλοηγείται σε ένα σύνολο από σελίδες ενός δικτυακού τόπου με σκοπό την αναζήτηση συγκεκριμένης πληροφορίας. Τα όρια του δικτυακού τόπου δεν είναι αυστηρά καθορισμένα. Ο χρήστης μπορεί να πλοηγηθεί σε πάνω από έναν δικτυακό τόπο. Επιπλέον, οι σελίδες που εξετάζει μπορούν να ανήκουν και στα αποτελέσματα μίας μηχανής αναζήτησης. Ωστόσο, χωρίς βλάβη της γενικότητας, στην παρούσα μελέτη, οι Σελίδες Δικτυακού Τόπου περιλαμβάνουν τις σελίδες ενός μόνο δικτυακού τόπου για απλοποίηση της διαδικασίας και σαφέστερη μελέτη των αποτελεσμάτων. Repository SOSACT ταξινομίας Το Repository της SOSACT ταξινομίας αναφέρεται στο χώρο αποθήκευσης της SOSACT ταξινομίας. Η ταξινομία SOSACT είναι μία ιεραρχία όρων οντολογίας η οποία ανήκει στο πεδίο γνώσης του περιεχομένου του δικτυακού τόπου. Πιο αναλυτικά, περιλαμβάνει σε ιεραρχική δομή τις έννοιες του πραγματικού κόσμου οι οποίες ανήκουν στο σύνολο των οντοτήτων που αναλύονται στις σελίδες του δικτυακού τόπου. Η επιλογή μίας ταξινομίας σχετικής με το περιεχόμενο του δικτυακού τόπου είναι μία σύμβαση που επιβάλλεται από το ίδιο το περιεχόμενο του δικτυακού τόπου. Το Repository της SOSACT ταξινομίας αποτελεί τη λειτουργική μονάδα που διατηρεί τη σημασιολογική πληροφορία σε μία πρότυπη μορφή και ανταποκρίνεται στην ανάγκη αναβάθμισης του περιεχομένου, σημασιολογικά. Repository Περιεχομένου Το Repository Περιεχομένου αφορά το χώρο αποθήκευσης του περιεχομένου του δικτυακού τόπου μετά από την επεξεργασία του Λεξικού Αναλυτή. Το Repository Περιεχομένου δεν είναι παρά «ωφέλιμη» πληροφορία. Είναι το αποτέλεσμα του καθαρισμού των δεδομένων. Όπως αναφέρεται και σε προηγούμενη παράγραφο, ο καθαρισμός δεδομένων περιλαμβάνει μεθόδους απομάκρυνσης 84

85 θορύβου από τα δεδομένα εισόδου και διατηρεί την πληροφορία η οποία μπορεί να προχωρήσει σε περεταίρω επεξεργασία και να συνεισφέρει ορθά στο σημασιολογικό προσδιορισμό των σελίδων που αλληλεπιδρά ο χρήστης Λειτουργικές Υπομονάδες του Υποσυστήματος Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου Οι Λειτουργικές Υπομονάδες του ΥΠΠ, όπως αναφέρθηκε και παραπάνω, αποτελούν τα λογικά τμήματα του συστήματος τα οποία αναλαμβάνουν να διαχειριστούν την πληροφορία με σκοπό να φτάσει στην τελική αξιοποιήσιμη μορφή της. Πιο αναλυτικά τα επιμέρους λειτουργικά τμήματα είναι: Λεξικός Αναλυτής Δικτυακού Τόπου Ο Λεξικός Αναλυτής του Δικτυακού Τόπου αναλαμβάνει την άμεση διαχείριση των σελίδων του δικτυακού τόπου. Η διαχείριση αφορά το διαχωρισμό του κειμένου της μίας ιστοσελίδας από τα υπόλοιπα στοιχεία που ανήκουν στο περιεχόμενο της (εικόνες, scripts κλπ.). Δεδομένου, ότι το σημείο ενδιαφέροντος είναι ο σημασιολογικός προσδιορισμός της αλληλεπίδρασης του χρήστη με το δικτυακό τόπο, τα δεδομένα που προσφέρουν την περισσότερη και πληρέστερη σχετική πληροφορία είναι το κείμενο της σελίδας. Ο Λεξικός Αναλυτής του Δικτυακού Τόπου αναλύει λεκτικά το κείμενο σε κάθε σελίδα του δικτυακού τόπου και εξάγει λέξεις κλειδιά από κάθε μία από αυτές. Οι λέξεις κλειδιά εξάγονται με τον αλγόριθμο που περιγράφηκε σε προηγούμενο κεφάλαιο. Ο αλγόριθμος στηρίζεται στη συχνότητα εμφάνισης των διαφορετικών λέξεων κλειδιών σε μία σελίδα. Αποτέλεσμα του Λεξικού Αναλυτή είναι η αντιστοίχιση και ο χαρακτηρισμός των ιστοσελίδων του δικτυακού τόπου από ένα αντιπροσωπευτικό σύνολο από λέξεις κλειδιά. Αφού το περιεχόμενο των ιστοσελίδων προσπελαστεί και γίνει η εξαγωγή των λέξεων κλειδιών, το αποτέλεσμα αποθηκεύεται στο Repository του περιεχομένου του δικτυακού τόπου. Το αποτέλεσμα αυτό, αποτελεί την πρώτη μορφή πληροφορίας κατάλληλης για επεξεργασία και αξιοποίηση. Αναλυτής Ταξινομίας Ο Αναλυτής Ταξινομίας αναλαμβάνει την προσπέλαση της ταξινομίας και την εξαγωγή εννοιών καθώς και την ιεραρχική δομή που υπάρχει μεταξύ τους. Η ταξινομία, όπως αναφέρθηκε σε προηγούμενο κεφάλαιο, είναι μία OWL οντολογία η οποία περιλαμβάνει έννοιες του πραγματικού κόσμου οργανωμένες σε μία συγκεκριμένη ιεραρχία. Η OWL ταξινομία αν και σαφώς δομημένη και εύκολα διαχειρίσιμη από οποιοδήποτε XML parser δε χρησιμοποιείται σε αυτήν την αρχέτυπη μορφή. Προκειμένου να δημιουργηθεί ένας μηχανισμός 85

86 ανεξάρτητος από τη γλώσσα της ταξινομίας ο Λεξικός Αναλυτής της Ταξινομίας αναλαμβάνει να διατρέξει το δένδρο της ταξινομίας και να εξάγει τις έννοιες και τις μεταξύ τους συσχετίσεις και να τις μετατρέψει σε μία ανεξάρτητη γλώσσας μορφή, συμβατή με οποιοδήποτε μηχανισμό περεταίρω προσπέλασης της. Με τον τρόπο αυτό προστίθεται ένα ακόμα επίπεδο αφαίρεσης και ευελιξίας στη διαδικασία προετοιμασίας των δεδομένων. Ο Αναλυτής Ταξινομίας απομονώνει τις έννοιες που εμφανίζονται σαν κόμβοι στο δένδρο της ταξινομίας και αποσυνθέτει τη δενδρική ιεραρχική δομή της OWL ταξινομίας. Η δενδρική ιεραρχική δομή αντικαθίσταται από μοναδικές, ενός βήματος (hop) σχέσεις μεταξύ των εννοιών. Πιο αναλυτικά, η σχέση ενός βήματος συνδέει άμεσα δύο έννοιες και διακρίνει μεταξύ τους δύο ιδιότητες: πρόγονος και απόγονος. Οι ιδιότητες δείχνουν την ιεράρχηση από μία γενικότερη έννοια (πρόγονος) σε μία ειδικότερη (απόγονος). Δηλαδή, μία σχέση αφορά ζεύγη εννοιών και ορίζει τη μετάβαση από τη γενικότερη έννοια σε μία περισσότερο ειδική στο πεδίο γνώσης που αυτές ορίζουν. Σημασιολογικός Σχολιαστής Ο Σημασιολογικός Σχολιαστής αναλαμβάνει τη σημασιολογική επισήμανση των ιστοσελίδων του δικτυακού τόπου. Πιο συγκεκριμένα, ο Σημασιολογικός Σχολιαστής λαμβάνει σαν είσοδο τα επεξεργασμένα δεδομένα από τον Λεξικό Αναλυτή του Δικτυακού Τόπου και τον Λεξικό Αναλυτή της Ταξινομίας και εντοπίζει τη σημασιολογική κατεύθυνση σε κάθε σελίδα του δικτυακού τόπου. Η σημασιολογική εκτίμηση λαμβάνει χώρα μεταξύ των λέξεων κλειδιών μίας σελίδας και των εννοιών της ταξινομίας. Σημειώνεται ότι σε αυτό το στάδιο, η ιεραρχία των όρων δεν επηρεάζει τη σημασιολογική ανάθεση και, συνεπώς, δε λαμβάνεται υπόψη. Η σημασιολογική επισήμανση στηρίζεται σε μετρικές ομοιότητας των όρων [27].Πιο συγκεκριμένα, o Σημασιολογικός Σχολιαστής χρησιμοποιεί την μετρική των Wu & Palmer [68]. Περισσότερες πληροφορίες για τη συγκεκριμένη μετρική αναφέρονται σε προηγούμενη ενότητα. Ο Σημασιολογικός Αναλυτής προκειμένου να υπολογίσει τη σημασιολογική ομοιότητα χρησιμοποιεί το Wordnet το οποίο και εφαρμόζει τη μετρική των Wu & Palmer στα ζεύγη λέξεων κλειδιών εννοιών. Αρχικά, υπολογίζει την ομοιότητα των εννοιών της ταξινομίας με τις λέξεις κλειδιά για κάθε σελίδα. Σε κάθε σελίδα, απομακρύνει τις έννοιες οι οποίες των οποίων η τιμή ομοιότητας δεν ικανοποιούν ένα κάτω όριο στην τιμή τους. Τέλος, για κάθε σελίδα, υπολογίζει τις κυρίαρχες έννοιες που χαρακτηρίζουν το περιεχόμενο μίας σελίδας. Η κυριαρχία μίας έννοιας για μία σελίδα εξαρτάται από την υπολογισμένη της ομοιότητα, όπως και από την ομοιότητα που εμφανίζουν και οι υπόλοιπες έννοιες για την ίδια σελίδα. 86

87 4.2.2 Το Υποσύστημα Αλληλεπίδρασης Πραγματικού Χρόνου (ΥΑΠ) Το Υποσύστημα Αλληλεπίδρασης Πραγματικού Χρόνου (ΥΑΠΧ) (Real Time User Interaction Subsystem, RTUI Subsystem) υποστηρίζει ένα μηχανισμό παραγωγής συστάσεων στο χρήστη σε πραγματικό χρόνο, βάσει της συμπεριφοράς του χρήστη. Η παραγωγή συστάσεων στηρίζεται στη σημασιολογική ανάλυση των σελίδων που αλληλεπιδρά ο χρήστης. Το ΥΑΠΧ υλοποιεί ένα περιβάλλον αναζήτησης της πληροφορίας μέσω ενός φυλλομετρητή σελίδων διαδικτύου. Κάθε σελίδα που μελετάται από το χρήστη αντιστοιχίζεται σε ένα σύνολο από κυρίαρχες έννοιες. Οι κυρίαρχες έννοιες ανήκουν σε ένα σύνολο όρων οι οποίοι ανήκουν σε μία ταξινομία. Οι συστάσεις που προτείνονται στον χρήστη βασίζονται στους κυρίαρχους όρους, καθώς και στην ιεραρχία των όρων, όπως αυτή ορίζεται από τη δομή της ταξινομίας. Στις παρακάτω παραγράφους αναλύεται η δομή του ΥΑΠΧ και οι επιμέρους λειτουργικές μονάδες. Πιο συγκεκριμένα, παρουσιάζονται οι λειτουργίες κάθε μονάδας του ΥΑΠΧ όπως και η διασύνδεση της με τις υπόλοιπες. Εικόνα 4.3 Αρχιτεκτονική Υποσυστήματος Αλληλεπίδρασης Πραγματικού Χρόνου 87

88 Πηγές Πληροφορίας Υποσυστήματος Αλληλεπίδρασης Πραγματικού Χρόνου Repository SOSACT Ταξινομίας Το Repository της SOSACT ταξινομίας αναφέρεται στο χώρο αποθήκευσης της SOSACT ταξινομίας. Όπως αναφέρθηκε σε προηγούμενη ενότητα, η ταξινομία SOSACT είναι μία ιεραρχία όρων οντολογίας η οποία ανήκει στο πεδίο γνώσης του περιεχομένου του δικτυακού τόπου. Το Repository της SOSACT ταξινομίας αναλύεται παραπάνω (ενότητα ). Σύνοδος Χρήστη Η Σύνοδος Χρήστη (User Session) αναφέρεται στη δραστηριότητα που σημειώνει ο χρήστης κατά τη διάρκεια αλληλεπίδρασης του με τον δικτυακό τόπο. Η Σύνοδος Χρήστη είναι μία ακολουθία από όψεις σελίδων, η οποία λαμβάνει χώρα κατά τη διάρκεια της επίσκεψης ενός χρήστη σε ένα δικτυακό τόπο. Μία όψη σελίδας, όπως αναφέρθηκε σε προηγούμενη ενότητα είναι οτιδήποτε εμφανίζεται στον φυλλομετρητή του χρήστη μετά από μία ενέργεια (πχ. ένα κλικ). Χάριν απλότητας και χωρίς απώλεια γενικότητας, μία όψη σελίδας ταυτίζεται με μία σελίδα του δικτυακού τόπου. Η Σύνοδος Χρήστη περιλαμβάνει, συνεπώς, το σύνολο των σελίδων στις οποίες πλοηγείται ο χρήστης από μία συγκεκριμένη IP, σε ένα συγκεκριμένο χρονικό διάστημα. Προκειμένου να περιοριστεί το εύρος της συνόδου του χρήστη, χρησιμοποιείται ένα παράθυρο συγκεκριμένου μεγέθους n το οποίο εφαρμόζεται στη σύνοδο του χρήστη. Συνεπώς, η συμπεριφορά του χρήστη στο ΥΑΠΧ καθορίζεται από τις τελευταίες n σελίδες που έχει πλοηγηθεί, όπου n είναι το μήκος του παραθύρου της συνόδου Λειτουργικές Υπομονάδες Υποσυστήματος Αλληλεπίδρασης Πραγματικού Χρόνου Η παρούσα ενότητα παρουσιάζει και αναλύει τις επιμέρους λειτουργικές υπομονάδες του Υποσυστήματος Αλληλεπίδρασης Πραγματικού Χρόνου. Κάθε λειτουργική υπομονάδα εκτελεί μία ολοκληρωμένη λειτουργία του υποσυστήματος. Διακρίνονται οι παρακάτω λειτουργικές υπομονάδες: Υπομονάδα Διαχείρισης Συνόδου Το Υπομονάδα Διαχείρισης Συνόδου αναλαμβάνει την καταγραφή και την επεξεργασία των διαδοχικών όψεων σελίδας οι οποίες εμφανίζονται στον διαφυλλιστή του χρήστη κατά τη διάρκεια της συνόδου του. Κατά την καταγραφή, παρακολουθούνται και αποθηκεύονται οι URLs των σελίδων του δικτυακού τόπου που πλοηγείται ο χρήστης. Οι URLs που λαμβάνονται υπόψη ανήκουν στο παράθυρο μήκους n. 88

89 Η επεξεργασία περιλαμβάνει την εύρεση και δέσμευση των λέξεων εννοιών που αντιστοιχούν στις σελίδες της συνόδου του χρήστη. Η Υπομονάδα Διαχείρισης Συνόδου, συνεπώς, εξάγει ένα σύνολο από έννοιες οι οποίες αντιστοιχίζονται στις όψεις των σελίδων και περιγράφουν σημασιολογικά τις τελευταίες n όψεις σελίδων που έχει πλοηγηθεί ο χρήστης. Υπομονάδα Προσδιορισμού Προσανατολισμού της Συνόδου Η Υπομονάδα Προσδιορισμού Προσανατολισμού της Συνόδου προσδιορίζει τις κυρίαρχες έννοιες της συνόδου ενός χρήστη οι οποίες ικανοποιούν ένα συγκεκριμένο κατώφλι κυριαρχίας, αναγνωρίζει τα σημασιολογικά μονοπάτια που δημιουργούνται μεταξύ των εννοιών στην ιεραρχία της ταξινομίας και εντοπίζει τον προσανατολισμό στα μονοπάτια αυτά. Τα σημασιολογικά μονοπάτια περιλαμβάνουν τα μονοπάτια που δημιουργούνται μεταξύ των κυρίαρχων εννοιών, όπως αυτά διαμορφώνονται στο γράφο της οντολογίας. Πιο αναλυτικά, ένα σημασιολογικό μονοπάτι μεταξύ δύο εννοιών προκύπτει ύστερα από προβολή των κυρίαρχων εννοιών στους κόμβους του γράφου της οντολογίας, και καταγραφής των ακμών, μεταξύ τους. Πιο συγκεκριμένα, τα σημασιολογικά μονοπάτια προκύπτουν από τους υπογράφους που προκύπτουν από τον γράφο της οντολογίας εάν σε αυτόν προβληθούν οι κυρίαρχες έννοιες της συνόδου του χρήστη. Σε κάθε υπογράφο, εντοπίζεται το μέγιστο μονοπάτι μεταξύ των κόμβων. Σε κάθε μέγιστο μονοπάτι εντοπίζεται η ειδίκευση ή η γενίκευση που ακολουθείται κατά τη σύνοδο. Υπομονάδα Παραγωγής Συστάσεων Η Υπομονάδα Παραγωγής Συστάσεων χρησιμοποιεί τις ειδικεύσεις ή/και τις γενικεύσεις σε συγκεκριμένες έννοιες που εμφανίζει η σύνοδος του χρήστη και προτείνει ένα σύνολο από σχετικές ιστοσελίδες οι οποίες, πιθανόν, να ικανοποιούν τα ενδιαφέροντα του χρήστη. Κάθε σημασιολογικό μονοπάτι που δημιουργείται ύστερα από προβολή των κυρίαρχων εννοιών στο γράφο της οντολογίας καταδεικνύει την ειδίκευση ή τη γενίκευση της αναζήτησης του χρήστη προς ένα σύνολο εννοιών. Κάθε μονοπάτι περιλαμβάνει ένα σύνολο από έννοιες οι οποίες ικανοποιούν το σημασιολογικό προσανατολισμό του χρήστη. Κάθε έννοια προσφέρει ένα σύνολο από σελίδες οι οποίες επιλέγονται από το σύνολο των σημασιολογικών αντιστοιχιών της που βρίσκονται στο Repository Σημασιολογικού Περιεχόμενου. 89

90 4.3 Περιπτώσεις Χρήσης Η παρούσα ενότητα αναφέρεται στις περιπτώσεις χρήσεις του SOSACT συστήματος. Πιο συγκεκριμένα περιγράφεται η συμπεριφορά του συστήματος όταν αυτό αποκρίνεται σε ένα εξωτερικό αίτημα. Οι περιπτώσεις χρήσης του συστήματος εξετάζονται μέσα από το οπτικό πεδίο των διαφορετικών τύπων των χρηστών του συστήματος. Επιπλέον, όπως παρουσιάστηκε στην προηγούμενη ενότητα, το SOSACT σύστημα αποτελείται από δύο ανεξάρτητα και αυτοτελή υποσυστήματα τα οποία βρίσκονται σε άμεση συνεργασία. Συνεπώς, οι περιπτώσεις χρήσεις αναζητούνται στα υποσυστήματα αυτά καθώς υλοποιούν επιμέρους λειτουργίες. Οι περιπτώσεις χρήσης αναλύονται παρακάτω Περιπτώσεις Χρήσης Υποσυστήματος Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου Το Υποσύστημα Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου εκτελεί τη σημασιολογική αντιστοίχιση των σελίδων του Δικτυακού Τόπου σε έννοιες της ταξινομίας. Το Υποσύστημα απευθύνεται σε ένα τύπο χρήστη, τον SOSACT IT User. Οι περιπτώσεις χρήσης για τον συγκεκριμένο χρήστη περιγράφονται παρακάτω Σημασιολογική Αντιστοίχιση των Σελίδων του Δικτυακού Τόπου Η Σημασιολογική Αντιστοίχιση των Σελίδων του Δικτυακού Τόπου αναφέρεται στην αντιστοίχιση των σελίδων του δικτυακού τόπου στις έννοιες της ταξινομίας βάσει σημασιολογικών κριτηρίων. Τα βασικά βήματα είναι τα εξής: 1. Ο χρήστης εισάγει τις σελίδες του δικτυακού τόπου και την ταξινομία. 2. Ο χρήστης σηματοδοτεί την έναρξη της σημασιολογικής αντιστοίχισης. 3. Οι σελίδες του δικτυακού τόπου αναλύονται λεκτικά και σημασιολογικά και οι αντιστοιχήσεις ανάμεσα στα URLs των σελίδων και των αντίστοιχων λέξεων κλειδιών αποθηκεύονται στο repository του Σημασιολογικού Περιεχομένου. 4. Οι αντιστοιχήσεις προσφέρονται στο χρήστη για περαιτέρω επεξεργασία Υπολογισμός Κυριαρχίας των Όρων της Ταξινομίας Ο υπολογισμός της Κυριαρχίας των Όρων της Ταξινομίας περιλαμβάνει εντοπισμό των Εννοιών της Ταξινομίας οι οποίες αντιστοιχούν σε κάθε Σελίδα 90

91 του Δικτυακού Τόπου. Η επιλογή των Εννοιών για μία Σελίδα γίνεται βάσει της Σημασιολογικής Ομοιότητας των όρων της Ταξινομίας και των λέξεων κλειδιών της Σελίδας. Για κάθε όρο της Ταξινομίας υπολογίζεται η Κυριαρχία του στη Σελίδα. Τα βασικά βήματα είναι τα εξής: 1. Για κάθε Σελίδα λαμβάνονται οι λέξεις κλειδιά και υπολογίζεται η Σημασιολογική Ομοιότητα μεταξύ των λέξεων κλειδιών και των Όρων της Ταξινομίας. 2. Επιλέγονται οι Έννοιες με τη μεγαλύτερη Σημασιολογική Ομοιότητα. 3. Κάθε σελίδα αντιστοιχίζεται σε ένα σύνολο από Όρους της Ταξινομίας. 4. Για κάθε σελίδα υπολογίζεται η κυριαρχία για κάθε έννοια. 5. Κάθε σελίδα αντιστοιχίζεται σε ένα αντιπροσωπευτικό σύνολο από έννοιες της SOSACT ταξινομίας. 6. Οι αντιστοιχίσεις προσφέρονται στο χρήστη για περαιτέρω επεξεργασία Περιπτώσεις Χρήσης Υποσυστήματος Αλληλεπίδρασης Πραγματικού Χρόνου με το χρήστη Το Υποσύστημα Αλληλεπίδρασης Πραγματικού Χρόνου με το τελικό χρήστη παράγει συστάσεις για αναζητούμενες σελίδες σύμφωνα με τη συμπεριφορά του και την αλληλεπίδραση του με το δικτυακό τόπο. Το υποσύστημα απευθύνεται στον SOSACT End User. Οι περιπτώσεις χρήσης για τον συγκεκριμένο χρήστη περιγράφονται παρακάτω Παραγωγή Συστάσεων στον Τελικό Χρήστη Η Παραγωγή Συστάσεων στον Τελικό Χρήστη περιλαμβάνει τη μελέτη της συμπεριφοράς του χρήστη, τον υπολογισμό ομοιότητας των σελίδων που υπάρχουν στο repository με τις σελίδες με τις οποίες αλληλεπιδρά ο χρήστης και την παρουσίαση ενός συνόλου σελίδων με το μεγαλύτερο δείκτη ομοιότητας στην συμπεριφορά του χρήστη. Τα βασικά βήματα είναι τα εξής: 1. Παρακολούθηση της συμπεριφοράς του χρήστη. 2. Λήψη των τελευταίων σελίδων που έχει αλληλεπιδράσει ο χρήστης. Οι σελίδες ανήκουν σε ένα παράθυρο συνεδρίας (session window) συγκεκριμένου μεγέθους. 3. Εντοπισμός των κυρίαρχων εννοιών των σελίδων από το repository Σημασιολογικού Περιεχομένου. 4. Κατασκευή των μονοπατιών μεταξύ των εννοιών, σύμφωνα με την ιεραρχία των όρων που ορίζεται στην ταξινομία. 5. Υπολογισμός του εννοιολογικού προσανατολισμού σε κάθε μονοπάτι εννοιών. 6. Επιλογή σελίδων σύμφωνα με τον σημασιολογικό προσανατολισμό των μονοπατιών. 91

92 4.4 Υπομονάδες Η παρούσα ενότητα αναλύει τη λειτουργικότητα, τις τεχνικές απαιτήσεις, τις υπομονάδες και τις διεπαφές που υλοποιούνται για το κάθε υποσύστημα Υπομονάδες Υποσύστηματος Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου Οι Υπομονάδες του Υποσύστηματος Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου εμφανίζονται στην Εικόνα 4.2 και παρουσιάζονται σε πλήρη λεπτομέρεια στην τρέχουσα ενότητα Λεξικός Αναλυτής Περιεχομένου Ο Λεξικός Αναλυτής Περιεχομένου, όπως αναφέρθηκε και παραπάνω, αναλαμβάνει την ανάγνωση του περιεχομένου των σελίδων που ανήκουν στο Δικτυακό Τόπο, την εξαγωγή λέξεων-κλειδιών και την αποθήκευση των αντιστοιχίσεων μεταξύ των σελίδων και των λέξεων-κλειδιών στην Βάση Δεδομένων για ευκολότερη και ταχύτερη πρόσβαση. Στόχος του Λεξικού Αναλυτή Περιεχομένου είναι η εξαγωγή έγκυρων και αντιπροσωπευτικών λέξεων-κλειδιών οι οποίες αντιστοιχίζονται στις σελίδες του Δικτυακού Τόπου. Οι λέξεις-κλειδιά αποκαλύπτουν σε ένα πρώτο επίπεδο το εννοιολογικό περιεχόμενο των σελίδων. Ωστόσο, εκκρεμεί μία συγκεκριμένη διαδικασία σημασιολογικής ανάλυσης των σελίδων, βασισμένη στη χρήση της SOSACT ταξινομίας η οποία λαμβάνει χώρα σε επόμενες εργασίες σημασιολογικής ανάλυσης. Εικόνα 4.4 Λεξικός Αναλυτής Περιεχομένου 92

93 Ο Λεξικός Αναλυτής προσπελαύνει τις σελίδες του Δικτυακού Τόπου βάσει τους εσωτερικούς υπερσυνδέσμους που διαθέτουν οι σελίδες στο περιεχόμενο τους. Συνεπώς, η προσπέλαση των σελίδων πραγματοποιείται σύμφωνα με την τοπολογία που ορίζεται από τον χάρτη του Δικτυακού Τόπου. Επιπλέον, κάθε σελίδα προσπελαύνεται μία μόνο φορά. Άρα, ο Λεξικός Αναλυτής προχωρά την προσπέλαση, την ανάγνωση και την ανάλυση κάθε σελίδας εκτελώντας τη δενδρική διάτρεξη του γράφου του Δικτυακού Τόπου. Συνεπώς, διατρέχει τον γράφο του Δικτυακού Τόπου μέχρι να εξαντλήσει όλα τα πιθανά μονοπάτια από την αρχική σελίδα (URL) και δημιουργεί μία βάση δεδομένων από λέξεις που βρέθηκαν στα URL με παραπομπές στις αντίστοιχες διευθύνσεις. Πιο αναλυτικά, ο Λεξικός Αναλυτής Περιεχομένου περιλαμβάνει δύο βασικά λειτουργικά τμήματα: το Λειτουργικό Τμήμα Προσπέλασης του Γράφου του Δικτυακού Τόπου και το Λειτουργικό Τμήμα Εξαγωγής Λέξεων-Κλειδιών. Εικόνα 4.5 Λειτουργικά Τμήματα του Λεξικού Αναλυτή Περιεχομένου Λειτουργικό Τμήμα Προσπέλασης του Γράφου του Δικτυακού Τόπου Το Λειτουργικό Τμήμα Προσπέλασης του Γράφου του Δικτυακού Τόπου περιλαμβάνει ένα μηχανισμό δεικτοδότησης των σελίδων του Δικτυακού Τόπου. Ο μηχανισμός αυτός υλοποιείται από ένα Web Indexer [65] που χρησιμοποιεί την κλάση WebCrawler (Charlotte.dll). H κλάση WebCrawler φορτώνει μία σελίδα του Δικτυακού Τόπου και για κάθε σύνδεσμο στη σελίδα αυτή καλείται αναδρομικά. Συνεπώς, κάθε σελίδα που εντοπίζεται πρώτη φορά μπαίνει σε μία ουρά 93

94 εξυπηρέτησης. Η διαδικασία τερματίζεται όταν εξαντληθούν όλα τα πιθανά μονοπάτια και όλες οι σελίδες έχουν μπει στην ουρά. Λειτουργικό Τμήμα Εξαγωγής Λέξεων-Κλειδιών Το Λειτουργικό Τμήμα Εξαγωγής Λέξεων-Κλειδιών συνεργάζεται άμεσα με το Λειτουργικό Τμήμα Προσπέλασης του Γράφου του Δικτυακού Τόπου και εξάγει λέξεις-κλειδιά για τις σελίδες που έχουν εισαχθεί στην ουρά εξυπηρέτησης του Λειτουργικού Τμήματος Προσπέλασης του Γράφου του Δικτυακού Τόπου. Το Λειτουργικό Τμήμα Εξαγωγής Λέξεων-Κλειδιών χρησιμοποιεί την HTML Container κλάση η οποία διατρέχει το περιεχόμενο μιας ιστοσελίδας, εξαιρώντας τις HTML ετικέτες, εικόνες κλπ. (WebWagon.dll). Το κείμενο φιλτράρεται από συχνές λέξεις και λέξεις οι οποίες ανήκουν σε μέρη του λόγου που δεν έχουν μεγάλη σημασιολογική προσφορά, όπως, σύνδεσμοι, προθέσεις κλπ. (stop words). Οι λέξεις που απομένουν εισάγονται στη βάση δεδομένων με τις σχετικές συσχετίσεις με την URL της σελίδας που εντοπίζονται. Συνεπώς, κάθε σελίδα, προσπελαύνεται από το μοναδικό της URL αντιστοιχίζεται και αντιπροσωπεύεται σε ένα σύνολο από λέξεις κλειδιά Αναλυτής Ταξινομίας Ο Αναλυτής Ταξινομίας υλοποιεί ανάλυση περιεχομένου της OWL ταξινομίας. Η είσοδος του Αναλυτή Ταξινομίας είναι το XML αρχείο της OWL ταξινομίας. Οι κλάσεις της ταξινομίας και η ιεραρχική τους δομή αποθηκεύονται στη Βάση Δεδομένων. Εικόνα 4.6 Αναλυτής Ταξινομίας 94

95 Η Ταξινομία, όπως αναφέρθηκε παραπάνω, διατηρείται σε μορφή OWL αρχείων. Ο Αναλυτής Ταξινομίας κατά την Ανάλυση Εννοιών, διαβάζει τα OWL αρχεία και εντοπίζει τις έννοιες της ταξινομίας (κλάσεις ταξινομίας). Στη συνέχεια, διακρίνει τις υποκλάσεις της ταξινομίας και εντοπίζει την ιεραρχική σχέση των εννοιών της ταξινομίας. Ανάλυση Εννοιών Η Ανάλυση Εννοιών περιλαμβάνει τον εντοπισμό των elements της OWL ταξινομίας. Πιο συγκεκριμένα, εντοπίζονται τα XML elements με όνομα owl:class τα οποία και αναπαριστούν μία κλάση της OWL ταξινομίας. Κάθε OWL κλάση αντιστοιχίζεται σε μία έννοια. Ο Αναλυτής της Ταξινομίας διατηρεί τον ορισμό για κάθε OWL κλάση, όπως αυτός, φαίνεται παρακάτω : <owl:class rdf:id="class_id"> Εναλλακτικά, επιλέγεται και ο ορισμός: <owl:class rdf:about="#class_id"> Ανάλυση Ιεραρχίας Οι υποκλάσεις εντοπίζονται με το XML element owl:subclass, όπως φαίνεται παρακάτω: <rdfs:subclassof> <owl:class rdf:id="superclass_id"/> </rdfs:subclassof> Εναλλακτικά, επιλέγεται και ο ορισμός: <rdfs:subclassof> <owl:class rdf:about="#superclass_id"/> </rdfs Η σχέση που υπάρχει μεταξύ της κλάσης και της υποκλάσης δηλώνει την ιεραρχία των εννοιών που ακολουθείται στη δομή της ταξινομίας. Συνεπώς, μία έννοια διατηρεί διπλό ρόλο σε μία ταξινομία: είτε σαν κλάση, είτε σαν υπερκλάση ή υποκλάση. Ο Αναλυτής Ταξινομίας εφαρμόζει αρχικά Ανάλυση Εννοιών και στη συνέχεια Ανάλυση Ιεραρχίας. Στοχεύει στην μετατροπή της OWL αναπαράστασης της Ταξινομίας σε μία αντικειμενοστρεφή μορφή αναπαράστασης με σκοπό την ευκολότερη διαχείριση και αποθήκευση της Ταξινομίας. Η διαχείριση της 95

96 Ταξινομίας περιλαμβάνει όλες τις ενέργειες που αφορούν την πρόσβαση και την πλοήγηση στο γράφο της Ταξινομίας. Η αποθήκευση περιλαμβάνει την διατήρηση των εννοιών και της δομής της Ταξινομίας σε μία σχεσιακή Βάση Δεδομένων προκειμένου να είναι διαθέσιμη στις μονάδες των Υποσυστημάτων για την ορθή εκτέλεση των διαδικασιών που αυτές περιλαμβάνουν. Μετατροπή της Ταξινομίας σε Αντικειμενοστρεφή Μορφή Η Μετατροπή της Ταξινομίας σε Αντικειμενοστεφή Μορφή στοχεύει στην μετατροπή της OWL αναπαράστασης σε μία μορφή αναπαράστασης η οποία διευκολύνει την διαχείριση της Ταξινομίας. Όπως αναφέρεται στη μελέτη που έγινε από τον C. Raguenaud [50], μία Ταξινομία εγκλείει μία ιεραρχία εννοιών και περιλαμβάνει ένα σύνολο από σχέσεις μεταξύ των εννοιών οι οποίες, σε κάποιες περιπτώσεις, καταλήγουν σε ένα πολύπλοκο γράφο. Ένα σχεσιακό μοντέλο αναπαράστασης δεν είναι κατάλληλο, από μόνο του, να αναπαραστήσει τις ιεραρχικές σχέσεις που αναπτύσσονται μεταξύ των εννοιών. Παράλληλα, ένα αντικειμενοστρεφές μοντέλο αναπαράστασης, αδυνατεί να καλύψει κάποιες ενέργειες λαμβάνουν χώρα σε ένα πολύπλοκο γράφο, όπως η αναδρομή ή η αναζήτηση. Στην περίπτωση των πολύπλοκων ιεραρχικών γράφων, το μοντέλο αναπαράστασης που προτείνεται από τον C. Raguenaud απαντά στα παραπάνω ζητήματα. Το μοντέλο που προτείνεται στην [50] υποστηρίζει την ενσωμάτωση δομών γράφων και αντικειμενοστρεφή δομών. Η SOSACT Ταξινομία, ωστόσο, δεν αποτελεί έναν πολύπλοκο ιεραρχικό γράφο. Όπως αναφέρθηκε και παραπάνω, μία έννοια αντιστοιχίζεται σε έναν κόμβο (node) του γράφου. Η ιεραρχική σχέση που συσχετίζει, άμεσα, δύο έννοιες αναπαρίσταται με μία ακμή. Οι κόμβοι στο γράφο της SOSACT Ταξινομίας διαθέτουν μόνο έναν πρόγονο. Ο αριθμός των κόμβων που διαθέτουν πάνω από έναν πρόγονο είναι πολύ μικρός και δεν προσθέτει πολυπλοκότητα και υπολογιστικό κόστος στην επεξεργασία της Ταξινομίας. Συνεπώς, η αντικειμενοστρεφής αναπαράσταση ανταποκρίνεται στις ανάγκες μίας αποτελεσματικής διαχείρισης. Κατά τη μετατροπή της Ταξινομίας στην αντικειμενοστρεφή αναπαράσταση, αρχικά, εντοπίζεται μία έννοια, σύμφωνα με την Ανάλυση Έννοιας που αναφέρθηκε παραπάνω. Η έννοια μετατρέπεται στην ισοδύναμη κλάση της και αντιστοιχίζεται σε ένα first class object. Εφόσον εντοπιστεί συσχέτιση με μία άλλη έννοια, η συσχέτιση αυτή καταχωρείται σαν attribute του first class object. Ο παρακάτω πίνακας περιλαμβάνει τις ενέργειες μετατροπής που αναφέρθηκαν, παραπάνω: 96

97 Δομή Ταξινομίας Ενέργεια Μετατροπής Έννοια Αντιστοίχιση σε first class object Συσχέτιση Αντιστοίχιση σε attribute, member variable Πίνακας Ενέργειες Μετατροπής της Ταξινομίας σε Αντικειμενοστρεφή Αναπαράσταση Η διαδικασία μετατροπής αντιστοιχίζει την OWL Ταξινομία σε έναν γράφο, προκειμένου να εντοπίζει κάθε έννοια και τις συσχετίσεις που υπάρχουν μεταξύ των εννοιών. Η παρακάτω εικόνα απεικονίζει τη διαδικασία μετατροπής. Εικόνα 4.7 Διαδικασία Μετατροπής της Ταξινομίας σε Αντικειμενοστρεφή Αναπαράσταση Όπως απεικονίζεται παραπάνω, οι OWL κλάσεις εξάγονται από την OWL Ταξινομία και μετατρέπονται σε κόμβους (nodes). Επιπλέον, εντοπίζεται η ιεραρχία μεταξύ των εννοιών, με τον τρόπο που αναλύθηκε παραπάνω. Το σύνολο των υπερκλάσεων μίας κλάσης μετατρέπονται σε λίστα και καταχωρούνται σαν attributes στον κόμβο. Η παραπάνω μετατροπή γίνεται με τη χρήση της βιβλιοθήκης (API) διαχείρισης OWL αρχείων, OwlDotNetApi. Η βιβλιοθήκη είναι υλοποιημένη σε.νετ. Για κάθε ζεύγος κλάσης λίστας υπερκλάσεων δημιουργείται ένα σύνολο από αντικείμενα τα οποία περιλαμβάνουν κάθε μοναδικό συνδυασμό κλάσης υπερκλάσης. Η κλάση της αντικειμενοστρεφούς αναπαράστασης που 97

98 διαχειρίζεται ένα ζεύγος κλάσης υπερκλάσης είναι η TaxonomyClassUnit (Παράρτημα, Εικόνα 7.1). Η κλάση προσφέρει ένα σύνολο από μεθόδους διαχείρισης της κλάσης και της αντίστοιχης υπερκλάσης. Κάθε αντικείμενο TaxonomyClassUnit διατηρεί την ιεραρχία για τις δύο κλάσεις που εντοπίζεται στην ταξινομία. Εικόνα 4.8 Ορισμός και αρχικοποίηση του TaxonomyClassUnit Το αποτέλεσμα του Αναλυτή Ταξινομίας είναι τα ζεύγη κλάσης υπερκλάσης τα οποία και αποθηκεύονται στη Βάση Δεδομένων προκειμένου να είναι διαθέσιμα για προσπέλαση οποιαδήποτε στιγμή. Η υλοποίηση του Αναλυτή Ταξινομίας παρουσιάζεται στο Παράρτημα, Εικόνα Σημασιολογικός Σχολιαστής Ο Σημασιολογικός Σχολιαστής, όπως αναφέρεται και παραπάνω, αναλαμβάνει τη σημασιολογική επισήμανση των ιστοσελίδων του δικτυακού τόπου. Η σημασιολογική εκτίμηση υλοποιείται μεταξύ των λέξεων κλειδιών μίας σελίδας και των εννοιών της ταξινομίας. Ο Σημασιολογικός Σχολιαστής συνεργάζεται με τον Αναλυτή Ταξινομίας ενώ λαμβάνει το περιεχόμενο των σελίδων του δικτυακού τόπου από το Repository Περιεχομένου, με μορφή λέξεων κλειδιών. Πιο συγκεκριμένα, σε πραγματικό χρόνο, ο Σημασιολογικός Σχολιαστής λαμβάνει τις λέξεις-κλειδιά για κάθε σελίδα του Δικτυακού Τόπου και υπολογίζει την ομοιότητα μεταξύ κάθε λέξης-κλειδιού και κάθε όρου της Ταξινομίας. 98

99 Ο Σημασιολογικός Σχολιαστής στοχεύει στον υπολογισμό των κυρίαρχων εννοιών που χαρακτηρίζουν το περιεχόμενο μίας σελίδας. Εικόνα 4.9 Σημασιολογικός Σχολιαστής Η σημασιολογική επισήμανση στηρίζεται σε μετρικές ομοιότητας των όρων [27] και συγκεκριμένα στην μετρική των Wu & Palmer [68]. Προκειμένου να υπολογιστεί η σημασιολογική ομοιότητα, χρησιμοποιείται το Wordnet το οποίο και εφαρμόζει τη μετρική των Wu & Palmer στα ζεύγη λέξεων κλειδιών εννοιών. Αφού υπολογιστεί η ομοιότητα ανάμεσα σε κάθε λέξη-κλειδί και κάθε όρο της Ταξινομίας, οι έννοιες με τη μεγαλύτερη τιμή ομοιότητας καταγράφονται και ανάμεσα τους επιλέγονται οι κυρίαρχες. Πλέον, κάθε σελίδα του δικτυακού τόπου αντιπροσωπεύεται από τους κυρίαρχους όρους, οι οποίοι και την χαρακτηρίζουν εννοιολογικά. Ο Σημασιολογικός Σχολιαστής αποτελείται από τα λειτουργικά τμήματα του Υπολογισμού Σημασιολογικής Ομοιότητας και του Υπολογισμού Κυριαρχίας Εννοιών. 99

100 Εικόνα 4.10 Λειτουργικά Τμήματα του Σημασιολογικού Σχολιαστή Το Λειτουργικό Τμήμα Υπολογισμού Σημασιολογικής Ομοιότητας χρησιμοποιεί τις έννοιες τις Ταξινομίας και τις λέξεις κλειδιά για μία URL και υπολογίζει τη σημασιολογική ομοιότητα των λέξεων κλειδιών με της έννοιες. Πιο αναλυτικά, για κάθε λέξη-κλειδί υπολογίζεται η σημασιολογική ομοιότητα με κάθε έννοια της Ταξινομίας. Η έννοια με τη μέγιστη ομοιότητα αντικαθιστά τη λέξη-κλειδί. Μετά το πέρας του υπολογισμού, η URL αντιπροσωπεύεται από ένα σύνολο από έννοιες οι οποίες συνοδεύονται από την τιμή της σημασιολογικής τους ομοιότητας. Οι έννοιες οι οποίες έχουν τιμή σημασιολογικής ομοιότητας μικρότερη από μία οριακή τιμή απομακρύνονται και η URL αντιπροσωπεύεται, πλέον, από ένα μικρότερο σύνολο εννοιών το οποίο εμφανίζει υψηλή σημασιολογική ομοιότητα. Οι αντιπροσωπευτικές έννοιες χρησιμοποιούνται από το Λειτουργικό Τμήμα Υπολογισμού Κυριαρχίας Εννοιών το οποίο υπολογίζει την κυριαρχία των εννοιών, όπως αναφέρθηκε στην προηγούμενη ενότητα. Η αρχιτεκτονική και η λειτουργικότητα των δύο υποσυστημάτων αναλύονται παρακάτω. Λειτουργικό Τμήμα Υπολογισμού Σημασιολογικής Ομοιότητας Το Λειτουργικό Τμήμα Υπολογισμού Σημασιολογικής Ομοιότητας υπολογίζει τη σημασιολογική ομοιότητα που εμφανίζουν οι λέξεις κλειδιά με τους όρους της Ταξινομίας. Η σημασιολογική ομοιότητα δύο όρων είναι ένας αριθμός μικρότερος ίσος της μονάδας και δείχνει την ομοιότητα της ερμηνείας που εμφανίζουν οι δύο όροι. Η σημασιολογική ομοιότητα είναι ίση με τον συντελεστή ομοιότητας ο οποίος και υπολογίζεται από έναν υπερθησαυρό. Στην παρούσα μελέτη, χρησιμοποιείται το Wordnet. Το Λειτουργικό Τμήμα Υπολογισμού Σημασιολογικής Ομοιότητας αλληλεπιδρά και με τον Αναλυτή Ταξινομίας ο οποίος αναλαμβάνει να καλέσει το Wordnet για τον υπολογισμό της σημασιολογικής ομοιότητας μεταξύ μίας λέξης κλειδιού και όλων των όρων της Ταξινομίας. 100

101 Κάθε μονάδα του Λειτουργικού Τμήματος Υπολογισμού Σημασιολογικής Ομοιότητας προσφέρει μία Διεπαφή (Interface) προκειμένου να κληθεί η αντίστοιχη μέθοδος, ώστε όλες οι μονάδες να αλληλεπιδρούν. Η παραπάνω αρχιτεκτονική απεικονίζεται στην ακόλουθη εικόνα: Εικόνα 4.11 Αρχιτεκτονική Λειτουργικού Τμήματος Υπολογισμού Σημασιολογικής Ομοιότητας Η μονάδα Σημασιολογικού Ταιριάσματος είναι υλοποιημένη σε.net και διαθέτει ένα σύνολο από μεθόδους (API μονάδας Σημασιολογικού Ταιριάσματος) οι οποίες καλούν τις υπόλοιπες μονάδες του Λειτουργικού Τμήματος και διαχειρίζονται το υπολογισμό σημασιολογικής ομοιότητας. Κατά την πρώτη φάση του σημασιολογικού υπολογισμού, η μονάδα Σημασιολογικού Ταιριάσματος καλεί τον Αναλυτή Ταξινομίας (TaxonomyParser.SimilarityCalculator()) προκειμένου να υπολογίσει για μία λέξηκλειδί τη σημασιολογική ομοιότητα που εμφανίζει με τους όρους της ταξινομίας. Ο Αναλυτής Ταξινομίας, συνεπώς, διατρέχει το δένδρο εννοιών της Ταξινομίας για τη λέξη-κλειδί, και για κάθε ζεύγος έννοιας της Ταξινομίας και λέξηςκλειδιού καλεί, σε δεύτερη φάση, το Wordnet (Wordnet.SentenceSimilarity()) με σκοπό να υπολογιστεί η ομοιότητα μεταξύ τους. 101

102 Για κάθε ζεύγος έννοιας και λέξης-κλειδιού επιστρέφεται στον Αναλυτή Ταξινομίας η ομοιότητα μεταξύ των δύο όρων. Πλέον, κάθε ζεύγος έννοιας και λέξης-κλειδιού αντικαθίσταται από την έννοια της ταξινομίας και την τιμή της ομοιότητας που υπολογίστηκε. Κατά το πέρας της διαδικασίας, μία σελίδα του δικτυακού τόπου, πλέον, αντιπροσωπεύεται από ένα σύνολο από έννοιες της ταξινομίας καθώς και την τιμή της υπολογισμένης ομοιότητας. Κάθε ζεύγος Έννοιας Ταξινομίας Σημασιολογικής Ομοιότητας αναπαρίσταται με μια κλάση, την ConceptSemUnit(taxonomyConcept, semanticscore), η οποία ορίζει ζεύγη ταξινομίας σημασιολογικής ομοιότητας. Η τρίτη φάση περιλαμβάνει την απομάκρυνση των ζευγών με όμοιους όρους της ταξινομίας. Επιλέγονται τα ζεύγη με τη μεγαλύτερη τιμή ομοιότητας. Στη συνέχεια, φιλτράρονται τα ζεύγη τα οποία έχουν τιμή ομοιότητας μικρότερη μίας ανώτερης τιμής. Κατά το τέλος της διαδικασίας υπολογισμού ομοιότητας, μία σελίδα του δικτυακού τόπου αντιπροσωπεύεται από ένα σύνολο από έννοιες της Ταξινομίας, οι οποίες ικανοποιούν μία κατώτερη τιμή ομοιότητας. Λειτουργικό Τμήμα Υπολογισμού Κυριαρχίας Εννοιών Το Λειτουργικό Τμήμα Υπολογισμού Κυριαρχίας Εννοιών υπολογίζει την τιμή της Κυριαρχίας για κάθε Έννοια της Ταξινομίας, η οποία αντιστοιχίζεται στα ζεύγη Έννοιας Ταξινομίας Σημασιολογικής Ομοιότητας τα οποία εξάγονται από το Λειτουργικό Τμήμα Υπολογισμού Σημασιολογικής Ομοιότητας. Εικόνα 4.12 Λειτουργικό Τμήμα Υπολογισμού Κυριαρχίας Εννοιών Η Κυριαρχία κάθε έννοιας της Ταξινομίας υπολογίζεται με τη μέθοδο που αναλύεται στο προηγούμενο κεφάλαιο. Για κάθε έννοια της ταξινομίας 102

103 υπολογίζεται το πηλίκο της τιμής της Σημασιολογικής Ομοιότητας της έννοιας και του αθροίσματος των τιμών της Σημασιολογικής Ομοιότητας όλων των Εννοιών της σελίδας. Η τιμή της Σημασιολογικής Ομοιότητας αντικαθίσταται από την υπολογισμένη τιμή της Κυριαρχίας. Τα ζεύγη Έννοιας και Κυριαρχίας για μία URL αποθηκεύονται στη Βάση Δεδομένων για περεταίρω χρησιμοποίηση από το Υποσύστημα Αλληλεπίδρασης Πραγματικού Χρόνου. Η υλοποίηση του Σημασιολογικού Σχολιαστή παρουσιάζεται στο Παράρτημα, Εικόνα Υπομονάδες Υποσυστήματος Αλληλεπίδρασης Πραγματικού Χρόνου Οι Υπομονάδες του Υποσυστήματος Αλληλεπίδρασης Πραγματικού Χρόνου εμφανίζονται στην Εικόνα 4.3 και παρουσιάζονται σε πλήρη λεπτομέρεια στην τρέχουσα ενότητα Υπομονάδα Διαχείρισης Συνόδου του Χρήστη Το Υπομονάδα Διαχείρισης Συνόδου, όπως αναφέρεται παραπάνω, αναλαμβάνει την καταγραφή και την επεξεργασία των διαδοχικών όψεων σελίδας οι οποίες εμφανίζονται στον διαφυλλιστή του χρήστη κατά τη διάρκεια της συνόδου του. Για κάθε σελίδα η οποία εμφανίζεται στη σύνοδο του χρήστη, η Υπομονάδα Διαχείρισης Συνόδου εξάγει ένα σύνολο από Κυρίαρχες Έννοιες, όπως απεικονίζεται και στην Εικόνα 4.13: 103

104 Εικόνα 4.13 Υπομονάδα Διαχείρισης Συνόδου Κατά την καταγραφή, παρακολουθούνται και αποθηκεύονται οι URLs των σελίδων του δικτυακού τόπου οι οποίες ανήκουν στη σύνοδο του χρήστη. Η σύνοδος του χρήστη διαμορφώνεται δυναμικά, σε πραγματικό χρόνο, κατά την αλληλεπίδραση του με τον Δικτυακό Τόπο. Το Υποσύστημα Διαχείρισης Συνόδου εφαρμόζει ένα παράθυρο μήκους n στην τρέχουσα σύνοδο του χρήστη με αποτέλεσμα να λαμβάνονται υπόψη οι τελευταίες n σελίδες του Δικτυακού Τόπου που έχει πλοηγηθεί ο χρήστης. Η επεξεργασία περιλαμβάνει την εύρεση και δέσμευση των Κυρίαρχων Εννοιών των URLs που ανήκουν στη συνόδου του χρήστη (και περιλαμβάνονται στο παράθυρο της συνόδου). Η Υπομονάδα Διαχείρισης Συνόδου αλληλεπιδρά σε πραγματικό χρόνο με το χρήστη και για κάθε URL που εντοπίζεται στο παράθυρο της συνόδου του, η Υπομονάδα Διαχείρισης Συνόδου ξεκινά μία αναζήτηση στο Repository Περιεχομένου με στόχο την εξαγωγή των Κυρίαρχων Εννοιών των σελίδων. Οι Κυρίαρχες Έννοιες των URLs έχουν οριστεί από το Υποσύστημα Προεργασίας και Προετοιμασίας του Δικτυακού Τόπου κατά τον Υπολογισμό Κυριαρχίας των Εννοιών. Η Υπομονάδα Διαχείρισης Συνόδου, συνεπώς, εξάγει ένα σύνολο από έννοιες οι οποίες περιγράφουν σημασιολογικά τις τελευταίες n όψεις σελίδων που έχει πλοηγηθεί ο χρήστης. 104

105 4.4.3 Υπομονάδα Προσδιορισμού Προσανατολισμού της Συνόδου του Χρήστη Η Υπομονάδα Προσδιορισμού Προσανατολισμού της Συνόδου του Χρήστη όπως αναφέρθηκε και παραπάνω συνοπτικά, χρησιμοποιεί τις κυρίαρχες έννοιες της συνόδου ενός χρήστη οι οποίες εξάγονται από την Υπομονάδα Διαχείρισης Συνόδου και κατασκευάζει τα σημασιολογικά μονοπάτια που δημιουργούνται μεταξύ τους. Τέλος, εντοπίζει τον προσανατολισμό στα μονοπάτια αυτά. Τα σημασιολογικά μονοπάτια περιλαμβάνουν τα μονοπάτια που δημιουργούνται μεταξύ των κυρίαρχων εννοιών, όπως αυτά διαμορφώνονται στο γράφο της Ταξινομίας. Προκειμένου να οριστούν τα μονοπάτια αυτά, η Υπομονάδα Προσδιορισμού Προσανατολισμού της Συνόδου του Χρήστη χρησιμοποιεί την Ταξινομία και τον γράφο των εννοιών που αυτή ορίζει. Οι κυρίαρχες έννοιες εντοπίζονται και προβάλλονται στους κόμβους, στο γράφο της Ταξινομίας. Όλα τα μονοπάτια που ορίζονται μεταξύ των προβεβλημένων κόμβων καταγράφονται. Τα μονοπάτια με μήκος μεγαλύτερο από μία συγκεκριμένη τιμή απορρίπτονται. Ο υπογράφος της Ταξινομίας που ορίζεται από τα σημασιολογικά μονοπάτια εξετάζεται περεταίρω ώστε να εντοπιστεί η γενίκευση ή η ειδίκευση στο πεδίο γνώσεις που ορίζουν οι έννοιες της Ταξινομίας. Εικόνα 4.14 Υπομονάδα Προσδιορισμού Προσανατολισμού της Συνόδου του Χρήστη Η Υπομονάδα Προσδιορισμού Προσανατολισμού της Συνόδου του Χρήστη αποτελείται από δύο βασικά Λειτουργικά Τμήματα, το Λειτουργικό Τμήμα Κατασκευής και το Λειτουργικό Τμήμα Παραγωγής Συστάσεων, τα οποία και αναλύονται παρακάτω. 105

106 Λειτουργικό Τμήμα Κατασκευής Μονοπατιών Το Λειτουργικό Τμήμα Κατασκευής Μονοπατιών εντοπίζει την ύπαρξη όλων των μονοπατιών μεταξύ των Εννοιών σύμφωνα με την τοπολογία τους στον γράφο της Ταξινομίας. Στη συνέχεια, κατασκευάζει τα μονοπάτια που σχηματίζονται από τις διαθέσιμες Έννοιες σύμφωνα και πάλι με την τοπολογία τους στο γράφο της Ταξινομίας. Το αποτέλεσμα της διαδικασίας είναι η δημιουργία του υπογράφου της Ταξινομίας που ορίζεται από τις διαθέσιμες έννοιες. Οι ακμές του υπογράφου, στην περίπτωση που συνδέουν γειτονικούς κόμβους ταυτίζονται με τις ακμές του γράφου της Ταξινομίας. Στην περίπτωση που συνδέουν μη γειτονικούς κόμβους ταυτίζονται με τις υπερακμές που σχηματίζονται μεταξύ των κόμβων. Έστω Τ ο γράφος της Ταξινομίας (Εικόνα 4.15). Ο γράφος της Ταξινομίας περιέχει όλες τις Έννοιες του Πεδίου Γνώσης οι οποίες αναπαρίσταται με τους κόμβους του γράφου. Οι ακμές ορίζονται σύμφωνα με τη σχέση Υπερκλάσης - Κλάσης με την Υπερκλάση να είναι ο πατέρας του κόμβου της Κλάσης. Γράφος Ταξινομίας T Εικόνα 4.15 Αρχικός Γράφος Ταξινομίας Τ Έστω ότι οι διαθέσιμες Έννοιες του παραθύρου αλληλεπίδρασης του χρήστη είναι οι A, B, C, D. Στόχος του Λειτουργικού Τμήματος Κατασκευής Μονοπατιών είναι ο εντοπισμός του υπογράφου των Εννοιών του παραθύρου που ορίζουν αυτές στον γράφο της ταξινομίας (Εικόνα 4.16). 106

107 A C B D Εικόνα 4.16 Προβολή των Εννοιών στο Γράφο Τ Οι φάσεις του αλγορίθμου του εντοπισμού και της κατασκευής των μονοπατιών παρουσιάζονται παρακάτω. Φάση Α: Δημιουργία Ζευγών Εννοιών Βασική ιδέα της Φάσης Α είναι η δημιουργία των μονοπατιών μήκους 1. Στην επόμενη φάση, τα μονοπάτια αυτά συνενώνονται με στόχο τη δημιουργία των τελικών μονοπατιών μεταξύ των Εννοιών του παραθύρου αλληλεπίδρασης του χρήστη που ορίζονται στο γράφο της Ταξινομίας. Προκειμένου να εντοπιστεί η προβολή των Εννοιών του παραθύρου, αρχικά, δημιουργούνται κατά τη φάση Α, όλοι οι πιθανοί συνδυασμοί ζευγών αρχικού κόμβου (source) και προορισμού (destination) μεταξύ των εννοιών. Συνεπώς, για το παράθυρο συνεδρίας του χρήστη A, B, C, D, τα αντίστοιχα ζεύγη είναι τα εξής: Πηγή Ζεύγος A (A, B) (A, C) (A, D) B (B, C) (B, D) D (C, D) Πίνακας Ζεύγη των Εννοιών του παραθύρου της Συνεδρίας του χρήστη Η Φάση Α υλοποιείται με τη βοήθεια μίας βιβλιοθήκης η οποία αρχικοποιεί τα αντικείμενα της κλάσης ζεύγους πηγής προορισμού για κάθε ζεύγος του 107

108 παραπάνω πίνακα. Η κλάση που ορίζει ένα ζεύγος πηγής προορισμού ονομάζεται Pairconstrustor() και είναι υλοποιημένη σε C#.NET. Η λειτουργία της απεικονίζεται σχηματικά και παρακάτω (Εικόνα 4.17): Εικόνα 4.17 Αλγόριθμος εντοπισμού και της κατασκευής των ζευγών των Εννοιών του παραθύρου της Συνεδρίας του χρήστη - Φάση Α Φάση Β: Εντοπισμός όλων των πιθανών μονοπατιών μεταξύ των ζευγών των Εννοιών του παραθύρου της συνεδρίας του χρήστη Η Φάση Β περιλαμβάνει το συνδυασμό των μονοπατιών της Φάσης Α με στόχο την κατασκευή όλων των πιθανών μονοπατιών μεταξύ των ζευγών των Εννοιών. Η Φάση Β εκτελεί τις παρακάτω ενέργειες για κάθε ζεύγος Εννοιών της Φάσης Α: Έστω το ζεύγος Εννοιών (A, B). Ενέργεια 1: Ελέγχεται αν το B ανήκει στο υποδένδρο που ορίζεται με ρίζα τον κόμβο που αντιστοιχεί στην Έννοια A. Στην περίπτωση που ανήκει, καταγράφονται ο αριθμός των βημάτων (hops) στο μονοπάτι που εντοπίζεται στο γράφο του υποδένδρου μεταξύ της πηγής και του προορισμού. Συνεπώς, για το ζεύγος Εννοιών καταγράφεται το μονοπάτι (Α, Β, #hops). Στην περίπτωση που δεν ανήκει, λαμβάνει χώρα η Ενέργεια 2. Ενέργεια 2: Ελέγχεται αν το A ανήκει στο υποδένδρο που ορίζεται με ρίζα τον κόμβο που αντιστοιχεί στην Έννοια B. Στην περίπτωση που ανήκει, καταγράφονται ο αριθμός των βημάτων (hops) στο μονοπάτι που εντοπίζεται στο γράφο του υποδένδρου μεταξύ της πηγής και του 108

109 προορισμού. Συνεπώς, για το ζεύγος Εννοιών καταγράφεται το μονοπάτι (B, Α, #hops). Στην περίπτωση που δεν ανήκει, λαμβάνει χώρα η Ενέργεια 3. Ενέργεια 3: Οι κόμβοι A και B καταγράφονται σαν απομονωμένοι κόμβοι (single sources) καθώς δεν υπάρχει μονοπάτι το οποίο να τους συνδέει με τους υπόλοιπους κόμβους που αντιστοιχίζονται στις Έννοιες της συνόδου του χρήστη. Το λογικό διάγραμμα του αλγορίθμου ακολουθεί. 109

110 Ζεύγος Εννοιών (Α,Β) A είναι η Έννοια-πηγή και B η Έννοιαπροορισμός Ανήκει το Β στο υποδένδρο που ορίζεται με ρίζα τον κόμβο που αντιστοιχεί στην Έννοια A; ΝΑΙ Αποθήκευση υπαρκτού μονοπατιού από το Α στο Β καθώς και αριθμός μεταβάσεων: path(a->b, #hops) ΟΧΙ Ανήκει το A στο υποδένδρο που ορίζεται με ρίζα τον κόμβο που αντιστοιχεί στην Έννοια B; ΝΑΙ Αποθήκευση υπαρκτού μονοπατιού από το B στο A καθώς και αριθμός μεταβάσεων: path(b->a, #hops) ΟΧΙ Αποθήκευση των Α και Β σαν μεμονωμένοι κόμβοι: singlesource(a), singlesource(b) Εικόνα 4.18 Λογικό Διάγραμμα αλγορίθμου Φάσης Β Η Φάση Β υλοποιείται με τη βοήθεια της μεθόδου GetDirectionList η οποία ανήκει στην κλάση DirectionLibrary. Η μέθοδος χρησιμοποιεί σαν είσοδο τη λίστα με τα ζεύγη εννοιών της Φάσης Α και σε αλληλεπίδραση με το Repository Ταξινομίας εντοπίζει την ύπαρξη μονοπατιών μεταξύ των εννοιών. 110

111 Εικόνα Αλγόριθμος εντοπισμού των μονοπατιών του παραθύρου της Συνεδρίας του χρήστη - Φάση Β. Φάση Γ: Κατασκευή μονοπατιών μεταξύ των Εννοιών Η ύπαρξη μονοπατιού μεταξύ δύο εννοιών που εντοπίζεται στη Φάση Β απαιτεί περεταίρω μελέτη και επεξεργασία προκειμένου να εντοπιστούν οι έννοιεςκόμβοι που περιλαμβάνονται στο μονοπάτι που συνδέει τις δύο Έννοιες και υπάρχουν στο παράθυρο αλληλεπίδρασης του χρήστη, καθώς και οι ακμές που συνδέουν τους κόμβους αυτούς. Η επεξεργασία αυτή λαμβάνει χώρα στη Φάση Γ. Τα μονοπάτια που κατασκευάζονται κατά την επεξεργασία διακρίνονται σε απλά ή σύνθετα μονοπάτια. Απλά είναι τα μονοπάτια που έχουν αριθμό hops ίσο με 1. Σύνθετα είναι τα μονοπάτια που έχουν αριθμό hops πάνω από 1. Ένα σύνθετο μονοπάτι με n αριθμό hops αντικαθίσταται από μονοπάτια με αριθμό hops μικρότερο του n. Στόχος της Φάσης Γ είναι η δημιουργία του συνόλου των μέγιστων μονοπατιών τα οποία συνδέουν τις Έννοιες του παραθύρου της συνόδου του χρήστη. Η Φάση Γ αποτελείται από τις παρακάτω ενέργειες, οι οποίες λαμβάνουν χώρα για κάθε Έννοια-πήγη τις λίστας των μονοπατιών της Φάσης Β: Έστω Α, η έννοια-κόμβος που είναι υπό εξέταση. Ενέργεια 1: Λαμβάνονται οι προορισμοί των μονοπατιών με πηγή την Έννοια Α. Εξετάζεται αν μία Έννοια-προορισμός της έννοιας Α εμφανίζεται σαν Έννοιαπηγή σε ένα άλλο μονοπάτι της Φάσης Β. Έστω Τ το μονοπάτι με πηγή την Έννοια Α και προορισμό την έννοια Β, Τ:(Α, Β, 1). Ενέργεια 2: Έστω, ότι η Έννοια Β εμφανίζεται σαν Έννοια-πηγή στο μονοπάτι Τ : (B, D, 2) της Φάσης Β. Τα μονοπάτια Τ και Τ συνδέονται μέσω της Έννοιας Β η οποία χαρακτηρίζεται και σαν σύνδεσμος (connector) και δημιουργούν ένα 111

112 καινούριο μονοπάτι Τ με Έννοια-πηγή την Έννοια A υπό εξέταση και Έννοιαπροορισμό, την Έννοια D. Ενέργεια 3: Έστω ότι η Έννοια Β δεν εμφανίζεται σαν Έννοια-πηγή. Η έννοια Β είναι τελικός προορισμός στο μονοπάτι Τ και αποτελεί φύλλο στον τελικό γράφο που δημιουργείται από τα μονοπάτια που εντοπίζονται στην τρέχουσα Φάση. Η παραπάνω διαδικασία επαναλαμβάνεται μέχρι να εξαντληθούν όλα τα μονοπάτια της φάσης Β. Ο αλγόριθμος της φάσης Γ εμφανίζεται στο παρακάτω διάγραμμα. 112

113 Α (έννοιακόμβος υπό εξέταση) T το πρώτο μονοπάτι με πηγή τον κόμβο Α. Τ:(Α, Β, 1). Εμφανίζεται η Β σαν Έννοια-πηγή σε κάποιο άλλο μονοπάτι; ΟΧΙ Η έννοια Β είναι τελικός προορισμός στο μονοπάτι Τ και αποτελεί φύλλο στον τελικό γράφο ΝΑΙ η Έννοια Β εμφανίζεται σαν Έννοια-πηγή στο μονοπάτι Τ : (B, D, 2). Το Β είναι σύνδεσμος (connector) των μονοπατιών Τ και Τ. Εικόνα 4.20 Λογικό διάγραμμα Φάσης Γ Η Φάση Γ υλοποιείται με τη μέθοδο PathConstructor. Η μέθοδος είναι υλοποιημένη σε C#.NET και ανήκει στην κλάση PathLibrary. Η μέθοδος χρησιμοποιεί τη λίστα μονοπατιών της Φάσης Β και δημιουργεί μία νέα λίστα μονοπατιών, όπου για κάθε έννοια-κόμβος προσδιορίζεται η θέση της στο γράφο που δημιουργείται από τις έννοιες του παραθύρου χρησιμοποίησης του χρήστη. 113

114 Πιο συγκεκριμένα, για κάθε έννοια είναι γνωστό εάν αυτή είναι πηγή, προορισμός και αν αποτελεί ενδιάμεσος κόμβος ή τελικός στο γράφο των εννοιών του παραθύρου του χρήστη. Επιπλέον, δεδομένου ότι η πηγή και ο προορισμός στα μονοπάτια που καταγράφονται είναι γνωστά, για κάθε κόμβο είναι γνωστός ο προηγούμενος και ο επόμενος κόμβος. Συνεπώς, το επόμενο βήμα για την ολοκληρωμένη κατασκευή του γράφου των εννοιών του παραθύρου του χρήστη, είναι η συνένωση των κόμβων και των μονοπατιών σύμφωνα με την επιπλέον τυπολογική πληροφορία που εντοπίζεται κατά τη φάση Γ. Η συνένωση αυτή υλοποιείται στη Φάση Δ που προγράφεται, αναλυτικά, παρακάτω. Εικόνα Αλγόριθμος κατασκευής των μονοπατιών των Εννοιών του παραθύρου αλληλεπίδρασης του χρήστη Φάση Δ: Συνένωση των μονοπατιών και διαμόρφωση τελικού γράφου των Εννοιών Τα επιμέρους μονοπάτια της Φάσης Γ συνενώνονται κατά τη Φάση Δ και διαμορφώνουν τον τελικό γράφο των Εννοιών του παραθύρου του χρήστη. Κατά τη Φάση Δ, οι προορισμοί και τελικοί κόμβοι των μονοπατιών εξετάζονται αν αποτελούν πηγή και αρχικοί κόμβοι ενός ή περισσότερων μονοπατιών της Φάσης Γ. Τα μονοπάτια για τα οποία οι τελικοί και αρχικοί κόμβοι ταυτίζονται, συνενώνονται στον κοινό κόμβο και διαμορφώνουν ένα τελικό μονοπάτι μεγαλύτερου μήκους. Οι αρχικοί και τελικοί κόμβοι που ταυτίζονται ονομάζονται συνδετικοί. Σε κάθε βήμα, τα μονοπάτια της Φάσης Γ τα οποία συνενώνονται αποθηκεύονται σε μία λίστα μεταπηδήσεων. Η λίστα μεταπηδήσεων διατηρεί τη διαδοχή που έχουν τα μονοπάτια στο τελικό γράφο. Η διαδικασία επαναλαμβάνεται για όλα τα μονοπάτια της Φάσης Γ. 114

115 Ο στόχος της φάσης Δ είναι η δημιουργία του γράφου με τη μεγαλύτερη κάλυψη των κόμβων της φάσης Β ο οποίος περιλαμβάνει τα μονοπάτια της φάσης Γ. Η Φάση Δ περιλαμβάνει τις παρακάτω ενέργειες για κάθε μονοπάτι της Φάσης Γ: Έστω (Α, Β) το πρώτο μονοπάτι υπό εξέταση. Ενέργεια 1: Λαμβάνεται ο προορισμός του μονοπατιού (Β) και για κάθε μονοπάτι της φάσης Γ. Εξετάζεται εάν αυτός ταυτίζεται με την πηγή ενός άλλου μονοπατιού, έστω (B, C), δηλαδή, αν αυτός είναι συνδετικός. Αν ο κόμβος είναι συνδετικός, τα δύο μονοπάτια αποθηκεύονται στη λίστα μεταπηδήσεων. Ενέργεια 2: Εξετάζεται εάν υπάρχει μονοπάτι με πηγή την πηγή του πρώτου μονοπατιού (Α) και προορισμό τον προορισμό του δεύτερου μονοπατιού (C). Αν υπάρχει ένα τέτοιο μονοπάτι, (A, C), τότε αυτό απομακρύνεται. Ο αλγόριθμος των ενεργειών της Φάσης Δ απεικονίζεται παρακάτω: Ζεύγος Εννοιών (Α,Β) A είναι η Έννοια-πηγή και B η Έννοιαπροορισμός Αποθήκευση μονοπατιού καθώς και αριθμός μεταβάσεων: path(a->b, #hops) ΟΧΙ Είναι το Β Έννοια-πηγή σε κάποιο άλλο μονοπάτι; ΝΑΙ Αποθήκευση μονοπατιών καθώς και αριθμός μεταβάσεων: path(a->b, #hops) path(b->c, #hops) Υπάρχει στη λίστα το μονοπάτι (A,C); ΝΑΙ Διαγραφή μονοπατιού path(a->c, #hops) 115

116 Εικόνα 4.22 Λογικό Διάγραμμα Φάσης Δ Η Φάση Δ υλοποιείται με τη μέθοδο PathReformulator. Η μέθοδος είναι υλοποιημένη σε C#.NET και ανήκει στην κλάση PathLibrary. Η μέθοδος χρησιμοποιεί τα μονοπάτια τις Φάσης Γ, εντοπίζει τους συνδετικούς κόμβους και αποθηκεύει τα μονοπάτια σύμφωνα με τη διαδοχή που ορίζουν οι συνδετικοί κόμβοι. Στην περίπτωση που υπάρχουν μονοπάτια με ίδιο αρχικό και τελικό κόμβο διατηρείται το μονοπάτι με τους περισσότερους συνδετικούς κόμβους. Η Φάση Δ απεικονίζεται, σχηματικά, στην παρακάτω εικόνα. Εικόνα Αλγόριθμος κατασκευής των μονοπατιών των Εννοιών του παραθύρου αλληλεπίδρασης του χρήστη Συνεπώς, η αρχική προβολή του γράφου της Ταξινομίας (Εικόνα 4.16 Προβολή των Εννοιών στο Γράφο Τ), απλοποιείται στο τελικό γράφο (Εικόνα 4.16). Οι έννοιες του τελικού γράφου θα διαμορφώσουν το σύνολο των εννοιών οι οποίες θα προσφέρουν συστάσεις στο χρήστη. Η υλοποίηση του Λειτουργικού Συστήματος Κατασκευής Μονοπατιών παρουσιάζεται στο Παράρτημα, στις εικόνες Εικόνα 7.4, Εικόνα 7.5, Εικόνα Λειτουργικό Τμήμα Παραγωγής Συστάσεων Το Λειτουργικό Τμήμα Παραγωγής Συστάσεων αναλαμβάνει τον εντοπισμό των εννοιών οι οποίες θα συνεισφέρουν στην παραγωγή προτάσεων στο χρήστη. Το Λειτουργικό Τμήμα Παραγωγής Συστάσεων χρησιμοποιεί το γράφο του Λειτουργικού Τμήματος Κατασκευής Μονοπατιών και εντοπίζει τον σημασιολογικό προσανατολισμό της συνόδου του χρήστη. Πιο συγκεκριμένα εντοπίζει εάν ο χρήστης, κατά τη διάρκεια της αλληλεπίδρασης του με τη ιστοσελίδα, στοχεύει σε ένα σύνολο από έννοιες ενός τομέα οι οποίες εννοιολογικά θεωρούνται περισσότερο εξειδικευμένες από άλλες, στον τομέα τους (εξειδίκευση) ή περισσότερο γενικές (γενίκευση). 116

117 Προκειμένου να εντοπιστεί ο προσανατολισμός της αναζήτησης του χρήστη, το Λειτουργικό Τμήμα Παραγωγής Συστάσεων λαμβάνει την κυριαρχία του πρώτου και του τελευταίου κόμβου για κάθε μονοπάτι του Λειτουργικού Τμήματος Παραγωγής Συστάσεων και εντοπίζει την κυριαρχία των εννοιών στο σύνολο των σελίδων της συνόδου. Αν η κυριαρχία του πρώτου κόμβου είναι μεγαλύτερη από την κυριαρχία του τελευταίου τότε ο χρήστης γενικεύει την αναζήτηση του. Στην αντίθετη περίπτωση, ο χρήστης εξειδικεύει την αναζήτηση του. Με άλλα λόγια, στην περίπτωση της γενίκευσης, η γενικότερη έννοια κυριαρχεί περισσότερο από την περισσότερο ειδική. Η γενίκευση διαπιστώνεται στο τρέχον παράθυρο του χρήστη, συνεπώς η αναζήτηση του χρήστη τείνει να γενικεύει σημασιολογικά στα πλαίσια ενός συγκεκριμένου πεδίου γνώσης. Αντίστοιχα, η αναζήτηση του χρήστη τείνει να ειδικεύει σημασιολογικά στα πλαίσια ενός συγκεκριμένου πεδίου γνώσης. Όπως φαίνεται στην παρακάτω εικόνα (Εικόνα Εξειδίκευση και γενίκευση σε ένα μονοπάτι εννοιών του παραθύρου του χρήστη), το μονοπάτι του Λειτουργικού Τμήματος Κατασκευής Μονοπατιών για τις έννοιες Α, Β, C, D εξετάζεται για τον προσδιορισμό του προσανατολισμού του. Αν η κυριαρχία τις έννοιας A είναι μεγαλύτερη από την κυριαρχία της έννοιας D, η αναζήτηση του χρήστη τείνει στη γενίκευση και το σύνολο των προτάσεων που προσφέρονται προέρχονται από τις έννοιες που μεσολαβούν στο μονοπάτι με αρχικό κόμβο την έννοια Α και τελικό κόμβο την έννοια D. Σε αντίθετη περίπτωση, η αναζήτηση του χρήστη τείνει στην ειδίκευση και οι προτάσεις προέρχονται από τις έννοιες που ανήκουν στα μονοπάτια με ρίζα το D και έχουν μήκος ίσο με κάποια συγκεκριμένη τιμή. d(α) > d(d), γενίκευση A B C D d(d) > d(a), εξειδίκευση Εικόνα Εξειδίκευση και γενίκευση σε ένα μονοπάτι εννοιών του παραθύρου του χρήστη Το Λειτουργικό Τμήμα Παραγωγής Συστάσεων υλοποιείται από την κλάση OrientationIdentifier η οποία υλοποιεί δύο βασικές λειτουργίες: τον εντοπισμό του προσανατολισμού και την παραγωγή των συστάσεων. Ο προσανατολισμός της αναζήτησης του χρήστη υλοποιείται από τη μέθοδο GetPathOrientationWindow και η παραγωγή συστάσεων από τη μέθοδο GetRecommendedConcepts. 117

118 Η μέθοδος GetPathOrientationWindow δέχεται ως είσοδο το σύνολο των μονοπατιών του Λειτουργικού Τμήματος Κατασκευής Μονοπατιών καθώς και το τρέχον παράθυρο του χρήστη. Για κάθε μονοπάτι εξετάζεται η κυριαρχία των αρχικών και τελικών κόμβων στο σύνολο των σελίδων, στο παράθυρο του χρήστη, και εντοπίζεται ο προσανατολισμός για το μονοπάτι αυτό. Η μέθοδος GetPathOrientationWindow παράγει στην έξοδο μία λίστα με αντικείμενα τα οποία αντιστοιχίζονται σε κάθε μονοπάτι και διατηρούν πληροφορία σχετικά με τον αρχικό και τελικό κόμβο ενός μονοπατιού, καθώς και τον προσανατολισμό που ακολουθείται στο αντίστοιχο μονοπάτι. Η λίστα των αντικειμένων αποτελεί την είσοδο της μεθόδου GetRecommendedConcepts η οποία σύμφωνα με τον προσανατολισμό του αντίστοιχου μονοπατιού εντοπίζει τις έννοιες-κόμβους που θα συνεισφέρουν στην παραγωγή των συστάσεων. Οι έννοιες αυτές αποτελούν έξοδο της μεθόδου. Οι συστάσεις παράγονται σύμφωνα με τις έννοιες που επιστρέφει η μέθοδος GetRecommendedConcepts. Οι συστάσεις κατατάσσονται σύμφωνα με τη συχνότητα εμφάνισης τους. Πιο συγκεκριμένα, αν μία σελίδα προταθεί από περισσότερες από μία έννοιες, η σελίδα αυτή είναι περισσότερο αντιπροσωπευτική της αναζήτησης του χρήστη, στο σύνολο των συστάσεων. Η σελίδα αυτή προωθείται στην αρχή της λίστας των συστάσεων προκειμένου να ικανοποιήσει άμεσα τις ανάγκες του χρήστη. Η υλοποίηση του Λειτουργικού Τμήματος Παραγωγής Συστάσεων παρουσιάζεται στο Παράρτημα, στις εικόνες Εικόνα 7.7, Εικόνα 7.8, Εικόνα 7.9, Εικόνα

119 5 Πιλοτική εφαρμογή και Αξιολόγηση Παρακάτω, παρουσιάζεται ένα παράδειγμα εφαρμογής της SOSACT μεθοδολογίας. Το παράδειγμα εφαρμόζεται στο δικτυακό τόπο του Πανεπιστημίου Πατρών (http://www.upatras.gr/). Η εφαρμογή του SOSACT αλγορίθμου γίνεται στο σύστημα SOSACT. Το σύστημα SOSACT υλοποιεί μία desktop εφαρμογή η οποία υποστηρίζει έναν διαφυλλιστή μέσα από τον οποίο ο χρήστη πλοηγείται στο δικτυακό τόπο. Το σύστημα SOSACT παρακολουθεί τη συμπεριφορά του και παρουσιάζει τις έννοιες που συμπεριλαμβάνονται στη σύνοδο του. Παράλληλα, εκτελεί τη μέθοδο SOSACT και παρουσιάζει τις έννοιες-στόχους, τα μονοπάτια που δημιουργούνται μεταξύ των εννοιών της ταξινομίας καθώς και προτεινόμενες σελίδες του δικτυακού τόπου βάσει των εννοιών-στόχων. Στις παρακάτω υποενότητες περιγράφεται ένα παράδειγμα χρήσης του συστήματος και αξιολογούνται τα παραγόμενα αποτελέσματα. 5.1 Το περιβάλλον διεπαφής του συστήματος SOSACT Το περιβάλλον διεπαφής του συστήματος SOSACT παρουσιάζεται στην Εικόνα 5.1: Εικόνα Περιβάλλον διεπαφής του συστήματος SOSACT 119

Σχεδιασµός Ανάπτυξη Οντολογίας

Σχεδιασµός Ανάπτυξη Οντολογίας Σχεδιασµός Ανάπτυξη Οντολογίας ΈλεναΜάντζαρη, Γλωσσολόγος, Ms.C. ΙΑΤΡΟΛΕΞΗ: Ανάπτυξη Υποδοµής Γλωσσικής Τεχνολογίας για το Βιοϊατρικό Τοµέα Τι είναι η οντολογία; Μιαοντολογίαείναιέναλεξικόόρωνπου διατυπώνονται

Διαβάστε περισσότερα

Μάθημα: Δ3. Δίκτυα Γνώσης και Σημασιολογικός Ιστός. Διάλεξη 01 & 02. Δρ. Γεώργιος Χρ. Μακρής

Μάθημα: Δ3. Δίκτυα Γνώσης και Σημασιολογικός Ιστός. Διάλεξη 01 & 02. Δρ. Γεώργιος Χρ. Μακρής ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ στα ΠΟΛΥΠΛΟΚΑ ΣΥΣΤΗΜΑΤΑ και ΔΙΚΤΥΑ Μάθημα: Δ3. Δίκτυα Γνώσης και Σημασιολογικός Ιστός Χειμερινό Εξάμηνο Σπουδών Διάλεξη 01 & 02 Δρ. Γεώργιος Χρ. Μακρής Αναπαράσταση

Διαβάστε περισσότερα

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ: ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: Υπολογιστικά Συστήµατα & Τεχνολογίες Πληροφορικής ΣΥΓΓΡΑΦΕΑΣ: Γιώργος Γιαννόπουλος, διδακτορικός φοιτητής

Διαβάστε περισσότερα

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Λίνα Μπουντούρη - Μανόλης Γεργατσούλης Ιόνιο Πανεπιστήμιο 15ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών Διαδίκτυο και Επίπεδα ετερογένειας δεδομένων

Διαβάστε περισσότερα

Περιεχόμενα. Κατάλογος εικόνων 13. Πρόλογος 15. 1 Το όραμα του Σημασιολογικού Ιστού 19

Περιεχόμενα. Κατάλογος εικόνων 13. Πρόλογος 15. 1 Το όραμα του Σημασιολογικού Ιστού 19 Περιεχόμενα Κατάλογος εικόνων 13 Πρόλογος 15 1 Το όραμα του Σημασιολογικού Ιστού 19 1.1 Ο σημερινός Ιστός 19 1.2 Από το σημερινό Ιστό στο Σημασιολογικό Ιστό: παραδείγματα 22 1.3 Τεχνολογίες Σημασιολογικού

Διαβάστε περισσότερα

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία Σοφία Ζαπουνίδου, Αρχειονόμος Βιβλιοθηκονόμος, Πανεπιστήμιο Θεσσαλίας Κεντρική

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων Έργο: Τίτλος Υποέργου: «ΘΑΛΗΣ: Ενίσχυση της Διεπιστημονικής ή και Διιδρυματικής έρευνας και καινοτομίας με δυνατότητα προσέλκυσης ερευνητών υψηλού επιπέδου από το εξωτερικό μέσω της διενέργειας βασικής

Διαβάστε περισσότερα

Εννοιολογική Ομοιογένεια

Εννοιολογική Ομοιογένεια Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας Βιβλιοθηκονομίας Εργαστήριο Ψηφιακών Βιβλιοθηκών και Ηλεκτρονικής Δημοσίευσης Εννοιολογική Ομοιογένεια Αξιοποίηση Ταξινομικών Συστημάτων Γεωργία Προκοπιάδου, Διονύσης

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 6: RDF Schema (RDFS) Μ.Στεφανιδάκης 21-3-2016. Τι μπορούμε να εκφράσουμε με την RDF; Δηλώσεις σε μορφή τριάδων (s,p,o) Χωρίς οποιαδήποτε έννοια δομής... Παράδειγμα:

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΣΠΟΥ ΑΣΤΗΣ: Γιαννόπουλος Γεώργιος ΕΠΙΒΛΕΠΩΝ: Καθ. Ι. Βασιλείου ΒΟΗΘΟΙ: Α. ηµητρίου, Θ. αλαµάγκας Γενικά Οι µηχανές αναζήτησης

Διαβάστε περισσότερα

Επεκτεταμένο Μοντέλο Οντοτήτων-Συσχετίσεων Αντζουλάτος Γεράσιμος antzoulatos@upatras.gr Τμήμα Εφαρμογών Πληροφορικής στην Διοίκηση και Οικονομία ΤΕΙ Πατρών - Παράρτημα Αμαλιάδας 08 Νοεμβρίου 2012 Περιεχομενα

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΣΥΜΠΛΗΡΩΜΑΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΛΟΓΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ (III) ΙΖΑΜΠΩ ΚΑΡΑΛΗ ΑΘΗΝΑ 2008 Σύγχρονεςανάγκες για αναπαράσταση γνώσης

Διαβάστε περισσότερα

Π Τ Υ Χ Ι Α Κ Η Ε Ρ ΓΑ Σ Ι Α

Π Τ Υ Χ Ι Α Κ Η Ε Ρ ΓΑ Σ Ι Α Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η Ε Ρ ΓΑ Σ Ι Α ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΠΛΑΤΦΟΡΜΑ ΑΓΓΕΛΙΩΝ ΛΑΖΑΡΟΥ ΔΕΣΠΟΙΝΑ ΑΕΜ: 1808

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ «Διδακτική της Τεχνολογίας & Ψηφιακών Συστημάτων» Κατεύθυνση: Ηλεκτρονική Μάθηση Τεχνολογίες σημασιολογικής επισημείωσης κειμενικού και πολυμεσικού περιεχομένου

Διαβάστε περισσότερα

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό Αλέξανδρος Βαλαράκος (alexv@iit.demokritos.gr) (alexv@aegean.gr) Υποψήφιος ιδάκτορας Τµήµα Μηχανικών Υπολογιστικών και Πληροφοριακών Συστηµάτων.

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑ: ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ ΜΟΝΤΕΛΑ ΣΥΣΤΗΜΑΤΟΣ Διδάσκων: Γ. Χαραλαμπίδης, Επ. Καθηγητής

Διαβάστε περισσότερα

Διαχείριση οντολογιών: μελέτη και εμβάθυνση στα βασικά προβλήματα που την αφορούν και παρουσίαση υπαρχουσών βιβλιοθηκών οντολογιών

Διαχείριση οντολογιών: μελέτη και εμβάθυνση στα βασικά προβλήματα που την αφορούν και παρουσίαση υπαρχουσών βιβλιοθηκών οντολογιών 15ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΑΚΑΔΗΜΑΪΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ Διαχείριση οντολογιών: μελέτη και εμβάθυνση στα βασικά προβλήματα που την αφορούν και παρουσίαση υπαρχουσών βιβλιοθηκών οντολογιών ΓΑΪΤΑΝΟΥ ΠΑΝΩΡΑΙΑ gaitanou@benaki.gr

Διαβάστε περισσότερα

Πρότυπα και Τεχνολογίες Semantic Web και Web 2.0 και η εφαρμογή τους στην Ηλεκτρονική Διακυβέρνηση

Πρότυπα και Τεχνολογίες Semantic Web και Web 2.0 και η εφαρμογή τους στην Ηλεκτρονική Διακυβέρνηση Πρότυπα και Τεχνολογίες Semantic Web και Web 2.0 και η εφαρμογή τους στην Ηλεκτρονική Διακυβέρνηση Νίκος Λούτας (nlout@uom.gr) http://nikosloutas.com Υποψήφιος Διδάκτορας, Εργαστήριο Πληροφοριακών Συστημάτων,

Διαβάστε περισσότερα

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση Οι συµφράσεις είναι ακολουθίες όρων οι οποίοι συνεµφανίζονται σε κείµενο µε µεγαλύτερη συχνότητα από εκείνη της εµφάνισης

Διαβάστε περισσότερα

Description Logics. Γεώργιος Χρ. Μακρής MSc, MEd

Description Logics. Γεώργιος Χρ. Μακρής MSc, MEd Γεώργιος Χρ. Μακρής MSc, MEd Γλώσσες Περιγραφικής Λογικής Είναι γλώσσες αναπαράστασης της γνώσης των οποίων τα κύρια χαρακτηριστικά είναι: ο αυστηρός μαθηματικός φορμαλισμός η απλότητα και η κομψότητα.

Διαβάστε περισσότερα

Περιεχόμενο του μαθήματος

Περιεχόμενο του μαθήματος ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Απαιτήσεις Λογισμικού Περιπτώσεις χρήσης Δρ Βαγγελιώ Καβακλή Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας Πανεπιστήμιο Αιγαίου Εαρινό Εξάμηνο 2012-2013 1 Περιεχόμενο του μαθήματος

Διαβάστε περισσότερα

Βάσεις Δεδομένων Ενότητα 4

Βάσεις Δεδομένων Ενότητα 4 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 4: Μοντέλο Οντοτήτων-Συσχετίσεων Ιωάννης Μανωλόπουλος, Καθηγητής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Τεχνολογία ανάπτυξης νέων ιστοσελίδων στο Semantic Web.

Τεχνολογία ανάπτυξης νέων ιστοσελίδων στο Semantic Web. Τεχνολογία ανάπτυξης νέων ιστοσελίδων στο Semantic Web. ΒΕΖΕΡΗΣ ΔΗΜΗΤΡΙΟΣ Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Η/Υ Δημοκρίτειο Πανεπιστήμιο Θράκης Λευκίππου 6, 67100 Ξάνθη ΕΛΛΑΔΑ leader@cosmos4u.com,

Διαβάστε περισσότερα

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται

Διαβάστε περισσότερα

Εισαγωγή στο RDF. Το Resource Description Framework (RDF) Σταύρος Πολυβίου

Εισαγωγή στο RDF. Το Resource Description Framework (RDF) Σταύρος Πολυβίου Εισαγωγή στο RDF Σταύρος Πολυβίου Το Resource Description Framework (RDF) RDF: µία γλώσσα περιγραφής πληροφοριών (metadata) που αφορούν πόρους (resources) στο world wide web. Παραδείγµατα: ο τίτλος, ο

Διαβάστε περισσότερα

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές Μεταπτυχιακό Δίπλωμα Ειδίκευσης Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές Δρ. Κακαρόντζας Γεώργιος Επίκουρος Καθηγητής Τμ. Μηχανικών Πληροφορικής Τ.Ε. Μηχανική Λογισμικού για Διαδικτυακές

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 1: Σημασιολογία και Μεταδεδομένα Μ.Στεφανιδάκης 5-2-2016. Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα.

Διαβάστε περισσότερα

Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους

Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους Επιμέλεια: Καρανικολάου Θεοδώρα Επιβλέπων καθηγητής: Δενδρινός Μάρκος Αθήνα, 2017 Σκοπός Στόχος της πτυχιακής

Διαβάστε περισσότερα

ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ

ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ RDF (Resource Description Framework) Ι. Χατζηλυγερούδης Ανεπάρκεια της XML Η XML είναι Μετα-γλώσσα ορισμού σήμανσης για ανταλλαγή δεδομένων και μεταδεδομένων μεταξύ

Διαβάστε περισσότερα

«Ανάπτυξη μηχανής παραγωγής φυσικής γλώσσας για οντολογίες OWL»

«Ανάπτυξη μηχανής παραγωγής φυσικής γλώσσας για οντολογίες OWL» «Ανάπτυξη μηχανής παραγωγής φυσικής γλώσσας για οντολογίες OWL» Διπλωματική εργασία ΜΠΣ «Επιστήμη Υπολογιστών» Γαλάνης Δημήτριος Επιβλέπων: Ι. Ανδρουτσόπουλος Δεύτερος Αξιολογητής: Π. Κωνσταντόπουλος Παραγωγή

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 1: Σημασιολογία και Μεταδεδομένα Μ.Στεφανιδάκης 10-2-2017 Η αρχή: Το όραμα του Σημασιολογικού Ιστού Tim Berners-Lee, James Hendler and Ora Lassila, The Semantic

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13. Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13. Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15 ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος... 13 Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15 1.1 Εισαγωγή... 16 1.2 Διαδίκτυο και Παγκόσμιος Ιστός Ιστορική αναδρομή... 17 1.3 Αρχές πληροφοριακών συστημάτων

Διαβάστε περισσότερα

Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη Οντολογικής Γνώσης για Τεκμηρίωση Οπτικοακουστικού Περιεχομένου

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420)

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420) Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420) Διάλεξη 8: Σχεδίαση Συστήματος Σχεδίαση Συστήματος 2 Διεργασία μετατροπής του προβλήματος σε λύση. Από το Τί στο Πώς. Σχέδιο: Λεπτομερής περιγραφή της λύσης. Λύση:

Διαβάστε περισσότερα

Aναπαράσταση Γνώσης στο Σημασιολογικό Ιστό

Aναπαράσταση Γνώσης στο Σημασιολογικό Ιστό Aναπαράσταση Γνώσης στο Σημασιολογικό Ιστό Οι γλώσσες RDF(S) και OWL Γ. Στάμου Περιγραφή Μεταδεδομένων με την RDF Η RDF χρησιμοποιείται για την απλή περιγραφή πόρων (resources) του διαδικτύου o Περιγράφει

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 Ανάπτυξη Οντολογίας Βιοϊατρικών Όρων Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 www.iatrolexi.cti.gr 1 Ερευνητικό Ακαδημαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών (ΕΑΙΤΥ) Σελίδα 1 Ημερομηνία:

Διαβάστε περισσότερα

Επαγωγικός Λογικός Προγραμματισμός και Aσαφείς Λογικές Περιγραφής

Επαγωγικός Λογικός Προγραμματισμός και Aσαφείς Λογικές Περιγραφής .. και Aσαφείς Λογικές Περιγραφής Άγγελος Χαραλαμπίδης Στασινός Κωνσταντόπουλος ΕΚΕΦΕ «Δημόκριτος» {acharal,konstant}@iit.demokritos.gr .. Σκελετός Ομιλίας Εισαγωγή .. Ορισμός Προβλήματος Γενικότερο πλαίσιο

Διαβάστε περισσότερα

Συστήματα Γνώσης. Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής

Συστήματα Γνώσης. Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής Νίκος Βασιλειάδης, Αναπλ. Καθηγητής Άδειες

Διαβάστε περισσότερα

Υποστήριξη στη ιαχείριση Γνώσης

Υποστήριξη στη ιαχείριση Γνώσης Υποστήριξη στη ιαχείριση Γνώσης Νίκος Καρακαπιλίδης Industrial Management & Information Systems Lab MEAD, University of Patras, Greece nikos@mech.upatras.gr Βασικές έννοιες ιάρθρωση ενότητας Γνώση και

Διαβάστε περισσότερα

Βάσεις Δεδομένων ΙΙ. Διάλεξη 5 η XML και ΒΔ στο Διαδίκτυο

Βάσεις Δεδομένων ΙΙ. Διάλεξη 5 η XML και ΒΔ στο Διαδίκτυο Βάσεις Δεδομένων ΙΙ Διάλεξη 5 η XML και ΒΔ στο Διαδίκτυο Δ. Χριστοδουλάκης - Α. Φωκά Τμήμα Μηχανικών Η/Υ & Πληροφορικής - Εαρινό Εξάμηνο 2007 Εισαγωγή Πολλές εφαρμογές διαδικτύου υποστηρίζουν web διεπαφές

Διαβάστε περισσότερα

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. ΚΕΦΑΛΑΙΟ 9 Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. Το 1966 αρχίζει ο σχεδιασμός του ARPANET, του πρώτου

Διαβάστε περισσότερα

Σημασιολογικός Ιστός RDF(S) OWL Οντολογίες. Pervasive Computing Research Group

Σημασιολογικός Ιστός RDF(S) OWL Οντολογίες. Pervasive Computing Research Group Σημασιολογικός Ιστός RDF(S) OWL Οντολογίες Ο Παγκόσμιος Ιστός Εφαρμογή του Internet Δημοσίευση εγγράφων και υπερσύνδεσμοι Δυναμικό περιεχόμενο Αναζήτηση πληροφοριών - Κατανοητός μόνο από ανθρώπους (έμφαση

Διαβάστε περισσότερα

της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004

της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004 example Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004 Πρότυπα και XML Πρότυπα ενιαίο

Διαβάστε περισσότερα

Τεχνολογίες RDF για τον Ιστό Δεδοµένων

Τεχνολογίες RDF για τον Ιστό Δεδοµένων 1 Τεχνολογίες RDF για τον Ιστό Δεδοµένων The Semantic Web is Dead? Hardly! The reports of my death are greatly exaggerated. Mark Twain Διαχείριση δεδοµένων στον Ιστό 2 Έστω ένας φανταστικός ιστός! html

Διαβάστε περισσότερα

Γλώσσες Σήµανσης (Markup Languages) Τεχνολογία ιαδικτύου και Ηλεκτρονικό Εµπόριο

Γλώσσες Σήµανσης (Markup Languages) Τεχνολογία ιαδικτύου και Ηλεκτρονικό Εµπόριο Γλώσσες Σήµανσης (Markup Languages) Τεχνολογία ιαδικτύου και Ηλεκτρονικό Εµπόριο 1 Γλώσσες Σήµανσης Γλώσσες σήµανσης: Αρχικά για τον καθορισµό εµφάνισης σελίδων, γραµµατοσειρών. Στη συνέχεια επεκτάθηκαν

Διαβάστε περισσότερα

Μεταδεδομένα στο Ψηφιακό περιβάλλον

Μεταδεδομένα στο Ψηφιακό περιβάλλον Μεταδεδομένα στο Ψηφιακό περιβάλλον Μονάδα Αριστείας Ανοικτού Λογισμικού - Χαροκόπειο Πανεπιστήμιο Ψηφιακό Τεκμήριο Οτιδήποτε υπάρχει σε ηλεκτρονική μορφή και μπορεί να προσπελαστεί μέσω υπολογιστή Μεταδεδομένα

Διαβάστε περισσότερα

Μοντέλο Οντοτήτων-Συσχετίσεων. Η ανάγκη Διαγράμματα ΟΣ Σύνολα Οντοτήτων-Συσχετίσεων Απεικονίσεις Επεκτάσεις

Μοντέλο Οντοτήτων-Συσχετίσεων. Η ανάγκη Διαγράμματα ΟΣ Σύνολα Οντοτήτων-Συσχετίσεων Απεικονίσεις Επεκτάσεις Η ανάγκη Διαγράμματα ΟΣ Σύνολα Οντοτήτων-Συσχετίσεων Απεικονίσεις Επεκτάσεις Μοντέλα Δεδομένων Μοντέλο: αφαιρετική αναπαράσταση του πραγματικού κόσμου. Μοντέλα βασισμένα σε εγγραφές (record based models)

Διαβάστε περισσότερα

Μεταπτυχιακή Διατριβή

Μεταπτυχιακή Διατριβή Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική» Μεταπτυχιακή Διατριβή Τίτλος Διατριβής Υπηρεσία Αυτόματης Ανάκτησης Συνδεδεμένης Δομής Θεματικών Επικεφαλίδων μέσω

Διαβάστε περισσότερα

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας ΜΑΘΗΜΑ 6 195 Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων Το RDF Το Warwick Framework 196 1 Resource Data Framework RDF Τα πολλαπλά και πολλαπλής προέλευσης σχήµατα παραγωγής δηµιουργούν την ανάγκη δηµιουργίας

Διαβάστε περισσότερα

Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014

Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014 Διασύνδεση και Άνοιγμα Δεδομένων του Α.Π.Θ. Καραογλάνογλου Κωνσταντίνος Μονάδα Σημασιολογικού Ιστού Α.Π.Θ 18/3/2014 Ανοικτά και Συνδεδεμένα Δεδομένα Ανοικτά Δεδομένα Πληροφορίες, δημόσιες ή άλλες, στις

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΥΤΙΚΗΣ ΜΑΚΕ ΟΝΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΥΤΙΚΗΣ ΜΑΚΕ ΟΝΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΥΤΙΚΗΣ ΜΑΚΕ ΟΝΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Πρακτική Εφαρµογή των Οντολογιών ως Εργαλεία Αναπαράστασης και ιαχείρισης Γνώσης στην

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 5: Resource Description Framework (RDF) Μ.Στεφανιδάκης 16-3-2015. Τα επίπεδα του Σημασιολογικού Ιστού RDF: Το κύριο πρότυπο του Σημασιολογικού Ιστού, χρησιμοποιεί

Διαβάστε περισσότερα

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ 2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ Προκειμένου να επιτευχθεί η «ακριβής περιγραφή» ενός αλγορίθμου, χρησιμοποιείται κάποια γλώσσα που μπορεί να περιγράφει σειρές ενεργειών με τρόπο αυστηρό,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΕΚΠΟΝΗΣΗ ΕΡΓΑΣΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΕΚΠΟΝΗΣΗ ΕΡΓΑΣΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ 2010-2011 2011-2012 ΕΚΠΟΝΗΣΗ ΕΡΓΑΣΙΑΣ Στα πλαίσια της εργασίας θα δημιουργήσετε μια οντολογία που να αναπαριστά

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 8: Εισαγωγή στη SPARQL Βασική Χρήση Μ.Στεφανιδάκης 3-5-2015. Η γλώσσα ερωτημάτων SPARQL Ερωτήσεις (και ενημερώσεις) σε σετ δεδομένων RDF Και σε δεδομένα άλλης μορφής

Διαβάστε περισσότερα

ΠΑΙΓΝΙΑ Παιχνίδια Γενική Θεώρηση μεγιστοποιήσει την πιθανότητά

ΠΑΙΓΝΙΑ Παιχνίδια Γενική Θεώρηση μεγιστοποιήσει την πιθανότητά ΠΑΙΓΝΙΑ Παιχνίδια Γενική Θεώρηση: Έστω ότι έχουμε τους παίκτες Χ και Υ. Ο κάθε παίκτης, σε κάθε κίνηση που κάνει, προσπαθεί να μεγιστοποιήσει την πιθανότητά του να κερδίσει. Ο Χ σε κάθε κίνηση που κάνει

Διαβάστε περισσότερα

Linked Data for the Masses: Η προσέγγιση και το λογισμικό

Linked Data for the Masses: Η προσέγγιση και το λογισμικό Linked Data for the Masses: Η προσέγγιση και το λογισμικό Γιώργος Αναδιώτης, Πάνος Ανδριόπουλος, Πάνος Αλεξόπουλος, ημήτρης Βεκρής, Αριστοτέλης Ζωσάκης IMC Technologies S.A. 15/05/2010 Linked Data for

Διαβάστε περισσότερα

Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0. Εφαρμογές Πληροφορικής Κεφ. 9 Καραμαούνας Πολύκαρπος 1

Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0. Εφαρμογές Πληροφορικής Κεφ. 9 Καραμαούνας Πολύκαρπος 1 Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0 Καραμαούνας Πολύκαρπος 1 9.1 Ιστορικά Στοιχεία Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο και ήταν απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. Το 1966

Διαβάστε περισσότερα

Οντολογία σύμφωνα με τη Φιλοσοφία

Οντολογία σύμφωνα με τη Φιλοσοφία Οντολογία σύμφωνα με τη Φιλοσοφία κλάδος της Μεταφυσικής η επιστήμη της ύπαρξης ερευνά τα είδη και τη φύση των αντικειμένων καθώς και τις μεταξύ τους σχέσεις. η επιστήμη των κατηγοριών ερευνά τις κατηγορίες

Διαβάστε περισσότερα

Σε παγκόσμιο επίπεδο, οιμηχανέςαναζήτησηςτουinternet αναπτύχθηκαν για να κάνουν αναζήτηση πληροφοριών σε πολλαπλές τοποθεσίες ιστού.

Σε παγκόσμιο επίπεδο, οιμηχανέςαναζήτησηςτουinternet αναπτύχθηκαν για να κάνουν αναζήτηση πληροφοριών σε πολλαπλές τοποθεσίες ιστού. Τζίτζικας Αγαπητός Τζίτζικας Αγαπητός Σε παγκόσμιο επίπεδο, οιμηχανέςαναζήτησηςτουinternet αναπτύχθηκαν για να κάνουν αναζήτηση πληροφοριών σε πολλαπλές τοποθεσίες ιστού. Δυστυχώς, αυτές οι μηχανές αναζήτησης

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης ιπλωµατική Εργασία του Θεοδώρου Ι. Γαλάνη ΠΕΡΙΛΗΨΗ Γενικά Με την εξάπλωση του διαδικτύου όλο και περισσότεροι

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Σημασιολογική Συσταδοποίηση Αντικειμένων Με Χρήση Οντολογικών Περιγραφών.

Διαβάστε περισσότερα

Σχεδίαση και Ανάπτυξη Ιστότοπων

Σχεδίαση και Ανάπτυξη Ιστότοπων Σχεδίαση και Ανάπτυξη Ιστότοπων Ιστορική Εξέλιξη του Παγκόσμιου Ιστού Παρουσίαση 1 η 1 Βελώνης Γεώργιος Καθηγητής Περιεχόμενα Τι είναι το Διαδίκτυο Βασικές Υπηρεσίες Διαδικτύου Προηγμένες Υπηρεσίες Διαδικτύου

Διαβάστε περισσότερα

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ»

ΙΑΤΡΟΛΕΞΗ. Neurosoft A.E. --- ΕΑΙΤΥ. ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ» Ανάπτυξη Υποδοµής Γλωσσικής Τεχνολογίας για το Βιοϊατρικό Τοµέα Neurosoft A.E. --- ΕΑΙΤΥ ΓΓΕΤ, ΚτΠ, Πρόγραµµα «ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΩΝ, ΗΧΟΥ ΚΑΙ ΓΛΩΣΣΑΣ» Προϋπολογισµός: 561.240 ιάρκεια: 18 µήνες Επιστηµονικός

Διαβάστε περισσότερα

Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού

Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό μάθημα Αρχές Γλωσσών Προγραμματισμού Π. Ροντογιάννης 1 Εισαγωγή Γνώση γλώσσας από τη σκοπιά Του συντακτικού (syntax) Περιγραφή με γραμματικές

Διαβάστε περισσότερα

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

Αθηνά - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης "Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Προκήρυξη Υποτροφιών To Ινστιτούτο Πληροφοριακών Συστημάτων

Διαβάστε περισσότερα

ΠΡΟΔΙΑΓΡΑΦΕΣ - ΟΔΗΓΙΕΣ ΔΙΑΜΟΡΦΩΣΗΣ ΘΕΜΑΤΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ

ΠΡΟΔΙΑΓΡΑΦΕΣ - ΟΔΗΓΙΕΣ ΔΙΑΜΟΡΦΩΣΗΣ ΘΕΜΑΤΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΠΡΟΔΙΑΓΡΑΦΕΣ - ΟΔΗΓΙΕΣ ΔΙΑΜΟΡΦΩΣΗΣ ΘΕΜΑΤΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ Μαθηματικά (Άλγεβρα - Γεωμετρία) Α ΤΑΞΗ ΗΜΕΡΗΣΙΟΥ και Α, Β ΤΑΞΕΙΣ ΕΣΠΕΡΙΝΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ Α ΤΑΞΗ ΗΜΕΡΗΣΙΟΥ και Α ΤΑΞΗ ΕΣΠΕΡΙΝΟΥ ΕΠΑΛ ΚΕΝΤΡΙΚΗ

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 5: Resource Description Framework (RDF) Μ.Στεφανιδάκης 13-3-2016. Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του

Διαβάστε περισσότερα

Περιεχόμενο του μαθήματος

Περιεχόμενο του μαθήματος ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Η Αντικειμενοστρεφής Τεχνολογία Δρ Βαγγελιώ Καβακλή Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας Πανεπιστήμιο Αιγαίου Εαρινό Εξάμηνο 202-203 Περιεχόμενο του μαθήματος Η έννοια

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑ: ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ ΔΙΑΔΙΚΑΣΙΕΣ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ Διδάσκων: Γ. Χαραλαμπίδης,

Διαβάστε περισσότερα

Εισαγωγή στην Πληροφορική

Εισαγωγή στην Πληροφορική Εισαγωγή στην Πληροφορική Βάσεις Δεδομένων ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Συντήρησης Πολιτισμικής Κληρονομιάς Τι είναι οι Βάσεις Δεδομένων; Σύστημα για αποθήκευση, μετάδοση

Διαβάστε περισσότερα

Υποθετικές προτάσεις και λογική αλήθεια

Υποθετικές προτάσεις και λογική αλήθεια Υποθετικές προτάσεις και λογική αλήθεια Δρ. Παναγιώτης Λ. Θεοδωρόπουλος Σχολικός Σύμβουλος κλάδου ΠΕ03 www.p-theodoropoulos.gr Περίληψη Στην εργασία αυτή επιχειρείται μια ερμηνεία της λογικής αλήθειας

Διαβάστε περισσότερα

Π Τ Υ Χ Ι Α Κ Η / Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α

Π Τ Υ Χ Ι Α Κ Η / Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η / Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α ΕΝΙΣΧΥΣΗ ΔΙΑΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑΣ ΟΝΤΟΛΟΓΙΩΝ

Διαβάστε περισσότερα

ΥΠΗΡΕΣΙΑ «TAXISNET» - ΗΛΕΚΤΡΟΝΙΚΗ ΥΠΟΒΟΛΗ ΤΩΝ ΦΟΡΟΛΟΓΙΚΩΝ ΔΗΛΩΣΕΩΝ ΓΙΑ ΤΟ ΤΜΗΜΑ ΕΣΩΤΕΡΙΚΩΝ ΠΡΟΣΟΔΩΝ ΚΑΙ ΤΗΝ ΥΠΗΡΕΣΙΑ ΦΟΡΟΥ ΠΡΟΣΤΙΘΕΜΕΝΗΣ ΑΞΙΑΣ ΤΟΥ

ΥΠΗΡΕΣΙΑ «TAXISNET» - ΗΛΕΚΤΡΟΝΙΚΗ ΥΠΟΒΟΛΗ ΤΩΝ ΦΟΡΟΛΟΓΙΚΩΝ ΔΗΛΩΣΕΩΝ ΓΙΑ ΤΟ ΤΜΗΜΑ ΕΣΩΤΕΡΙΚΩΝ ΠΡΟΣΟΔΩΝ ΚΑΙ ΤΗΝ ΥΠΗΡΕΣΙΑ ΦΟΡΟΥ ΠΡΟΣΤΙΘΕΜΕΝΗΣ ΑΞΙΑΣ ΤΟΥ ΥΠΗΡΕΣΙΑ «TAXISNET» - ΗΛΕΚΤΡΟΝΙΚΗ ΥΠΟΒΟΛΗ ΤΩΝ ΦΟΡΟΛΟΓΙΚΩΝ ΔΗΛΩΣΕΩΝ ΓΙΑ ΤΟ ΤΜΗΜΑ ΕΣΩΤΕΡΙΚΩΝ ΠΡΟΣΟΔΩΝ ΚΑΙ ΤΗΝ ΥΠΗΡΕΣΙΑ ΦΟΡΟΥ ΠΡΟΣΤΙΘΕΜΕΝΗΣ ΑΞΙΑΣ ΤΟΥ ΥΠΟΥΡΓΕΙΟΥ ΟΙΚΟΝΟΜΙΚΩΝ ΤΗΣ ΚΥΠΡΙΑΚΗΣ ΔΗΜΟΚΡΑΤΙΑΣ Οδηγίες

Διαβάστε περισσότερα

Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών

Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών Εργαστήριο Ψηφιακών Βιβλιοθηκών και Ηλεκτρονικής Δημοσίευσης Τμήμα Αρχειονομίας Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών Σαράντος Καπιδάκης sarantos@ionio.gr Ομοιότητες

Διαβάστε περισσότερα

Κεφάλαιο 2ο. Κατανοώντας την αντικειμενοστρέφεια

Κεφάλαιο 2ο. Κατανοώντας την αντικειμενοστρέφεια Περιεχόμενα Πρόλογος... 11 Κεφάλαιο 1ο. Εισαγωγή στη γλώσσα UML 1.1 Προσθέτοντας μια νέα μέθοδο...13 1.2 Πως αναπτύχθηκε η UML...14 1.3 Κατανοώντας την UML...15 1.4 Αναγνωρίζοντας τα επί μέρους τμήματα

Διαβάστε περισσότερα

Στρατηγικό Σχεδιασµό Πληροφοριακών Συστηµάτων

Στρατηγικό Σχεδιασµό Πληροφοριακών Συστηµάτων Μέθοδοι και Τεχνικές για τον Στρατηγικό Σχεδιασµό Πληροφοριακών Συστηµάτων (SISP) Στρατηγική και Διοίκηση Πληροφοριακών Συστηµάτων Μάθηµα 2 No 1 Δοµή της Παρουσίασης l 1. Εισαγωγή l 2. Μεθοδολογία SISP

Διαβάστε περισσότερα

Σηµασιολογικό Ιστό. Αλέξανδρος Βαλαράκος (alexv@iit.demokritos.gr) Αιγαίου.

Σηµασιολογικό Ιστό. Αλέξανδρος Βαλαράκος (alexv@iit.demokritos.gr) Αιγαίου. Από τον Παγκόσµιο Ιστό στον Σηµασιολογικό Ιστό Αλέξανδρος Βαλαράκος (alexv@iit.demokritos.gr) Υποψήφιος ιδάκτορας, Τµήµατος Μηχανικών Υπολογιστικών και Πληροφοριακών Συστηµάτων. Παν/µίου Αιγαίου. Συνεργαζόµενος

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ Καθηγητής Πληροφορικής ΠΕ19 1 ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΚΕΦΑΛΑΙΟ 6 ο : ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΙΣΤΟΣΕΛΙΔΑ ΜΑΘΗΜΑΤΟΣ: http://eclass.sch.gr/courses/el594100/ Η έννοια του προγράμματος

Διαβάστε περισσότερα

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005 ΕΚΕΦΕ «ηµόκριτος» Ινστιτούτο Πληροφορικής και Τηλεπικοινωνιών Εργαστήριο Τεχνολογίας Γνώσεων και Λογισµικού Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005 Το Εργαστήριο Τεχνολογίας Γνώσεων και Λογισµικού

Διαβάστε περισσότερα

Σεμινάριο Wordpress CMS (Δημιουργία Δυναμικών Ιστοσελίδων)

Σεμινάριο Wordpress CMS (Δημιουργία Δυναμικών Ιστοσελίδων) Σεμινάριο Wordpress CMS (Δημιουργία Δυναμικών Ιστοσελίδων) Τι είναι το Wordpress: To Wordpress είναι ένα δωρεάν ανοικτού κώδικα (open source) λογισμικό (εφαρμογή), με το οποίο μπορεί κάποιος να δημιουργεί

Διαβάστε περισσότερα

Οντολογίες και περιγραφικές λογικές

Οντολογίες και περιγραφικές λογικές εφάλαιο 2 Οντολογίες και περιγραφικές λογικές 2.1 Εισαγωγή Σε πολλές περιπτώσεις είναι χρήσιμη η αναπαράσταση της γνώσης με τη μορφή κατηγοριών αντικειμένων. εκινώντας από τον καθορισμό των αντικειμένων,

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Δημήτρης Πλεξουσάκης

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Δημήτρης Πλεξουσάκης ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Λογική Δημήτρης Πλεξουσάκης 2ο μέρος σημειώσεων: Συστήματα Αποδείξεων για τον ΠΛ, Μορφολογική Παραγωγή, Κατασκευή Μοντέλων Τμήμα Επιστήμης Υπολογιστών Άδειες Χρήσης

Διαβάστε περισσότερα

ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΚΑΙ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ Γ.Τ.Π

ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΚΑΙ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ Γ.Τ.Π ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΚΑΙ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ Ε.Α.Π. Γ.Τ.Π. 61 2008 Τσιγώνιας Αντώνης 14/12/2008 Εισαγωγή Το ιαδίκτυο και ο Παγκόσµιος Ιστός ήταν µια επανάσταση για την τεχνολογία της πληροφόρησης

Διαβάστε περισσότερα

Ανάπτυξη Διαδικτυακής Εφαρμογής Σημασιολογικής Πλοήγησης σε Σχεσιακές Βάσεις Δεδομένων

Ανάπτυξη Διαδικτυακής Εφαρμογής Σημασιολογικής Πλοήγησης σε Σχεσιακές Βάσεις Δεδομένων ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη Διαδικτυακής Εφαρμογής Σημασιολογικής Πλοήγησης σε Σχεσιακές

Διαβάστε περισσότερα

Ανάπτυξη Συστήματος Σημασιολογικού Ιστού για την Παρακολούθηση της τήρησης του Εσωτερικού Κανονισμού του ΔΠΜΣ «Πληροφορική και Διοίκηση»

Ανάπτυξη Συστήματος Σημασιολογικού Ιστού για την Παρακολούθηση της τήρησης του Εσωτερικού Κανονισμού του ΔΠΜΣ «Πληροφορική και Διοίκηση» ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΔΙΟΙΚΗΣΗ» ΤΜΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Ανάπτυξη Συστήματος Σημασιολογικού Ιστού για

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων YouTube Ιδρύθηκε το 2005 Στόχος του ήταν να δημιουργήσει μία παγκόσμια κοινότητα Βάση δεδομένων βίντεο Μέσα σε ένα χρόνο από τη δημιουργία

Διαβάστε περισσότερα

H Συμβολή της Υπολογιστικής Σκέψης στην Προετοιμασία του Αυριανού Πολίτη

H Συμβολή της Υπολογιστικής Σκέψης στην Προετοιμασία του Αυριανού Πολίτη H Συμβολή της Υπολογιστικής Σκέψης στην Προετοιμασία του Αυριανού Πολίτη Κοτίνη Ι., Τζελέπη Σ. Σχ. Σύμβουλοι Κ. Μακεδονίας στην οικονομία, στη τέχνη, στην επιστήμη, στις ανθρωπιστικές και κοινωνικές επιστήμες.

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ Σηµασιολογικό ιαδίκτυο

ΚΕΦΑΛΑΙΟ Σηµασιολογικό ιαδίκτυο ΚΕΦΑΛΑΙΟ 29 29 Σηµασιολογικό ιαδίκτυο "The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation."

Διαβάστε περισσότερα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Βάσεις Δεδομένων Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Στέργιος Παλαμάς, Υλικό Μαθήματος «Βάσεις Δεδομένων», 2015-2016 Κεφάλαιο 2: Περιβάλλον Βάσεων Δεδομένων Μοντέλα Δεδομένων 2.1

Διαβάστε περισσότερα

Τεχνολογία Διοίκησης Επιχειρησιακών Διαδικασιών

Τεχνολογία Διοίκησης Επιχειρησιακών Διαδικασιών ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Τεχνολογία Διοίκησης Επιχειρησιακών Διαδικασιών Οδηγός Εργαστηρίου:

Διαβάστε περισσότερα

Απεικόνιση Οντολογιών Σε Σχήµατα Σχεσιακών Βάσεων εδοµένων Με Σκοπό Την Ανάκτηση εδοµένων Σηµασιολογικού Περιεχοµένου ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Απεικόνιση Οντολογιών Σε Σχήµατα Σχεσιακών Βάσεων εδοµένων Με Σκοπό Την Ανάκτηση εδοµένων Σηµασιολογικού Περιεχοµένου ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΕΠΙΚΟΙΝΩΝΙΩΝ, ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ Απεικόνιση Οντολογιών Σε Σχήµατα Σχεσιακών Βάσεων εδοµένων

Διαβάστε περισσότερα