ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΠΡΟΣΩΠΟΠΟΙΗΣΗ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΑΓΟΡΙΤΣΑΣ ΒΟΠΗ

Σχετικά έγγραφα

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Περιεχόμενα. Δημιουργία σύνδεσης ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ Γνωριμία με μια ιστοσελίδα:... 38

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

πληροφορίας στον παγκόσµιο ιστό. meta-search engines) και θεµατικοί κατάλογοι.

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Ανάκτηση Πληροφορίας

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Σχεδιασµός Ανάπτυξη Οντολογίας

ΥΠΗΡΕΣΙΑ. Ηλεκτρονική ιαχείριση Τάξης. Οδηγίες χρήσης για τον µαθητή.

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Αναζήτηση Πληροφοριών στο Διαδίκτυο

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης

Εννοιολογική Ομοιογένεια

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

Περίληψη ιπλωµατικής Εργασίας

Συγκεντρωτικό Παράρτημα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Διαχείριση Πολιτισμικών Δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

ΕΡΓΑΣΙΑ. (στο µάθηµα: Τεχνολογίες Εφαρµογών ιαδικτύου του Η εξαµήνου σπουδών του Τµήµατος Πληροφορικής & Τηλ/νιών)

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΠΛΑΤΦΟΡΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΒΙΝΤΕΟΔΙΑΛΕΞΕΩΝ ΔΗΛΟΣ delos.uoa.gr. Εγχειρίδιο Χρήσης Μελών ΔΕΠ

Διαχείριση Πολιτισμικών Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Μαθησιακές δραστηριότητες με υπολογιστή

Βάσεις δεδομένων και Microsoft Access

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

Πλοήγηση και Αναζήτηση

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

ECDL Module 5 Χρήση Βάσεων εδοµένων Εξεταστέα Ύλη, έκδοση 5.0 (Syllabus Version 5.0)

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420)

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Γενικές Ηλεκτρονικές Υπηρεσίες

Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους

Οπτική αντίληψη. Μετά?..

ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ ΠΕΡΙΛΗΨΗ. Εισαγωγή

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Σύστημα υποβολής αιτήσεων υποψήφιων συνεργατών ΕΚΤ

Παγκόσμιος ιστός και Internet συχνά θεωρούνται το ίδιο πράγμα. Η αντίληψη αυτή είναι λανθασμένη καθώς ο ιστός αποτελεί μία μόνο εφαρμογή του

Υπηρεσίες Υποστήριξης, Δικτύωσης, Προδιαγραφών & Πιστοποίησης Ιδρυματικών Αποθετηρίων

Open Text edocs Records Management

Ιχνηλασιμότητα η τροφίμων φμ με ανοικτό διαδικτυακό σύστημα:

Ποια cookies χρησιμοποιούμε στον ιστότοπό μας;

Τίτλος Πλατφόρµα Ασύγχρονης Τηλεκπαίδευσης. Συντάκτης. Ακαδηµαϊκό ιαδίκτυο GUnet Οµάδα Ασύγχρονης Τηλεκπαίδευσης

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού

Πρότυπα και Τεχνολογίες Semantic Web και Web 2.0 και η εφαρμογή τους στην Ηλεκτρονική Διακυβέρνηση

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

Εισαγωγή στη Σχεδίαση Λογισμικού

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

Εργαλεία ανάπτυξης εφαρμογών internet Ι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

Πώς λειτουργεί το Google?

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΙΣΤΟΤΟΠΩΝ

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Βασικές Υπηρεσίες Διαδικτύου. Επικοινωνίες Δεδομένων Μάθημα 2 ο

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Τεχνολογίες Κοινωνικής Δικτύωσης στην Εκπαίδευση

ΑΠΟΤΙΜΗΣΗ ΤΟΥ ΕΡΓΟΥ ΤΟΥ ΤΜΗΜΑΤΟΣ ΣΤΟΧΟΙ ΓΙΑ ΤΗΝ ΠΕΡΙΟΔΟ ΠΑΡΑΡΤΗΜΑ ΧΙ

Εργασία «Διαχείριση Δικτύων» Ιούνιος 2014, Θεσ/νίκη

2.5.1 Χρήση δεξιοτήτων αρχειοθέτησης για τη διατήρηση ενός καθιερωμένου συστήματος

Πολιτική για τα cookies

Περιεχόμενα. Visio / White paper 1

Σύστηµα Αρχείων και Καταλόγων

Atlantis - Νέο user interface

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Μάθημα 4ο. Προγράμματα

openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών Α.Ε.Ι.

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Σχεδίαση Βάσεων Δεδομένων

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Εγχειρίδιο Χρήσης για Διαχειριστές. Πλατφόρμα Μεταφόρτωσης και Μετατροπής Βίντεο

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

ΕΛΑΧΙΣΤΕΣ ΑΠΑΙΤΗΣΕΙΣ ΕΞΟΠΛΙΣΜΟΥ ΕΠΙΚΟΙΝΩΝΙΑ... 23

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού

Transcript:

ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΠΡΟΣΩΠΟΠΟΙΗΣΗ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ της ΑΓΟΡΙΤΣΑΣ ΒΟΠΗ ιπλωµατική εργασία στα πλαίσια του µεταπτυχιακού διπλώµατος ειδίκευσης «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» του τµήµατος Μηχανικών Η/Υ και πληροφορικής ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ Επιβλέπων καθηγητής: Αναπληρωτής καθηγητής Ιωάννης Γαροφαλάκης Τριµελής εξεταστική επιτροπή: Ιωάννης Γαροφαλάκης, Αναπληρωτής καθηγητής Χρήστος Μακρής, Επίκουρος καθηγητής Ιωάννης Χατζηλυγερούδης, Επίκουρος καθηγητής Πάτρα, εκέµβριος 2007

ii

ΠΕΡΙΛΗΨΗ Η αναζήτηση πληροφορίας στο Παγκόσµιο Ιστό λόγω της ραγδαίας αύξησης του όγκου του αποτελεί ένα δύσκολο και χρονοβόρο εγχείρηµα. Επιπρόσθετα, η συνωνυµία και η πολυσηµία συµβάλλουν στη δυσκολία εύρεσης πληροφορίας. Στα πλαίσια αυτής της διπλωµατικής εργασίας αναπτύχθηκε µια µεθοδολογία για την προσωποποίηση των αποτελεσµάτων µιας µηχανής αναζήτησης ώστε αυτά να ανταποκρίνονται στα ενδιαφέροντα των χρηστών. Η µεθοδολογία αποτελείται από δύο τµήµατα, το εκτός σύνδεσης τµήµα και το συνδεδεµένο τµήµα. Στο εκτός σύνδεσης τµήµα χρησιµοποιώντας τα αρχεία πρόσβασης της µηχανής αναζήτησης και εξάγεται πληροφορία για τις επιλογές του χρήστη. Στη συνέχεια πραγµατοποιείται η σηµασιολογική κατηγοριοποίηση των προηγούµενων επιλογών των χρηστών µε χρήση µιας οντολογίας, που αναπτύχθηκε µε βάση τους καταλόγους του ODP. Κατόπιν, αναπτύσσεται το προφίλ του χρήστη µε βάση την οντολογία αναφοράς που χρησιµοποιήθηκε και στη φάση της σηµασιολογικής αντιστοίχισης. Στη συνέχεια, µε χρήση αλγορίθµου οµαδοποίησης γίνεται οµαδοποίηση των χρηστών µε βάση τα ενδιαφέροντά τους. Στο συνδεδεµένο τµήµα ο αλγόριθµος προσωποποίησης χρησιµοποιεί τις οµάδες που δηµιουργήθηκαν στο µη συνδεδεµένο τµήµα και τη σηµασιολογική αντιστοίχηση των αποτελεσµάτων της µηχανής αναζήτησης και αναδιοργανώνει τα αποτελέσµατά της προωθώντας στις πρώτες θέσεις επιλογής τα αποτελέσµατα που είναι περισσότερο σχετικά µε τις προτιµήσεις της οµάδας στην οποία ανήκει ο χρήστης. Η µεθοδολογία που προτείνεται έχει εφαρµοστεί σε πειραµατική υλοποίηση δίνοντας τα επιθυµητά αποτελέσµατα για την προσωποποίηση σύµφωνα µε τις σηµασιολογικές οµάδες χρηστών. iii

iv

ABSTRACT During the recent years the World Wide Web has been developed rapidly making the efficient searching of information difficult and time-consuming. In this work, we propose a web search results personalization methodology by coupling data mining techniques with the underlying semantics of the web content. To this purpose, we exploit reference ontologies that emerge from web catalogs (such as ODP), which can scale to the growth of the web. Our methodology uses ontologies to provide the semantic profiling of users interests based on the implicit logging of their behavior and the on-the-fly semantic analysis and annotation of the web results summaries. Following this the logged web clickthrough data are submitted to offline processing in order to form semantic clusters of interesting categories according to the users perspective. Finally, profiles of semantic clusters are combined with the emerging profile of the active user in order to apply a sophisticated re-ranking of search engines results. Experimental evaluation of our approach shows that the objectives expected from semantic users clustering in search engines are achievable. v

vi

ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω τον αναπληρωτή καθηγητή κ. Ιωάννη Γαροφαλάκη για την εµπιστοσύνη που µου έδειξε, την καθοδήγησή του και την άψογη συνεργασία µας. Ακόµη, θα ήθελα να ευχαριστήσω τους επίκουρους καθηγητές κ. Χρήστο Μακρή και κ. Ιωάννη Χατζηλυγερούδη, για τη συνεργασία τους. Επίσης, την υποψήφια διδάκτορα Θεοδούλα Γιαννακούδη για την συνεχή καθοδήγηση και την πολύτιµη βοήθεια σε όλη την διάρκεια της εκπόνησης της διπλωµατικής µου εργασίας καθώς και τους υπόλοιπους φίλους και συναδέλφους για τη συµπαράστασή τους. Περισσότερο από όλους θέλω να ευχαριστήσω την οικογένειά µου, η οποία µε στήριξε στη µέχρι τώρα πορεία της φοιτητικής, και όχι µόνο, ζωής µου, καθώς και το σύντροφό, ηµήτρη, για την κατανόηση και για τη βοήθεια που µου πρόσφερε µε κάθε δυνατό τρόπο. Αγορίτσα Βόπη vii

viii

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ...3 2 ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ...7 2.1 ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ...7 2.2 ΙΣΤΟΡΙΑ ΜΗΧΑΝΩΝ ΑΝΑΖΗΤΗΣΗΣ...7 2.3 ΣΗΜΑΝΤΙΚΕΣ ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ...8 2.3.1 Google...8 2.3.2 Yahoo! Search...8 2.3.3 Live Search...8 2.4 ΤΡΟΠΟΣ ΛΕΙΤΟΥΡΓΙΑΣ ΜΗΧΑΝΩΝ ΑΝΑΖΗΤΗΣΗΣ...9 2.5 ΠΡΟΚΛΗΣΕΙΣ ΓΙΑ ΤΙΣ ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ...10 3 ΤΕΧΝΙΚΕΣ ΠΡΟΣΩΠΟΠΟΙΗΣΗΣ...15 3.1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ...15 3.2 ΑΡΧΕΙΑ ΠΡΟΣΒΑΣΗΣ ΙΚΤΥΑΚΟΥ ΤΟΠΟΥ...16 3.2.1.1 Σύντοµη περιγραφή...16 3.3 ΟΝΤΟΛΟΓΙΕΣ ΚΑΙ ΗΜΙΟΥΡΓΙΑ ΠΡΟΦΙΛ...17 3.3.1 Ορισµός...17 3.3.2 Συστήµατα βασισµένα σε οντολογίες...17 3.3.2.1 OntoSeek...17 3.3.2.2 Telltale...18 3.3.2.3 Ontology-Based Semantic Online Classification of Documents...18 3.3.3 Οντολογίες αναφοράς-προφίλ...18 3.3.3.1 SUMO the Suggested Upper Merged Ontology...19 3.3.3.2 WordNet Μια Online λεξικογραφική βάση δεδοµένων...20 3.3.4 Συστήµατα Προσωποποίησης...23 3.3.4.1 Quickstep...23 3.3.4.2 SEWeP...26 3.4 ΠΡΟΣΩΠΟΠΟΙΗΜΕΝΗ ΑΝΑΖΗΤΗΣΗ ΒΑΣΙΣΜΕΝΗ ΣΕ ΟΝΤΟΛΟΓΙΕΣ...28 3.4.1 Οντολογία Αναφοράς...28 3.4.2 ηµιουργία Προφίλ Χρήστη...28 3.4.2.1 Εκπαίδευση του ταξινοµητή...29 3.4.2.2 ηµιουργώντας τα Προφίλ Χρηστών...29 3.4.2.3 Προσωποποίηση αποτελεσµάτων αναζήτησης...31 3.4.2.4 Εκτίµηση αποτελεσµάτων...31 3.5 Ο ΡΟΛΟΣ ΤΗΣ ΟΜΑ ΟΠΟΙΗΣΗΣ ΣΤΗΝ ΠΡΟΣΩΠΟΠΟΙΗΣΗ...32 3.5.1 Εξόρυξη δεδοµένων χρησιµοποίησης για προσωποποίηση...33 3.5.1.1 Ενέργειες προεπεξεργασίας...33 3.5.1.2 Ανακάλυψη συχνών συνόλων αντικειµένων και κανόνων συσχέτισης...34 3.5.1.3 Οµαδοποίηση συναλλαγών...35 3.5.1.4 Οµάδες χρησιµοποίησης...36 3.5.1.5 Η διαδικασία προτάσεων...36 4 ΠΕΡΙΓΡΑΦΗ ΜΕΘΟ ΟΛΟΓΙΑΣ...41 4.1 ΚΙΝΗΤΡΟ-ΣΚΟΠΟΣ...41 4.2 ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ ΜΕΘΟ ΟΛΟΓΙΑΣ...41 4.3 ΤΜΗΜΑ ΕΚΤΟΣ ΣΥΝ ΕΣΗΣ- OFFLINE PART...43 4.3.1 Οργάνωση αρχείων πρόσβασης...43 4.3.2 Σηµασιολογική κατηγοριοποίηση σελίδων...45 4.3.3 ηµιουργία Προφίλ...45 4.3.4 Οµαδοποίηση Προφίλ...46 4.4 ΣΥΝ Ε ΕΜΕΝΟ ΤΜΗΜΑ ONLINE PART...46 4.5 ΙΑΦΟΡΕΣ ΑΠΟ ΑΛΛΕΣ ΛΥΣΕΙΣ...47 5 ΥΛΟΠΟΙΗΣΗ ΜΕΘΟ ΟΛΟΓΙΑΣ...51 5.1 ΕΡΓΑΛΕΙΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΑΝ...51 5.2 Η ΒΑΣΗ Ε ΟΜΕΝΩΝ...52 5.2.1 Βασικοί πίνακες...52 5.2.2 Βοηθητικοί πίνακες...52 5.3 ΗΜΙΟΥΡΓΙΑ ΑΡΧΕΙΩΝ ΠΡΟΣΒΑΣΗΣ...55 ix

5.4 ΗΜΙΟΥΡΓΙΑ ΟΝΤΟΛΟΓΙΑΣ ΠΡΟΦΙΛ...56 5.5 ΑΝΑΛΥΣΗ ΤΩΝ ΑΡΧΕΙΩΝ ΠΡΟΣΒΑΣΗΣ...58 5.6 ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΧΑΡΑΚΤΗΡΙΣΜΟΣ...60 5.7 ΟΡΙΣΜΟΣ ΤΩΝ ΠΡΟΦΙΛ ΤΩΝ ΧΡΗΣΤΩΝ...68 5.8 ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΟΜΑ ΟΠΟΙΗΣΗ ΠΡΟΦΙΛ ΧΡΗΣΤΩΝ...70 5.8.1 Αλγόριθµος K-Means...70 5.9 ON-LINE ΤΜΗΜΑ ΠΡΟΣΩΠΟΠΟΙΗΣΗΣ...77 6 ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ...84 6.1 ΠΡΩΤΟ ΠΑΡΑ ΕΙΓΜΑ...84 6.2 ΕΥΤΕΡΟ ΠΑΡΑ ΕΙΓΜΑ...90 6.3 ΣΥΜΠΕΡΑΣΜΑΤΑ ΚΑΙ ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ...96 7 ΑΝΑΦΟΡΕΣ...99 x

Περιεχόµενα Εικόνων Εικόνα 1 Λειτουργία µηχανής αναζήτησης... 9 Εικόνα 2 Πρώτα επίπεδα της SUMO οντολογίας... 20 Εικόνα 3 Η λογική δοµή του WordNet... 20 Εικόνα 4 Η ιεραρχία των υπερωνυµιών των συνόλων λέξεων... 22 Εικόνα 5 Γενική µεθοδολογία Quickstep και Foxtrot... 23 Εικόνα 6 Ο k-nearest Neighbor αλγόριθµος του Quickstep... 25 Εικόνα 7 Ο αλγόριθµος AdaBoostM1 του Quickstep... 25 Εικόνα 8 Αλγόριθµος δηµιουργίας προφίλ του Quickstep... 26 Εικόνα 9 Η αρχιτεκτονική του SEWeP... 27 Εικόνα 10 Σύστηµα οµαδοποίησης... 32 Εικόνα 11 Online αλγόριθµος συστήµατος συστάσεων... 37 Εικόνα 12 Γενική εικόνα της µεθοδολογίας... 42 Εικόνα 13 Offline τµήµα της µεθοδολογίας... 43 Εικόνα 14 Βήµα εξαγωγής λέξεων κλειδιών... 44 Εικόνα 15 Βήµα σηµασιολογικής κατηγοριοποίησης λέξεων κλειδιών... 44 Εικόνα 16 Βήµα δηµιουργίας προφίλ χρηστών... 45 Εικόνα 17 Βήµα οµαδοποίησης χρηστών... 46 Εικόνα 18 On-line τµήµα προσωποποίησης... 47 Εικόνα 19 ιάγραµµα οντοτήτων συσχετίσεων... 54 Εικόνα 20 ηµιουργία αρχείων πρόσβασης και επεξεργασία... 55 Εικόνα 21 Πειραµατική µηχανή αναζήτησης... 56 Εικόνα 22 Μέρος της ταξινοµίας του ODP... 57 Εικόνα 23 Ανάπτυξη οντολογίας µέσω Protégé... 58 Εικόνα 24 Σηµασιολογική κατηγοριοποίηση λέξεων κλειδιών... 61 Εικόνα 25 Στιγµιότυπο εκτέλεσης της σηµασιολογικής κατηγοριοποίησης των λέξεων κλειδιών... 62 Εικόνα 26 Αλγόριθµος δηµιουργίας σηµασιολογικών οµάδων χρηστών... 70 Εικόνα 27 Αποτελέσµατα της προσωποποιηµένης πειραµατικής µηχανής αναζήτησης για το ερώτηµα "Opera"... 85 Εικόνα 28 Αποτελέσµατα της προσωποποιηµένης πειραµατικής µηχανής αναζήτησης για το ερώτηµα "Opera" (συνέχεια)... 86 Εικόνα 29 Αποτελέσµατα της µηχανής αναζήτησης χωρίς προσωποποίηση για το ερώτηµα "Opera"... 87 Εικόνα 30 Αποτελέσµατα της µηχανής αναζήτησης χωρίς προσωποποίηση για το ερώτηµα "Opera" (συνέχεια)... 88 Εικόνα 31 Συγκεντρωτικά αποτελέσµατα για το ερώτηµα "Opera" από την προσωποποιηµένη και τη µη προσωποποιηµένη µηχανή αναζήτηση... 89 Εικόνα 32 Αποτελέσµατα της προσωποποιηµένης µηχανής αναζήτησης για το ερώτηµα "Apple company"... 91 Εικόνα 33 Αποτελέσµατα της προσωποποιηµένης µηχανής αναζήτησης για το ερώτηµα "Apple Company" (συνέχεια)... 92 Εικόνα 34 Αποτελέσµατα της µη προσωποποιηµένης µηχανής αναζήτησης για το ερώτηµα "Apple Company"... 93 Εικόνα 35 Αποτελέσµατα της µη προσωποποιηµένης µηχανής αναζήτησης για το ερώτηµα "Apple Company"... 94 Εικόνα 36 Συγκεντρωτικά αποτελέσµατα για το ερώτηµα "Apple Company"... 95 xi

xii

1 Εισαγωγή 1

2

1 ΕΙΣΑΓΩΓΗ Στις µέρες µας η χρήση του Παγκόσµιου Ιστού αποτελεί τη σηµαντικότερη και µεγαλύτερη πηγή αναζήτησης πληροφορίας. Οι παραδοσιακοί τρόποι αναζήτησης µέσω έντυπου υλικού και µέσω άλλων τρόπων όπως τηλεφωνική επικοινωνία έχουν παραµεριστεί και εξέχουσα θέση έχει καταλάβει ο Παγκόσµιος Ιστός. Για την αναζήτηση πληροφορίας οι χρήστες χρησιµοποιούν περισσότερο τις µηχανές αναζήτησης µε χρήστη ερωτηµάτων προς αυτές και λιγότερο τους θεµατικούς καταλόγους µέσω πλοήγησης. Γνωστές µηχανές αναζήτησης που χρησιµοποιούνται ευρύτατα αποτελούν Η Google Search Engine, Η Yahoo, η Lycos, η MSN Live Search και άλλες. Η προσωποποίηση του Παγκόσµιου Ιστού αποτελεί ένα πεδίο έρευνας και ένα πρόβληµα µε το οποίο απασχολείται µεγάλος όγκος της ερευνητικής κοινότητας. Ο στόχος αυτών των ερευνητών είναι κατά βάση να µελετήσουν το ιστορικό χρήσης των µηχανών αναζήτησης και να δηµιουργήσουν ένα προφίλ για τους χρήστες. Ως ιστορικό χρήσης µπορεί να θεωρηθούν τα αρχεία πρόσβασης δικτυακών τόπων που περιγράφουν τις επιλογές του χρήστη σε κάθε περίπτωση ή ακόµα και την κρυφή µνήµη από τον φυλλοµετρητή του χρήστη. Στη συνέχεια αφού δηµιουργηθεί το προφίλ του χρήστη µε βάση τις επιλογές του γίνεται σηµασιολογική προσέγγιση στο προφίλ του χρήστη. Ο Σηµασιολογικός Ιστός (Semantic Web) αποτελεί µια επέκταση του σηµερινού ιστού όπου οι πληροφορίες έχουν καλά ορισµένες έννοιες, διευκολύνοντας τους ανθρώπους και τους υπολογιστές να συνεργαστούν καλύτερα. Στόχος του σηµασιολογικού ιστού αποτελεί η χρησιµοποίηση και η επεξεργασία των πληροφοριών από τους υπολογιστές και επιπλέον η ενοποίηση πληροφοριών από τον ιστό και ο καθορισµός των εννοιών των λέξεων κλειδιών που περιγράφονται στο διαδίκτυο. Σε αυτό το επίπεδο γνώσης βρίσκεται η σηµασιολογία των δεδοµένων. Οι οντολογίες αποτελούν µέσο αναπαράστασης της πληροφορίας που µπορεί να κατανοήσει ένας agent. Η «οντολογία» είναι ένας όρος που δανείζεται η επιστήµη των υπολογιστών από τη φιλοσοφία ώστε να περιγράψει έννοιες και πως αυτές σχετίζονται µεταξύ τους. Η εργασία αυτή προτείνει ένα σύστηµα σηµασιολογικής προσωποποίησης στην αναζήτηση σε µηχανές αναζήτησης που στηρίζεται σε µια OWL οντολογία που βασίζεται στους θεµατικούς καταλόγους του ODP. Στόχος της συγκεκριµένης διπλωµατικής εργασίας αποτελεί η υλοποίηση ενός συστήµατος που θα προσωποποιεί τα αποτελέσµατα µιας µηχανής αναζήτησης χρησιµοποιώντας τα αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους και τις οντολογίες. Από τα αρχεία πρόσβασης θα εξάγεται πληροφορία, που θα χρησιµοποιείται για την δηµιουργία του προφίλ κάθε χρήστη µε χρήση αλγορίθµων κατηγοριοποίησης και µε βάση µια οντολογία. Κατόπιν, οι χρήστες θα οµαδοποιούνται σε οµάδες χρηστών µε παρόµοια ενδιαφέροντα. Στη συνέχεια µε βάση το προφίλ της οµάδας που ανήκει ο χρήστης σε συνδυασµό µε τη σηµασιολογική προσέγγιση των αποτελεσµάτων που επιστρέφει η µηχανή αναζήτησης και κάποιους αλγόριθµους ανακατανοµής και φιλτραρίσµατος θα γίνεται η προσαρµογή των αποτελεσµάτων της µηχανής αναζήτησης. Αρχικά, θα υλοποιηθεί µια εφαρµογή που θα χρησιµοποιηθεί για τη δηµιουργία των αρχείων πρόσβασης δεδοµένου ότι είναι δύσκολο να τα βρούµε έτοιµα από κάποια από τις µηχανές αναζήτησης. Συγκεκριµένα, µε χρήση µιας web service θα γίνεται αναζήτηση στο Google και θα παρουσιάζονται τα αποτελέσµατα στο χρήστη. Ο χρήστης θα πλοηγείται στα αποτελέσµατα ακριβώς, όπως συµπεριφέρεται στην ίδια τη µηχανή αναζήτησης. Οι επιλογές του χρήστη (ερώτηµα που τέθηκε και σύνδεσµοι αποτελεσµάτων που ακολουθήθηκαν) θα αποθηκεύονται µε αποτέλεσµα να δηµιουργούνται τα αρχεία πρόσβασης. 3

Στη συνέχεια έχοντας τις σελίδες που έχει επισκεφτεί κάθε χρήστης και χρησιµοποιώντας µια κατάλληλη οντολογία αναφοράς, θα δηµιουργηθεί το προφίλ κάθε χρήστη. Θα υλοποιηθεί ένας ταξινοµητής ο οποίος µε χρήση της λεξικογραφικής βάσης του WordNet θα καταχωρεί τις σελίδες στην έννοια της οντολογίας αναφοράς µε την οποία σχετίζεται. Χρησιµοποιώντας αυτόν τον ταξινοµητή µια σελίδα θα καταχωρείται αυτόµατα στις έννοιες της οντολογίας που αντιστοιχεί. Το αποτέλεσµα της ταξινόµησης των σελίδων που έχει επισκεφτεί ο χρήστης είναι να συγκεντρώνονται οι σελίδες που έχουν αντιστοιχιστεί σε κάθε έννοια να και υπολογίζεται το βάρος κάθε έννοιας της οντολογίας. Οπότε για κάθε χρήστη έχει δηµιουργηθεί µια οντολογία µε βάρη για κάθε έννοια, που σχετίζεται µε τις σελίδες που έχει επισκεφτεί ο χρήστης, η οποία και καλείται προφίλ. Η παραπάνω διαδικασία θα µπορεί να επαναλαµβάνεται αναµορφώνοντας δυναµικά τα προφίλ των χρηστών. Για κάθε ερώτηµα στη µηχανή αναζήτησης θα γίνεται αντιστοίχηση των αποτελεσµάτων µε τη βοήθεια του ταξινοµητή στις κατηγορίες της οντολογίας αναφοράς. Παράλληλα, υπολογίζουµε και το ενδιαφέρον του χρήστη για κάθε αποτέλεσµα µε βάση το προφίλ του. Στη συνέχεια οι χρήστες οµαδοποιούνται µε χρήση του αλγορίθµου οµαδοποίησης K-Means. Ο συνδυασµός των παραπάνω µε χρήση αλγορίθµων ανακατάταξης και φιλτραρίσµατος δίνει τα προσωποποιηµένα αποτελέσµατα στο χρήστη. Όσον αφορά τη δοµή της εργασίας, αρχικά στο δεύτερο κεφάλαιο πραγµατοποιείται µια σύντοµη αναφορά στις µηχανές αναζήτησης. Στη συνέχεια, στο τέταρτο κεφάλαιο, γίνεται µια περιγραφή τεχνικών και συστηµάτων προσωποποίησης µε βάση οντολογίες, αρχεία πρόσβασης, οµαδοποίηση καθώς και συνδυασµό αυτών. Στο κεφάλαιο πέντε γίνεται µια σύντοµη περιγραφή των τµηµάτων που απαρτίζεται η µεθοδολογία που προτείνεται. Το επόµενο κοµµάτι αποτελεί την αναλυτική περιγραφή της µεθοδολογίας, τα εργαλεία που χρησιµοποιήθηκαν, τα επιµέρους τµήµατά του, τις τεχνικές λεπτοµέρειες. Στη συνέχεια αναλύεται η πειραµατική υλοποίηση που αναπτύχθηκε πραγµατοποιείται παράθεση των αποτελεσµάτων προσωποποίησης σε σχέση µε µη προσωποποιηµένα αποτελέσµατα. Τέλος, παραθέτονται τα συµπεράσµατα όσον αφορά τη µεθοδολογία και τις µεθόδους που χρησιµοποιήθηκαν καθώς και µελλοντικές επεκτάσεις. 4

2 Μηχανές αναζήτησης 5

6

2 ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ Η ραγδαία ανάπτυξη του Παγκόσµιου Ιστού και η ταχύτατη διείσδυσή του σε κάθε έκφανση της καθηµερινότητας του σύγχρονου ανθρώπου είναι έκδηλη. Μια από τις συνήθειες που έχουν αλλάξει ριζικά είναι ο τρόπος αναζήτησης πληροφοριών. Παλαιότερα, η αναζήτηση γινόταν κυρίως µέσω έντυπου υλικού ή µέσω τηλεφωνικής επικοινωνίας µε διάφορα εξειδικευµένα τηλεφωνικά κέντρα. Σήµερα, η αναζήτηση έχει γίνει κατά βάση ηλεκτρονική διαδικασία µε πρώτη µορφή τις µηχανές αναζήτησης του Παγκόσµιου Ιστού. 2.1 Σύντοµη περιγραφή Μια µηχανή αναζήτησης είναι µια διεπαφή ανάκτησης πληροφορίας στον Παγκόσµιο Ιστό. Οι πληροφορίες στις οποίες γίνεται αναζήτηση είναι ιστοσελίδες, εικόνες ή άλλοι τύποι αρχείων. Μερικές µηχανές αναζήτησης ανακτούν πληροφορία από δεδοµένα που είναι διαθέσιµα σε βάσεις δεδοµένων, newsgroups ή ανοιχτούς καταλόγους. Σε αντίθεση µε τους καταλόγους του διαδικτύου, που αναπτύσσονται και διατηρούνται χειροκίνητα, οι µηχανές αναζήτησης λειτουργούν αλγοριθµικά ή είναι µια συνδυαστική µίξη αλγοριθµικής και ανθρώπινης εισόδου δεδοµένων. 2.2 Ιστορία Μηχανών Αναζήτησης Το πρώτο εργαλείο που χρησιµοποιήθηκε για αναζήτηση στο διαδίκτυο ήταν το Archie [1]. Το πρόγραµµα αυτό χρησιµοποιούνταν για λήψη λιστών καταλόγων από δηµόσιους ανώνυµους FTP ιστοτόπους, δηµιουργώντας µια βάση αναζήτησης που περιείχε ονόµατα αρχείων χωρίς όµως να είναι δεικτοδοτηµένα. Η πρώτη µηχανή αναζήτησης ήταν η Wandex, που ήταν ένας συλλέκτης (crawler) που αναπτύχθηκε από το τον Matthew Gray στο MIT το 1993. Ακόµη µια άλλη µηχανή αναζήτησης, η Aliweb, επίσης εµφανίστηκε το 1993, και λειτουργεί ακόµη και σήµερα. Η JumpStation, µια ακόµη µηχανή που εµφανίστηκε το 1994, χρησιµοποιούσε έναν συλλέκτη σελίδων για να βρει σελίδες για αναζήτηση, αλλά η αναζήτηση περιοριζόταν µόνο στον τίτλο των σελίδων. Μια από τις πρώτες µηχανές αναζήτησης που προχώρησε στην αναζήτηση σε όλο το κείµενο των σελίδων ήταν η WebCrawler [2], το 1994. Σε αντίθεση, µε όλες τις προηγούµενες µηχανές αναζήτησης, άφηνε τους χρήστες να ψάχνουν σε όλο το κείµενο των ιστοσελίδων και αυτό αποτέλεσε το πρότυπο για όλες τις µετέπειτα µηχανές αναζήτησης. Παράλληλα, ήταν και η πρώτη µηχανή αναζήτηση που έγινε ευρέως γνωστή από το κοινό του διαδικτύου. Επιπλέον, η µηχανή αναζήτησης Lycos εµφανίστηκε το 1994, και αποτέλεσε µια µεγάλη επιχειρηµατική δραστηριότητα. Αµέσως αργότερα, πολλές µηχανές αναζήτησης εµφανίστηκαν πολλές µηχανές αναζήτησης που συναγωνιζόταν για δηµοσιότητα. Σε αυτές περιέχονται οι Excite [3], Infoseek [4], Inktomi, Northern Light [5] και Altavista [6]. Με κάποιους τρόπους οι µηχανές αυτές συνδεόταν µε δηµοφιλείς καταλόγους όπως το Yahoo!. Αργότερα, η ενοποίηση µε τους καταλόγους ή η προσθήκη αναβάθµισε την τεχνολογία των µηχανών αναζήτησης και αύξησε τη λειτουργικότητα. Στη συνέχεια µέσα από τις αναφορές στις σηµαντικότερες µηχανές συµπληρώνεται η ιστορική εξέλιξη των µηχανών αναζήτησης. 7

2.3 Σηµαντικές Μηχανές Αναζήτησης Στη συνέχεια γίνεται µια µικρή αναφορά στις ευρύτερα χρησιµοποιούµενες και περισσότερο γνωστές µηχανές αναζήτησης καθώς αυτή η εργασία προσανατολίζεται στο να βελτιώσει τα αποτελέσµατά τους µέσα από τη µεθοδολογία προσωποποίησης που προτείνει. 2.3.1 Google Το 2001, η µηχανή αναζήτησης Google [7] ήρθε στο προσκήνιο για να διακριθεί. Η επιτυχία της βασίστηκε εν µέρει στην έννοια της δηµοφιλίας των συνδέσµων και του PageRank (της σχετικής σηµασίας του συνδέσµου σε µια σελίδα σε σχέση µε τους συνδέσµους σε άλλες σελίδες στο σύνολο των σελίδων του γράφου του διαδικτύου). Ο αριθµός των άλλων ιστοτόπων και ιστοσελίδων που έχουν σύνδεσµο σε µια δοσµένη ιστοσελίδα λαµβάνεται υπόψη µε το PageRank, µε την προϋπόθεση ότι οι σηµαντικές και επιθυµητές σελίδες έχουν περισσότερους συνδέσµους από τις άλλες. Το PageRank των συνδεόµενων ιστοσελίδων και ο αριθµός των συνδέσµων συµβάλλουν στο PageRank της συνδεόµενης ιστοσελίδας. Αυτή η σύµβαση δίνει τη δυνατότητα στο Google να κατατάξει τα αποτελέσµατά του µε βάση πόσες ιστοσελίδες έχουν σύνδεσµο σε κάθε ευρεθείσα ιστοσελίδα. Παράλληλα, η µινιµαλιστική διεπαφή που χρησιµοποιεί είναι πολύ δηµοφιλής από τους χρήστες και έχει δηµιουργήσει ένα πλήθος µιµητών. Το Google και πολλές άλλες µηχανές αναζήτησης δε χρησιµοποιούν µόνο το PageRank αλλά ακόµη 150 κριτήρια για να καθορίσουν την συσχέτιση [8]. Ο αλγόριθµος «θυµάται» που βρισκόταν και δεικτοδοτεί τον αριθµό των συνδέσµων που διασταυρώνονται και τους συσχετίζει σε οµάδες. Το PageRank βασίζεται στην ανάλυση των παραθέσεων (citations) που αναπτύχθηκε από τον Eugene Garfield το 1950 στο Πανεπιστήµιο της Πενσυλβανίας. Οι ιδρυτές του Google έκαναν αναφορά στην εργασία του Garfiled στην αρχική παρουσίασή τους. Η Google σήµερα είναι η πιο δηµοφιλής µηχανή αναζήτησης. Πάνω σε αυτή θα γίνει πειραµατική υλοποίηση σε αυτή την εργασία ώστε τα αποτελέσµατά της να προσωποποιηθούν µέσα από την µεθοδολογία που προτείνεται. 2.3.2 Yahoo! Search Οι δύο ιδρυτές της Yahoo! [8], David Filo Και Jerry Yang, υποψήφιοι διδάκτορες στο Πανεπιστήµιο Στανφόρντ, προσπαθώντας να βρεθεί ένας τρόπος να προσωποποιήσουν τα προσωπικά τους ενδιαφέροντά τους στο διαδίκτυο. Μέχρι τότε σπαταλούσαν πολύ χρόνο για να οργανώσουν τις λίστες από τους αγαπηµένους τους συνδέσµους που συσχετιζόταν µε τη διδακτορική τους διατριβή. Μετά από αρκετό καιρό οι λίστες έγιναν πολύ µεγάλες και δύσκολες στη διαχείριση, µε αποτέλεσµα να τις κατανέµουν σε κατηγορίες. Όταν οι κατηγορίες έγιναν αρκετά πλήρεις, ανέπτυξαν υποκατηγορίες και µε αυτό τον τρόπο αναπτύχθηκε ο πυρήνας της µηχανής αναζήτησης Yahoo!. Το 2002, η Yahoo! Απέκτησε την Inktomi και το 2003 την Overtune, που κατείχε την AltheWeb και την AltaVista. Παρόλο, που είχε τη δική της µηχανή αναζήτησης, η Yahoo! αρχικά συνήθιζε να χρησιµοποιεί τη Google για να παράσχει στους χρήστες της αποτελέσµατα στο βασικό της ιστότοπο Yahoo.com. Παρόλα αυτά, το 2004, η Yahoo! λάνσαρε τη δική της µηχανή αναζήτησης που βασιζόταν σε συνδυασµένες τεχνολογίες των µηχανών που απέκτησε. 2.3.3 Live Search Η πιο πρόσφατη αλλά σηµαντική και ευρέως χρησιµοποιούµενη µηχανή αναζήτησης είναι η MSN Search της Microsoft [9], που προηγουµένως βασιζόταν σε 8

λίστες άλλων µηχανών αναζήτησης. Το 2004, πρωτοεµφανίστηκε µια δοκιµαστική έκδοση µε τα δικά της αποτελέσµατα, που χρησιµοποιούσε έναν δικό της συλλέκτη (crawler) που ονοµαζόταν msnbot. Στις αρχές του 2005, άρχισε να δείχνει τα πρώτα αποτελέσµατά της ζωντανά, και σταµάτησε να παίρνει αποτελέσµατα από την Inktomi που ήταν απόκτηµα της Yahoo!. Το 2006, η Microsoft δηµιούργησε µια νέα πλατφόρµα αναζήτησης, την Live Search, αποσύροντας την ονοµασία MSN Search για το χαρακτηρισµό αυτής της διαδικασίας. 2.4 Τρόπος λειτουργίας µηχανών αναζήτησης Μια µηχανή αναζήτησης λειτουργεί µε την ακόλουθη σειρά: 1. Web Crawling παρακολούθηση του διαδικτύου 2. εικτοδότηση 3. Αναζήτηση Εικόνα 1 Λειτουργία µηχανής αναζήτησης Οι µηχανές αναζήτησης δουλεύουν αποθηκεύοντας πληροφορίες για ένα µεγάλο αριθµό ιστοσελίδων, τις οποίες ανακτούν από τον ίδιο τον Παγκόσµιο Ιστό. Αυτές οι σελίδες ανακτώνται από ένα crawler (που είναι γνωστός και ως spider) που είναι ένας αυτόµατος πλοηγητής του διαδικτύου που ακολουθεί κάθε σύνδεσµο που βλέπει. Μπορεί να υπάρχουν εξαιρέσεις µε τη χρήση robots αποτρέπουν την προσπέλαση από crawlers για κάποια τµήµατα των σελίδων. Τα περιεχόµενα κάθε σελίδας αναλύονται για να καθοριστεί πως πρέπει να δεικτοδοτηθούν (για παράδειγµα εξάγονται λέξεις από τίτλους, επικεφαλίδες ή ειδικά πεδία που καλούνται µεταπεδία που είναι µεταδεδοµένα για τις σελίδες). εδοµένα για σελίδες του διαδικτύου καταχωρούνται σε µια βάση δεικτοδότησης που χρησιµοποιείται για αναζήτηση σε επόµενα ερωτήµατα στη µηχανή. Μερικές µηχανές αναζήτησης, όπως η Google, αποθηκεύουν όλες ή µέρος του πηγαίου κώδικα (που αναφέρονται ως cache) όπως πληροφορίες σχετικά µε τις σελίδες, σε αντίθεση µε άλλες, όπως η Altavista, που αποθηκεύουν κάθε λέξη για κάθε σελίδα που βρίσκουν. Αυτή η αποθηκευµένη σελίδα, κρατάει πάντα το κείµενο που γίνεται αναζήτηση αφού είναι αυτό που δεικτοδοτείται, ώστε µπορεί να είναι αρκετά χρήσιµο όταν το περιεχόµενο της τρέχουσας σελίδας έχει ανανεωθεί και οι όροι αναζήτησης δεν περιέχονται πλέον σε αυτό. Αυτό το πρόβληµα, µπορεί να θεωρηθεί σαν µια ήπια µορφή του προβλήµατος linkrot, όπου οι σύνδεσµοι και οι σελίδες που δείχνουν τείνουν να είναι άσχετα µε το πέρασµα του χρόνου επειδή το περιεχόµενο των σελίδων ανανεώνεται. Ο τρόπος που το Google διαχειρίζεται το 9

πρόβληµα αυτό αυξάνει τη χρησιµοποιησιµότητα ικανοποιώντας τις απαιτήσεις των χρηστών τοποθετώντας του όρους αναζήτησης µέσα στη σελίδα που επιστρέφεται. Αυτό ικανοποιεί την αρχή της ελάχιστης έκπληξης, αφού ο χρήστης τουλάχιστον περιµένει τους όρους που αναζητεί να τους εντοπίσει µέσα στο επιστρεφόµενο έγγραφο. Η αυξανόµενη σχετικότητα αναζήτησης κάνει αυτές τις σελίδες πολύ χρήσιµες, ακόµη περισσότερο από το γεγονός ότι µπορεί να περιέχουν δεδοµένα που µπορεί να µην είναι πλέον αλλού διαθέσιµα. Όταν ένας χρήστης θέτει ένα ερώτηµα σε µια µηχανή αναζήτησης, συνήθως χρησιµοποιώντας λέξεις κλειδιά, η µηχανή εξετάζει το ευρετήριό της και παρέχει µια λίστα µε τις καλύτερα ταιριασµένες σελίδες σύµφωνα µε τα κριτήρια, συνήθως µε ένα σύντοµο κείµενο, που περιέχει τον τίτλο του εγγράφου και µερικές φορές τµήµατα που κειµένου που περιέχει η σελίδα. Οι περισσότερες µηχανές αναζήτησης υποστηρίζουν τη χρήση λογικών τελεστών AND, OR και NOT για να συγκεκριµενοποιήσουν περισσότερο το ερώτηµα που τίθεται. Μερικές µηχανές αναζήτησης παρέχουν ένα χαρακτηριστικό που καλείται εγγύτητα αναζήτησης (proximity search) που επιτρέπει στους χρήστες να καθορίσει την απόσταση µεταξύ των λέξεων κλειδιά. Η χρησιµότητα µιας µηχανής αναζήτησης εξαρτάται από τη σχετικότητα τους συνόλου αποτελεσµάτων που επιστρέφει. Ενώ µπορεί να υπάρχουν εκατοµµύρια ιστοσελίδων που περιέχουν µια συγκεκριµένη λέξη ή φράση, µερικές σελίδες είναι περισσότερο σχετικές, δηµοφιλείς ή έγκυρες από κάποιες άλλες. Οι περισσότερες µηχανές αναζήτησης εφαρµόζουν µεθόδους για να διαβαθµίσουν τα αποτελέσµατα που παρέχουν και να παρουσιάσουν τα καλύτερα αποτελέσµατα πρώτα. Το πως µια µηχανή αναζήτησης αποφασίζει ποιες σελίδες αποτελούν το βέλτιστο ταίριασµα στο ερώτηµα που τέθηκε, και ποια σειρά των αποτελεσµάτων θα πρέπει να παρουσιαστεί, ποικίλει από µια µηχανή αναζήτησης στην άλλη. Επιπλέον, οι µέθοδοι αλλάζουν µε το πέρασµα του χρόνου καθώς η χρήση του διαδικτύου αλλάζει και εµπλέκονται νέες τεχνικές. Οι περισσότερες µηχανές αναζήτησης αποτελούν εµπορικά εγχειρήµατα που υποστηρίζονται από διαφηµιστικούς πόρους και σαν αποτέλεσµα µερικές εφαρµόζουν την αντιφατική πρακτική να επιτρέπουν σε διαφηµιστές να πληρώνουν χρήµατα για να έχουν τις ιστοσελίδες που σχετίζονται µε αυτούς ψηλά στη λίστα των αποτελεσµάτων που επιστρέφει η µηχανή αναζήτησης. Εκείνες οι µηχανές αναζήτησης που δεν δέχονται χρήµατα για τα αποτελέσµατά τους βγάζουν χρήµατα τρέχοντας διαφηµίσεις σχετικές µε την αναζήτησης παράλληλα µε το κανονικό ψάξιµο των µηχανών αναζήτησης. Η µηχανή κερδίζει χρήµατα κάθε φορά που κάποιος χρήστης κάνει κλικ σε κάποια από αυτές τις διαφηµίσεις. Οι περισσότερες µηχανές αναζήτησης διατηρούνται από ιδιωτικές εταιρίες που χρησιµοποιούν αποκλειστικούς καταλόγους και κλειστές βάσεις δεδοµένων, παρόλα αυτά κάποιες είναι ανοικτής αρχιτεκτονικής όπως οι DataparkSearch, Egothor, Gonzui, Grub, Lucene, Namazu, Nutch, OpenFTS, Search Wikia, Sphinx, SWISH-E, Terrier Search Engine, Xapian, YaCy και Zettair. 2.5 Προκλήσεις για τις µηχανές αναζήτησης Οι µηχανές αναζήτησης είναι έχουν να αντιµετωπίσουν αρκετές προκλήσεις που καθορίζουν τον τρόπο ανάπτυξής τους. Τέτοιες προκλήσεις αποτελούν τα παρακάτω: Ο Παγκόσµιος Ιστός µεγαλώνει πολύ πιο γρήγορα από όσο µπορεί οποιαδήποτε µηχανή αναζήτησης να δεικτοδοτήσει Μια σελίδα θα πρέπει να δεικτοδοτείται ξανά όταν αλλάζει το περιεχόµενό της Η αναζήτηση που κάνουν οι µηχανές αναζήτησης περιορίζονται στην αναζήτηση λέξεων κλειδιών ειδικά όταν γίνεται αναζήτηση στο 10

περιεχόµενο των σελίδων. Καλύτερα αποτελέσµατα µπορεί να επιτευχθούν χρησιµοποιώντας αναζήτηση εγγύτητας σε σύγκριση µε την αναζήτηση σκόρπιων λέξεων µέσα σε ολόκληρες σελίδες. Μια άλλη εναλλακτική είναι η χρήση ανθρώπινων τελεστών για να κάνουν την επόµενη αναζήτηση για τους συστηµατικούς χρήστες µιας µηχανής αναζήτησης. Οι δυναµικές σελίδες είναι δύσκολο έως αδύνατο να δεικτοδοτηθεί, και µπορεί να δώσει υπερβολικά πολλά αποτελέσµατα, ίσως να δηµιουργήσει 500 φορές περισσότερες σελίδες από το µέσο όρο. Για παράδειγµα: για µια δυναµική ιστοσελίδα που αλλάζει περιεχόµενο που βασίζεται στις εισόδους που παίρνει η ιστοσελίδα από µια βάση, µια µηχανή αναζήτησης καλείται να δεικτοδοτήσει 50.000 στατικές σελίδες µε διαφορετικές παραµέτρους που περνιούνται δυναµικά στην ιστοσελίδα. Πολλές σελίδες που δηµιουργούνται δυναµικά δεν είναι δυνατόν να δεικτοδοτηθούν από τις µηχανές αναζήτησης. Το φαινόµενο αυτό είναι ο αόρατος ιστός (hidden web). Μερικές µηχανές αναζήτησης ειδικεύονται στη συλλογή δυναµικού περιεχοµένου στον αόρατο ιστό που είναι προστατευµένο από κωδικούς πρόσβασης ή απαιτεί να συµπληρωθούν φόρµες. Συνάφεια: µερικές φορές µια µηχανή αναζήτησης δεν µπορεί να βρει τι ψάχνει ένας άνθρωπος. Μπορεί να δώσει µια λίστα από ανεπιθύµητα αποτελέσµατα, µη σχετικές ιστοσελίδες, ηλεκτρονικά spam ή pop-ups. Μερικές µηχανές αναζήτησης που δεν κατατάσσουν τα αποτελέσµατα µε βάση τη συνάφεια, αλλά µε βάση τα χρήµατα που πληρώνονται από τις ιστοσελίδες που περιέχονται στα αποτελέσµατα. Πολλές ιστοσελίδες χρησιµοποιούν τεχνάσµατα για να διαβεβαιώσουν ότι θα βρίσκονται ψηλά στη λίστα των αποτελεσµάτων µιας µηχανής αναζήτησης, για πολλές λέξεις κλειδιά. Αυτό µπορεί να οδηγήσει σε «µόλυνση» των αποτελεσµάτων µιας µηχανής αναζήτησης µε spam σελίδες που περιέχουν ελάχιστη ή καθόλου πληροφορία σχετική µε τις εκφράσεις που αναζητούνται. Ασφαλές περιεχόµενο που φιλοξενείται σε συνδέσµους αποτελούν µια πρόκληση για τους crawlers που είτε δεν µπορούν να πλοηγηθούν στο περιεχόµενο για τεχνικούς λόγους είτε δεν δεικτοδοτούν το περιεχόµενο για ιδιωτικούς λόγους. Στο κεφάλαιο αυτό έγινε µια σύντοµη αναφορά στις µηχανές αναζήτησης, στον τρόπο λειτουργίας τους, στα βασικά χαρακτηριστικά τους και στις προκλήσεις που έχουν να αντιµετωπίσουν. Η µεθοδολογία που θα προταθεί σε αυτή τη διπλωµατική προσπαθεί να προσπελάσει κάποια από τα µειονεκτήµατά τους και να προσαρµόσει τα αποτελέσµατα µε βάση τους χρήστες. 11

12

3 Τεχνικές Προσωποποίησης 13

14

3 ΤΕΧΝΙΚΕΣ ΠΡΟΣΩΠΟΠΟΙΗΣΗΣ Στο κεφάλαιο αυτό γίνεται εκτενής αναφορά στην έννοια της προσωποποίησης και σε βασικές τεχνικές καθώς και σε συστηµατα προσωποποίησης στον Παγκόσµιο Ιστό. 3.1 Βασικές έννοιες Η προσωποποίηση είναι η προσαρµογή ενός προϊόντος, σε ηλεκτρονικό ή γραπτό µέσο σύµφωνα µε τα χαρακτηριστικά ή τις λεπτοµέρειες που παρέχει ο χρήστης. Πιο πρόσφατα, έχει εφαρµοστεί στον Παγκόσµιο Ιστό και έχει αναπτυχθεί ένα ολόκληρο πεδίο έρευνας γύρω από την προσωποποίηση στον Παγκόσµιο Ιστό. Και η συγκεκριµένη εργασία αναφέρεται σε αυτό το πεδίο έρευνας και προτείνει µια µεθοδολογία προσωποποίησης που βασίζεται στη δηµιουργία σηµασιολογικών οµάδων χρηστών και στο σηµασιολογικό προσδιορισµό των αποτελεσµάτων της µηχανής αναζήτησης. Οι ιστοσελίδες του Παγκόσµιου Ιστού προσωποποιούνται σύµφωνα µε τα ενδιαφέροντα του χρήστη. Η προσωποποίηση υπονοεί ότι οι αλλαγές βασίζονται σε συνεπαγώµενα δεδοµένα όπως, προϊόντα που αγοράζονται ή σελίδες στις οποίες γίνεται πλοήγηση. Ο όρος προσαρµογή ή ο όρος παραµετροποίηση χρησιµοποιείται αντί του όρου προσωποποίηση όταν η ιστοσελίδα χρησιµοποιεί σαφή δεδοµένα όπως προτιµήσεις ή βαθµολογίες. Σε ένα εσωτερικό δίκτυο, για παράδειγµα στη δικτυακή πύλη µιας εταιρίας, η προσωποποίηση συχνά βασίζεται στα χαρακτηριστικά του χρήστη όπως το τµήµα που ανήκει ένας εργαζόµενος, ή τη λειτουργική του περιοχή ή το ρόλο. Ο όρος προσαρµογή σε αυτό το περιεχόµενο αναφέρεται στην ικανότητα των χρηστών να τροποποιούν την εµφάνιση της σελίδας ή να καθορίζουν το περιεχόµενο που παρουσιάζεται. Υπάρχουν δύο κατηγορίες προσωποποίησης: 1. βασισµένη σε κανόνες 2. βασισµένη στο περιεχόµενο Τα µοντέλα προσωποποίησης περιλαµβάνουν φιλτράρισµα βασισµένο σε κανόνες και συνεργατικό φιλτράρισµα που προσφέρει σχετικό υλικό στους χρήστες συνδυάζοντας τις προτιµήσεις τους µε τις προτιµήσεις των άλλων χρηστών µε παρόµοια συµπεριφορά. Το συνεργατικό ψάξιµο έχει καλά αποτελέσµατα στην αναζήτηση βιβλίων, µουσικής, βίντεο κοκ. Αντίθετα, δεν έχει το ίδιο καλά αποτελέσµατα σε άλλες κατηγορίες όπως κοσµήµατα, καλλυντικά κτλ. Πρόσφατα, µια άλλη µέθοδος, η µέθοδος πρόβλεψης προτείνεται σε προϊόντα µε σύνθετα χαρακτηριστικά όπως ενδυµασία. Οι µηχανές αναζήτησης τελευταία εφαρµόζουν προσωποποίηση στα αποτελέσµατά τους σε µια µαζική κλίµακα. Οι τεχνικές τους βασίζονται σε ένα πλήθος παραγόντων που περιλαµβάνουν το ιστορικό του χρήστη, τους αποθηκευµένους σελιδοδείκτες, τις κοινωνικές συµπεριφορές, την πορεία της πλοήγησης και τελικά αναπαρίστανται αποτελέσµατα που η µηχανή αναζήτησης πιστεύει ότι ο χρήστης αναζητά. Στη συνέχεια γίνεται παρουσίαση τεχνικών προσωποποίησης που χρησιµοποιούνται σε συστήµατα καθώς και στον Παγκόσµιο Ιστό. 15

3.2 Αρχεία Πρόσβασης ικτυακού Τόπου Στην παράγραφο αυτή γίνεται αναφορά στα αρχεία πρόσβασης δικτυακών τόπων και πως αυτά χρησιµοποιούνται στην ανάλυση δικτυακών τόπων και στην προσωποποίηση δικτυακών τόπων. 3.2.1.1 Σύντοµη περιγραφή Οι εξυπηρετητές ιστού, οι οποίοι φιλοξενούν τους δικτυακούς τόπους, διαθέτουν έναν µηχανισµό αυτόµατης καταγραφής και αποθήκευσης των δεδοµένων της πρόσβασης σε κάθε δικτυακό τόπο, σε αρχεία κειµένου τα οποία καλούνται αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους (web access logs). Τα αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους παρουσιάζουν αναλυτικές πληροφορίες για κάθε αίτηµα το οποίο πραγµατοποιείται από έναν χρήστη προς τον εξυπηρετητή ιστού και αφορά έναν δεδοµένο δικτυακό τόπο. Οι πληροφορίες αυτές παρουσιάζονται σειριακά, µε κάθε ένα από τα αιτήµατα να αναπαριστάται σαν µία γραµµή κειµένου που αποτελείται από πολλές πληροφορίες, διαφορετικού είδους µεταξύ τους, οι οποίες αφορούν το αίτηµα, το χρόνο κατά τον οποίο αυτό πραγµατοποιήθηκε, το χρήστη ο οποίος το πραγµατοποίησε και τη σελίδα ή το αρχείο του δικτυακού τόπου, το οποίο αιτήθηκε ο χρήστης. Ένα αρχείο εξυπηρετητή (Log file) ή αρχείο πρόσβασης δικτυακού τόπου δηµιουργείται από τον εξυπηρετητή και διατηρείται εκεί καταγράφοντας τη δραστηριότητα των χρηστών. Ένα τυπικό παράδειγµα ενός τέτοιου αρχείου διατηρεί το ιστορικό από αιτήσεις στον εξυπηρετητή. Το πρότυπο της w3c για τα αρχεία πρόσβασης εξυπηρετητών είναι το συνηθέστερο αλλά υπάρχουν και άλλα κατάλληλα πρότυπα. Σε ένα αρχείο πρόσβασης δικτυακού τόπου οι πιο πρόσφατες εγγραφές προστίθενται στο τέλος του αρχείου. Συγκεκριµένα, οι πληροφορίες που καταχωρούνται στα αρχεία πρόσβασης δικτυακών τόπων είναι η αίτηση του χρήστη στον εξυπηρετητή, η IP διεύθυνση του χρήστη, η ηµεροµηνία και ώρα της αίτησης, η σελίδα που ζητείται, ο HTTP κώδικας, τα bytes που ζητούνται και ο agent του χρήστη. Αυτά τα δεδοµένα συνδυάζονται σε ένα µόνο αρχείο ή σε ξεχωριστά αρχεία όπως αρχεία πρόσβασης, αρχεία λαθών ή αρχεία αναφοράς. Τα αρχεία αυτά δεν είναι συνήθως προσβάσιµα από χρήστες του διαδικτύου, αλλά µόνο στους διαχειριστές του εξυπηρετητή. Μια στατιστική ανάλυση των αρχείων πρόσβασης δικτυακών τόπων µπορεί να χρησιµοποιηθεί για να µελετηθεί η κίνηση στο δικτυακό τόπο και να βρεθούν υποδείγµατα κίνησης σε σχέση µε διάφορες χρονικές διάρκειες όπως µια µέρα, ή µια µέρα της εβδοµάδας, ή από κάποια σελίδα αναφοράς ή από κάποια συγκεκριµένη IP κα. Επιπρόσθετα, η ανάλυση των αρχείων πρόσβασης δικτυακών τόπων µπορεί να προβεί χρήσιµη στην αποδοτική διαχείριση του δικτυακού τόπου και στην επαρκή κατανοµή πόρων. Παρά το γεγονός ότι περιέχουν πλήρεις πληροφορίες σχετικά µε όλες τις παραµέτρους της πρόσβασης, τα αρχεία καταγραφής πρόσβασης µειονεκτούν όσον αφορά τη µορφή τους και την ευκολία που προσφέρουν για ανάγνωση από τον άνθρωπο. Για αυτόν ακριβώς το λόγο έχουν αναπτυχθεί µία σειρά εργαλείων διαχείρισης της πληροφορίας που περιέχεται στα αρχεία καταγραφής πρόσβασης. Στα πλαίσια της παρούσας εργασίας, τα αρχεία πρόσβασης του δικτυακού τόπου που σχεδιάστηκε για την εφαρµογή της µεθοδολογίας προσωποποίησης αποτελεί µια βάση δεδοµένων, στην οποία τα δεδοµένα καταχωρούνται µε δοµηµένο τρόπο. Σε συστήµατα που περιγράφονται σε επόµενες παραγράφους γίνεται αναφορά και στο ρόλο των αρχείων πρόσβασης στην προσωποποίηση και στην παραµετροποίηση συστηµάτων. 16

3.3 Οντολογίες και δηµιουργία προφίλ Η προσωποποιηµένη αναζήτηση πληροφορίας µε χρήση σηµασιολογίας απαιτεί τη δηµιουργία προφίλ χρηστών µε βάση οντολογίες. Στην παράγραφο αυτή θα γίνει ανάλυση της έννοιας των οντολογιών και θα γίνει περιγραφή των υπαρχόντων οντολογιών για την αναπαράσταση προφίλ. 3.3.1 Ορισµός Υπάρχουν αρκετοί ορισµοί για µια οντολογία. Στην επιστήµη της πληροφορικής η οντολογία είναι ένας συστηµατικός τρόπος µορφοποίησης των εννοιών, των ορισµών, των σχέσεων και των κανόνων που συλλαµβάνει το σηµασιολογικό περιεχόµενο ενός πεδίου σε µορφή αναγνώσιµη από µηχανή [10]. Οι οντολογίες που δηµιουργούνται για εφαρµογές πληροφορικής γράφονται σε µια επίσηµη γλώσσα που είναι κατανοητή από µηχανή. Στην επιστήµη της πληροφορικής µια οντολογία είναι µια τυπική ρητή περιγραφή εννοιών ενός πεδίου, που ονοµάζονται κλάσεις ή έννοιες, µε τις ιδιότητες κάθε έννοιας που περιγράφουν διάφορα χαρακτηριστικά ή γνωρίσµατά τους και περιορισµούς στις ιδιότητες. Μια οντολογία µαζί µε σύνολα διαφορετικών στιγµιοτύπων, που αποτελούν εκφάνσεις της κλάσης, δηµιουργούν µια βάση γνώσης. 3.3.2 Συστήµατα βασισµένα σε οντολογίες Οι οντολογίες είναι µια έννοια που έχει εισαχθεί στην πληροφορική τα τελευταία δεκαπέντε χρόνια όµως πολλά συστήµατα έχουν βασιστεί σε αυτές. Στην παράγραφο αυτή θα γίνει µια σύντοµη αναφορά σε µερικά από τα συστήµατα που χρησιµοποιούν σηµασιολογική προσέγγιση µέσω οντολογιών. Τα συστήµατα αυτά χρησιµοποιούνται κυρίως για κατηγοριοποίηση αλλά και για άλλες εφαρµογές. 3.3.2.1 OntoSeek Το OntoSeek [11] είναι ένα πρωτότυπο αποτέλεσµα συνεργασίας του Corinto (τµήµα της IBM Semea, Apple στην Ιταλία) και του Ladseb-CNR (ινστιτούτο συστηµάτων επιστήµης και βιοϊατρικής τεχνολογίας) για τµήµα του έργου για ανάκτηση και επαναχρησιµοποίηση αντικειµενοστρεφών τµηµάτων λογισµικού. Αποτελεί ένα σύστηµα που σχεδιάστηκε για ανάκτηση πληροφορίας από χρυσό οδηγό και καταλόγους προϊόντων βασισµένη στο περιεχόµενο. Συνδυάζει έναν µηχανισµό αντιστοίχησης περιεχοµένου οδηγούµενο από οντολογίες µε έναν εκφρασιακό φορµαλισµό αναπαράστασης. Τα παρακάτω αποτελούν τις βασικές σχεδιαστικές επιλογές για το OntoSeek: Η επιλογή να χρησιµοποιηθούν αφηρηµένοι όροι φυσικής γλώσσας για ακριβείς περιγραφές πόρων στη φάση της κωδικοποίησης. Πλήρης εννοιολογική ευελιξία για τα ερωτήµατα, µέσα από µια διαδικασία σηµασιολογικού ταιριάσµατος οδηγούµενο από οντολογίες µεταξύ ερωτηµάτων και περιγραφών πόρων Αλληλεπιδραστική βοήθεια στο σχηµατισµό, τη δηµιουργία και την εξειδίκευση µορφοποίησης ερωτηµάτων Μια αρχιτεκτονική τελευταίας γενιάς Καλούς παράγοντες ανάκλησης και ακρίβειας, και δικαιολογηµένη αποδοτικότητα σε µαζικά δεδοµένα Καλή κλιµάκωση και φορητότητα Το σύστηµα σχεδιάστηκε για να διαχειρίζεται οµογενή και ετερογενή δεδοµένα καταλόγων προϊόντων. Οι ετερογενείς κατάλογοι προϊόντων είναι περισσότεροι δύσκολοι στη διαχείριση επειδή έχουν µεγαλύτερη πολυπλοκότητα στην περιγραφή χρησιµοποιήθηκαν απλοί γράφοι σηµασιολογίας για να αναπαρασταθούν ερωτήµατα 17

και περιγραφές πόρων. Το σύστηµα δε βασίστηκε σε οντολογίες που φτιάχτηκαν από την αρχή αλλά χρησιµοποίησε έτοιµες οντολογίες. Συγκεκριµένα, χρησιµοποιήθηκε η οντολογία Sensus 0 που συµπληρώνει για απλή ταξινοµική προσέγγιση µε 50000 κόµβους που λήφθηκαν από το WordNet. 3.3.2.2 Telltale To Telltale [12] αποτελεί ένα σύστηµα κατηγοριοποίησης εγγράφων βασισµένο στους καταλόγους τους Yahoo. Αυτοί οι κατάλογοι αποτελούν κατηγορίες που προσφέρουν ένα κανονικοποιηµένο και καθολικό τρόπο για αναφορά ή περιγραφή αντικειµένων του πραγµατικού κόσµου και κατ επέκταση σηµασιολογική κατηγοριοποίηση του περιεχοµένου εγγράφων. Οι κατάλογοι του Παγκόσµιου Ιστού όπως το Yahoo! Προσφέρουν µια τεράστια ιεραρχία κατηγοριών που καλύπτουν κάθε πτυχή ανθρώπινης προσπάθειας. Αυτά τα θέµατα µπορούν να χρησιµοποιηθούν σαν περιγραφείς, οµοίως µε τον τρόπο εύρεσης οµοιότητας που χρησιµοποιούν οι βιβλιογράφοι για παράδειγµα. Το Telltale χρησιµοποιεί τη µέθοδο n-grams για να υπολογίσει την οµοιότητα µεταξύ εγγράφων. Κατά τη δηµιουργία του έγιναν πειραµατικές µετρήσεις µε διάφορες περιγραφές για τους καταλόγους του Yahoo! ώστε να κατηγοριοποιηθούν ιστοσελίδες. Τα αποτελέσµατα των πειραµάτων έδειξαν ότι η κατηγοριοποίηση ήταν καλύτερη στην περίπτωση που χρησιµοποιούνταν σύντοµες περιγραφές για τις διάφορες κατηγορίες. Για το σύστηµα αυτό µε βάση τις κατηγορίες των καταλόγων δηµιουργήθηκε µια ταξινοµία οντολογία πάνω στην οποία θα βασιστεί η κατηγοριοποίηση. Κατά την κατηγοριοποίηση γινόταν υπολογισµός των βαρών για κάθε όρο. Το βάρος κάθε όρου υπολογιζόταν ως η διαφορά µεταξύ του µετρήµατος ενός δοσµένου n-gram για ένα έγγραφο, κανονικοποιηµένο στο µέγεθός του, και το κανονικοποιηµένο µέσο όρο του µετρήµατος σε όλα τα έγγραφα για αυτό το n-gram. Αυτό παρέχει το βάρος για κάθε n-gram σε ένα έγγραφο σχετικό µε το µέσο όρο της συλλογής. Η οµοιότητα µεταξύ εγγράφων µετά υπολογίζεται από το συνηµίτονο των δύο διανυσµάτων αναπαράστασης. 3.3.2.3 Ontology-Based Semantic Online Classification of Documents Το σύστηµα [13] αυτό περιγράφει µια µέθοδο κατηγοριοποίησης κειµένων µε στόχο την αποσαφήνιση ερωτηµάτων χρηστών. Οι τεχνικές που εφαρµόζονται βασίζονται σε συνδυασµό τεχνικών δεικτοδότησης και σε τεχνικές βασισµένες σε οντολογίες ανάκτησης πληροφορίας σε ένα αλληλεπιδραστικό σύστηµα ανάκτησης πληροφορίας. Το σύστηµα προτείνει µια προσέγγιση για κατηγοριοποίηση αποτελεσµάτων αναζήτησης αντιστοιχίζοντάς τα σε σηµασιολογικές κλάσεις που ορίζονται από τη λογική ενός ερωτήµατος. Τα κριτήρια που ορίζουν κάθε κλάση ή «λογικό κατάλογο» αντλούνται από τις έννοιες µιας προσδιορισµένης οντολογίας, εδώ το MultiWordNet. Σχολιάζονται κα θε στοιχείο του συνόλου αποτελεσµάτων µε τον λογικό κατάλογο στον οποίο έχει κατηγοριοποιηθεί, ο χρήστης παίρνει πρόσθετη πληροφορία για κάθε αντικείµενο. Ο συγκεκριµένος όρος αποτελέσµατος αποσαφηνίζεται σε αντιστοιχία µε το υποκείµενο έγγραφο και µπορεί έτσι να αποφασιστεί πιο εύκολα αν το έγγραφο είναι σχετικό ή όχι για το συγκεκριµένο ερώτηµα. 3.3.3 Οντολογίες αναφοράς-προφίλ Τα συστήµατα προσωποποίησης του Παγκόσµιου Ιστού που χρησιµοποιούν σηµασιολογία βασίζονται πάντα σε µια οντολογία αναφοράς. Η οντολογία αναφοράς χρησιµοποιείται για κατηγοριοποίηση των επιλογών των χρηστών ώστε να 18

καθοριστεί το προφίλ του και να εξατοµικευτούν οι µελλοντικές επιλογές του βάσει του προφίλ που έχει δηµιουργηθεί για αυτόν. Στην παράγραφο αυτή γίνεται µια αναφορά στις βασικότερες οντολογίες αναφοράς που έχουν χρησιµοποιηθεί σε συστήµατα προσωποποίησης καθώς και κατάλογοι του Παγκόσµιου Ιστού πάνω στους οποίους έχουν βασιστεί οντολογίες ταξινοµίες που περιγράφουν προφίλ. 3.3.3.1 SUMO the Suggested Upper Merged Ontology Η Sumo [14] είναι µια συλλογή από περίπου 1000 καλά ορισµένες έννοιες, διασυνδεδεµένες σε ένα σηµασιολογικό δίκτυο και συνοδευόµενων από ένα σύνολο αξιωµάτων. Οι έννοιες έχουν εύρος από πολύ γενικές, όπως «Ποσότητα», σε πολύ συγκεκριµένες, όπως «Πουλί». Τα αξιώµατα αντανακλούν κυρίως την αντίληψη της κοινής λογικής που αναγνωρίζονται µεταξύ των εννοιών. Η SUMO σχεδιάστηκε ως ένα υπόστρωµα ανεξάρτητο από πεδίο για σχεδίαση οντολογιών πεδίων. Τα αξιώµατα βοηθούν στο να περιοριστούν οι διερµηνείες για τις έννοιες, και να παρέχουν οδηγίες για συστήµατα αυτοµατοποιηµένης αιτιολόγησης που επεξεργάζονται βάσεις γνώσεις που συνάδουν µε την οντολογία SUMO. Ένα παράδειγµα ενός τέτοιου αξιώµατος είναι: «Αν το c είναι στιγµιότυπου της «Καύσης», τότε υπάρχει η θέρµανση h και το ακτινοβόλο φως l έτσι ώστε και το h και το l είναι παράγωγο του c». Αυτό η περίπλοκη, αλλά λογική, πρόταση λέει ότι η διαδικασία της θέρµανσης και η διαδικασία εκποµπής φωτός συνοδεύουν κάθε διαδικασία καύσης. Επιπλέον, αυτό το αξίωµα κωδικοποιείται στο SUMO σε µια επίσηµη λογική γλώσσα. Οι έννοιες στο SUMO οργανώνονται σε µια απλή ιεραρχία που έχει σαν ρίζα την έννοια «Entity», που αναπαριστά την πιο γενική έννοια. Τα δύο πρώτα επίπεδα φαίνονται στην Εικόνα 2. Για παράδειγµα µπορείτε να δείτε ότι οι έννοιες χωρίζονται σε αντικείµενα φυσικής ύπαρξης (Physical), και σε αφηρηµένα, πνευµατικής αναπαράστασης αντικείµενα (Abstract). Τα φυσικά πράγµατα διακρίνονται περαιτέρω σε αντικείµενα και διαδικασίες κοκ. Οι υποκλάσεις της κλάσεις είναι συνήθως αµοιβαία αποκλειόµενες δηλαδή δεν µοιράζονται κοινά στιγµιότυπα. Για παράδειγµα, τίποτα δεν µπορεί να είναι και αφηρηµένο και φυσικό, ούτε και αντικείµενο και διαδικασία. Αυτή η ιδιότητα είναι ορίζεται αποκλειστικά στην SUMO. Παρόλα αυτά, κάποιες κλάσεις µπορούν να έχουν πολλαπλές υπερκλάσεις. Για παράδειγµα, η κλάση Human (άνθρωπος) µπορεί να είναι Υπόκλιση της κλάσης Hominid (ανθρωποειδές - είναι µέλος της κλάσης των ζώων) και της κλάσης CognitiveAgent (µια οντότητα µε την ικανότητα να σκέφτεται λογικά). Ένα από τα µειονεκτήµατα της SUMO είναι η σχετικά µικρή κάλυψή της που δεν της επιτρέπει να είναι αποδοτική για ανοιχτού πεδίου εφαρµογές. Επίσης, έχει έλλειψη µιας σύνδεσης µεταξύ των εννοιών της και των λέξεων της φυσικής γλώσσας. Αυτοί οι περιορισµοί έχουν παρακαµφθεί µερικώς συνδέοντας την οντολογία SUMO µε το λεξικό WordNet. 19

Εικόνα 2 Πρώτα επίπεδα της SUMO οντολογίας 3.3.3.2 WordNet Μια Online λεξικογραφική βάση δεδοµένων Το WordNet είναι µια ελεύθερα διαθέσιµη on-line λεξικογραφική βάση δεδοµένων. Το τµήµα γλωσσολογίας του Πανεπιστηµίου Πρίνσετον τη δηµιούργησε σαν αποτέλεσµα της ψυχογλωσσολογικής έρευνας. Παρόλα αυτά την τελευταία δεκαετία το WordNet αποδείχτηκε πολύ χρήσιµη πηγή για αυτοµατοποιηµένη επεξεργασία της φυσικής γλώσσας. Τεχνικά, το WordNet είναι ένας ηλεκτρονικός θησαυρός, ορίζοντας µεγάλα σύνολα εννοιών λέξεων, διασυνδεόµενα µε σηµασιολογικούς δείκτες. Η λογική δοµή του WordNet φαίνεται στην Εικόνα 3. Εικόνα 3 Η λογική δοµή του WordNet Οι έννοιες λέξεων διασυνδέονται µε φόρµες λέξεων που µπορούν να τις εκφράσουν. Μπορούµε να δούµε στην εικόνα ότι η σχέση µεταξύ φορµών λέξεων και 20

οι έννοιες λέξεων είναι m-n- οι φόρµες λέξεων µπορούν να έχουν πολλές έννοιες, και πολλές φόρµες λέξεων µπορούν να αναφέρονται σε πολλές έννοιες. Το πρώτο φαινόµενο ονοµάζεται πολυσηµία και το δεύτερο συνωνυµία. Η αντιµετώπιση µιας τέτοιας αµφισηµίας της φυσικής γλώσσας είναι η πρόκληση κλειδί στην αυτοµατοποιηµένη επεξεργασία της φυσικής γλώσσας. Κάθε είσοδος λέξεων εννοιών (που καλείται επίσης σύνολο συνωνυµίας, ή synset), συνοδεύεται µε σύντοµους άτυπους ορισµούς (Που καλούνται gloss), και λίστες φορµών λέξεων που µπορούν να αναπαραστήσουν το synset στην προφορική ή στην γραπτή γλώσσα. Τα synsets κρατούνται ξεχωριστά για διαφορετικά µέρη του λόγου: υπάρχουν βάσεις δεδοµένων για ουσιαστικά, ρήµατα, επίθετα και επιρρήµατα. Θα πρέπει να σηµειωθεί ότι οι σηµασιολογικές συσχετίσεις µεταξύ synsets είναι διαφορετικές για διαφορετικά µέρη του λόγου. Για παράδειγµα, για ουσιαστικά µια βασική συσχέτιση µεταξύ synsets είναι µια is-a συσχέτιση, που είναι γνωστή από τη µοντελοποίηση δεδοµένων. Στο WordNet, αυτή η συσχέτιση καλείται υπερωνυµία/υπωνυµία. Μπορεί να φαίνεται µε την πρώτη µατιά ότι τα synsets στο WordNet χτίζουν ένα µεγάλο σηµασιολογικό δίκτυο, όπως ξέρουµε είναι ένα παράδειγµα αναπαράστασης γνώσης της τεχνητής νοηµοσύνης. Παρόλα αυτά, ένας πιο επιµελής έλεγχος αποκαλύπτει ότι οι σηµασιολογικές συσχετίσεις στο WordNet είναι µερικές φορές πολύ ασαφείς και µη λογικές, και δεν µπορούν να χρησιµοποιηθούν για εξαγωγή συµπεράσµατος. Οι συσχετίσεις κωδικοποιούνται από λεξικογράφους, και σηµατοδοτούνταν σαν οµοιότητα που κατανοούν οι άνθρωποι από συσχετίσεις µεταξύ λέξεων εννοιών. Επιπλέον, εξαιτίας του υπερβολικού µεγέθους του σηµασιολογικού δικτύου, η αιτιολογία σχεδιασµού των σηµασιολογικών συσχετίσεων είναι µάλλον λογική, χωρίς να δίνεται έµφαση στην γενικότερη δοµή του συνολικού δικτύου. Θεωρείστε ένα παράδειγµα ενός synset που αντιστοιχεί στη λέξη blues. Το WordNet ορίζει τη λέξη blues σαν «ένα είδος παραδοσιακού τραγουδιού που ξεκίνησε από τους Μαύρους Αµερικανούς στην αρχή του 20ού αιώνα, έχει έναν µελαγχολικό ήχο από επαναλαµβανόµενη χρήση από blues νότες». Η υπερωνυµία φαίνεται στην Εικόνα 4. 21

Εικόνα 4 Η ιεραρχία των υπερωνυµιών των συνόλων λέξεων Μπορεί να φανεί από την εικόνα ότι αυτό το µικρό σηµασιολογικό δίκτυο είναι αρκετά λάθος κατασκευασµένο, εξαιτίας της χαλαρής µετάφρασης των ορισµών των εννοιών. Για παράδειγµα, το Blues είναι και αφηρηµένη έννοια (πνευµατικό, µη υπαρκτό) και αντικείµενο (φυσική έννοια). Οµοίως, η έννοια «folk song» έχει δύο έννοιες: µια έννοια σηµαίνει µια κλάση από τραγούδια που είναι παραδοσιακά, και είναι και ένα είδος της έννοιας «song». Παρόλα αυτά, η έννοια µπορεί επίσης να κατανοηθεί σαν ένα χαρακτηριστικό τραγουδιών, που είναι είδος της κλάσης «music genre». Στην κοινή γλώσσα αυτές οι δύο έννοιες δεν διακρίνονται αποκλειστικά, και έτσι αυτός ο διαχωρισµός δεν διαχειρίζεται στο WordNet. Παρόµοια κατάσταση συµβαίνει µε πολλαπλές υπερωνυµίες της έννοιας «music genre», όπου παραλείπεται η διάκριση µεταξύ µιας διαδικασίας (music), και του ρόλου του (social relation). Φυσικά, υπάρχουν πολλά παρόµοια προβλήµατα που περιπλέκουν την εξερεύνηση του WordNet σαν πηγή για αυτοµατοποιηµένη επεξεργασία της φυσικής γλώσσας. Είναι ενδιαφέρον να ερωτηθεί αν αυτές οι ασυµφωνίες είναι εσωτερικές σε πηγές όπως το WordNet, ή αν µπορούν να αποφευχθούν από περισσότερο προσεκτικό σχεδιασµό. Το πρόβληµα είναι ότι λογικές και γλωσσολογικές αιτιολογίες για οργάνωση εννοιών λέξεων είναι αρκετά διαφορετικές, ειδικά για πολύ γενικές έννοιες, που είναι κοντά στη ρίζα της ιεραρχίας. 22

3.3.4 Συστήµατα Προσωποποίησης Στην παράγραφο αυτή θα γίνει µια αναφορά σε σύγχρονες τεχνικές προσωποποίησης που έχουν προταθεί για τον Παγκόσµιο Ιστό αλλά και για µη δικτυακές εφαρµογές. 3.3.4.1 Quickstep Μια µεθοδολογία προσέγγισης στα συστήµατα προτάσεων αποτελεί ο συνδυασµός συστηµάτων προτάσεων που χρησιµοποιούν συνεργατικές και βασισµένες στο περιεχόµενο τεχνικές και αναπαριστούν τα προφίλ των χρηστών χρησιµοποιώντας όρους οντολογιών. Η προσέγγιση αυτή ακολουθείται από δύο πειραµατικά συστήµατα, το Quickstep και το Foxtrot [15]. Το Quickstep είναι ένα σύστηµα προτάσεων για ένα σύνολο ερευνητών σε ένα επιστηµονικό εργαστήριο, ενώ το Foxtrot είναι µια βάση αναζήτησης και ένα σύστηµα προτάσεων για ένα τµήµα της επιστήµης της πληροφορικής. Στην Εικόνα 5 φαίνεται η γενική δοµή των συστηµάτων προτάσεων βασισµένων σε οντολογίες. Εικόνα 5 Γενική µεθοδολογία Quickstep και Foxtrot Συγκεκριµένα, χρησιµοποιείται ένας web proxy ο οποίος χωρίς ενόχληση στο χρήστη παρακολουθεί και καταγράφει την πλοήγηση του χρήστη, προσθέτοντας νέες επιστηµονικές εργασίες στην κεντρική βάση δεδοµένων καθώς τις εντοπίζουν οι χρήστες. Η βάση δεδοµένων των εργασιών µε αυτό τον τρόπο συµπεριφέρεται σαν µια δεξαµενή γνώσης, διαθέσιµη στους χρήστες µέσω αναζήτησης και προτάσεων. Η βάση δεδοµένων είναι κατηγοριοποιηµένη χρησιµοποιώντας µια οντολογία αναφοράς για επιστηµονικές εργασίες και ένα σύνολο παραδειγµάτων εκπαίδευσης. Η καταγεγραµµένη πλοήγηση και η ανάδραση συσχέτισης που εκµαιεύεται από τους χρήστες χρησιµοποιείται για να υπολογιστούν καθηµερινά τα προφίλ των χρηστών και τα ερευνητικά τους ενδιαφέρονται. Τα προφίλ ενδιαφερόντων αναπαρίστανται σε όρους οντολογίας, επιτρέποντας σε άλλα ενδιαφέροντα να προκύπτουν µέσα από την οντολογία και να µην εξάγονται µόνο από την παρατήρηση της συµπεριφοράς του χρήστη. Τα προφίλ ενδιαφερόντων οπτικοποιούνται ώστε να επιτραπεί η συνεπαγωγή της άµεσης ανάδρασης προφίλ, 23