Μαγδαληνή Π. Ειρηνάκη



Σχετικά έγγραφα
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Τεχνικές Εξόρυξης Δεδομένων

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

Εξόρυξη Γνώσης από εδοµένα (data mining)

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

Εργαλεία ανάπτυξης εφαρμογών internet Ι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας

Εξατομίκευση (Personalization) Τεχνολογίες & Υπηρεσίες (ΙΙ)

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

Σχεδίαση και Ανάπτυξη Ιστότοπων

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών Α.Ε.Ι.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

ήλωση προστασίας δεδοµένων προσωπικού χαρακτήρα της «unitedprint.com Hellas Ε.Π.Ε..»

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

...στις µέρες µας, όσο ποτέ άλλοτε, οι χώρες καταναλώνουν χρόνο και χρήµα στη µέτρηση της απόδοσης του δηµόσιου τοµέα...(oecd)

Liveschool Marketing Services

ΑΠΟΤΙΜΗΣΗ ΤΟΥ ΕΡΓΟΥ ΤΟΥ ΤΜΗΜΑΤΟΣ ΣΤΟΧΟΙ ΓΙΑ ΤΗΝ ΠΕΡΙΟΔΟ ΠΑΡΑΡΤΗΜΑ ΧΙ

Μελέτη του αλγορίθμου ομαδοποίησης k-means σε δεδομένα του παγκόσμιου ιστού

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Σχεδιασµός Ανάπτυξη Οντολογίας

Τεχνολογία Πολυμέσων. Ενότητα 6: Υπερκείμενο - Υπερμέσα. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΟΜΑΔΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΧΡΗΣΤΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

Εφαρμογή Ηλεκτρονικής Διαχείρισης Μετεγγραφών

Social Web: lesson #3

Μέρος Ι: Εγκατάσταση και ιαμόρφωση των MySQL, Apache και PHP

Ενσωματωμένα controls τα οποία προσαρμόζονται και χρησιμοποιούνται σε οποιαδήποτε ιστοσελίδα επιλέγει ο φορέας.

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΙΣΤΟΤΟΠΩΝ

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Αξιολόγηση των Σεμιναρίων εκπαίδευσης των πρωτοετών φοιτητών του Χαροκοπείου Πανεπιστημίου κατά το ακαδημαικό έτος

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Μεταπτυχιακή Διατριβή

Ποια cookies χρησιμοποιούμε στον ιστότοπό μας;

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

Τη φυσική (MAC) διεύθυνση που δίνει ο κατασκευαστής του δικτυακού υλικού στις συσκευές του (π.χ. στις κάρτες δικτύου). Η περιοχή διευθύνσεων που

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Σκοπός του έργου. και η πιλοτική λειτουργία ενός ολοκληρωμένου δικτύου σχολείων

Σεμινάριο Wordpress CMS (Δημιουργία Δυναμικών Ιστοσελίδων)

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

Υπηρεσίες Υποστήριξης, Δικτύωσης, Προδιαγραφών & Πιστοποίησης Ιδρυματικών Αποθετηρίων

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών ΑΕΙ

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Πρότυπα και Τεχνολογίες Semantic Web και Web 2.0 και η εφαρμογή τους στην Ηλεκτρονική Διακυβέρνηση

Δικτυακοί τόποι. Η σχεδίαση ενός δικτυακού τόπου. Δρ. Ματθαίος Α. Πατρινόπουλος

Ευφυής Προγραμματισμός

Πολιτική για τα cookies

Hotel Perrakis Όροι χρήσης

Μεθοδολογία Έρευνας Διάλεξη 10 η ( ) Παρουσίαση Πτυχιακής Εργασίας

Οδηγίες και αρχές Διπλωµατικών Εργασιών (Διατριβών) του Μεταπτυχιακού Προγράµµατος Σπουδών στη Βιοστατιστική

Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ανάκτηση Πληροφορίας

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων


Γενικές Ηλεκτρονικές Υπηρεσίες

Μαθησιακές δραστηριότητες με υπολογιστή

Προγράµµατα σπουδών πληροφορικής στην ανωτάτη εκπαίδευση και χρήση των τεχνολογιών ΤΠΕ ραστηριότητες του τµήµατος Πληροφορικής του ΤΕΙ Αθήνας.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Πως μπορούν (αλλά και γιατί πρέπει) να συνδυάζονται στην εκπαιδευτική διαδικασία;

Μεταπτυχιακή διατριβή

Ποιες Νέες Τεχνολογίες; Εισαγωγή. 1841: Μαυροπίνακας. 1940: Κινούµενη Εικόνα. 1957: Τηλεόραση

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό,

Μεθοδολογία Εκπαιδευτικής Έρευνας

Εισαγωγή στη Σχεδίαση Λογισμικού

Τεχνολογία Ηλεκτρονικού Εμπορίου

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές

Το γεγονός ότι αποτελεί λογισµικό ανοικτού κώδικα το καθιστά αρκετά ευέλικτο σε συνεχείς αλλαγές και βελτιώσεις. Υπάρχει µια πληθώρα χρηστών που το χρ

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Στρατηγικό Σχεδιασµό Πληροφοριακών Συστηµάτων

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ. Σαράντος Καπιδάκης

Βελτιωμένη Εφαρμογή. Νέες δυνατότητες. Νέα Ιστοσελίδα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

Transcript:

Μαγδαληνή Π. Ειρηνάκη ΚΑΙΝΟΤΟΜΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ ΓΙΑ ΕΞΑΤΟΜΙΚΕΥΣΗ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τµήµα Πληροφορικής Απρίλιος 2006

Μαγδαληνή Π. Ειρηνάκη 2006

i ΕΥΧΑΡΙΣΤΙΕΣ «...Κι αν πτωχική την βρεις, η Ιθάκη δεν σε γέλασε. Έτσι σοφός που έγινες, µε τόση πείρα, ήδη θα το κατάλαβες οι Ιθάκες τι σηµαίνουν.» Κωνσταντίνος Π. Καβάφης (1863-1933) Υπάρχουν πολλοί άνθρωποι, χωρίς τη βοήθεια των οποίων αυτή η εργασία θα ήταν αδύνατη. Καταρχήν, ευχαριστώ τον επιβλέποντά µου Μιχάλη Βαζιργιάννη, που πίστεψε στις δυνατότητές µου και πρόσφερε την καθοδήγηση και υποστήριξή του καθ όλη τη διάρκεια των προηγούµενων ετών. Θέλω επίσης να τον ευχαριστήσω γιατί µου έδωσε τη δυνατότητα να συναναστραφώ µε πολλούς αξιόλογους ανθρώπους και να επισκεφτώ ενδιαφέροντες τόπους, στα πλαίσια ερευνητικών προγραµµάτων και συνεδρίων. Επιπλέον ευχαριστώ τα υπόλοιπα µέλη της επταµελούς επιτροπής µου, καθηγήτρια Μάρθα Σιδέρη και καθηγητές Gerhard Weikum, Εµµανουήλ Γιακουµάκη, Εµµανουήλ Γιαννακουδάκη, Ιωάννη Μήλη, και Βασίλη Βασσάλο. Ιδιαίτερα θέλω να ευχαριστήσω τους κατά καιρούς συνεργάτες µου, ξεκινώντας µε τον Ηρακλή Βαρλάµη, ο οποίος µε βοήθησε, µέσα από εποικοδοµητικές συζητήσεις, να κάνω τα πρώτα µου ερευνητικά βήµατα. Επίσης, τους Γιώργο Τσατσαρώνη, ηµήτρη Καπογιάννη και ιδιαιτέρως τους Χάρη Λάµπο και Στράτο Παυλάκη, οι οποίοι, ως προπτυχιακοί φοιτητές τους οποίους είχα τη χαρά να επιβλέπω κατά την εκπόνηση της πτυχιακής τους, προσέφεραν τις προγραµµατιστικές τους ικανότητες, αλλά πολλές φορές και πολύτιµα σχόλια σχετικά µε διάφορα σηµεία της εργασίας αυτής. Τέλος τους Sarabjot S. Anand και Joannis Vlachakis µε τους οποίους είχα τη χαρά να συνεργαστώ στα πλαίσια ενός ευρωπαϊκού προγράµµατος. Ως µέλος της ερευνητικής οµάδας DB-NET, είχα την τύχη να γνωρίσω και να αποκτήσω πολλούς φίλους. Ευχαριστώ τη Μαρία Χαλκίδη, τους Γιάννη Μπατιστάκη, Χρήστο Πατερίτσα, Ευριπίδη Βραχνό, Χριστόφορο Βερβερίδη, Χρήστο ουλκερίδη, Γιώργο Τσατσαρώνη, ηµήτρη Μαυροειδή, την γλυκιά µας γραµµατέα Βίκυ Σαµπάνη, και φυσικά τους καλούς µου φίλους Ηρακλή Βαρλάµη και Στρατή Βαλαβάνη, για το

ii αστείρευτο χιούµορ και την πάντα ευχάριστη ατµόσφαιρα στο εργαστήριο, ακόµα και κατά τη διάρκεια προθεσµιών ή όταν έπρεπε να (ξανα)µετακοµίσουµε. «Φίλος είναι αυτός που πιστεύει σε σένα όταν δεν πιστεύεις πια στον εαυτό σου». Υπήρξαν αρκετές φορές κατά τη διάρκεια του διδακτορικού που σκέφτεσαι να τα παρατήσεις, για διάφορους λόγους. Θέλω να ευχαριστήσω όλους τους φίλους µου, που µου συµπαραστάθηκαν στις καλές αλλά και τις άσχηµες στιγµές, και κυρίως στην Έλενα Αβαταγγέλου, τον Νίκο Καρέλο, την Ματούλα Καλύβεζα, τον αδερφό µου Παύλο Ειρηνάκη και την καλύτερη µου φίλη και «αδερφή», Φωτεινή Γλυκού. Θέλω επίσης να ευχαριστήσω τον θείο µου, καθηγητή Παναγιώτη Βαρελά, ο οποίος συνεχώς µε «προκαλούσε» µε έξυπνους και βασανιστικούς µαθηµατικούς γρίφους, γνωρίζοντάς µου έτσι τον κόσµο της λογικής, των αλγορίθµων και, τελικά, της Πληροφορικής. Ένα µεγάλο ευχαριστώ στον Άλκη Πολυζώτη. Είναι αυτός που µε ενέπνευσε και µε παρακίνησε να ξεκινήσω αυτό το ταξίδι. Όλα αυτά τα χρόνια µου έδωσε πολύτιµες συµβουλές και µου προσέφερε αµέριστη βοήθεια και καθοδήγηση όποτε τη χρειάστηκα. Υπήρξε για µένα µέντορας και πραγµατικός φίλος, και είµαι πολύ ευτυχισµένη που ξεκινάµε ένα νέο «ταξίδι» µαζί. Τέλος, το πιο µεγάλο ευχαριστώ ανήκει στους γονείς µου, Παντελή και Κυριακή Ειρηνάκη, για τη συνεχή και ανιδιοτελή αγάπη, υποστήριξη και ενθάρρυνση που µου δίνουν. Γνωρίζω πως θα έδιναν τα πάντα προκειµένου να κάνω τα όνειρά µου πραγµατικότητα. Σε αυτούς οφείλω αυτό που είµαι σήµερα. Αυτή η διατριβή είναι αφιερωµένη σ αυτούς.

iii ΣΗΜΕΙΩΜΑ ΕΛΛΗΝΙΚΗΣ ΕΚ ΟΣΗΣ Για την ελληνική έκδοση της διατριβής, χρειάστηκε να µεταφράσουµε αρκετούς όρους της Πληροφορικής στα Ελληνικά. Προκειµένου να διευκολύνουµε την κατανόηση του κειµένου, πολλές φορές δίνεται και ο αντίστοιχος αγγλικός όρος σε παρένθεση. Πρέπει επίσης να τονίσουµε ότι, επειδή η έρευνα στην περιοχή της Εξόρυξης Γνώσης από τον Παγκόσµιο Ιστό (Web Mining) και της Εξατοµίκευσης ικτυακών Τόπων (Web Personalization) είναι σχετικά νέα, δεν υπάρχει ακόµα µια ευρέως αποδεκτή ελληνική ορολογία για πολλούς από τους όρους που χρησιµοποιούνται. Σε αυτή τη διατριβή κάναµε µια προσπάθεια να παρέχουµε όσο το δυνατόν αντιπροσωπευτικότερες µεταφράσεις των όρων αυτών, ενώ στο τέλος της διατριβής περιλαµβάνεται και ένα γλωσσάρι που περιέχει τους σηµαντικότερους όρους.

iv ΠΕΡΙΕΧΟΜΕΝΑ ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ... vii ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ... ix ΠΕΡΙΛΗΨΗ... xi 1 Εισαγωγή... 1 1.1 Κίνητρο... 2 1.2 Συµβολή... 7 1.3 Περίγραµµα... 11 2 Ανασκόπηση της Βιβλιογραφίας... 13 2.1 Προ-επεξεργασία εδοµένων Χρήσης... 13 2.2 Εξόρυξη Γνώσης από εδοµένα Χρήσης και Εξατοµίκευση... 17 2.3 Ενσωµάτωση Σηµασιολογικών Χαρακτηριστικών του Κειµένου στη ιαδικασία Εξατοµίκευσης... 18 2.4 Ενσωµάτωση της οµής στη ιαδικασία Εξατοµίκευσης... 20 3 Σηµασιολογική Εξατοµίκευση ικτυακών Τόπων... 23 3.1 Εισαγωγικό Παράδειγµα... 24 3.2 Αρχιτεκτονική του Συστήµατος SEWeP... 29 3.3 Οµοιότητα Όρων Οντολογίας... 31 3.3.2 Μέτρο Οµοιότητας THESUS... 32 3.4 Χαρακτηρισµός Περιεχοµένου... 32 3.4.1 Εξαγωγή Λέξεων-Κλειδιών... 32 3.4.2 Μετάφραση Λέξεων-Κλειδιών... 34 3.4.3 Σηµασιολογικός Χαρακτηρισµός... 37 3.5 ηµιουργία και Εξόρυξη των C-Logs... 38 3.6 Συσταδοποίηση Υπερκειµένων... 39 3.7 Μηχανισµός Παραγωγής Προτάσεων... 40

v 3.7.1 Σηµασιολογικές Προτάσεις... 42 3.7.2 Προτάσεις Βασισµένες σε Κατηγορίες... 42 3.8 Πειραµατική Αξιολόγηση... 44 3.8.1 Μεθοδολογία... 44 3.8.2 Πειραµατικά Αποτελέσµατα... 46 3.9 Πρωτότυπα Συστηµάτων... 51 3.9.1 SEWeP... 51 3.9.2 I-KnowUMine... 55 3.9.3 Αρχειοθέτηση του Ελληνικού Ιστού... 57 3.10 Συµπεράσµατα... 59 4 Ανάλυση Υπερσυνδέσµων και Εξατοµίκευση... 61 4.1 Εισαγωγικό Παράδειγµα... 62 4.2 Προκαταρτικές Έννοιες... 65 4.2.1 Ο Γράφος Πλοήγησης... 65 4.2.2 Μαρκοβιανά Μοντέλα... 68 4.3 UPR (Usage-based PageRank)... 71 4.3.1 PageRank... 72 4.3.2 UPR: Ανάλυση Υπερσυνδέσµων στον Γράφο Επισκέψεων... 74 4.4 Τοπικός UPR (l-upr)... 76 4.4.1 Ο Εξατοµικευµένος Γράφος Πλοήγησης (prng)... 77 4.4.2 Εξατοµικευµένες Προτάσεις βασισµένες στον UPR... 81 4.5 Υβριδικά Πιθανοτικά Μοντέλα για Πρόβλεψη Μονοπατιών... 82 4.5.1 Πρόβλεψη ηµοφιλών Μονοπατιών... 83 4.5.2 Αναθεωρώντας τον Τρόπο Υπολογισµού Αρχικών Πιθανοτήτων... 84 4.6 Πειραµατική Αξιολόγηση... 86 4.6.1 Πειραµατική Αξιολόγηση... 86 4.6.2 Αξιολόγηση των Προτάσεων του l-upr... 89 4.6.3 Αξιολόγηση των Προτάσεων του h-ppm... 93 4.6.4 Σύγκριση l-upr και h-ppm... 99 4.7 Πρωτότυπο Συστήµατος... 100

vi 4.8 Συµπεράσµατα... 104 5 Συµπεράσµατα και Σχέδια για Μελλοντική Εργασία... 106 5.1 Περίληψη ιατριβής... 106 5.2 Συζήτηση... 109 ΑΝΑΦΟΡΕΣ... 113 ΠΑΡΑΡΤΗΜΑ Α... 121 ΠΑΡΑΡΤΗΜΑ B... 123 ΓΛΩΣΣΑΡΙ... 125

vii ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ Εικόνα 1. Η διαδικασία εξατοµίκευσης δικτυακών τόπων... 4 Εικόνα 2. Η αρχιτεκτονική του SEWeP... 29 Εικόνα 3. Η διαδικασία µετάφρασης των λέξεων-κλειδιών... 36 Εικόνα 4. Η διαδικασία σηµασιολογικού χαρακτηρισµού... 38 Εικόνα 5. Η µέθοδος παραγωγής σηµασιολογικών προτάσεων... 42 Εικόνα 6. Η µέθοδος παραγωγής προτάσεων βασισµένων σε κατηγορίες... 43 Εικόνα 7. Πείραµα #1: Αξιολόγηση των συνόλων προτάσεων... 47 Εικόνα 8. Πείραµα #2: Original vs. Hybrid Προτάσεις... 49 Εικόνα 9. Πείραµα #3: Semantic vs. Hybrid Προτάσεις... 50 Εικόνα 10. Πείραµα #4: Category-based vs. Hybrid Προτάσεις... 50 Εικόνα 11. Στιγµιότυπο του SEWeP: Το τµήµα προ-επεξεργασίας αρχείων επισκέψεων54 Εικόνα 12. Στιγµιότυπο του SEWeP: το τµήµα διαχείρισης συνεδριών... 54 Εικόνα 13. Στιγµιότυπο του SEWeP: το τµήµα παραγωγής σηµασιολογικών κανόνων συσχέτισης... 55 Εικόνα 14. Η αρχιτεκτονική του συστήµατος IKUM... 56 Εικόνα 15. Η αρχιτεκτονική του συστήµατος Αρχειοθέτησης του Ελληνικού Ιστού... 58 Εικόνα 16. Παράδειγµα του PageRank... 63 Εικόνα 17. Παράδειγµα του UPR (Usage-based PageRank)... 64 Εικόνα 18. Αλγόριθµος ηµιουργίας του ΓΠ... 67 Εικόνα 19. Γράφος Πλοήγησης... 68 Εικόνα 20. Σύνοψη ΓΠ (Μαρκοβιανή αλυσίδα)... 71 Εικόνα 21. prng για σύνοψη ΓΠ µε Μαρκοβιανή αλυσίδα... 79 Εικόνα 22. prng για σύνοψη ΓΠ µε Μαρκοβιανό µοντέλο 2 ης τάξης... 79 Εικόνα 23. ηµιουργία του υπο-γράφου prng... 80 Εικόνα 24. Υπορουτίνα επέκτασης µονοπατιού... 80 Εικόνα 25. Μέσος όρος των OSim και KSim για τις top-n κατατάξεις του συνόλου msnbc... 91 Εικόνα 26. Μέσος όρος των OSim και KSim για τις top-n κατατάξεις του συνόλου cti.. 92

viii Εικόνα 27. OSim για το σύνολο δεδοµένων msnbc και σύνοψη ΓΠ µε Μαρκοβιανή αλυσίδα... 94 Εικόνα 28. ΚSim για το σύνολο δεδοµένων msnbc και σύνοψη ΓΠ µε Μαρκοβιανή αλυσίδα... 94 Εικόνα 29. OSim για το σύνολο δεδοµένων cti και σύνοψη ΓΠ µε Μαρκοβιανή αλυσίδα... 95 Εικόνα 30. ΚSim για το σύνολο δεδοµένων cti και σύνοψη ΓΠ µε Μαρκοβιανή αλυσίδα... 95 Εικόνα 31. OSim για το σύνολο δεδοµένων msnbc και σύνοψη ΓΠ µε Μαρκοβιανό µοντέλο 2 ης τάξης... 98 Εικόνα 32. ΚSim για το σύνολο δεδοµένων msnbc και σύνοψη ΓΠ µε Μαρκοβιανό µοντέλο 2 ης τάξης... 98 Εικόνα 33. Σύγκριση l-upr και h-ppm, σύνοψη ΓΠ µε Μαρκοβιανή αλυσίδα... 100 Εικόνα 34. Το τµήµα Υπολογισµού Αρχικών Πιθανοτήτων... 103 Εικόνα 35. Το τµήµα Υπολογισµού Πιθανοτήτων των Μονοπατιών... 103 Εικόνα 36. Το τµήµα Πρόβλεψης Μονοπατιών µε τον l-upr... 104

ix ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ Πίνακας 1: Σχετική Βιβλιογραφία... 22 Πίνακας 2. Τα URIs και οι αντίστοιχοι όροι της οντολογίας... 27 Πίνακας 3. Συνεδρίες Χρηστών... 67 Πίνακας 4. Συχνότητα µονοπατιών για τις συνεδρίες του Πίνακα 3... 70 Πίνακας 5. Top-10 Συχνά Μονοπάτια... 123 Πίνακας 6. Top-10 κατάταξη από το σχήµα Start... 124 Πίνακας 7. Top-10 κατάταξη από το σχήµα Total... 124

xi ΠΕΡΙΛΗΨΗ Τα τελευταία χρόνια, ο Παγκόσµιος Ιστός (World Wide Web) έχει αναδειχθεί ως ένα από τα κυριότερα µέσα πληροφόρησης. Παρόλα αυτά, οι χρήστες πολλές φορές δυσκολεύονται να βρουν τις πληροφορίες που αναζητούν, λόγω του µεγάλου όγκου πληροφοριών σε συνδυασµό µε τη δυναµική και ετερογενή φύση του ιστού. Γι αυτόν τον λόγο, πολλοί δικτυακοί τόποι παρέχουν εξατοµικευµένες προτάσεις προς τους χρήστες τους. Οι περισσότερες ερευνητικές προσπάθειες στην περιοχή της εξατοµίκευσης δικτυακών τόπων (web personalization) συνδέονται µε την εξέλιξη της έρευνας στην περιοχή της εξόρυξης γνώσης από τα δεδοµένα χρήσης του ιστού (web usage mining), µε άλλα λόγια την ανακάλυψη και επεξεργασία των προτύπων πλοήγησης (navigational patterns) των επισκεπτών ενός δικτυακού τόπου. Εντούτοις, πολύτιµα δεδοµένα και εννοιολογικά συναφή µε αυτά που τελικά προτείνονται στον χρήστη µπορεί να µη συµπεριληφθούν κατά τη διαδικασία παραγωγής προτάσεων όταν ένα σύστηµα εξατοµίκευσης δικτυακών τόπων βασίζεται µόνο στα δεδοµένα χρήσης του ιστού. Επιπλέον, µε αυτή τη προσέγγιση παραµελούνται συχνά και τα δοµικά χαρακτηριστικά του δικτυακού τόπου. Σε αυτή τη διατριβή, προτείνουµε νέες τεχνικές οι οποίες χρησιµοποιούν τη σηµασιολογία του περιεχοµένου (content semantics) και τα δοµικά χαρακτηριστικά ενός δικτυακού τόπου για να βελτιώσουν την αποτελεσµατικότητα της εξατοµίκευσης του. Στο πρώτο µέρος αυτής της δουλειάς παρουσιάζουµε το SEWeP (SEmantic Web Personalization), ένα σύστηµα εξατοµίκευσης το οποίο ενσωµατώνει τα σηµασιολογικά χαρακτηριστικά του περιεχοµένου, εκφρασµένα µε όρους που ανήκουν σε µια οντολογία, µε τα δεδοµένα χρήσης, ώστε να δηµιουργήσει σηµασιολογικά εµπλουτισµένα πρότυπα πλοήγησης και ως εκ τούτου πιο χρήσιµες προτάσεις (recommendations) για τους χρήστες. Απ όσο γνωρίζουµε, το SEWeP είναι το µόνο σηµασιολογικό σύστηµα εξατοµίκευσης το οποίο µπορεί να χρησιµοποιηθεί από οποιονδήποτε δικτυακό τόπο. Στο δεύτερο µέρος της διατριβής, προτείνουµε µια πρωτότυπη προσέγγιση που στοχεύει στη βελτίωση της ποιότητας των προτάσεων, βασισµένη στην υποκείµενη δοµή του δικτυακού τόπου. Παρουσιάζουµε τον UPR (Usage-based PageRank), έναν αλγόριθµο

xii που ανήκει στην οικογένεια του PageRank, ο οποίος χρησιµοποιεί τα δεδοµένα χρήσης σε συνδυασµό µε τεχνικές ανάλυσης υπερσυνδέσµων (link analysis techniques). Ο αλγόριθµος αυτός εφαρµόζεται σε µια αναπαράσταση των συνεδριών των χρηστών (user sessions) την οποία ονοµάζουµε Γράφο Πλοήγησης (Navigational Graph) προκειµένου να προσδιορίσει την σηµαντικότητα µιας δικτυακής σελίδας. Χρησιµοποιώντας το προτεινόµενο πλαίσιο, αναπτύσσουµε τον l-upr, έναν αλγόριθµο παραγωγής προτάσεων ο οποίος βασίζεται σε µια «τοπική» παραλλαγή του UPR, η οποία εφαρµόζεται στον εξατοµικευµένο υπο-γράφο πλοήγησης κάθε χρήστη. Επιπρόσθετα, ενσωµατώνουµε τον UPR και τις παραλλαγές του σε ένα υβριδικό πιθανοτικό µοντέλο πρόβλεψης, για τον υπολογισµό των αρχικών (prior) πιθανοτήτων επίσκεψης των σελίδων. Μέσα από µια σειρά πειραµάτων, αποδεικνύουµε ότι η προτεινόµενη προσέγγιση έχει ως αποτέλεσµα πιο αντικειµενικές και αντιπροσωπευτικές προβλέψεις σε σχέση µε ήδη υπάρχουσες τεχνικές που βασίζονται µόνο σε δεδοµένα χρήσης.

1 ΚΕΦΑΛΑΙΟ 1 Εισαγωγή Τα τελευταία χρόνια ο Παγκόσµιος Ιστός (World Wide Web) έχει γίνει ο πιο διαδεδοµένος τρόπος επικοινωνίας και διάδοσης της πληροφορίας. Ο ιστός είναι µια πλατφόρµα ανταλλαγής διαφόρων ειδών δεδοµένων, όπως για παράδειγµα ερευνητικών άρθρων και εκπαιδευτικού περιεχοµένου, αλλά και πολυµέσων, λογισµικού ενώ τελευταία πολύ διαδεδοµένα είναι και τα προσωπικά ηµερολόγια (blogs). Ο ιστός µεγαλώνει καθηµερινά κατά περίπου ένα εκατοµµύριο σελίδες, οι οποίες προστίθενται στις εκατοντάδες εκατοµµύρια υπάρχουσες ηλεκτρονικές σελίδες. Λόγω αυτής της απότοµης και χαοτικής ανάπτυξής του, το δίκτυο δεδοµένων που έχει δηµιουργηθεί δεν έχει κάποια συγκεκριµένη οργάνωση και δοµή. Γι αυτόν τον λόγο, πολλοί χρήστες νιώθουν συχνά αποπροσανατολισµένοι µέσα σε αυτόν τον τεράστιο όγκο δεδοµένων που διαρκώς επεκτείνεται. Από την άλλη, η χρήση του ηλεκτρονικού εµπορίου αυξάνεται µε ραγδαίους ρυθµούς, δηµιουργώντας την ανάγκη για ηλεκτρονικές αγορές που ανταποκρίνονται στις ανάγκες των χρηστών. Γι αυτόν το λόγο, σκοπός των περισσότερων δικτυακών τόπων σήµερα είναι η πρόβλεψη των αναγκών των χρηστών/πελατών τους, έτσι ώστε να βελτιωθεί η χρησιµότητα τους, αλλά και να αυξηθεί η εµπιστοσύνη και ικανοποίηση των χρηστών από τις υπηρεσίες τους. Αυτή η διατριβή παρουσιάζει νέες µεθόδους και τεχνικές οι οποίες απευθύνονται στις παραπάνω απαιτήσεις. Τα κίνητρα της έρευνάς µας, αναπτύσσονται λεπτοµερώς στην

2 Ενότητα 1.1. Η συνεισφορά µας σκιαγραφείται στην Ενότητα 1.2, ενώ δίνουµε ένα σύντοµο πλάνο της διατριβής στην Ενότητα 1.3. 1.1 Κίνητρο Φανταστείτε µια δικτυακή πύλη (web portal) η οποία παρέχει πληροφορίες για διάφορα αθλήµατα και ένα χρήστη που πλοηγείται στις σελίδες της. Αναφερόµαστε σε αυτήν την (υποθετική) πύλη µε το όνοµα Sportal, και υποθέτουµε ότι βρίσκεται στο (µη υπαρκτό) δικτυακό τόπο www.thesportal.com. Ο χρήστης αγαπά το χειµερινό σκι και θα ήθελε να επισκεφτεί ένα θέρετρο κοντά σε κάποιο χιονοδροµικό κέντρο για να περάσει τις διακοπές του. Γι αυτόν το λόγο ψάχνει στην πύλη προκειµένου να βρει πληροφορίες σχετικές µε τις διακοπές που προγραµµατίζει, όπως για παράδειγµα ξενοδοχεία κοντά σε χιονοδροµικά, δελτία καιρού/χιονιού ή εξοπλισµό για σκι. Επειδή το Sportal περιέχει πολλές πληροφορίες για όλα τα αθλήµατα, τα δεδοµένα που ψάχνει ο χρήστης δεν υπάγονται απαραίτητα στην ίδια θεµατική ενότητα της πύλης. Παρόλα αυτά, ένα σύστηµα εξατοµίκευσης µπορεί να του προτείνει κάποιες σελίδες, ανάλογα µε τη τρέχουσα πλοήγηση του σε συνδυασµό µε προηγούµενες επισκέψεις χρηστών οι οποίοι έψαχναν για παρόµοιες πληροφορίες (σχετικές µε χειµερινές διακοπές σκι). Ας θεωρήσουµε, για παράδειγµα, ότι πολλοί χρήστες στο παρελθόν είχαν δει κατά την διάρκεια της ίδιας επίσκεψης στην πύλη, τις σελίδες www.thesportal.com/events/ski.html, www.thesportal.com/travel/ski_resorts.html και www.thesportal.com/equipment/ski_boots.html. Αν ο χρήστης επισκεφτεί τις δύο πρώτες, το σύστηµα µπορεί να προτείνει την τρίτη σελίδα, βασισµένο στην υπόθεση ότι οι άνθρωποι µε παρόµοια ενδιαφέροντα παρουσιάζουν την ίδια συµπεριφορά πλοήγησής. Επιπλέον, εφόσον ο χρήστης µας φαίνεται ότι ενδιαφέρεται για σελίδες που σχετίζονται µε τις θεµατικές ενότητες χειµώνας, σκι, και θέρετρα, το σύστηµα µπορεί να προτείνει και άλλες σελίδες σχετικές µε αυτές τις κατηγορίες, όπως για παράδειγµα µια σελίδα για ξενοδοχεία κατάλληλα για χειµερινές διακοπές (www.thesportal.com/travel/winter/hotels.html), ή µια σελίδα µε προσφορές σε εξοπλισµό για σκι (www.thesportal.com/equipment/ski_boot_sale.html). Τέλος, πρέπει να λάβουµε υπ όψιν µας ότι κάποιες από τις σελίδες του Sportal είναι πιο σηµαντικές από

3 τις άλλες, ως προς την επισκεψιµότητά τους από άλλους χρήστες στο παρελθόν ή/και την θέση που κατέχουν στον γράφο του δικτυακού τόπου (web graph). Για παράδειγµα, η πύλη µπορεί να περιέχει µια σελίδα η οποία παρέχει πληροφορίες για τις καιρικές συνθήκες και την κατάσταση του χιονιού σε διάφορα χιονοδροµικά κέντρα (www.thesportal.com/weather/snowreport.html). Μπορούµε να πούµε ότι η σελίδα αυτή είναι σηµαντική, αν πολλοί χρήστες την έχουν επισκεφτεί στο παρελθόν, είτε ακολουθώντας υπερσυνδέσµους (links) από άλλες σελίδες του δικτυακού τόπου, είτε πηγαίνοντας κατευθείαν σε αυτήν, χρησιµοποιώντας, για παράδειγµα, ένα σελιδοδείκτη (bookmark). Επιπρόσθετα, αν το Sportal έχει εγγεγραµµένους χρήστες, και ως εκ τούτου µπορεί να συλλέγει συγκεκριµένες πληροφορίες για τα ενδιαφέροντα και τις προτιµήσεις του καθενός, τότε µπορεί να τις αξιοποιήσει προκειµένου να προτείνει σχετικές σελίδες σε κάθε χρήστη χωριστά. Συνεπώς, ως εξατοµίκευση δικτυακών τόπων (web personalization) (ή εξατοµίκευση του ιστού, ή απλά εξατοµίκευση) µπορούµε να ορίσουµε κάθε ενέργεια η οποία προσαρµόζει τα δεδοµένα ή τις υπηρεσίες που παρέχονται από έναν δικτυακό τόπο προς ένα χρήστη ή µια οµάδα χρηστών, βασισµένη στα δεδοµένα που αφορούν την συµπεριφορά πλοήγησης (navigational behavior) των χρηστών, όπως καταγράφεται στα αρχεία του δικτυακού τόπου (web logs), µε άλλα λόγια την χρήση (usage) του. Αυτή η πληροφορία συχνά συνδυάζεται και µε δεδοµένα που αφορούν το περιεχόµενο (content) και τη δοµή (structure) του δικτυακού τόπου, καθώς επίσης και τις προτιµήσεις και τα ενδιαφέροντα του χρήστη, εάν αυτά είναι διαθέσιµα. Η διαδικασία εξατοµίκευσης ενός δικτυακού τόπου παρουσιάζεται στην Εικόνα 1. Το σύστηµα προσαρµόζει το περιεχόµενο του δικτυακού τόπου στις ανάγκες του κάθε χρήστη, χρησιµοποιώντας µία, ή ένα συνδυασµό από τις παραπάνω πηγές δεδοµένων. Η διαδικασία εξατοµίκευσης µπορεί να έχει ως αποτέλεσµα την δυναµική παραγωγή προτάσεων (recommendations), την δηµιουργία ευρετηρίων (index pages), την ανάδειξη (highlighting) ήδη υπάρχουσων υπερσυνδέσµων, την δηµιουργία εστιασµένων (targeted) διαφηµίσεων ή emails, κτλ. Σε αυτή τη διατριβή επικεντρώνουµε το ενδιαφέρον µας σε συστήµατα εξατοµίκευσης τα οποία έχουν ως σκοπό την δηµιουργία εξατοµικευµένων προτάσεων (personalized recommendations) προς τους επισκέπτες ενός δικτυακού τόπου. Επιπλέον, οι αλγόριθµοι

4 που προτείνουµε είναι γενικής χρήσης και µπορούν να εφαρµοσθούν σε οποιοδήποτε δικτυακό τόπο, και έτσι θεωρούµε ότι δεν έχουµε εκ των προτέρων ρητές πληροφορίες σχετικά µε τα προφίλ των χρηστών, όπως είναι οι βαθµολογίες (ratings) ή τα δηµογραφικά στοιχεία. Εικόνα 1. Η διαδικασία εξατοµίκευσης δικτυακών τόπων Υπάρχουν αρκετές εργασίες που ασχολούνται µε το πρόβληµα της παροχής προτάσεων στους χρήστες ενός δικτυακού τόπου. Οι περισσότερες ερευνητικές προσπάθειες στον τοµέα της εξατοµίκευσης δικτυακών τόπων είναι απόρροια εκτενούς έρευνας στον τοµέα της εξόρυξης γνώσης από δεδοµένα χρήσης (web usage mining). Γι αυτόν το λόγο τα περισσότερα προτεινόµενα συστήµατα λαµβάνουν υπ όψιν τους µόνο την συµπεριφορά πλοήγησης των (εγγεγραµµένων ή µη) επισκεπτών του δικτυακού τόπου προκειµένου να παράγουν προτάσεις [ADW02, AP+04, BS04, HEK03, JF+97, KS04, MD+00a, MPG03, MPT99, NM02, NP03, NP04, SK+00, SK+01]. Ωστόσο, η εξατοµίκευση που βασίζεται αποκλειστικά στα δεδοµένα χρήσης, παρουσιάζει κάποιες ελλείψεις, όταν για παράδειγµα δεν υπάρχουν αρκετά δεδοµένα για να εξαχθούν πρότυπα πλοήγησης σχετικά µε ορισµένες ενέργειες, ή όταν το περιεχόµενο του δικτυακού τόπου ανανεώνεται ή αλλάζει, και έτσι οι νέες σελίδες δεν περιλαµβάνονται στα αρχεία επισκέψεων του (web logs), και ως εκ τούτου στις παραγόµενες προτάσεις. Επιπρόσθετα,

5 λαµβάνοντας υπ όψιν µας τα χρονικά (temporal) χαρακτηριστικά (ως προς την συµπεριφορά πλοήγησης) του Παγκοσµίου Ιστού, καταλαβαίνουµε ότι αυτά τα συστήµατα είναι πολύ ευάλωτα στα δεδοµένα εκπαίδευσης (training data) που χρησιµοποιούνται για να κατασκευάσουν το µοντέλο πρόβλεψης. Ως εκ τούτου, υπάρχει ένας µεγάλος αριθµός ερευνητικών εργασιών οι οποίες προτείνουν αρχιτεκτονικές που ενσωµατώνουν και άλλες πηγές δεδοµένων στην διαδικασία εξατοµίκευσης, όπως το περιεχόµενο [AG03, DM02, EGP02, GKG05, JZM04b, JZM05, MD+00b, ML+04, MSR04, OB+03, PE00] ή τη δοµή [BL06, HLC05, NM03, ZHH02b] του δικτυακού τόπου, ώστε να την βελτιώσουν. Όπως έχουµε ήδη υπονοήσει, η πλοήγηση των χρηστών είναι σε µεγάλο βαθµό εξαρτώµενη από την σηµασιολογία του περιεχοµένου. Με άλλα λόγια, κατά την επίσκεψή του, ο χρήστης συνήθως προσπαθεί να βρει πληροφορίες σχετικές µε ένα συγκεκριµένο αντικείµενο. Γι αυτόν το λόγο πιστεύουµε ότι η υποκείµενη σηµασιολογία (semantics) του περιεχοµένου πρέπει να παίζει καίριο ρόλο στην διαδικασία εξατοµίκευσης. Η διαδικασία χαρακτηρισµού του περιεχοµένου ενός δικτυακού τόπου περιλαµβάνει την εξαγωγή χαρακτηριστικών (features) από τις σελίδες του. Συνήθως αυτά τα χαρακτηριστικά είναι λέξεις-κλειδιά (keywords) τα οποία στην συνέχεια χρησιµοποιούνται για την ανάκτηση παρόµοια χαρακτηρισµένου περιεχοµένου. Στο παρελθόν έχουν προταθεί αρκετές µέθοδοι για την εξαγωγή λέξεων-κλειδιών που χαρακτηρίζουν τις δικτυακές σελίδες [BP98, CD+99, HG+02]. Η οµοιότητα µεταξύ των σελίδων βασίζεται συνήθως στο ακριβές ταίριασµα (exact/binary matching) αυτών των όρων. Όµως, µε αυτόν τον τρόπο, ταιριάζονται µεταξύ τους µόνο τα κείµενα που έχουν ακριβώς τα ίδια χαρακτηριστικά/λέξεις-κλειδιά, ενώ δεν λαµβάνεται καθόλου υπ όψιν η σηµασιολογική οµοιότητα µεταξύ τους. Η ανάγκη για ένα πιο αφηρηµένο τρόπο αναπαράστασης ο οποίος θα επιτρέπει µια οµοιόµορφη αλλά και πιο ευέλικτη διαδικασία αντιστοίχησης σελίδων, επέβαλε την χρήση δοµών του Σηµασιολογικού Ιστού (Semantic Web), όπως οι οντολογίες 1 [BHS02, HN+03]. Αντιστοιχώντας τις λέξεις-κλειδιά στους 1 Σε αυτή την εργασία επικεντρώνουµε το ενδιαφέρον µας στο ιεραρχικό κοµµάτι µιας οντολογίας. Γι αυτόν τον λόγο, από εδώ και στο εξής θα χρησιµοποιούµε εναλλακτικά τους όρους ιεραρχία εννοιών (concept hierarchy), ταξονοµία (taxonomy) και οντολογία.

6 όρους µιας οντολογίας (ή ιεραρχίας εννοιών) ξεπερνάµε το πρόβληµα του ακριβούς ταιριάσµατος. Αυτό επιτυγχάνεται µε την χρήση ιεραρχικών συσχετίσεων ή/και σηµασιολογικών οµοιοτήτων (semantic similarities) µεταξύ των όρων της οντολογίας, και ως εκ τούτου, και των υπερκειµένων τα οποία χαρακτηρίζουν. Τέλος, θα πρέπει να λάβουµε υπ όψιν µας ότι ο Παγκόσµιος Ιστός δεν είναι απλά µια συλλογή υπερκειµένων τα οποία διαβάζουν οι χρήστες. Ο ιστός είναι ουσιαστικά ένας κατευθυνόµενος γράφος που περιέχει µια πληθώρα υπερσυνδέσµων οι οποίοι συνδέουν τις σελίδες του. Τόσο η δοµή του γράφου του ιστού, όσο και η υποκείµενη σηµασιολογία των σελίδων και των υπερσυνδέσµων, είναι σηµαντικοί και καθοριστικοί παράγοντες κατά την διαδικασία πλοήγησης των χρηστών. Παρακάτω συζητάµε περιληπτικά τις πιο σηµαντικές ερευνητικές προσπάθειες 2 που βασίζονται στις προαναφερθείσες παρατηρήσεις, ενώ στο Κεφάλαιο 2 δίνουµε µια πιο λεπτοµερή ανασκόπηση της σχετικής βιβλιογραφίας. Υπάρχουν αρκετές ερευνητικές εργασίες που έχουν προτείνει την αναπαράσταση της συµπεριφοράς πλοήγησης των χρηστών µε χρήση όρων οντολογίας ενσωµατώνοντας αυτά τα δεδοµένα σε δικτυακούς τόπους του Σηµασιολογικού Ιστού (Semantic Web sites) [OB+03], συστήµατα παραγωγής προτάσεων βασισµένα σε Μαρκοβιανά µοντέλα [AG03], ή συστήµατα συνεργατικού φιλτραρίσµατος (collaborative filtering systems) [DM02]. Όλες οι παραπάνω προσεγγίσεις βασίζονται στην ίδια ιδέα, της ενίσχυσης της διαδικασίας εξατοµίκευσης µε σηµασιολογικά χαρακτηριστικά του υπερκειµένου, εκφρασµένα µε τη βοήθεια όρων µιας οντολογίας. Τα χαρακτηριστικά του περιεχοµένου του δικτυακού τόπου αντιστοιχίζονται σε όρους που ανήκουν σε µια οντολογία και αυτή η αφαίρεση επιτρέπει τις γενικεύσεις/εξειδικεύσεις των εξαγόµενων προτύπων ή/και των προφίλ των χρηστών. Εντούτοις, σε όλα τα προτεινόµενα µοντέλα, η διαδικασία αντιστοίχησης σε όρους οντολογίας γίνεται είτε χειρωνακτικά είτε ηµι-αυτόµατα (απαιτώντας το χειρωνακτικό ονοµατισµό (labeling) των δεδοµένων εκπαίδευσης). Επιπλέον, σε ό,τι αφορά στη διαδικασία χαρακτηρισµού του περιεχοµένου, τα χαρακτηριστικά εξάγονται µόνο από την ίδια την σελίδα, αγνοώντας σηµασιολογικά 2 Σε αυτό το σηµείο, επικεντρωνόµαστε µόνο στις ερευνητικές προσπάθειες που εµφανίστηκαν πριν, ή παράλληλα µε τη δική µας δουλειά.

7 χαρακτηριστικά τα οποία προκύπτουν από το δίκτυο υπερσυνδέσµων του ιστού [BP98, CD+98]. Κάποιες προσεγγίσεις βασίζονται είτε στα συνεργατικά συστήµατα φιλτραρίσµατος, τα οποία θεωρούν ότι υπάρχουν διαθέσιµες βαθµολογίες από τους χρήστες (user ratings), είτε σε δικτυακούς τόπους του Σηµασιολογικού Ιστού, θεωρώντας ότι το περιεχόµενο είναι εκ των προτέρων χαρακτηρισµένο σηµασιολογικά. Τέλος, καµία από τις παραπάνω προσεγγίσεις δεν εκµεταλλεύεται πλήρως τις υποκείµενες σηµασιολογικές οµοιότητες των όρων που ανήκουν στην οντολογία, παρά µόνο τις προφανείς ιεραρχικές σχέσεις is-a ή parent-child. Τα χαρακτηριστικά συνδεσιµότητας του γράφου του ιστού έχουν χρησιµοποιηθεί εκτενώς για την εξατοµίκευση των αποτελεσµάτων αναζήτησης στον ιστό (web search) [ANM04, H02, RD02, WC+02]. Παρόλα αυτά, υπάρχουν ελάχιστες προσεγγίσεις που τα αξιοποιούν προκειµένου να ενισχύσουν τη διαδικασία εξατοµίκευσης ενός δικτυακού τόπου, είτε κάνοντας χρήση του βαθµού συνδεσιµότητας ως δείκτη για την εναλλαγή µεταξύ διάφορων µοντέλων παραγωγής προτάσεων [NM03], ή χρησιµοποιώντας ανάλυση δικτύων αναφορών (citation network analysis) για την συσταδοποίηση (clustering) σχετιζόµενων σελίδων σε ένα σύστηµα παραγωγής προτάσεων βασισµένο στα Μαρκοβιανά µοντέλα [ZHH02b]. Όµως, κανένα από τα παραπάνω συστήµατα δεν αξιοποιεί την έννοια της σηµαντικότητας µιας σελίδας στον γράφο του ιστού, ενσωµατώνοντας τεχνικές ανάλυσης υπερσυνδέσµων (link analysis techniques) στην διαδικασία εξατοµίκευσης του δικτυακού τόπου. 1.2 Συµβολή Η κύρια συµβολή αυτής της διατριβής είναι ένα σύνολο από πρωτοποριακές τεχνικές και αλγορίθµους οι οποίοι έχουν ως σκοπό την βελτίωση της συνολικής αποτελεσµατικότητας της διαδικασίας εξατοµίκευσης ενός δικτυακού τόπου. Για να το πετύχουµε, προτείνουµε τον συνδυασµό των προτύπων πλοήγησης του δικτυακού τόπου µε το περιεχόµενο και τη δοµή του. Στο πρώτο µέρος της διατριβής παρουσιάζουµε ένα σηµασιολογικό σύστηµα εξατοµίκευσης (semantic web personalization system), το οποίο ονοµάζεται SEWeP και ενσωµατώνει τα δεδοµένα χρήσης µε σηµασιολογικά χαρακτηριστικά του περιεχοµένου ώστε να δηµιουργήσει πρότυπα πλοήγησης τα οποία

8 να είναι ενισχυµένα µε σηµασιολογία και να παράγει χρήσιµες προτάσεις. Όµοια µε προηγούµενες ερευνητικές προσεγγίσεις, το πλαίσιο εξατοµίκευσης που προτείνουµε χρησιµοποιεί τους όρους µιας οντολογίας για να χαρακτηρίσει το περιεχόµενο του δικτυακού τόπου και την πλοήγηση των επισκεπτών. Αυτό στο οποίο διαφέρει η εργασία µας από τις προηγούµενες είναι ότι το SEWeP είναι το µόνο πλαίσιο εξατοµίκευσης δικτυακών τόπων το οποίο χρησιµοποιεί πλήρως αυτοµατοποιηµένες τεχνικές αντιστοίχησης των λέξεων-κλειδιών µε όρους της οντολογίας, ενώ ταυτόχρονα εκµεταλλεύεται και τις σηµασιολογικές οµοιότητες µεταξύ αυτών των όρων. Εκτός από τους πρωτότυπους αλγόριθµους παραγωγής προτάσεων που προτείνονται σε αυτό το πλαίσιο, δίνουµε βάρος και σε µια υβριδική µέθοδο, που βασίζεται στη δοµή του υπερκειµένου για να χαρακτηρίσει το περιεχόµενο του δικτυακού τόπου. Απ ότι γνωρίζουµε, το SEWeP είναι το µόνο σηµασιολογικό σύστηµα εξατοµίκευσης το οποίο µπορεί να εφαρµοστεί σε οποιονδήποτε δικτυακό τόπο, χρησιµοποιώντας µόνο τα αρχεία επισκέψεών του (web usage logs) και µία σχετική οντολογία (domain-specific ontology). Οι βασικές συνεισφορές µας σε αυτό το πλαίσιο είναι: Μια µεθοδολογία για τον σηµασιολογικό χαρακτηρισµό του περιεχοµένου του δικτυακού τόπου µε την χρήση όρων οντολογίας. Η εξαγωγή χαρακτηριστικών γίνεται µε τον συνδυασµό διάφορων τεχνικών εξόρυξης πληροφορίας (Information Retrieval) οι οποίες αξιοποιούν τόσο το περιεχόµενο, όσο και τα συνδετικά/δοµικά χαρακτηριστικά των υπερκειµένων. Η αντιστοίχηση αυτών των χαρακτηριστικών σε όρους οντολογίας είναι µια πλήρως αυτοµατοποιηµένη διαδικασία που γίνεται µε την χρήση κατάλληλων µέτρων οµοιότητας και ενός θησαυρού. Αυτή η µέθοδος απόδοσης χαρακτηριστικών στο περιεχόµενο επιτρέπει τη περαιτέρω επεξεργασία των δεδοµένων (συσταδοποίηση, εξόρυξη κανόνων συσχέτισης, κτλ) βάσει των σηµασιολογικών οµοιοτήτων µεταξύ των υπερκειµένων. Ένας αλγόριθµος για την επεξεργασία πολύγλωσσου υπερκειµένου. Όλα τα υπερκείµενα, ανεξάρτητα µε την γλώσσα στην οποία είναι γραµµένα, πρέπει να χαρακτηριστούν από ένα σύνολο όρων που ανήκει σε µια οντολογία. Έτσι, πριν την διαδικασία αντιστοίχησης πρέπει να παρεµβληθεί ένα ενδιάµεσο βήµα, κατά

9 το οποίο όλες οι λέξεις-κλειδιά του υπερκειµένου θα µεταφρασθούν σε µια κοινή γλώσσα. Σε αυτή τη διατριβή προτείνουµε έναν αυτοµατοποιηµένο αλγόριθµο µετάφρασης των λέξεων-κλειδιών ενός υπερκειµένου, που βασίζεται στο θεµατικό περιεχόµενο (context) του. ύο αλγόριθµοι παραγωγής προτάσεων οι οποίοι ενσωµατώνουν τα σηµασιολογικά χαρακτηριστικά του περιεχοµένου µε την συµπεριφορά πλοήγησης των χρηστών του δικτυακού τόπου. Οι σελίδες του δικτυακού τόπου χαρακτηρίζονται από ένα σύνολο όρων που ανήκουν σε µια, σχετική µε το περιεχόµενο του, οντολογία. Αυτός ο οµοιόµορφος τρόπος χαρακτηρισµού επιτρέπει την κατηγοριοποίηση των σελίδων σε σηµασιολογικά συναφείς συστάδες (clusters), αλλά και την ενίσχυση των αρχείων επισκέψεων του δικτυακού τόπου µε σηµασιολογικά χαρακτηριστικά. Αυτές οι δύο εµπλουτισµένες πηγές δεδοµένων χρησιµοποιούνται στην συνέχεια από τις προτεινόµενες µεθόδους ώστε να παραχθούν προτάσεις προς τον τελικό χρήστη, οι οποίες είναι σηµασιολογικά σχετικές µε την τρέχουσα συµπεριφορά πλοήγησής του. Η πρώτη µέθοδος παράγει προτάσεις επεκτείνοντας τις αρχικές προτάσεις χρησιµοποιώντας την πιο κοντινή (σηµασιολογικά) συστάδα υπερκειµένων. Η δεύτερη µέθοδος παράγει ένα νέο είδος προτάσεων, βασισµένων σε κατηγορίες (category-based recommendations). Χρησιµοποιώντας τα σηµασιολογικά εµπλουτισµένα αρχεία επισκέψεων (τα οποία ονοµάζουµε C- logs) δηµιουργούµε κανόνες συσχέτισης κατηγοριών και στη συνέχεια επεκτείνουµε το σύνολο προτάσεων βάσει της πιο κοντινής σηµασιολογικά συστάδας υπερκειµένων. Ένα εκτεταµένο σύνολο πειραµάτων µε πραγµατικούς χρήστες (blind tests) τα οποία αποδεικνύουν την αποδοτικότητα των προτεινόµενων µεθόδων και υποστηρίζουν την αρχική µας διαίσθηση, ότι τα σηµασιολογικά χαρακτηριστικά του περιεχοµένου ενισχύουν την διαδικασία εξατοµίκευσης. Στο δεύτερο µέρος της διατριβής, περιλαµβάνουµε στη διαδικασία εξατοµίκευσης την έννοια της µεταφοράς αυθεντίας (authority transfer), όπως αυτή ορίζεται στο δηµοφιλές αλγόριθµο ανάλυσης υπερσυνδέσµων (link analysis), PageRank [BP98].