ΕΞΑΤΟΜΙΚΕΥΜΕΝΗ ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΧΡΗΣΗ ΣΗΜΑΣΙΟΛΟΓΙΚΩΝ ΔΙΚΤΥΩΝ. Νικόλαος Α. Ζώτος ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ

Σχετικά έγγραφα
ΔΙΑΔΡΑΣΤΙΚΗ ΕΞΑΤΟΜΙΚΕΥΣΗ ΙΣΤΟΣΕΛΙΔΩΝ. Παρασκευή Δ. Τζέκου ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Σεπτέμβριος 1998 Σεπτέμβριος 2004 Δίπλωμα Μηχανικού Η/Υ & Πληροφορικής. του Παγκόσμιου ιστού προσαρμοσμένες στις ιδιαιτερότητες της Νέας Ελληνικής.

Εννοιολογική Ομοιογένεια

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Περιγραφή του εκπαιδευτικού/ μαθησιακού υλικού (Teaching plan)

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΑΓΡΟΝΟΜΩΝ ΚΑΙ ΤΟΠΟΓΡΑΦΩΝ ΜΗΧΑΝΙΚΩΝ. Σπύρος Τσιπίδης. Περίληψη διατριβής

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

Αναφορά εργασιών για το τρίμηνο Μάρτιος 2013 Μάιος 2013 Όνομα : Παπαχριστόπουλος Λεωνίδας

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Εκλογή Καθηγητή στο Τμήμα Αρχειονομίας, Βιβλιοθηκονομίας και Μουσειολογίας, στο γνωστικό αντικείμενο «Πληροφοριακά Συστήματα Βιβλιοθηκών και Αρχείων».

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

Τεχνικές Εξόρυξης Δεδομένων

Οδηγός. Σχολιασμού. Διπλωματικής Εργασίας

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΜΕ ΕΠΕΑΕΚ: ΑΝΑΜΟΡΦΩΣΗ ΤΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΤΟΥ ΤΕΦΑΑ ΠΘ ΑΥΤΕΠΙΣΤΑΣΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΦΥΣΙΚΗΣ ΑΓΩΓΗΣ & ΑΘΛΗΤΙΣΜΟΥ

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

International Conference Quality and Equity in Education: Theories, Applications and Potentials

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ανάκτηση Πληροφορίας

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

SilverPlatter WebSPIRS 4.1.

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 1 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

EBSCOhost Research Databases

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)

Ιστοεξερευνήσεις Στοχοθετημένη διερεύνηση στο Διαδίκτυο. Τ. Α. Μικρόπουλος

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03


Παραδοτέο Π.1.3. Μηχανισμοί δεικτοδότησης μη-παραδοσιακών δεδομένων

Εννοιολογική Διεύρυνση Ερωτημάτων με τη Χρήση Θησαυρού: μια εμπειρική μελέτη

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου Σχολιασμός ερευνητικής πρότασης

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

ΠΛΗΡΟΦΟΡΗΣΗ ΚΑΙ ΔΗΜΙΟΥΡΓΙΚΟΤΗΤΑ 21

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας

Ηλεκτρονικός Κατάλογος της Βιβλιοθήκης (OPAC)

Βελτιωμένη Εφαρμογή. Νέες δυνατότητες. Νέα Ιστοσελίδα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Μεθοδολογία ερευνητικής εργασίας

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Αυτόµατη Επιλογή Σηµασιολογικά Συγγενών Όρων για την Επαναδιατύπωση των Ερωτηµάτων σε Μηχανές Αναζήτησης Πληροφορίας. Ελευθέριος Ι.

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Γεράσιμος Παπαναστασάτος, Ph.D. Αθήνα, Σεπτέμβριος 2016

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Κεφάλαιο 4: Λογισμικό Συστήματος

Στόχος της ψυχολογικής έρευνας:

ΟΔΗΓΟΣ ΕΚΠΟΝΗΣΗΣ ΕΡΓΑΣΙΑΣ

Springer Book Series, Springer Science + Business Media

Συγγραφή Τεχνικών Κειμένων

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Έρευνα και Συγγραφή

Έκδοσης 2005 Π. Κεντερλής

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Τεχνολογίες Κοινωνικής Δικτύωσης στην Εκπαίδευση

Ανασκόπηση Βιβλιογραφίας. Δρ. Ιωάννης Γκιόσος

DeSqual Ενότητες κατάρτισης 1. Ενδυνάμωση των εξυπηρετούμενων

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Βασισμένης σε Περιπτώσεις (Case Based Reasoning): Το σύστημα PAS (Property Appraisal System) ΣΤΑΥΡΟΥΛΑ ΠΡΑΝΤΣΟΥΔΗ

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Οδηγός Εγγραφής και Χρήσης Εφαρμογής. Καθηγητή/Ερευνητή Ημεδαπής

Στρατηγική έρευνας. Στρατηγική έρευνας. Η ερευνητική διαδικασία στη βιβλιοθήκη αρχίζει από τη στιγμή που χρειάζεται

Ανίχνευση απαιτήσεων χρηστών για υπηρεσίες ψηφιακών βιβλιοθηκών μέσα από ποιοτικές μεθοδολογικές προσεγγίσεις

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

«ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ ΚΑΙ ΑΝΑΛΥΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΗΛΕΚΤΡΟΝΙΚΗΣ ΠΡΟΒΟΛΗΣ ΣΤΗΝ ΚΥΠΡΙΑΚΗ ΑΓΟΡΑ»

Μεθοδολογία Έρευνας Διάλεξη 1 η : Εισαγωγή στη Μεθοδολογία Έρευνας

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ ΠΕΡΙΛΗΨΗ. Εισαγωγή

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

Σχεδιασµός Ανάπτυξη Οντολογίας

Ενσωματωμένα controls τα οποία προσαρμόζονται και χρησιμοποιούνται σε οποιαδήποτε ιστοσελίδα επιλέγει ο φορέας.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΣΧΟΛΗ ΝΑΥΤΙΛΙΑΣ & ΒΙΟΜΗΧΑΝΙΑΣ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ στη «ΝΑΥΤΙΛΙΑ»

ΒΑΣΙΚΕΣ ΑΡΧΕΣ ΓΙΑ ΤΗ ΜΑΘΗΣΗ ΚΑΙ ΤΗ ΔΙΔΑΣΚΑΛΙΑ ΣΤΗΝ ΠΡΟΣΧΟΛΙΚΗ ΕΚΠΑΙΔΕΥΣΗ

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

Τμήμα Πληροφορικής. Σχολή Τεχνολογικών Εφαρμογών. Αλεξάνδρειο Τεχνολογικό Εκπαιδευτικό Ίδρυμα Θεσσαλονίκης

Κεφάλαιο 5 ΔΙΑΣΦΑΛΙΣΗ ΠΟΙΟΤΗΤΑΣ ΚΑΙ ΔΙΑΦΑΝΕΙΑ

Social Web: lesson #4

Η χρήση του MOODLE από την οπτική γωνία του ιαχειριστή

CRM για Εκπαιδευτικούς Φορείς

Πρόγραμμα Μεταπτυχιακών Σπουδών

Ανάκτηση Πληροφορίας

Επιστήμη της Πληροφορικής. Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

Σχεδιασμός και Διαχείριση Λογισμικού

Μάθημα: Μεθοδολογία παρουσίασης δεδομένων και συγγραφής της διατριβής

ΜΟ.ΔΙ.Π.Α.Β. Κεντρική Υποδομή Επιχειρησιακής Ευφυΐας για Βιβλιοθήκες και Υπηρεσίες Πληροφόρησης

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Β.δ Επιλογή των κατάλληλων εμπειρικών ερευνητικών μεθόδων

Βασικά ζητήματα μιας βάσης δεδομένων

Ανάκτηση πολυμεσικού περιεχομένου

Transcript:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΞΑΤΟΜΙΚΕΥΜΕΝΗ ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΧΡΗΣΗ ΣΗΜΑΣΙΟΛΟΓΙΚΩΝ ΔΙΚΤΥΩΝ Νικόλαος Α. Ζώτος ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ Οκτώβριος 2007

2

PATRAS UNIVERCITY SCHOOL OF ENGINEERING COMPUTER ENGINEERING AND INFORMATICS DEPARTMENT PERSONALIZED WEB SEARCH THROUGH THE USE OF SEMANTIC NETWORKS Nikolaos A. Zotos MASTER OF SCIENCE October 2007 3

4

Εξατομικευμένη Αναζήτηση Πληροφορίας με Χρήση Σημασιολογικών Δικτύων Νικόλαος Α. Ζώτος Μεταπτυχιακό Δίπλωμα Ειδίκευσης Επιβλέπων: Καθηγητής Δημήτριος Ν. Χριστοδουλάκης, Τμήμα Μηχανικών Η/Υ και Πληροφορικής, Πανεπιστήμιο Πατρών Συνεπιβλέπουσα : Στάμου Σοφία, Μεταδιδακτορικός στο Τμήμα Μηχανικών Η/Υ και Πληροφορικής, Πανεπιστήμιο Πατρών Στην Τριμελή Συμβουλευτική Επιτροπή, εκτός από τον επιβλέποντα καθηγητή, συμμετείχαν οι: Αναπληρωτής Καθηγητής Μπούρας Χρήστος, Τμήμα Μηχανικών Η/Υ και Πληροφορικής, Πανεπιστήμιο Πατρών Καθηγητής Παυλίδης Γεώργιος, Τμήμα Διοίκησης Επιχειρήσεων, Πανεπιστήμιο Πατρών 5

6

Αφιέρωση Στο δάσκαλο, τη νηπιαγωγό, τη γιατρίνα και τον αστυνόμο 7

8

ΕΥΧΑΡΙΣΤΙΕΣ Καταρχάς θα ήθελα να ευχαριστήσω τον καθηγητή μου και επιβλέποντα της παρούσας εργασίας, τον καθηγητή Δημήτρη Χριστοδουλάκη που μου έδωσε την δυνατότητα να πραγματοποιήσω τις μεταπτυχιακές μου σπουδές στο εργαστήριο Βάσεων Δεδομένων και μου παρείχε όλη την απαραίτητη υποστήριξη, σε επιστημονικές γνώσεις και τεχνολογικό εξοπλισμό για την ολοκλήρωση των σπουδών μου. Οφείλω επίσης να ευχαριστήσω τα υπόλοιπα μέλη της τριμελούς συμβουλευτικής επιτροπής, τον αναπληρωτή καθηγητή Χρήστο Μπούρα και τον καθηγητή Γεώργιο Παυλίδη για τη συνεισφορά τους στην ολοκλήρωση της εργασίας αυτής. Θα ήθελα επίσης να ευχαριστήσω την μεταδιδακτορική ερευνήτρια του εργαστηρίου Βάσεων Δεδομένων, Στάμου Σοφία για την πολύτιμη βοήθειά και υποστήριξη που μου προσέφερε κατά την διάρκεια εκπόνησης της εργασίας αυτής. Η Σοφία με εισήγαγε στον εντυπωσιακό αλλά και απαιτητικό κόσμο της έρευνας. Ευχαριστώ επίσης τους συνεργάτες και φίλους μου από το εργαστήριο, Βιβή Τζέκου και Λευτέρη Κοζανίδη για την άψογη συνεργασία που είχαμε. Με τη Σοφία, τη Βιβή και το Λευτέρη σχηματίσαμε μια ερευνητική ομάδα που είχε αποτέλεσμα έναν αριθμό δημοσιεύσεων και υλοποίηση χρήσιμων επιστημονικών εργαλείων. Δεν θα πρέπει ωστόσο να παραλείψω την βοήθεια που πήρα από τους φίλους και συνεργάτες Νίκο Μπουλούμπαση και Αλέξανδρο Σπύρου. Το πιο μεγάλο ευχαριστώ το οφείλω στους γονείς και τα αδέρφια μου, στους οποίους αφιερώνω την εργασία αυτή, που πιστεύουν στις δυνατότητές μου και στάθηκαν δίπλα μου όποτε τους χρειάστηκα. Τέλος θα ήθελα να αναφερθώ στους φίλους μου εκτός εργαστηρίου και τη Δήμητρα που με βοήθησαν και με υποστήριξαν κατά τη διάρκεια των μεταπτυχιακών μου σπουδών. 9

10

ΠΡΟΛΟΓΟΣ Κατά την αναζήτηση στον Παγκόσμιο Ιστό, είναι πιθανό να επιστρέφονται πολλά αποτελέσματα για ερωτήματα που είναι ασαφή και αμφιλεγόμενα. Τα snippets που εξάγονται από τις σελίδες που ανακτήθηκαν, είναι ένας δείκτης της χρησιμότητας της σελίδας ως προς την θεματική πρόθεση του ερωτήματος και μπορούν να χρησιμοποιηθούν για να εστιάσουμε στο αντικείμενο της αναζήτησης. Στην παρούσα εργασία προτείνουμε μια καινοτόμο μέθοδο αυτόματης εξαγωγής snippets ιστοσελίδων που είναι πολύ σχετικά με την πρόθεση του ερωτήματος αλλά και αντιπροσωπευτικά του συνολικού περιεχομένου των σελίδων. Θα δείξουμε ότι η χρήση σημασιολογίας ως βάση της θεματικά προσανατολισμένης ανάκτησης πληροφορίας μας βοηθάει να προτείνουμε στον χρήστη snippets υψηλής ποιότητας. Τα snippets που παράγονται με την μέθοδο που προτείνουμε είναι σημαντικά καλύτερα όσον αφορά την απόδοση της ανάκτησης σε σχέση με αυτά που προκύπτουν από στατιστική επεξεργασία της σελίδας. Επιπλέον, μπορούμε να χρησιμοποιήσουμε τη σημασιολογική εξαγωγή snippets για να αυξήσουμε την απόδοση των παραδοσιακών αλγορίθμων, οι οποίοι βασίζονται στην επικάλυψη λέξεων ή σε στατιστικά βάρη, αφού αυτοί συνήθως παράγουν διαφορετικά αποτελέσματα. Η επιλογή από την πλευρά του χρήστη των πιο σχετικών με το ερώτημά του snippets, μπορεί να χρησιμοποιηθεί στο να βελτιώσουμε τα επιστρεφόμενα αποτελέσματα και να προωθήσουμε τις πιο χρήσιμες προς αυτόν σελίδες. 11

12

ABSTRACT When searching the web, it is often possible that there are too many results available for ambiguous queries. Text snippets, extracted from the retrieved pages, are an indicator of the pages usefulness to the query intention and can be used to focus the scope of search results. In this paper, we propose a novel method for automatically extracting web page snippets that are highly relevant to the query intention and expressive of the pages entire content. We show that the usage of semantics, as a basis for focused retrieval, produces high quality text snippet suggestions. The snippets delivered by our method are significantly better in terms of retrieval performance compared to those derived using the pages statistical content. Furthermore, our study suggests that semantically-driven snippet generation can also be used to augment traditional passage retrieval algorithms based on word overlap or statistical weights, since they typically differ in coverage and produce different results. User clicks on the query relevant snippets can be used to refine the query results and promote the most comprehensive among the relevant documents. 13

14

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΕΥΧΑΡΙΣΤΙΕΣ...9 ΠΡΟΛΟΓΟΣ...11 ABSTRACT...13 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ...15 ΕΥΡΕΤΗΡΙΟ ΣΧΗΜΑΤΩΝ...17 ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ...19 ΚΕΦΑΛΑΙΟ 1...21 ΕΙΣΑΓΩΓΗ...21 1.1 ΕΞΑΤΟΜΙΚΕΥΜΕΝΗ ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ...21 1.2 ΠΡΟΚΛΗΣΕΙΣ ΚΑΙ ΣΥΝΕΙΣΦΟΡΑ ΤΗΣ ΕΞΑΤΟΜΙΚΕΥΣΗΣ...22 1.3 ΑΝΤΙΚΕΙΜΕΝΟ ΔΙΠΛΩΜΑΤΙΚΗΣ...23 1.4 ΣΥΝΕΙΣΦΟΡΑ ΔΙΠΛΩΜΑΤΙΚΗΣ...26 1.5 ΔΟΜΗ ΔΙΠΛΩΜΑΤΙΚΗΣ...26 1.6 ΔΗΜΟΣΙΕΥΣΕΙΣ...28 ΚΕΦΑΛΑΙΟ 2...31 ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ...31 2.1 ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ...32 2.1.1 ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ...33 2.1.1.1 ΑΠΟΚΑΤΑΛΗΞΗ...33 2.1.1.2 ΑΝΑΔΙΠΛΩΣΗ ΠΕΖΩΝ-ΚΕΦΑΛΑΙΩΝ ΧΑΡΑΚΤΗΡΩΝ...34 2.1.2 ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ...35 2.1.2.1 ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΑΠΟΣΑΦΗΝΙΣΗ...36 2.1.3 ΔΕΙΚΤΟΔΟΤΗΣΗ...37 2.1.3.1 ΔΟΜΕΣ ΕΥΡΕΤΗΡΙΟΥ...39 2.1.4 ΑΝΑΝΕΩΣΗ ΔΕΔΟΜΕΝΩΝ...45 2.2 ΕΠΕΞΕΡΓΑΣΙΑ ΕΡΩΤΗΜΑΤΩΝ...49 2.2.1 ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ...49 2.2.2 ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ...51 2.2.3 ΤΑΥΤΟΠΟΙΗΣΗ ΟΡΩΝ ΕΡΩΤΗΜΑΤΩΝ ΚΑΙ ΕΥΡΕΤΗΡΙΟΥ...53 2.2.4 ΒΑΘΜΟΛΟΓΗΣΗ ΣΥΝΑΦΕΙΑΣ ΕΡΩΤΗΜΑΤΩΝ-ΔΕΔΟΜΕΝΩΝ...54 2.3 ΤΑΞΙΝΟΜΗΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ...55 2.3.1 ΑΛΓΟΡΙΘΜΟΣ ΔΗΜΟΤΙΚΟΤΗΤΑΣ PAGERANK...56 2.3.2 ΕΞΑΤΟΜΙΚΕΥΜΕΝΟΣ ΑΛΓΟΡΙΘΜΟΣ ΔΗΜΟΤΙΚΟΤΗΤΑΣ...59 ΚΕΦΑΛΑΙΟ 3...61 ΜΟΝΤΕΛΑ ΕΞΑΤΟΜΙΚΕΥΜΕΝΗΣ...61 3.1 ΑΜΕΣΗ ΕΞΑΤΟΜΙΚΕΥΣΗ...63 3.2 ΕΜΜΕΣΗ ΕΞΑΤΟΜΙΚΕΥΣΗ...63 3.2.1 ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΧΡΗΣΤΩΝ...64 3.2.2 ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ ΧΡΗΣΗΣ ΤΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ...66 3.2.3 ΣΥΝΔΥΑΣΜΟΣ ΔΕΔΟΜΕΝΩΝ ΧΡΗΣΗΣ ΚΑΙ ΠΕΡΙΕΧΟΜΕΝΟΥ...67 3.3 ΤΕΧΝΙΚΕΣ ΑΝΑΝΕΩΣΗΣ ΠΡΟΦΙΛ ΧΡΗΣΤΩΝ...68 3.4 ΤΟΠΙΚΑ ΚΑΙ ΚΑΤΑΝΕΜΗΜΕΝΑ ΜΟΝΤΕΛΑ ΕΞΑΤΟΜΙΚΕΥΣΗΣ...69 3.5 ΘΕΜΑΤΑ ΔΙΑΦΥΛΑΞΗΣ ΠΡΟΣΩΠΙΚΩΝ ΔΕΔΟΜΕΝΩΝ...71 ΚΕΦΑΛΑΙΟ 4...73 ΕΞΑΤΟΜΙΚΕΥΜΕΝΗ ΑΝΑΖΗΤΗΣΗ...73 4.1 ΕΞΑΤΟΜΙΚΕΥΜΕΝΗ ΠΡΟΣΚΟΜΙΔΗ ΔΕΔΟΜΕΝΩΝ...75 15

4.2 ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ...77 4.3 ΤΑΥΤΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ ΕΥΡΕΤΗΡΙΟΥ ΜΕ ΠΡΟΦΙΛ ΧΡΗΣΤΩΝ 80 4.4 ΕΞΑΤΟΜΙΚΕΥΜΕΝΗ ΒΕΛΤΙΩΣΗ ΕΡΩΤΗΜΑΤΩΝ...82 4.4.1 ΕΝΤΟΠΙΣΜΟΣ ΘΕΜΑΤΟΣ ΤΟΥ ΕΡΩΤΗΜΑΤΟΣ...83 4.4.2 ΕΠΙΛΟΓΗ ΛΕΞΕΩΝ ΚΛΕΙΔΙΩΝ...85 4.5 ΕΞΑΤΟΜΙΚΕΥΜΕΝΗ ΤΑΞΙΝΟΜΗΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΑΝΑΖΗΤΗΣΗΣ...86 ΚΕΦΑΛΑΙΟ 5...89 ΕΞΑΤΟΜΙΚΕΥΣΗ SNIPPETS ΑΝΑΖΗΤΗΣΗΣ...89 5.1 ΤΕΧΝΙΚΕΣ ΚΑΤΑΣΚΕΥΗΣ SNIPPETS...89 5.2 ΠΡΟΚΛΗΣΕΙΣ ΣΤΗΝ ΕΞΑΤΟΜΙΚΕΥΣΗ SNIPPETS...90 5.3 ΠΡΟΤΥΠΗ ΕΦΑΡΜΟΓΗ ΕΞΑΓΩΓΗΣ SNIPPETS ΜΕ ΒΑΣΗ ΤΗ ΣΗΜΑΣΙΟΛΟΓΙΑ...92 ΚΕΦΑΛΑΙΟ 6...95 ΠΡΟΤΥΠΗ ΕΦΑΡΜΟΓΗ ΕΞΑΤΟΜΙΚΕΥΣΗΣ SNIPPETS...95 6.1 ΑΥΤΟΜΑΤΟΠΟΙΗΜΕΝΗ ΑΝΑΓΝΩΡΙΣΗ ΤΗΣ ΣΗΜΑΣΙΟΛΟΓΙΑΣ ΤΩΝ ΕΡΩΤΗΜΑΤΩΝ...96 6.2 ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ ΓΙΑ ΤΟΝ ΕΝΤΟΠΙΣΜΟ ΤΩΝ ΛΕΞΙΛΟΓΙΚΩΝ ΣΥΣΤΑΤΙΚΩΝ ΤΩΝ SNIPPETS...97 6.3 ΣΥΝΘΕΣΗ SNIPPETS...99 6.4 ΑΝΤΙΠΡΟΣΩΠΕΥΣΗ ΤΟΥ ΘΕΜΑΤΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΙΣ ΛΕΞΙΛΟΓΙΚΕΣ ΜΟΝΑΔΕΣ ΤΩΝ SNIPPETS...101 6.5 ΕΞΑΤΟΜΙΚΕΥΣΗ SNIPPETS ΚΕΙΜΕΝΟΥ...101 ΚΕΦΑΛΑΙΟ 7...103 ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ...103 7.1 ΠΕΙΡΑΜΑΤΙΚΑ ΔΕΔΟΜΕΝΑ...103 7.2 ΠΕΙΡΑΜΑΤΙΚΗ ΜΕΛΕΤΗ...104 7.2.1 ΜΕΛΕΤΗ ΧΡΗΣΤΩΝ...104 7.3 ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ...106 7.4 ΣΥΜΠΕΡΑΣΜΑΤΑ ΠΕΙΡΑΜΑΤΙΚΗΣ ΕΦΑΡΜΟΓΗΣ...108 ΚΕΦΑΛΑΙΟ 8...109 ΣΧΕΤΙΚΗ ΕΡΕΥΝΑ...109 8.1 ΣΧΕΤΙΚΗ ΕΡΕΥΝΑ ΣΤΗΝ ΕΞΑΤΟΜΙΚΕΥΣΗ ΤΗΣ ΑΝΑΖΗΤΗΣΗΣ...110 8.2 ΣΧΕΤΙΚΗ ΕΡΕΥΝΑ ΣΤΗΝ ΕΞΑΤΟΜΙΚΕΥΣΗ ΙΣΤΟΤΟΠΩΝ...111 8.2.1 ΕΞΑΤΟΜΙΚΕΥΣΗ ΥΠΕΡΣΥΝΔΕΣΜΩΝ...111 8.2.2 ΕΞΑΤΟΜΙΚΕΥΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ...111 8.3 ΣΧΕΤΙΚΗ ΕΡΕΥΝΑ ΣΤΗ ΣΥΝΘΕΣΗ ΣΥΝΤΟΜΩΝ ΠΕΡΙΓΡΑΦΩΝ ΚΕΙΜΕΝΟΥ...112 ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΕΣ ΚΑΤΕΥΘΥΝΣΕΙΣ...115 9.1 ΑΠΟΤΙΜΗΣΗ ΤΟΥ ΕΡΓΟΥ...115 9.2 ΜΕΛΛΟΝΤΙΚΕΣ ΚΑΤΕΥΘΥΝΣΕΙΣ...116 ΒΙΒΛΙΟΓΡΑΦΙΚΕΣ ΑΝΑΦΟΡΕΣ...119 ΠΑΡΑΡΤΗΜΑ...131 ΕΦΑΡΜΟΓΗ ΕΞΟΡΥΞΗΣ ΑΠΟΣΠΑΣΜΑΤΩΝ ΚΕΙΜΕΝΟΥ...131 ΕΥΡΕΤΗΡΙΟ ΟΡΩΝ...133 16

ΕΥΡΕΤΗΡΙΟ ΣΧΗΜΑΤΩΝ Σχήμα 1: Εννοιολογικό διάγραμμα για την απεικόνιση του προβλήματος της ανανέωσης δεδομένων...45 Σχήμα 2: Ιστόγραμμα της συχνότητας των αλλαγών...47 Σχήμα 3 : Γραφικές παραστάσεις των F (S)p / F (S)u και A (S)u / A (S)p για τα r και δ...48 Σχήμα 4 : Παράδειγμα υπολογισμού PageRank...59 Σχήμα 5 : Τμήματα ενός συστήματος εξατομίκευσης ΠΙ...62 Σχήμα 6 : Παράδειγμα on-line ερωτηματολογίου για εξατομικευμένη αναζήτηση...63 Σχήμα 7 : Αρχιτεκτονική Εξατομικευμένου Προσκομιστή με χρήση μεταδεδομένων...76 Σχήμα 8 : Τα βήματα για την επιλογή snippets...96 Σχήμα 9 : Απόδοση της χρήσιμης προς το ερώτημα ανάκτησης αποσπασμάτων...106 Σχήμα 10 : Αύξηση απόδοσης με χρήση σημασιολογίας...106 Σχήμα 11: Στιγμιότυπο εφαρμογής αυτόματης εξόρυξης εξατομικευμένων αποσπασμάτων κειμένου από τα δεδομένα αναζήτησης...132 17

18

ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ Πίνακας 1 : Συναρτήσεις για τον υπολογισμό του βαθμού ανανέωσης και της ηλικίας δεδομένων για τεχνικές ανάθεσης πόρων...48 Πίνακας 2 : Κριτήρια επιλογής snippets από τους χρήστες...107 19

20

ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 1.1 ΕΞΑΤΟΜΙΚΕΥΜΕΝΗ ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ Οι μηχανές αναζήτησης δεικτοδοτούν μεγάλο αριθμό εγγράφων και επιτρέπουν στους χρήστες να τα ανακτήσουν μέσω ερωτημάτων. Ωστόσο, οι περισσότερες μηχανές αναζήτησης δεν λαμβάνουν υπόψη τις ιδιαίτερες προτιμήσεις των χρηστών. Έρευνες έχουν δείξει ότι σχεδόν τα μισά από τα έγγραφα που επιστρέφει μια μηχανή αναζήτησης ως απάντηση σε ένα ερώτημα θεωρούνται από τους χρήστες ως μη-σχετικά με την πρόθεση του ερωτήματός τους. Αυτό το πρόβλημα έχει πολλές πτυχές. Ένα πρόβλημα είναι τα συνώνυμα και τα ομώνυμα. Τα συνώνυμα είναι δύο λέξεις που γράφονται διαφορετικά αλλά έχουν ακριβώς την ίδια σημασία ενώ τα ομώνυμα είναι λέξεις που γράφονται με τον ίδιο τρόπο αλλά έχουν διαφορετική σημασία. Αν δεν υπάρχει μια εκ των προτέρων γνώση, δεν υπάρχει τρόπος για μια μηχανή αναζήτησης να προβλέψει τα ενδιαφέροντα του χρήστη με μόνο στοιχείο το υποβληθέν ερώτημα. Επιπλέον οι μηχανές αναζήτησης πρέπει να είναι ντετερμινιστικές υπό την έννοια ότι πρέπει να επιστρέφουν το ίδιο σύνολο εγγράφων σε όλους τους χρήστες για το ίδιο ερώτημα σε μια δεδομένη στιγμή. Με βάση τις παραπάνω παρατηρήσεις, βλέπουμε ότι οι μηχανές αναζήτησης δεν είναι σχεδιασμένες να προσαρμόζονται στα προσωπικά ενδιαφέροντα ενός χρήστη. Η έρευνα πάνω στην ανάκτηση πληροφορίας και την εξόρυξη γνώσης προσπαθεί να βελτιώσει την εμπειρία του χρήστη στον Ιστό σε διάφορες κατευθύνσεις. Μια κατεύθυνση είναι η δημιουργία καλύτερου μοντέλου δομής του Ιστού ώστε να διασυνδέεται καλύτερα με τις μηχανές αναζήτησης. Μια άλλη προσέγγιση είναι η μοντελοποίηση της συμπεριφοράς του χρήστη ώστε να μπορούν να προβλεφθούν καλύτερα τα ενδιαφέροντά του. Επιπλέον των παραπάνω παρατηρήσεων γίνονται προσπάθειες για καλύτερο ορισμό της έννοιας των ερωτημάτων. Το Wordnet, έργο του πανεπιστημίου του Princeton είναι ένα online σύστημα που οργανώνει τις αγγλικές λέξεις σε σύνολα συνωνύμων [157]. Μια παρόμοια προσέγγιση είναι η κατασκευή ταξονομίας λέξεων. Μια ταξονομία αποτελείται από μια δενδρική δομή στην οποία μια λέξη ανήκει σε έναν συγκεκριμένο κόμβο και έχει πρόγονους και απογόνους. Ο πρόγονος ενός κόμβου ανήκει σε μια γενική κατηγορία στην οποία θα ανήκουν και όλα τα παιδιά του. Επίσης ένας κόμβος μπορεί να έχει παιδιά που να ανήκουν σε υποκατηγορίες της δικής του κατηγορίας. Ένα παράδειγμα τέτοιων ταξονομιών είναι το Open Directory Project [http://dmoz.org] και η ιεραρχία Magellan [http://magellan.excite.com]. Το OPD και το Magellan κατηγοριοποιούν το περιεχόμενο ενός εγγράφου υπό το πρίσμα της ανθρώπινης κρίσης. Άλλα έργα όπως το OIL (Ontology Interchange Language), 21

και το DAML (DARPA Agent Markup Language) ενσωματώνουν μεταδεδομένα μέσα στα έγγραφα ώστε να βοηθήσουν στη δημιουργία σημασιολογικών δομών. Εκτός των εργαλείων που αναφέραμε, έχουν γίνει έρευνες στην περιοχή της εξόρυξης δεδομένων και αναπαράστασης γνώσης για κατασκευή μοντέλων που θα καταγράφουν τα ενδιαφέροντα του χρήστη και μπορούν να προβλέψουν τη συμπεριφορά του. Αυτά τα μοντέλα μπορούν να ενσωματωθούν σε συστήματα ώστε να προσφέρουν εκ των προτέρων γνώση για τα ενδιαφέροντα του χρήστη. Προφανώς, η έρευνα πάνω στην δημιουργία προφίλ χρήστη σχετίζεται άμεσα με την κατασκευή εξατομικευμένων συστημάτων. Διαφορετικοί μέθοδοι συλλογής δεδομένων από τους χρήστες μπορούν να συνδυαστούν με διάφορα συστήματα εξατομίκευσης. Λαμβάνοντας υπόψη τις υπάρχουσες μελέτες στην εξατομικευμένη αναζήτηση πληροφορίας από τα δεδομένα του Παγκόσμιου Ιστού, προτείνουμε μια καινοτόμα τεχνική εξατομίκευσης, η οποία επιχειρεί όχι απλά την ανίχνευση των ιστοσελίδων που ταυτίζονται σημασιολογικά με το προφίλ προτίμησης του χρήστη αλλά επιπλέον αποπειράται την εξόρυξη δεδομένων από το περιεχόμενο των ιστοσελίδων προκειμένου να συνδράμει τον χρήστη στην αποτελεσματική ικανοποίηση του πληροφορικού του αιτήματος. 1.2 ΠΡΟΚΛΗΣΕΙΣ ΚΑΙ ΣΥΝΕΙΣΦΟΡΑ ΤΗΣ ΕΞΑΤΟΜΙΚΕΥΣΗΣ Καθώς το μέγεθος της πληροφορίας στον Παγκόσμιο Ιστό αυξάνει συνεχώς, προκύπτουν νέες προκλήσεις στην αναζήτηση της πληροφορίας αυτής. Όταν το ίδιο ερώτημα υποβάλλεται από διαφορετικούς χρήστες, μια τυπική μηχανή αναζήτησης επιστρέφει τα ίδια αποτελέσματα, ανεξάρτητα με το ποιος χρήστης υπέβαλε το ερώτημα. Η τακτική όμως αυτή δεν είναι κατάλληλη για χρήστες με διαφορετικές πληροφοριακές ανάγκες. Για παράδειγμα, για το ερώτημα apple, κάποιοι χρήστες μπορεί να ενδιαφέρονται για έγγραφα που σχετίζονται με το apple με την έννοια του φρούτου, ενώ άλλοι να αναζητούν έγγραφα για τους υπολογιστές της Apple. Ένας τρόπος να αποσαφηνιστούν τις λέξεις ενός ερωτήματος είναι να συνδεθεί με αυτές ένα σύνολο κατηγοριών. Αν, για παράδειγμα, η κατηγορία μαγειρική ή φρούτα συνδεθεί με το ερώτημα apple τότε διευκρινίζεται η πρόθεση του ερωτήματος. Οι παρούσες μηχανές αναζήτησης όπως το Google και το Yahoo έχουν ιεραρχίες κατηγοριών για να βοηθήσουν τους χρήστες να ορίσουν την πρόθεση του ερωτήματός τους. Η χρήση παρόμοιων ιεραρχικών κατηγοριών, όπως η Library of Congress Classification, είναι συχνή από τους βιβλιοθηκονόμους. Ένας χρήστης μπορεί χειρωνακτικά να συνδέσει μια ή περισσότερες κατηγορίες με το ερώτημά του. Για παράδειγμα, ο χρήστης μπορεί αρχικά να ψάξει μια ιεραρχία κατηγοριών και να επιλέξει μία ή περισσότερες κατηγορίες πριν υποβάλει το ερώτημά του. Αξιοποιώντας τις επιλεγμένες κατηγορίες σε συνδυασμό με το ερώτημα, η μηχανή αναζήτησης είναι πιο πιθανό να επιστρέψει κείμενα που ενδιαφέρουν τον χρήστη. Δυστυχώς όμως, οι ιεραρχίες κατηγοριών είναι συνήθως πολύ μεγάλες και ένας μέσος χρήστης θα δυσκολευτεί να ακολουθήσει το μονοπάτι που θα τον οδηγήσει στην κατάλληλη κατηγορία. Επιπλέον, οι χρήστες συχνά δεν έχουν την υπομονή να εντοπίσουν την κατάλληλη κατηγορία πριν υποβάλουν το ερώτημά τους. Μια εναλλακτική λύση είναι να ανακτήσουμε ένα σύνολο κατηγοριών για κάποιο ερώτημα κατευθείαν από τη μηχανή αναζήτησης. Ωστόσο, οι κατηγορίες που επιστρέφονται από μια κλασσική μηχανή αναζήτησης δεν λαμβάνουν υπόψη τα 22

ενδιαφέροντα του συγκεκριμένου χρήστη και μπορεί να επιστραφούν κατηγορίες που δεν ανταποκρίνονται στην πρόθεση του ερωτήματος του χρήστη. Για την αποτελεσματική επίλυση των υφιστάμενων προβλημάτων προτείνουμε μια μεθοδολογία δύο επιπέδων, η οποία επιχειρεί τη βελτίωση της απόδοσης αναζήτησης. Στο πρώτο επίπεδο η προτεινόμενη μεθοδολογία επιχειρεί τον ημιαυτόματο συμπερασμό των θεματολογικών προτιμήσεων για κάθε χρήστη όπως αυτές προκύπτουν από την αξιοποίηση μιας ιεραρχίας θεματικών κατηγοριών. Στο δεύτερο επίπεδο, η τεχνική μας στηρίζεται στις αναγνωρισμένες θεματικές κατηγορίες προτιμήσεων και επιχειρεί : 1) το θεματικό χαρακτηρισμό του περιεχομένου των ιστοσελίδων αναζήτησης και 2) την εξόρυξη από το περιεχόμενο των θεματικά συναφών ιστοσελίδων της πληροφορίας που ταυτίζεται θεματικά και σημασιολογικά με τις προτιμήσεις του κάθε χρήστη. Η συνεισφορά της προτεινόμενης τεχνικής εξατομίκευσης στην αναζήτηση πληροφορίας από τον Παγκόσμιο Ιστό συνοψίζεται στα εξής: 1. Παρουσιάζουμε μια μεθοδολογία για τη σημασιολογική αποσαφήνιση των ερωτημάτων των χρηστών για τον εντοπισμό των θεματικών προτιμήσεων των τελευταίων. 2. Επιχειρούμε την θεματική επισημείωση των ιστοσελίδων που επιστρέφονται για τα ερωτήματα των χρηστών μέσω της αξιοποίησης μιας θεματικής οντολογίας λεξικών ιεραρχιών. 3. Προτείνουμε αλγόριθμους ταυτοποίησης των θεματικά χαρακτηρισμένων ιστοσελίδων με τα αποσαφηνισμένα ερωτήματα 4. Υλοποιούμε μια εφαρμογή εξατομικευμένης εξόρυξης περιγραφών κειμένου (snippets) από τα αποτελέσματα της αναζήτησης. Στα Κεφάλαια που ακολουθούν παρουσιάζουμε αναλυτικά τα επίπεδα και τα επιμέρους χαρακτηριστικά της προτεινόμενης μεθοδολογίας, αξιολογούμε πειραματικά τη συνεισφορά της στην εξατομίκευση των αποτελεσμάτων ανάκτησης και την αντιπαραβάλλουμε στις υπάρχουσες τεχνικές εξατομικευμένης αναζήτησης με στόχο να καταδείξουμε τόσο την καινοτομία της προσέγγισής μας, όσο και τη συμπληρωματικότητα της μεθόδου μας ως προς τις υπάρχουσες τεχνικές. Πριν όμως προχωρήσουμε στην αναλυτική περιγραφή του προτεινόμενου μοντέλου θα παρουσιάσουμε αναλυτικά το αντικείμενο της εργασίας μας και θα υπογραμμίσουμε τη συνεισφορά της στην εξατομίκευση της αναζήτησης όπως αυτή προκύπτει από τις πειραματικές μελέτες που διενεργήσαμε. 1.3 ΑΝΤΙΚΕΙΜΕΝΟ ΔΙΠΛΩΜΑΤΙΚΗΣ Η ανάκτηση πληροφορίας είναι μια διεργασία που συντελείται από τον υπολογιστή και στοχεύει στην ικανοποίηση των πληροφοριακών αιτημάτων που διατυπώνουν οι χρήστες προς συστήματα αναζήτησης δεδομένων (βλ. Κεφάλαιο 2). Η αναζήτηση πληροφορίας συντελείται με τη διατύπωση ενός ερωτήματος από το χρήστη προς το σύστημα, το οποίο εκφράζει το επικοινωνιακό αίτημα του πρώτου και κατά κανόνα είναι διατυπωμένο σε φυσική γλώσσα. Για την ανάκτηση της επιθυμητής πληροφορίας το σύστημα θα πρέπει να είναι σε θέση να αναγνωρίσει το ερώτημα του χρήστη και να το επεξεργαστεί με διάφορες τεχνικές στατιστικής και σημασιολογικής γλωσσικής επεξεργασίας, προκειμένου να το ερμηνεύσει και να το απαντήσει. Για την απάντηση του ερωτήματος, το σύστημα θα πρέπει προηγουμένως 23

να γνωρίζει τα δεδομένα που έχει δεικτοδοτήσει και στη συνέχεια να είναι σε θέση να πραγματοποιήσει μια συγκριτική μελέτη ομοιότητας των κειμένων του ευρετηρίου με το ερώτημα του χρήστη, προκειμένου να αποφανθεί για το ποια κείμενα περιέχουν πληροφορία που μπορεί να ικανοποιήσει το αίτημα αυτό. Παρά την απλότητα που χαρακτηρίζει τη διαδικασία ανάκτησης πληροφορίας, η εφαρμογή της τελευταίας σε δυναμικές και ετερογενείς συλλογές δεδομένων όπως αυτές που διακινούνται στον Παγκόσμιο Ιστό, ενέχει αρκετές δυσκολίες και προκλήσεις. Η πιο επιτακτική ανάγκη που καλούνται να ικανοποιήσουν τα συστήματα ανάκτησης πληροφορίας από τον Παγκόσμιο Ιστό (π.χ. οι μηχανές αναζήτησης) είναι η διασφάλιση πως τα αποτελέσματα της αναζήτησης ικανοποιούν τα πληροφοριακά αιτήματα του εκάστοτε χρήστη ανεξάρτητα από την ικανότητα ή τις γνώσεις και το υπόβαθρο του τελευταίου στη χρήση εργαλείων και τεχνικών ανάκτησης (βλ. Κεφάλαιο 3). Πιο συγκεκριμένα, η πρόκληση που καλούνται να αντιμετωπίσουν οι μηχανές αναζήτησης είναι να επιτύχουν την εξατομίκευση των αποτελεσμάτων που επιστρέφουν για τα ερωτήματα συγκεκριμένων χρηστών και ως εκ τούτου να διευκολύνουν την αλληλεπίδραση των τελευταίων με τις υπηρεσίες των συστημάτων ανάκτησης δεδομένων από το Διαδίκτυο. Ορμώμενοι από την υφιστάμενη ανάγκη και έχοντας ως εφαλτήριο την έρευνα που έχει συντελεστεί προς την επίτευξη της εξατομικευμένης αναζήτησης πληροφορίας στον Παγκόσμιο Ιστό (βλ. Κεφάλαιο 4), εστιάζουμε τη μελέτη μας στο σχεδιασμό και την υλοποίηση μιας πρότυπης εφαρμογής εξόρυξης εξατομικευμένων αποσπασμάτων από το περιεχόμενο των δεδομένων ανάκτησης. Το βασικό κίνητρο (βλ. Κεφάλαιο 5) για την εκπόνηση της έρευνάς μας μπορεί να παρουσιαστεί μέσα από το σενάριο που ακολουθεί. Ας υποθέσουμε πως ένας χρήστης έχει μια συγκεκριμένη πληροφοριακή ανάγκη και προκειμένου να την ικανοποιήσει ανατρέχει σε μια μηχανή αναζήτησης και διατυπώνει ένα ερώτημα που κατά την εκτίμησή του μπορεί να εκφράσει την πρόθεση του ερωτήματός τους. Αφού υποβάλει το ερώτημά του μέσα σε λίγα δευτερόλεπτα θα λάβει ως απάντηση μια ταξινομημένη λίστα υπερσυνδέσμων, καθένας από τους οποίους θα τον οδηγήσει στη φυσική τοποθεσία των αντίστοιχων σελίδων, στα περιεχόμενα των οποίων περιλαμβάνεται πληροφορία που σχετίζεται με το αρχικό ερώτημα του χρήστη. Στο παραπάνω σενάριο υπάρχουν δύο βασικές δυσκολίες που πρέπει να αντιμετωπίσει ο χρήστης προκειμένου να ολοκληρώσει επιτυχώς την αναζήτησή του. Η πρώτη δυσκολία αφορά στην επιλογή των κατάλληλων υπερσυνδέσμων που θα πρέπει να ακολουθήσει προκειμένου να οδηγηθεί στα περιεχόμενα των σχετικών με το ερώτημα σελίδων και η δεύτερη δυσκολία αφορά στον εντοπισμό της συγκεκριμένης πληροφορίας που αναζητά μέσα στα περιεχόμενα των σχετικών σελίδων. Παραδοσιακά και μέχρι σήμερα, η επιλογή των υπερσυνδέσμων γίνεται βάσει του τίτλου της σελίδας κι ενός περιορισμένου αποσπάσματος κειμένου (συνήθως 15 λέξεις) που εξάγεται από το περιεχόμενο της σελίδας. Από την άλλη πλευρά η ανίχνευση της συγκεκριμένης πληροφορίας που αναζητάται επιτυγχάνεται μόνο αφού ο χρήστης διαβάσει το πλήρες περιεχόμενο της σελίδας, το οποίο σε πολλές περιπτώσεις μπορεί να είναι ιδιαίτερα εκτενές και να μνημονεύει πλήθος θεμάτων ή πληροφοριών. Από τα παραπάνω καθίσταται σαφές πως η απάντηση μιας πληροφοριακής ανάγκης προϋποθέτει χρόνο και κόπο που πρέπει να καταβάλει ο χρήστης. Προκειμένου, λοιπόν, να αντιμετωπιστούν αποτελεσματικά οι υφιστάμενες δυσκολίες προτείνουμε ένα μοντέλο εξόρυξης εξατομικευμένων αποσπασμάτων από το περιεχόμενο των σχετικών με το ερώτημα ιστοσελίδων και την προβολή τους στο χρήστη με απώτερο στόχο αφενός τη διευκόλυνση στη λήψη αποφάσεων του 24

τελευταίου και αφετέρου στη συνδρομή του χρήστη κατά την επισκόπηση των περιεχομένων της ανάκτησης, τα οποία έχει επιλέξει να μελετήσει. Ο ρόλος των εξατομικευμένων αποσπασμάτων κειμένου (τα επονομαζόμενα snippets στο πεδίο της διαδικτυακής ανάκτησης πληροφορίας) εντοπίζεται τόσο στη βελτίωση της ευχρηστίας των μηχανών αναζήτησης όσο και στην αρωγή του χρήστη κατά την αλληλεπίδρασή του με τα συστήματα ανάκτησης. Θέτοντας ως βάση της μελέτης μας τις διαπιστώσεις που προκύπτουν από το σενάριο που μόλις περιγράψαμε και έχοντας μελετήσει διεξοδικά τις έρευνες της επιστημονικής κοινότητας αναφορικά με το πεδίο της εξατομικευμένης αναζήτησης πληροφορίας στα δεδομένα του Παγκόσμιου Ιστού, σχεδιάσαμε ένα μοντέλο αυτόματης εξόρυξης εξατομικευμένων αποσπασμάτων κειμένου, η βασική καινοτομία του οποίου εντοπίζεται στην αξιοποίηση τεχνικών σημασιολογικής γλωσσικής επεξεργασίας. Το μοντέλο που υλοποιήσαμε ενσωματώνει έναν μηχανισμό σημασιολογικής αποσαφήνισης της πρόθεσης του πληροφοριακού ερωτήματος του χρήστη και αξιοποιεί ένα σημασιολογικό δίκτυο λημμάτων για τη σημασιολογική επεξεργασία του περιεχομένου των ιστοσελίδων που κρίνονται ως σχετικές με το ερώτημα από τους μηχανισμούς ταυτοποίησης του εκάστοτε συστήματος ανάκτησης. Στη συνέχεια, επιχειρεί τον υπολογισμό της ομοιότητας (εγγύτητας) μεταξύ της σημασιολογίας του ερωτήματος και της σημασιολογίας των επιμέρους τμημάτων του επιστρεφόμενου κειμένου προκειμένου να αποφανθεί για το απόσπασμα εκείνο που ανταποκρίνεται με τη μεγαλύτερη ακρίβεια και συνάφεια στην πρόθεση του ερωτήματος (βλ. Κεφάλαιο 6). Στη συνέχεια, συντίθεται ένα εξατομικευμένο απόσπασμα κειμένου το οποίο αξιολογείται ως προς τη σημασιολογική του συνάφεια αλλά και την αντιπροσωπευτικότητά του για τα υπολειπόμενα αποσπάσματα του αρχικού κειμένου και εφόσον αξιολογηθεί θετικά προβάλλεται στο χρήστη μαζί με τον τίτλο των ιστοσελίδων που επιστρέφονται από τη μηχανή αναζήτησης. Η πειραματική εφαρμογή και αξιολόγηση του προτεινόμενου μοντέλου εξατομίκευσης σε ένα σύνολο πραγματικών ερωτημάτων και δεδομένων ανάκτησης καταδεικνύει αφενός την αποτελεσματικότητα της τεχνικής μας στην εξόρυξη εξατομικευμένων αποσπασμάτων κειμένου και αφετέρου τη συνεισφορά του μοντέλου μας στη διαδικασία της αναζήτησης πληροφορίας από τα δεδομένα του Παγκόσμιου Ιστού (βλ. Κεφάλαιο 7). Μια σημαντική συμβολή της τεχνικής μας αφορά στη βελτίωση της απόδοσης των μηχανισμών ανάκτησης, η οποία πιστοποιείται από τη συγκριτική της αξιολόγηση με υπάρχουσες τεχνικές εξόρυξης αποσπασμάτων κειμένου, οι οποίες αντίθετα από τη δική μας τεχνική στηρίζονται στη στατιστική και όχι στη σημασιολογική επεξεργασία των ερωτημάτων και των σχετικών με αυτά κειμένων. Ολοκληρώνοντας το θεωρητικό και πειραματικό υπόβαθρο της έρευνάς μας υπογραμμίζουμε τις διαφοροποιήσεις του μοντέλου μας από τις από υπάρχουσες τεχνικές, τονίζουμε τη δυνατότητα του προτεινόμενου μοντέλου να λειτουργήσει συμπληρωματικά προς υπάρχουσες μεθοδολογίες και σκιαγραφούμε τα επιμέρους συστατικά που μοιράζεται με παραπλήσιες προσεγγίσεις εξατομικευμένης αναζήτησης (βλ. Κεφάλαιο 8). Τέλος, παραθέτουμε θέματα που η παρούσα μελέτη αφήνει ανοιχτά για μελλοντική διερεύνηση και καταδεικνύουμε ένα σύνολο εφαρμογών όπου το προτεινόμενο μοντέλο θα μπορούσε να αξιοποιηθεί αποτελεσματικά για τη βελτίωση της απόδοσής τους (βλ. Κεφάλαιο 9). 25

1.4 ΣΥΝΕΙΣΦΟΡΑ ΔΙΠΛΩΜΑΤΙΚΗΣ Έπειτα από μια διεξοδική επισκόπηση της διεθνούς βιβλιογραφίας σχετικά με τις τεχνικές εξατομίκευσης της αναζήτησης πληροφορίας από τα δεδομένα του Παγκόσμιου Ιστού, η παρούσα διπλωματική εργασία προτείνει μια νέα ολοκληρωμένη τεχνική εξατομίκευσης και εξόρυξης πληροφορίας από τα δεδομένα του Παγκόσμιου Ιστού με τελικό στόχο τη βελτίωση της απόδοσης των μηχανισμών ανάκτησης και προβολής πληροφορίας. Η καινοτομία της προτεινόμενης μεθόδου έγκειται τόσο στη σημασιολογική ανάλυση, επεξεργασία και οργάνωση των δεδομένων του Παγκόσμιου Ιστού, όσο και στην υιοθέτηση της αρχής της λεξιλογικής και θεματικής συνάφειας κατά το στάδιο της εξατομίκευσης. Η ερευνητική συνεισφορά όσων παρουσιάζονται στη διπλωματική θα μπορούσε να συνοψιστεί στα παρακάτω συμπεράσματα: Συμπέρασμα #1: Οι τεχνικές σημασιολογικής ανάλυσης και επεξεργασίας του περιεχομένου του Παγκόσμιου Ιστού αποτελούν το υπόβαθρο τόσο για την προαγωγή της έρευνας στον τομέα της αλληλεπίδρασης (επικοινωνίας) ανθρώπου-υπολογιστή όσο και για τη βελτίωση της απόδοσης και της ευχρηστίας των μηχανών αναζήτησης. Συμπέρασμα #2: Το φαινόμενο της πολυσημίας που χαρακτηρίζει εγγενώς τις λέξεις μιας γλώσσας μπορεί να αρθεί αποτελεσματικά με την ενσωμάτωση ενός σημασιολογικού δικτύου λημμάτων σε διάφορες αλγοριθμικές τεχνικές σημασιολογικής αποσαφήνισης. Συμπέρασμα #3: Η αυτοματοποιημένη σύνθεση σύντομων περιγραφών για τα δεδομένα του Παγκόσμιου Ιστού μπορεί να συνδράμει το χρήστη κατά τη λήψη αποφάσεων αναφορικά με την επισκόπηση των αποτελεσμάτων αναζήτησης, ιδιαίτερα δε όταν η τελευταία συντελείται με γνώμονα τις επιμέρους και ιδιάζουσες ανάγκες του χρήστη. Συμπέρασμα #4: Η εφαρμογή της αρχής της συνάφειας τόσο σε λεξιλογικό όσο και σε θεματικό επίπεδο εγγυάται την αποτελεσματική αντιπροσώπευση του περιεχομένου των δεδομένων του Παγκόσμιου Ιστού και μπορεί να συντελέσει ουσιαστικά στην αποδοτική εξόρυξη γνώσης από αυτά, χωρίς την προγενέστερη ανάγκη χειρωνακτικής φυλλομέτρησής τους. Συμπέρασμα #5: Η εξατομίκευση των αποτελεσμάτων της αναζήτησης μπορεί να πραγματοποιηθεί πολύ πιο αποτελεσματικά μέσω της εξόρυξης θεματικά προσανατολισμένων περιγραφών από τα δεδομένα των ιστοσελίδων και κατά συνέπεια να βελτιώσει την απόδοση της ανάκτησης. 1.5 ΔΟΜΗ ΔΙΠΛΩΜΑΤΙΚΗΣ Η παρούσα διπλωματική δομείται σε 9 Κεφάλαια. Στο παρόν Κεφάλαιο έγινε μια σύντομη παρουσίαση του αντικειμένου που πραγματεύεται η διπλωματική καθώς και των στόχων που καλείται να ικανοποιήσει. Το Κεφάλαιο 2 παρουσιάζει μια διεξοδική επισκόπηση των στόχων και της λειτουργίας συστημάτων ανάκτησης πληροφορίας και καταδεικνύεται η σημασία των δικτυακών μηχανών αναζήτησης στην ικανοποίηση των πληροφοριακών αναγκών του χρήστη, μέσα από τη μελέτη της διεθνούς βιβλιογραφίας και πρακτικής. Πιο αναλυτικά, παρουσιάζονται οι τεχνικές επεξεργασίας των κειμένων που δεικτοδοτούν οι μηχανές αναζήτησης όσο και των πληροφοριακών αιτημάτων που υποβάλλονται σε 26

αυτές και υπογραμμίζονται τα πλεονεκτήματα της καθεμιάς. Το βασικό πρόβλημα που καλούνται να επιλύσουν οι τεχνικές επεξεργασίας δεδομένων σε φυσική γλώσσα κατά την ανάκτηση πληροφορίας είναι αυτό της ασάφειας που παρουσιάζουν οι φυσικές γλώσσες σε ένα ή περισσότερα επίπεδα ανάλυσης του γραπτού λόγου. Προς αυτή την κατεύθυνση εξετάζεται η συνεισφορά της ενσωμάτωσης τεχνικών σημασιολογικής αποσαφήνισης στην ανάκτηση πληροφορίας με στόχο την εξατομίκευση, όπως προκύπτει από τη μελέτη της διεθνούς βιβλιογραφίας. Τέλος παρουσιάζουμε τον αλγόριθμο ταξινόμησης των αποτελεσμάτων της αναζήτησης στην κλασσική και την εξατομικευμένη του έκδοση. Το Κεφάλαιο 3 αναφέρεται λεπτομερώς στα μοντέλα εξατομίκευσης. Αρχικά περιγράφονται οι τεχνικές άμεσης εξατομίκευσης των δεδομένων ανάκτησης όπου απαιτείται η συμμετοχή του χρήστη στην αξιολόγηση της ποιότητας των αποτελεσμάτων. Αφού διατυπώνονται οι εγγενείς αδυναμίες των τεχνικών αυτών, περιγράφονται οι υπάρχουσες τεχνικές έμμεσης εξατομίκευσης, το βασικό μέλημα των οποίων είναι η δημιουργία προφίλ προτιμήσεων για το χρήστη, χωρίς τη συμμετοχή του τελευταίου στην υφιστάμενη διαδικασία. Ιδιαίτερη έμφαση δίνεται σε τεχνικές ανανέωσης των προφίλ προτιμήσεων καθώς και στη διαφύλαξη των προσωπικών δεδομένων των χρηστών κατά την επεξεργασία της πληροφορίας που συλλέγεται από τις αναζητήσεις τους. Το Κεφάλαιο 4 παρουσιάζει διεξοδικά τα ζητήματα που άπτονται της εξατομικευμένης αναζήτησης και περιγράφει τις τροποποιήσεις που πρέπει να πραγματοποιηθούν στα επιμέρους συστατικά των μηχανών αναζήτησης προκειμένου να επιτύχουν την εξατομίκευση της πληροφορίας που προβάλλουν στο χρήστη. Πιο συγκεκριμένα, περιγράφονται οι τεχνικές εξατομικευμένης προσκομιδής δεδομένων, οι τεχνικές σημασιολογικής αναπαράστασης του περιεχομένου των ιστοσελίδων, οι αλγόριθμοι ταυτοποίησης των δεδομένων με τα προφίλ των χρηστών, καθώς και οι διεργασίες εξατομικευμένης ταξινόμησης αποτελεσμάτων και εξόρυξης πληροφορίας από αυτά. Το Κεφάλαιο 5 περιγράφει αναλυτικά την προτεινόμενη προσέγγιση σχετικά με την εξόρυξη εξατομικευμένων αποσπασμάτων από τα αποτελέσματα της αναζήτησης. Αρχικά, γίνεται μια συνοπτική καταγραφή των διαδικασιών εξόρυξης αποσπασμάτων κειμένου, οι οποίες θέτουν τις προδιαγραφές για την εφαρμογή τεχνικών εξατομίκευσης σε αυτές. Στη συνέχεια και αφού απαριθμηθούν οι προκλήσεις που άπτονται της εξόρυξης εξατομικευμένων αποσπασμάτων κειμένου, παρουσιάζεται η αρχιτεκτονική του προτεινόμενου μοντέλου, το οποίο επιλέγει αποσπάσματα κειμένου ανάλογα με τη χρησιμότητά τους για την πρόθεση του ερωτήματος και τα αξιολογεί με βάση τις αρχές της σημασιολογικής συνοχής και της αντιπροσωπευτικότητας Το Κεφάλαιο 6 παρουσιάζει τα επιμέρους συστατικά του προτεινόμενου μοντέλου και καταδεικνύει τον τρόπο με τον οποίο αλληλεπιδρούν προκειμένου να κατορθώσουν την εξόρυξη εξατομικευμένων αποσπασμάτων κειμένου από τα περιεχόμενα της αναζήτησης. Αρχικά περιγράφεται η τεχνική που υλοποιήσαμε για την αυτοματοποιημένη αναγνώριση της πρόθεσης του ερωτήματος του χρήστη μέσω της χρήσης ενός σημασιολογικού δικτύου λημμάτων. Στη συνέχεια, παρουσιάζουμε τη μεθοδολογία σημασιολογικής επεξεργασίας του περιεχομένου των σελίδων που σχετίζονται με το ερώτημα του χρήστη, δίνοντας έμφαση στη διαδικασία της σημασιολογικής αποσαφήνισης του περιεχομένου τους. Έχοντας περιγράψει τη σημασιολογική επεξεργασία τόσο των ερωτημάτων όσο και των δεδομένων που 27

σχετίζονται με αυτά, καταδεικνύεται ο τρόπος ταυτοποίησής τους με στόχο την εξόρυξη συνεκτικών αποσπασμάτων από το κείμενο. Δεδομένης της σημασιολογικής ταυτοποίησης ερωτημάτων και κειμένων, επιδιώκεται η εξατομικευμένη επιλογή των αποσπασμάτων εφόσον η τελευταία συντελείται με γνώμονα την πρόθεση του ερωτήματος. Ωστόσο για τη διασφάλιση πως τα αποσπάσματα κειμένου που επιλέγει η τεχνική μας είναι καλής ποιότητας, προτείνουμε την υιοθέτηση και εφαρμογή δύο ποιοτικών μετρικών αξιολόγησης για τα επιλεγμένα αποσπάσματα. Οι μετρικές αυτές είναι ο βαθμός της σημασιολογικής συνοχής μεταξύ των όρων των αποσπασμάτων και ο βαθμός της θεματικής αντιπροσώπευσης των επιλεγμένων αποσπασμάτων ως προς το περιεχόμενο του αρχικό κειμένου από όπου επιλέχθηκε το απόσπασμα. Στο Κεφάλαιο 7 επιχειρείται η πειραματική αξιολόγηση του προτεινόμενου μοντέλου εξόρυξης εξατομικευμένων αποσπασμάτων κειμένου από τα δεδομένα της αναζήτησης. Πιο αναλυτικά παρουσιάζονται οι στόχοι της πειραματικής αξιολόγησης, οι μετρικές που υιοθετούμε για την αποτίμηση της απόδοσης της τεχνικής μας και τέλος δίνονται τα αποτελέσματα της πειραματικής μας μελέτης. Μαζί με την παρουσίαση των πειραματικών αποτελεσμάτων επιχειρείται η συνολική αποτίμηση της απόδοσης της τεχνικής μας δίνοντας έμφαση στην αποτελεσματικότητά της αλλά και υπογραμμίζοντας πεδία που χρήζουν περαιτέρω πειραματικών αξιολογήσεων. Το Κεφάλαιο 8 παρουσιάζει εργασίες άλλων ερευνητών που άπτονται παρεμφερών επιστημονικών πεδίων και τονίζει τις διαφοροποιήσεις της τεχνικής μας από υπάρχουσες μελέτες. Προς αυτή την κατεύθυνση, σε κάθε ενότητα του κεφαλαίου γίνεται επισκόπηση της διεθνούς βιβλιογραφίας σε επιμέρους θέματα της εργασίας μας και υπογραμμίζονται οι διαφοροποιήσεις και οι καινοτομίες της τεχνικής που προτείνουμε από υπάρχουσες πρακτικές. Το Κεφάλαιο 9 αποτελεί τον επίλογο της διπλωματικής. Παρουσιάζεται μια συνολική αποτίμηση του έργου και αναφέρονται περιοχές που αφορούν στην εξατομικευμένη εξόρυξη αποσπασμάτων κειμένου, τις οποίες δεν έχει καλύψει το παρόν έργο. Τέλος, σκιαγραφούνται ερευνητικές κατευθύνσεις που θα μπορούσαν να ακολουθηθούν για τη βελτίωση των αποτελεσμάτων του έργου που παρουσιάστηκε. 1.6 ΔΗΜΟΣΙΕΥΣΕΙΣ Σημαντικό μέρος της παρούσας διπλωματικής στηρίζεται στις παρακάτω δημοσιεύσεις. Ευχαριστώ τους συν-συγγραφείς για την πολύτιμη συνεισφορά τους. 1. Zotos N., Tzekou P., Tsatsaronis G., Kozanidis L., Stamou S., Varlamis I. 2007. To click or not to click? The Role of Contextualized and User-Centric Web Snippets. In Proceedings of the SIGIR Workshop on Focused Retrieval, July 27, Amsterdam, the Netherlands. 2. Tzekou P., Stamou S., Zotos N., Kozanidis L., Christodoulakis D. 2007. Querying the Greek Web in Greeklish. In Proceedings of the SIGIR Workshop on Improving Web Retrieval for non-english Queries, July 27, Amsterdam, the Netherlands (26% accepted) 3. Zotos N., Stamou S., Tzekou P., Kozanidis L. 2007. Adaptive Web Site Customization for Personalized Browsing. To appear in the 2 nd International Conference on Metadata and Semantics Research, October 11-12, Corfu, Greece. 28

4. Stamou S., Kozanidis L., Tzekou P., Zotos N., Christodoulakis D. 2007. HiBO: Mining the Web s Favorites. In Proceedings of the 9 th Asia-Pacific Web Conference (APWeb), June 16-18, Yellow Mountains, China (16% accepted) 5. Kozanidis L., Tzekou P., Zotos N., Stamou S., Christodoulakis D. 2007. Ontology- Based Adaptive Query Refinement. In Proceedings of the 3 rd International Conference on Web Information Systems and Technologies (WebIST), March 3-6, Barcelona, Spain, pp. 43-50 (14% accepted) 6. Stamou S., Kozanidis L., Tzekou P., Zotos N. 2007. Ontology-Driven Personalized Query Refinement. Under Review for the Journal of Web Engineering (JWE) 7. Tzekou P., Kozanidis L., Stamou S., Zotos N., Christodoulakis D. 2007. Effective Site Customization based on Web Semantics and Usage Mining Under Review for the 3 rd International IEEE SITIS Conference, December 16-19, Shanghai, China. 29

30

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ Η βασική λειτουργία που επιτελεί ένα σύστημα ανάκτησης πληροφορίας (Information Retrieval System) είναι να ικανοποιεί ερωτήματα, με το να εντοπίζει άμεσα και να επιστρέφει στο χρήστη τα κείμενα εκείνα που καλύπτουν όσο το δυνατόν περισσότερο τα πληροφοριακά του αιτήματα. Συνεπώς, ο στόχος ενός συστήματος ανάκτησης πληροφορίας είναι να εντοπίζει κείμενα που απαντούν σε πληροφοριακά αιτήματα του χρήστη και να τα επιστρέφει σε αυτόν. Τα πρώτα συστήματα ανάκτησης πληροφορίας διαχειρίζονταν μικρές, στατικές και ομοιογενείς συλλογές κειμένων. Σε ορισμένα συστήματα μάλιστα, οι συλλογές ήταν κατηγοριοποιημένες ανάλογα με το θέμα που πραγματεύονταν τα κείμενά τους. Πιο συγκεκριμένα, οι συλλογές αποτελούνταν από ένα συγκεκριμένο αριθμό κειμένων, ο οποίος ανανεωνόταν ανά τακτά χρονικά διαστήματα και όχι δυναμικά. Για το λόγο αυτό οι συλλογές αυτές ονομάζονται στατικές, εφόσον ο αριθμός των κειμένων που είχαν αποθηκευμένα ήταν γνωστός και συγκεκριμένος. Παράλληλα, υπήρχε ομοιογένεια στο είδος της πληροφορίας που αποθήκευαν, η οποία τις περισσότερες φορές ήταν υπό τη μορφή κειμένου. Τα κείμενα αποθηκεύονταν τοπικά σε ένα σύστημα ανάκτησης πληροφορίας προκειμένου να ανακτηθούν όταν κάποιος χρήστης αναζητούσε πληροφορία που μπορούσε να ικανοποιηθεί από αυτά [164]. Καθώς οι συλλογές κειμένων μεγάλωναν προέκυψε η ανάγκη για εξοικονόμηση αποθηκευτικού χώρου, έτσι ώστε να είναι δυνατή η αποθήκευση μεγάλου όγκου πληροφορίας, αλλά να επιτυγχάνεται παράλληλα η γρήγορη αναζήτηση πληροφορίας στις συλλογές. Για την αντιμετώπιση αυτού του προβλήματος δημιουργήθηκαν τα πρώτα ευρετήρια (index) των συστημάτων ανάκτησης πληροφορίας, τα οποία αντί να ευρετηριοποιούν όλο το κείμενο, ευρετηριοποιούσαν μόνο κάποιους όρους των κειμένων, τους οποίους και αποθήκευαν. Η αναζήτηση, στη συνέχεια, γινόταν με βάση τους όρους ευρετηριοποίησης και τα κείμενα που επιστρέφονταν στο χρήστη ήταν εκείνα με όρους ευρετηριοποίησης κοινούς με αυτούς του ερωτήματός του. Οι όροι ευρετηριοποίησης αποτελούν στην ουσία λέξεις-κλειδιά (keywords) που εξάγονται από το ίδιο το κείμενο και θεωρούνται ως αντιπροσωπευτικοί ενός κειμένου. Διάφορες τεχνικές ευρετηριοποίησης έχουν χρησιμοποιηθεί και ως εκ τούτου διάφορες μέθοδοι επιλογής των όρων ευρετηριοποίησης έχουν κατά καιρούς εφαρμοστεί, οι περισσότερες εκ των οποίων κάνουν εκτεταμένη χρήση της συχνότητας εμφάνισης των όρων μέσα σ ένα κείμενο σε σχέση με το μέγεθος του κειμένου και το συνολικό αριθμό των διαφορετικών λημμάτων που αυτό περιλαμβάνει. Η διαδικασία ευρετηριοποίησης στοχεύει στην ανάθεση ενός προσδιοριστή (λέξης-κλειδί) σε κάθε αποθηκευμένο κείμενο, ο οποίος να χαρακτηρίζει το περιεχόμενο του κειμένου και να είναι αντιπροσωπευτικός αυτού. 31

Επιπλέον, κατά την ευρετηριοποίηση ανατίθεται μια τιμή σε κάθε προσδιοριστή, η οποία αντιπροσωπεύει τη σπουδαιότητα της λέξης-κλειδί για το συγκεκριμένο κείμενο [122]. Η τιμή που λαμβάνει κάθε όρος καθορίζεται από πολλούς παράγοντες, όπως: η θέση του όρου μέσα στο κείμενο, η συχνότητα εμφάνισής του μέσα σε αυτό, κτλ. Η αναζήτηση πληροφορίας στα ευρετηριοποιημένα κείμενα πραγματοποιείται με τη διατύπωση ερωτημάτων σε φυσική γλώσσα προς τα συστήματα ανάκτησης πληροφορίας. Στη συνέχεια πραγματοποιείται μια σύγκριση ανάμεσα στους όρους των ερωτημάτων και στους όρους ευρετηριοποίησης των κειμένων, και επιστρέφονται στο χρήστη τα κείμενα εκείνα που έχουν όρους ευρετηριοποίησης κοινούς με τις λέξεις του ερωτήματός του. Η ανακτηθείσα πληροφορία επιστρέφεται στο χρήστη με τη μορφή μιας ταξινομημένης λίστας κειμένων, όπου η ταξινόμηση βασίζεται: στον αριθμό των κοινών όρων των κειμένων με τους όρους του ερωτήματος, στη θέση των όρων αυτών μέσα στο κείμενο, στην τιμή που τους έχει ανατεθεί και στη συχνότητα εμφάνισής τους μέσα στα κείμενα. Σε κάποιες περιπτώσεις η αλληλεπίδραση των συστημάτων ανάκτησης πληροφορίας με τον τελικό χρήστη είναι περιορισμένη, υπό την έννοια πως η επιλογή των ερωτημάτων δε γίνεται από το χρήστη, αλλά από το ίδιο το σύστημα, το οποίο παρουσιάζει στο χρήστη μια σειρά προκαθορισμένων ερωτημάτων, μεταξύ των οποίων καλείται να επιλέξει. Το φαινόμενο αυτό παρατηρείται σε περιπτώσεις όπου επιχειρείται η εκτίμηση της απόδοσης συστημάτων ανάκτησης πληροφορίας και όχι η εξυπηρέτηση των πληροφοριακών αιτημάτων του χρήστη. Συμπερασματικά, τα στατικά συστήματα ανάκτησης πληροφορίας στοχεύουν στην ικανοποίηση πληροφοριακών αιτημάτων μέσα από ένα σύνολο κειμένων που έχουν επεξεργαστεί και αποθηκεύσει. Τα κείμενα που θεωρούνται πως μπορεί να ικανοποιήσουν τα ερωτήματα των χρηστών επιστρέφονται στους τελευταίους υπό τη μορφή μιας διατεταγμένης λίστας αναφορών, την οποία θα πρέπει ο χρήστης να εξετάσει και να αποφανθεί για την ποιότητα και πληρότητά της. 2.1 ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Η ενδεδειγμένη προσέγγιση στο πρόβλημα της ανάκτησης πληροφορίας από τον Παγκόσμιο Ιστό (World Wide Web) είναι η δημιουργία ενός ευρετηρίου της συλλογής κειμένων, όπου οι όροι των κειμένων χρησιμοποιούνται ως λέξεις-κλειδιά για την ευρετηριοποίηση, και μέσω αυτών πραγματοποιείται η αναζήτηση. Τα πρώτα χρόνια της εμφάνισής τους οι δικτυακές μηχανές αναζήτησης (search engine) βάσιζαν την ανάκτηση της πληροφορίας σε τεχνικές ταυτοποίησης αλφαριθμητικών σε συνδυασμό με στατιστικές μεθόδους. Ωστόσο, η ραγδαία ανάπτυξη του Παγκόσμιου Ιστού και η αύξηση του όγκου της πληροφορίας που διακινείται μέσω αυτού θέτει επιτακτικά την ανάγκη για αποτελεσματικές μηχανές αναζήτησης. Προς αυτή την κατεύθυνση παρατηρείται τα τελευταία χρόνια μια έντονη τάση ενσωμάτωσης τεχνικών επεξεργασίας φυσικής γλώσσας με στόχο τη βελτίωση της απόδοσης των δικτυακών μηχανών αναζήτησης. Οι τεχνικές επεξεργασίας φυσικής γλώσσας χρησιμοποιούνται ευρέως σε εφαρμογές ανάκτησης πληροφορίας αποσκοπώντας στην καλύτερη αναπαράσταση των κειμένων για λόγους δεικτοδότησης και συνεπώς στη βελτίωση της απόδοσης της ανάκτησης. Παρότι μέχρι πρόσφατα οι περισσότερες δικτυακές μηχανές αναζήτησης έκαναν εκτεταμένη χρήση τεχνικών μορφολογικής επεξεργασίας των κειμένων που 32

δεικτοδοτούσαν, τα τελευταία χρόνια υπάρχει μια έντονη τάση υπέρ της ενσωμάτωσης σημασιολογικής επεξεργασίας με στόχο η ανάκτηση της πληροφορίας να βασιστεί πλέον όχι στις λέξεις αλλά στις έννοιες που εκφράζονται μέσα από αυτές. Στη συνέχεια παρουσιάζεται συνοπτικά ένα σύνολο τεχνικών μορφολογικής και σημασιολογικής επεξεργασίας φυσικής γλώσσας που έχουν χρησιμοποιηθεί κατά καιρούς σε συστήματα ανάκτησης πληροφορίας. 2.1.1 ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ Η μορφολογία ασχολείται με την εσωτερική δομή των λέξεων και συνήθως διακρίνεται σε κλιτική και παραγωγική. Η κλιτική μορφολογία περιγράφει τις προβλέψιμες αλλαγές των κλιτικών καταλήξεων ενός όρου, οι οποίες καθορίζονται από τη σύνταξη (π.χ. ο πληθυντικός αριθμός για τα ουσιαστικά, η παθητική φωνή για τα ρήματα κτλ.) [73], και δεν επηρεάζουν καθόλου το Μέρος του Λόγου (ΜτΛ), στο οποίο ανήκει μια λέξη. Αντίθετα, η παραγωγική μορφολογία μπορεί να ασκήσει επίδραση τόσο στο ΜτΛ μιας λέξης, όσο και στην ερμηνεία της. Οι διαφορετικοί κλιτικοί τύποι ενός όρου μπορεί να επηρεάσουν σημαντικά την απόδοση της ανάκτησης πληροφορίας, ιδιαίτερα στις δικτυακές μηχανές αναζήτησης. Όταν πρόκειται για γλώσσες με έντονη μορφολογία («πλούσιο» κλιτικό σύστημα), η αποτυχία επεξεργασίας των διαφόρων μορφολογικών τύπων των λέξεων μπορεί να οδηγήσει μόνο σε 2%-10% επιτυχή απόδοση της ανάκτησης πληροφορίας [22]. Η μορφολογική επεξεργασία των κειμένων στοχεύει στην εύκολη και αποδοτική αναζήτηση των όρων με τους οποίους διατυπώνονται τα ερωτήματα του χρήστη, ανάμεσα στις λέξεις-κλειδιά των ευρετηρίων με βάση τα οποία έχουν δεικτοδοτηθεί οι ιστοσελίδες (Web Page) από τη μηχανή αναζήτησης. Στις ακόλουθες ενότητες περιγράφονται διάφορες τεχνικές μορφολογικής επεξεργασίας είτε των κειμένων προς δεικτοδότηση, είτε των ερωτημάτων που διατυπώνουν οι χρήστες δικτυακών μηχανών αναζήτησης. 2.1.1.1 ΑΠΟΚΑΤΑΛΗΞΗ Μια ευρέως διαδεδομένη τεχνική μορφολογικής επεξεργασίας είναι η αφαίρεση των μορφολογικών καταλήξεων των όρων που εμφανίζονται μέσα σε κείμενα και χρησιμοποιούνται σαν λέξεις-κλειδιά για τη δεικτοδότηση. Η μέθοδος αυτή είναι γνωστή ως αποκατάληξη (stemming) και ουσιαστικά συνεπάγεται στη διατήρηση της μορφολογικής ρίζας των όρων δεικτοδότησης για την ανίχνευση των σχετικών προς τα ερωτήματα κειμένων από μια συλλογή. Η αποκατάληξη μπορεί να ιδωθεί είτε σαν μια μέθοδος διεύρυνσης του ερωτήματος του χρήστη με όρους που στην ουσία δεν είναι δόκιμοι κλιτικοί τύποι λημμάτων [134], είτε σαν μια μέθοδος ομαδοποίησης των όρων δεικτοδότησης, όπου οι ομάδες που δημιουργούνται προκύπτουν από κανόνες συγχώνευσης των κλιτικών τύπων κάτω από μια κοινή μορφολογική ρίζα. Η απλούστερη μέθοδος αποκατάληξης είναι γνωστή ως απλή αφαίρεση κατάληξης (suffix-stripping) [87][108], η οποία εφαρμόζεται τόσο στα κείμενα που δεικτοδοτούνται όσο και στα ερωτήματα των χρηστών. Η απλή αφαίρεση της κατάληξης των όρων δεικτοδότησης πραγματοποιείται με τη βοήθεια μιας λίστας συχνών καταλήξεων μιας φυσικής γλώσσας. Όταν κάποια από τις καταλήξεις αυτές εντοπίζεται στους όρους του ερωτήματος, η κατάληξη αφαιρείται και η αναζήτηση 33

στο ευρετήριο συντελείται με βάση το θέμα της λέξης. Το πρόβλημα όμως που προκύπτει με τη χρήση αποκατάληξης είναι πως τις περισσότερες φορές αυτή δεν πραγματοποιείται με τη χρήση κάποιου λεξικού με αποτέλεσμα να παρατηρούνται λανθασμένες συγχωνεύσεις μορφολογικών τύπων και ως εκ τούτου να μη λαμβάνεται καθόλου υπόψη η ερμηνεία ενός λήμματος. Άλλωστε, ο στόχος της αποκατάληξης δεν είναι η παραγωγή της μορφολογικής ρίζας ενός όρου, αλλά η βελτίωση της απόδοσης της ανάκτησης πληροφορίας. Τόσο η απλή αφαίρεση της κατάληξης όσο και η αποκατάληξη έχουν μελετηθεί κυρίως για την αγγλική γλώσσα, ωστόσο υπάρχουν περιπτώσεις όπου έχουν εφαρμοστεί και σε άλλες γλώσσες [159]. Αρκετά πειράματα έχουν γίνει σε μια απόπειρα εκτίμησης της επίδρασης που ασκεί η αποκατάληξη στην ανάκτηση πληροφορίας από τον Παγκόσμιο Ιστό, όπου παρατηρήθηκαν σημαντικές αποκλίσεις μεταξύ των αποτελεσμάτων, εφόσον πολλοί είναι οι παράγοντες εκείνοι που διαδραματίζουν σημαντικό ρόλο κατά την ανάκτηση πληροφορίας, όπως για παράδειγμα: η γλώσσα, το μέγεθος του κειμένου, οι μέθοδοι αξιολόγησης της απόδοσης της ανάκτησης κτλ.. Διαπιστώθηκε πως με την αποκατάληξη δημιουργούνται περισσότερες σχέσεις ανάμεσα στο ερώτημα του χρήστη και σε διάφορους όρους των ευρετηριοποιημένων κειμένων, με αποτέλεσμα την αύξηση της ανάκλησης της πληροφορίας. Από την άλλη μεριά, η χρήση αποκατάληξης μπορεί να μειώσει θεαματικά την ακρίβεια της ανακτηθείσας πληροφορίας [59], ιδιαίτερα όταν πρόκειται για γλώσσες με έντονη κλιτική και παραγωγική μορφολογία, όπου όμοιοι μορφολογικοί τύποι μπορεί να ανήκουν σε διαφορετικά λήμματα, με διαφορετική ερμηνεία. Άλλωστε, ο εντοπισμός των διαφόρων κλιτικών τύπων ενός λήμματος με τη χρήση της αποκατάληξης εισάγει θόρυβο στην ανάκτηση πληροφορίας και επιτυγχάνεται πολύ δύσκολα [73]. Οι Popovic και Willet [107] αφού μελέτησαν την αποτελεσματικότητα της μεθόδου της αποκατάληξης σε μια μορφολογικά σύνθετη γλώσσα, όπως είναι η Σλοβένικη, απεφάνθησαν πως η απόδοση της αποκατάληξης καθορίζεται σε μεγάλο βαθμό από τη μορφολογική πολυπλοκότητα μιας φυσικής γλώσσας. Η Harman [45] απέδειξε πως η αποκατάληξη δε βελτιώνει καθόλου την ανάκτηση πληροφορίας, ενώ ο Krovetz [73] έδειξε πως η αποκατάληξη βελτιώνει την ανάκτηση σε ποσοστό 1,3 % με 45,3%. Μια πιο εκτεταμένη μελέτη που πραγματοποιήθηκε από τον Hull [52] σε μεγάλες συλλογές κειμένων έδειξε πως έστω και μια επιφανειακή μέθοδος αποκατάληξης μπορεί να συμβάλλει θετικά στην απόδοση της ανάκτησης, όμως το ποσοστό βελτίωσης της τελευταίας είναι πολύ μικρό, από 1% έως 3%. Συμπερασματικά, η αποκατάληξη αποτελεί μια τεχνική μορφολογικής επεξεργασίας φυσικής γλώσσας, η οποία αυξάνει σημαντικά την ανάκληση της ανακτηθείσας πληροφορίας. Από την άλλη μεριά, παρότι η επίδραση που ασκεί στην ακρίβεια καθορίζεται σε μεγάλο βαθμό από τη φυσική γλώσσα καθώς και από την ύπαρξη λεξικογραφικών πόρων και μεθόδων σημασιολογικής αποσαφήνισης, σε γενικές γραμμές η αποκατάληξη δε συμβάλει θεαματικά στη βελτίωση της ακρίβειας της ανακτηθείσας πληροφορίας. 2.1.1.2 ΑΝΑΔΙΠΛΩΣΗ ΠΕΖΩΝ-ΚΕΦΑΛΑΙΩΝ ΧΑΡΑΚΤΗΡΩΝ Σε περιπτώσεις όπου η ανάκτηση πληροφορίας πραγματοποιείται με απλή ταυτοποίηση αλφαριθμητικών, πρέπει να εξασφαλίζεται πως οι όροι του ερωτήματος 34

ταυτίζονται απόλυτα με τους όρους δεικτοδότησης. Ένας λόγος για τον οποίο η ανάκτηση πληροφορίας αποτυγχάνει, είναι το γεγονός πως χρησιμοποιούνται κεφαλαίοι χαρακτήρες για τη διατύπωση των ερωτημάτων και πεζοί από τους όρους δεικτοδότησης, ή το αντίστροφο [156]. Για την αντιμετώπιση του παραπάνω προβλήματος χρησιμοποιείται η μέθοδος της αναδίπλωσης κεφαλαίων/πεζών χαρακτήρων (case folding), σύμφωνα με την οποία οι κεφαλαίοι χαρακτήρες μιας συμβολοσειράς αντικαθιστώνται από τους αντίστοιχους πεζούς. Ένα σημαντικό πλεονέκτημα της αναδίπλωσης είναι πως με την τεχνική αυτή απλοποιείται η κατασκευή του ευρετηρίου, μειώνοντας παράλληλα το μέγεθός του [156]. Πολλές φορές όμως, οι χρήστες επιθυμούν την ανάκτηση κειμένων, στα οποία οι όροι να περιέχονται με τον τρόπο που είναι διατυπωμένοι στο ερώτημά τους (με κεφαλαίους ή πεζούς χαρακτήρες αντίστοιχα). Χαρακτηριστικό παράδειγμα, για τη Νέα Ελληνική αποτελούν ορισμένα κύρια ονόματα, η συμβολοσειρά των οποίων ταυτίζεται απόλυτα με κάποιους κλιτικούς τύπους ουσιαστικών, π.χ. Μαργαρίτα ( κύριο όνομα), μαργαρίτα ( ουσιαστικό). Η μόνη διαφοροποίηση των δυο όρων σε τέτοιες περιπτώσεις έγκειται στον πρώτο χαρακτήρα, ο οποίος είναι κεφαλαίο αλφαβητικό σύμβολο στην περίπτωση των κυρίων ονομάτων και πεζό αλφαβητικό στην περίπτωση των ουσιαστικών. Για την επιτυχή αντιμετώπιση τέτοιων περιπτώσεων είναι σύνηθες φαινόμενο η διατήρηση δυο διαφορετικών δομών σ ένα ευρετήριο, καθεμιά από τις οποίες υποστηρίζει και διαφορετικό τρόπο αναζήτησης: στη μια περίπτωση χρησιμοποιείται η τεχνική της αναδίπλωσης πεζών/κεφαλαίων χαρακτήρων και η αναζήτηση πραγματοποιείται μόνο με πεζούς χαρακτήρες, ενώ στη δεύτερη περίπτωση η αναζήτηση πραγματοποιείται με βάση τη συμβολοσειρά που δόθηκε από το χρήστη. 2.1.2 ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ Πολλές δικτυακές μηχανές αναζήτησης αναπαριστούν τα κείμενα και τα ερωτήματα των χρηστών με βάση τους όρους που αυτά περιλαμβάνουν και στηρίζουν τη σύγκριση μεταξύ τους στον αριθμό των όρων που έχουν κοινούς. Όσο περισσότερες είναι οι κοινές λέξεις μεταξύ του ερωτήματος και των όρων δεικτοδότησης ενός κειμένου, τόσο υψηλότερη θέση καταλαμβάνει το ανακτηθέν κείμενο στην ταξινομημένη λίστα που επιστρέφεται στο χρήστη [73]. Η απόδοση της ανάκτησης βελτιώνεται λαμβάνοντας υπόψη τη συχνότητα εμφάνισης των όρων σε δεικτοδοτημένα κείμενα. Οι τεχνικές μορφολογικής επεξεργασίας των κειμένων προς δεικτοδότηση, καθώς και των ερωτημάτων δεν επαρκούν πάντα για τη βελτίωση της απόδοσης της ανάκτησης πληροφορίας, εφόσον στοχεύουν κυρίως στην αύξηση της ανάκλησης και όχι της ακρίβειας των αποτελεσμάτων. Οι τεχνικές αποκατάληξης λαμβάνουν υπόψη μόνο τους μορφολογικούς τύπους των λημμάτων που επεξεργάζονται και όχι τις ερμηνείες τους, με αποτέλεσμα τη μείωση της ακρίβειας της ανακτηθείσας πληροφορίας [59]. Αντίθετα, όταν η ανάκτηση πληροφορίας στηρίζεται στη σημασία των όρων και όχι στους μορφολογικούς τους τύπους, η ακρίβεια της ανακτηθείσας πληροφορίας αυξάνεται σημαντικά. Σε περιπτώσεις, όμως, που οι όροι δεικτοδότησης ή οι όροι των ερωτημάτων εμπεριέχουν ασάφεια, η απόδοση της ανάκτησης μπορεί να περιοριστεί αρκετά. Η σημασιολογική ασάφεια αναφέρεται στις διαφορές που υπάρχουν μεταξύ των ερμηνειών ενός λήμματος και διαχωρίζεται σε ομογραφία (homography) και πολυσημία (polysemy) [73]. Ομόγραφοι χαρακτηρίζονται οι όροι εκείνοι που συμπίπτουν στο μορφολογικό/ορθογραφικό τους τύπο και έχουν διαφορετική 35