Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Σχετικά έγγραφα

Περίληψη ιπλωµατικής Εργασίας

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ

Εννοιολογικός Χάρτης Cmap Tools

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΟΔΗΓΟΣ ΧΡΗΣΗΣ ΥΠΗΡΕΣΙΑΣ [ΥΠΗΡΕΣΊΑ 8 - ΑΝΆΠΤΥΞΗ

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. «Υλοποίηση εφαρμογής λογιστικών και στατιστικών δεδομένων μιας επιχείρησης Δ.Ε.Υ.Α.» Αρ. Μητρώου:

Άσκηση. Εξοικείωση με την δραστηριότητα Quiz στο σύστημα Moodle

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ

Ανάκτηση Πληροφορίας

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ανάκτηση Πληροφορίας

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή

Οδηγίες Χρήσης Πλατφόρμας Ασύγχρονης Τηλεκπαίδευσης (Moodle) του Τμήματος ΔΕΤ

Οριστική Δήλωση και Βεβαιώσεις Αμοιβών Επαγγελματιών

Ανάκτηση Πληροφορίας

Hotel Perrakis Όροι χρήσης

Πολιτική για τα cookie

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

ΗΛΕΚΤΡΟΝΙΚΕΣ ΥΠΗΡΕΣΙΕΣ ΝΗΟΛΟΓΗΣΗΣ ΠΛΟΙΩΝ

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Πιλοτική Ανταγωνιστική Διαδικασία για Φ/Β εγκαταστάσεις. Οδηγός εγγραφής (Οδηγός εγγραφής εταιρείας και χρήστη ή/και χρηστών)

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Μητρώο Τεκµηρίων Εκπαιδευτή ΕΝΟΤΗΤΑ/ΣΤΟΙΧΕΙΟ E/15 ΑΝΑΦΟΡΑ ΧΑΡΤΟΦΥΛΑΚΙΟΥ 15 ΕΚΠΑΙ ΕΥΤΗΣ Χρίστου Χρίστος

Η εφαρµογή ClassWeb δίνει στους διδάσκοντες χρήστες του συστήµατος τη δυνατότητα πρόσβασης µέσω του ιαδικτύου σε ποικίλες υπηρεσίες, όπως:

Εγχειρίδιο Χρήσης Συστήµατος ιαχείρισης Αιτήσεων Υποψηφίων Συνεργατών ΑΤΕΙ Καλαµάτας

ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ CLASSWEB Εισαγωγή βαθμολογιών από διδάσκοντες μέσω Διαδικτύου

Εγγραφή Οικονομικών Φορέων (registration)

ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ Π.Σ. ΦΟΙΤΗΤΟΛΟΓΙΟΥ- ΓΙΑ ΤΟ ΔΙΔΑΣΚΟΝΤΑ (ClassWeb)

Αντιγραφή με χρήση της γυάλινης επιφάνειας σάρωσης


Συγκριτικά Πλεονεκτήµατα Γραµµατείας 2003 έναντι Γραµµατείας 2.5

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

11/4/2014 ΤΕΙ Ιονίων Νήσων Πλατφόρµα Ασύγχρονησ Τηλεκπαίδευσησ eclass s ηµιο ι υρ υ γ ρ ία ί Μ αθήµατο τ σ 1

ΟΔΗΓΟΣ ΕΓΚΑΤΑΣΤΑΣΗΣ ΠΙΣΤΟΠΟΙΗΤΙΚΟΥ ΑΣΦΑΛΕΙΑΣ WEBMAIL ΤΕΙ ΚΑΛΑΜΑΤΑΣ

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

1. Η χειρότερη περίπτωση είναι όταν γίνου 10 επαναλήψεις, δηλαδή για n = 0.

Οδηγίες χρήσης εφαρμογής υποβολής αίτησης τοποθέτησης

Ανοικτά Ακαδηµα κά Μαθήµατα. ιαδικτυακές εφαρµογές ιαχείριση µαθηµάτων µε ηλεκτρονικό τρόπο Πρόγραµµα σπουδών διδακτική ενότητα

Τεχνολογία Ηλεκτρονικού Εμπορίου

Εφαρµογές πλοήγησης για φορητές συσκευές µε τη χρήση Web Services

Εφαρμογή Διαχείρισης Ψηφιακής Πληροφορίας ΟΔΗΓΟΣ ΧΡΗΣΗΣ System Συμβουλευτική Α.Ε

wikispaces Επεξεργασία και συγγραφή Πατρώνας Γεώργιος

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

ΟΔΗΓΟΣ ΧΡΗΣΗΣ ΥΠΗΡΕΣΙΑΣ [ΥΠΗΡΕΣΊΑ 4 - ΑΝΆΠΤΥΞΗ

Ο ΗΓΙΕΣ ΣΥΜΠΛΗΡΩΣΗΣ ΤΗΣ ΦΟΡΜΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΥΠΟΒΟΛΗΣ

(Αντιγραφή) ή χρησιμοποιήστε το πληκτρολόγιο για να καταχωρίσετε τους αριθμούς των αντιγράφων. Αντιγραφή με χρήση της γυάλινης επιφάνειας σάρωσης

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας

Παλαιότερες ασκήσεις

Blog στο Wordpress. Επιμέλεια: Δέγγλερη Σοφία

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

Οδηγός γρήγορης εκκίνησης

Πολιτική για τα cookies

Εργαλεία ανάπτυξης εφαρμογών internet Ι

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Browsers. Λειτουργικότητα και Παραμετροποίηση

Η διαδικτυακή εφαρμογή ESOG: Εγχειρίδιο χρήσης *

Διαδικτυακές Υπηρεσίες Αναζήτησης, Απεικόνισης και Απευθείας Πρόσβασης στα δεδομένα ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ. Έκδοση 0.1.

Οδηγίες αρθρογράφησης στην ιστοσελίδα του 2ου ΓΕΛ Καματερού

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Εγχειρίδιο Χρήσης Φορέα Πιστοποίησης

Εγχειρίδιο χρήσης εφαρμογής online 2017 (Οδηγίες προς τον Αιτούντα)

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Όλοι οι χρήστες του Turnitin πρέπει να δημιουργήσουν ένα προφίλ χρήστη.

Πρόσβαση στην Καταγραφή και Εγχειρίδιο Χρήσης Εφαρµογών για /νσεις και Γραφεία /θµιας Εκπαίδευσης και για Περιφερειακές /νσεις Εκπαίδευσης

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Εγκατάσταση Mozilla Firefox

ΔΗ Μ Ι Ο ΥΡ Γ Ι Α W I K I με τ η χρήση τ η ς υπ ηρεσίας h t t p : / id ot.com /

Εφαρµογή EXTRA. ιαδικασία εξαγωγής της Μηχανογραφικής. έκδοσης ισοζυγίου στην εφαρµογή Extra Λογιστική ιαχείριση.

eδαπυ Αναγγελίας Αιμοκάθαρσης

ΗΛΕΚΤΡΟΝΙΚΟ ΣΥΣΤΗΜΑ ΥΠΟΒΟΛΗΣ ΜΗΧΑΝΟΓΡΑΦΙΚΟΥ ΔΕΛΤΙΟΥ

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner

Αναζήτηση στον Ιστό. Πληκτρολόγηση του URL: στο πλαίσιο αναζήτησης του Mozilla Firefox. Enter ή κλικ στο Αναζήτηση

Η εφαρµογή ΕΦ.Υ.Ε.Σ. (ΕΦαρµογή Υποστήριξης Έρευνας Στατιστικής, άλφα έκδοση) και η ένταξή της στη διδασκαλία της Φυσικής Γυµνασίου - Λυκείου

Εισαγωγή στο Mahara Παιδαγωγικό Ινστιτούτο Κύπρου

Η διεύθυνση της σελίδας είναι: Ποιά προσωπικά δεδομένα συλλέγουμε και γιατί

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

«Οδηγίες χρήσης εφαρμογής Ενιαίου Συστήματος Πληρωμών»

Blog στο Wordpress. Επιμέλεια: Δέγγλερη Σοφία

Alfaware Οδηγός Χρήσης Εφαρμογής (Software User Manual)

των πελατών για το κλείσιμο ραντεβού για έλεγχο όρασης στα καταστήματά μας. Αποδέκτης των προσωπικών μη ευαίσθητων δεδομένων είναι μόνο η Εταιρεία

Εγχειρίδιο λειτουργιών χρήστη (αποφοίτου) στο Mathiteia4u

Οδηγίες για την Ηλεκτρονική Υποβολή των Δηλώσεων Φορολογικής

ΕΓΧΕΙΡΙ ΙΟ ΧΡΗΣΗΣ. Πρόσβαση στην Καταγραφή και Εγχειρίδιο Χρήσης Εφαρµογών για ιευθύνσεις και Γραφεία Εκπαίδευσης

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΤΑΝΕΜΗΜΕΝΑ ΣΥΣΤΗΜΑΤΑ Εαρινό Εξάμηνο

Μπορείτε τα δείτε βιντεάκι με τη διαδικασία εδώ:

ΟΓΗΓΙΕΣ ΧΡΗΣΗΣ ΗΛΕΚΤΡΟΝΙΚΟΥ ΜΗΤΡΩΟΥ ΑΠΟΒΛΗΤΩΝ. Draft version

ΔΡΑΣΗ 3: «Ανάπτυξη και Λειτουργία Δικτύου Πρόληψης και Αντιµετώπισης φαινοµένων της Σχολικής Βίας και Eκφοβισµού»

ΣυνοπτικόςΟδηγόςΧρήσηςτουMoodle για το Φοιτητή

Οδηγός Χρήσης Εφαρμογής Ανάρτησης μέσω Διαδικτύου. (Έκδοση: 9.0)

Transcript:

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Όνοµα: Νικολαΐδης Αντώνιος Επιβλέπων: Τ. Σελλής Περίληψη ιπλωµατικής Εργασίας Συνεπιβλέποντες: Θ. αλαµάγκας, Γ. Γιαννόπουλος Εισαγωγή Σκοπός της εργασίας αυτής είναι ο σχεδιασµός και η ανάπτυξη τεχνικών που θα βελτιώσουν τον τρόπο ταξινόµησης των αποτελεσµάτων µιας µηχανής αναζήτησης, έτσι ώστε η κατάταξή τους να είναι εξατοµικευµένη για το χρήστη. Συγκεκριµένα θα δουλέψουµε µε τα αποτελέσµατα που παρέχει η µηχανή αναζήτησης Google, αλλά αυτό εύκολα µπορεί να τροποποιηθεί και σε άλλη µηχανή αναζήτησης της επιθυµίας µας. Κατά κανόνα, υπάρχουν χιλιάδες ιστοσελίδες που περιέχουν τις λέξεις του ερωτήµατος ενός χρήστη µηχανής αναζήτησης. Ο χρήστης όµως ενδιαφέρεται για ένα πολύ µικρότερο υποσύνολο από αυτές. Η χρησιµότητα µίας µηχανής αναζήτησης για ένα χρήστη εξαρτάται από την σχετικότητα των αποτελεσµάτων που του παρουσιάζονται σε σχέση µε αυτά που περίµενε να δει. Οι περισσότερες µηχανές αναζήτησης χρησιµοποιούν µεθόδους για την κατάταξη των αποτελεσµάτων έτσι ώστε να εµφανίζουν στην κορυφή τα καλύτερα αποτελέσµατα. Καθώς η χρήση του ιαδικτύου και συνεπώς και των χρηστών µηχανών αναζήτησης συνεχώς αυξάνεται, είναι φανερό ότι η παραδοσιακή µέθοδος της ενιαίας κατάταξης για όλους τους χρήστης δεν είναι αρκετά ικανοποιητική. Η εξατοµίκευση των αποτελεσµάτων που πραγµατοποιεί η εφαρµογή µας είναι ένας τρόπος να απευθυνθούµε σε αυτό το πρόβληµα των µηχανών αναζήτησης. Έµµεσο feedback µε clickstream δεδοµένα Η τροποποίηση της παρουσιαζόµενης κατάταξης γίνεται µε βάση το ιστορικό της δραστηριότητας του χρήστη καθώς πραγµατοποιεί αναζητήσεις στο διαδίκτυο. Το ιστορικό περιλαµβάνει µόνο δεδοµένα τύπου clickstream, δηλαδή την ακολουθία των κλικ που ο χρήστης έκανε κατά τη διάρκεια χρήσης της µηχανής αναζήτησης. Κάθε φορά που ένας χρήστης διατυπώνει ένα ερώτηµα ή κάνει κλικ σε ένα αποτέλεσµα αναζήτησης, παρέχεται ανατροφοδότηση (feedback) στη µηχανή αναζήτησης. 1

Με τον όρο clickstream εννοούµε το εικονικό µονοπάτι που αφήνει ένας χρήστης καθώς περιηγείται στο διαδίκτυο. Τα clickstream δεδοµένα στης µηχανές αναζήτησης µπορούν να θεωρηθούν ως τριπλέτες (q, r, c), όπου q το ερώτηµα, r η κατάταξη που παρουσιάστηκε στο χρήστη και c το σύνολο των συνδέσµων στους οποίους έκανε κλικ ο χρήστης. Τα clickstream δεδοµένα µπορούν να αποθηκευτούν µε µικρό επιπλέον κόστος και χωρίς να διακινδυνεύουν τη λειτουργικότητα και χρησιµότητα της µηχανής αναζήτησης. Συγκεκριµένα, σε σχέση µε µεθόδους ρητής ανάδρασης (explicit feedback), δεν προσθέτει καθόλου επιπλέον κόστος στο χρήστη. Το ερώτηµα και η κατάταξη που επιστρέφεται µπορεί εύκολα να αποθηκευτεί όταν παρουσιάζεται στο χρήστη. Για την καταγραφή των κλικ, ένας απλός διακοµιστής µεσολάβησης (proxy server) µπορεί να κρατάει ένα αρχείο ιστορικού (log file). Σε κάθε ερώτηµα εκχωρείται ένα µοναδικό αναγνωριστικό ID, το οποίο αποθηκεύεται στο log αρχείο µαζί µε τις λέξεις κλειδιά του ερωτήµατος και την κατάταξη που επιστρέφεται στο χρήστη. Οι σύνδεσµοι στην σελίδα των αποτελεσµάτων δεν οδηγούν απευθείας στο έγγραφο, αλλά δείχνουν σε έναν proxy server. Οι σύνδεσµοι αυτοί ενσωµατώνουν το αναγνωριστικό ID του ερωτήµατος και την URL διεύθυνση του εγγράφου. Όταν ο χρήστης κάνει κλικ στο σύνδεσµο, ο proxy server καταγράφει το URL και το αναγνωριστικό ID του ερωτήµατος στο αρχείο ιστορικού. Κατόπιν ο proxy server προωθεί τον χρήστη στη διεύθυνση URL. Το βασικό κίνητρο για τη χρήση της έµµεσης ανατροφοδότησης είναι ότι καταργεί το κόστος για τον χρήστη της εξέτασης και βαθµολόγησης κάθε στοιχείου ρητά. Ενώ εξακολουθεί να υπάρχει ένα υπολογιστικό κόστος αποθήκευσης και επεξεργασίας των δεδοµένων, αυτό µπορεί να είναι αόρατο από το χρήστη. Σε ένα δικτυωµένο περιβάλλον συνήθως είναι δύσκολο για το χρήστη να διαχωρίσει την καθυστέρηση του δικτύου από την επιπλέον επεξεργασία της εφαρµογής. Επίσης ο χρήστης δεν επιβαρύνεται µε επιπλέον χρονοβόρες διαδικασίες δηµιουργίας προφίλ ή άµεσης αξιολόγησης των αποτελεσµάτων που του παρέχει η µηχανή αναζήτησης, αλλά τη χρησιµοποιεί µε το συνηθισµένο και φυσικό του τρόπο. Το πλεονέκτηµα της έµµεσης ανατροφοδότησης σε σχέση µε τη ρητή είναι ότι µπορούν να συλλέγονται δεδοµένα σε πολύ χαµηλότερο κόστος, σε πολύ µεγαλύτερες ποσότητες, και χωρίς επιβάρυνση για το χρήστη του συστήµατος ανάκτησης τους. Αρχεία καταγραφής δραστηριότητας χρήστη Τα δεδοµένα καταγραφής της δραστηριότητας του χρήστη αποθηκεύονται σε δύο αρχεία καταγραφής. Στο πρώτο αρχείο (out.log), που θα χρησιµοποιηθεί για την εξαγωγή των σχετικών προτιµήσεων του χρήστη, αποθηκεύονται: 2

Για κάθε ερώτηµα: o Η ηµεροµηνία και ώρα που έγινε το ερώτηµα. o Ένα µοναδικό αναγνωριστικό του ερωτήµατος (query id). o Οι λέξεις κλειδιά του ερωτήµατος. o Η IP διεύθυνση του χρήστη που έκανε το ερώτηµα. o Οι URL διευθύνσεις των αποτελεσµάτων που παρουσιάστηκαν στο χρήστη. Για κάθε κλικ σε κάποιο αποτέλεσµα: o Η ηµεροµηνία και ώρα που έγινε το κλικ. o To µοναδικό αναγνωριστικό του ερωτήµατος (query id). o Η IP διεύθυνση του χρήστη που έκανε το κλικ.. o Η URL διεύθυνση του αποτελέσµατος. Στο δεύτερο αρχείο (out2.log), από του οποίου τα περιεχόµενα θα υπολογιστούν τα χαρακτηριστικά των αποτελεσµάτων, καταγράφονται τα εξής: τα ερωτήµατα του χρήστη, οι τίτλοι των αποτελεσµάτων οι περιλήψεις των αποτελεσµάτων, οι URL διευθύνσεις των αποτελεσµάτων. Εξαγωγή προτιµήσεων χρήστη Αναλύοντας τα δεδοµένα αυτά, εξάγονται κάποια συµπεράσµατα για τις προτιµήσεις του χρήστη. Οι περισσότεροι χρήστες όταν κάνουν ένα ερώτηµα σε µία µηχανή αναζήτησης τείνουν να αξιολογούν µόνο λίγα από τα αποτελέσµατα πριν να κάνουν κλικ σε κάποιο. Ο τρόπος µε τον οποίο η µηχανή αναζήτησης παρουσιάζει τα αποτελέσµατα στο χρήστη έχει ισχυρή επιρροή στο πώς οι χρήστες συµπεριφέρονται. Ο χρήστης δε χρειάζεται να δηλώσει ρητά τις προτιµήσεις του, αλλά τις εξάγουµε έµµεσα, βασιζόµενοι στο γεγονός ότι κάνει κλικ σε κάποια αποτελέσµατα ενώ εσκεµµένα αγνοεί κάποια άλλα που εµφανίζονται υψηλότερα στην αρχική κατάταξη. Στρατηγική Click > Skip above Για µία κατάταξη (l 1, l 2, l 3, ) και ένα σύνολο C που περιλαµβάνει τις θέσεις κατάταξης των αποτελεσµάτων στα οποία έγινε κλικ, εξάγεται η προτίµηση rel(l i ) > rel(l j ) για όλα τα ζευγάρια 1 j < 1, µε i C και j C. Ας πάρουµε την υποθετική κατάταξη των αποτελεσµάτων l 1 ως l 7 και ας υποθέσουµε ότι ο χρήστης έκανε κλικ στους συνδέσµους l 1, l 3, και l 5. 3

l 1 l 2 l 3 l 4 l 5 l 6 l 7 Οι χρήστες συνήθως σαρώνουν τα αποτελέσµατα από πάνω προς τα κάτω, και άρα στο παράδειγµά µας, ο χρήστης, πριν κάνει κλικ στο l 3, είδε το l 2 και πήρε την απόφαση να µην πατήσει πάνω του. Αυτό δείχνει την προτίµηση του για το l 3 σε σχέση µε το l 2. Έτσι έχουµε: rel(l 3 ) > rel(l 2 ), rel(l 5 ) > rel(l 2 ), rel(l 5 ) > rel(l 4 ) Χαρακτηριστικά (features) Εκτός από τις προτιµήσεις του χρήστη, πρέπει να υπολογιστούν και τα χαρακτηριστικά των αποτελεσµάτων που εµφανίζονται στο χρήστη, ανεξαρτήτως αν τα επισκέφτηκε ή όχι. Τα χαρακτηριστικά αυτά περιλαµβάνουν 1. Οµοιότητα ερωτήµατος τίτλου εγγράφου, υπολογισµένη µε τις συναρτήσεις οµοιότητας κειµένου του Lucene, την tf. idf και την BM25. 2. Οµοιότητα ερωτήµατος περίληψης εγγράφου, υπολογισµένη µε τις συναρτήσεις οµοιότητας κειµένου του Lucene, την tf. idf και την BM25. 3. Οµοιότητα ερωτήµατος URL διεύθυνσης εγγράφου, υπολογισµένη µε τις συναρτήσεις οµοιότητας κειµένου του Lucene, την tf. idf και την BM25. 4. Βαθµολογία µε βάση τη θέση κατάταξης του εγγράφου στο Google. 5. Domain της URL διεύθυνσης του εγγράφου. Εκπαίδευση SVM µοντέλου Αφού έχουµε µαζέψει έναν ικανοποιητικό αριθµό προτιµήσεων, τα τροφοδοτούµε µαζί τα χαρακτηριστικά των ιστοσελίδων στον αλγόριθµο εκπαίδευσης Support Vector Machine. Τα Support Vector Machines (SVMs) είναι ένα σύνολο µεθόδων εκµάθησης που χρησιµοποιούνται για προβλήµατα ταξινόµησης και κατάταξης. Ο αλγόριθµος αυτός εκπαιδεύει ένα µοντέλο, το οποίο ουσιαστικά µαθαίνει τι χαρακτηριστικά έχουν τα αποτελέσµατα που προτιµά ο χρήστης και το οποίο µπορεί να χρησιµοποιηθεί για να µαντέψει τις προτιµήσεις του χρήστη για µελλοντικά ερωτήµατα. Όταν ο χρήστης κάνει το ερώτηµα του στη µηχανή αναζήτησης, έχει πλέον τη δυνατότητα να ζητήσει αναταξινόµηση των αποτελεσµάτων µε βάση το εκπαιδευµένο µοντέλο. Κατόπιν αναλύονται τα χαρακτηριστικά των αποτελεσµάτων της µηχανής αναζήτησης και υπολογίζεται από τον αλγόριθµο κατάταξης Support Vector Machine τι θέση πρέπει να έχουν τα αποτελέσµατα αυτά, µε βάση τις προτιµήσεις που έχουν καταχωρηθεί στο µοντέλο. Έτσι τα αποτελέσµατα παρουσιάζονται στο χρήστη µε κατάταξη εξατοµικευµένη στις προτιµήσεις του. 4

Συνεισφορά Η κύρια συνεισφορά της εργασίας έγκειται στην ανάπτυξη του µηχανισµού ανακατάταξης των αποτελεσµάτων µε βάση το εκπαιδευµένο SVM µοντέλο. Αυτό µπορεί να χρησιµοποιηθεί σαν κοµµάτι οποιασδήποτε µηχανής αναζήτησης έτσι ώστε τα αποτελέσµατα να εµφανίζονται προσωποποιηµένα για ένα χρήστη ή µία οµάδα χρηστών. Η εφαρµογή χρειάζεται να εκπαιδευτεί µε πολλά δεδοµένα για να µπορέσουµε να κρίνουµε την αποτελεσµατικότητα της. Έχει ήδη τεθεί σε λειτουργία στο Ινστιτούτο Πληροφοριακών Συστηµάτων και Προσοµοίωσης, καθώς και στο Εργαστήριο Συστηµάτων Βάσων Γνώσεων και εδοµένων και συλλέγονται δεδοµένα. Μελλοντικές επεκτάσεις Θα µπορούσαµε να υλοποιήσουµε κάποια επιπλέον χαρακτηριστικά για να εξάγουµε µε περισσότερη ακρίβεια τις προτιµήσεις του χρήστη, όπως: Επιπλέον συναρτήσεις οµοιότητας κειµένου. Θέση κατάταξης του αποτελέσµατος σε άλλες µηχανής αναζήτησης. Συγκεκριµένες λέξεις κλειδιά που παρουσιάζονται στον τίτλο, στην περίληψη ή στη διεύθυνση του αποτελέσµατος (πχ forum ή wiki). Επιπλέον προτιµήσεις µπορούµε να εξάγουµε χρησιµοποιώντας αλυσίδες ερωτηµάτων, δηλαδή προτιµήσεις µεταξύ αποτελεσµάτων που εµφανίστηκαν σε διαδοχικά ερωτήµατα του χρήστη. Τέλος, η εφαρµογή µπορεί να υλοποιηθεί σαν extension του περιηγητή Mozilla Firefox. Αυτό θα µας δώσει πολλές επιπλέον πληροφορίες καταγράφοντας ενέργειες όπως ο χρόνος ανάγνωσης ή κύλισης σε κάθε ιστοσελίδα, η προσθήκη στα αγαπηµένα, η αποθήκευση σε αρχείο ή η εκτύπωση. Από τις πληροφορίες αυτές µπορούµε να εξάγουµε ακόµα περισσότερες προτιµήσεις του χρήστη οι οποίες θα βοηθήσουν στο να είναι πιο ακριβές το µοντέλο. 5