Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση µεθόδων Συµπερασµού Γραµµατικών Κορφιάτης Γιώργος ιπλωµατική Εργασία
Αντικείµενο Κατασκευή µοντέλου ικανού να περιγράψει την πλοήγηση των χρηστών στον Παγκόσµιο Ιστό Χρήση του µοντέλου για πρόταση σελίδων Μάρτιος 2006 Γ. Κορφιάτης 2
Περιεχόµενα Εξατοµίκευση Μέθοδοι Συµπερασµού Γραµµατικών Μέθοδος µοντελοποίησης της πλοήγησης στον Ιστό Πειραµατική Αξιολόγηση Συµπεράσµατα Μάρτιος 2006 Γ. Κορφιάτης 3
Παγκόσµιος Ιστός Ανεξάντλητη πηγή πληροφοριών αλλά Έλλειψη δοµής Υπερσυσσώρευση πληροφοριών Χρήστες µη ειδικοί Μάρτιος 2006 Γ. Κορφιάτης 4
Παγκόσµιος Ιστός Ανάγκη υποβοήθησης του χρήστη στον εντοπισµό χρήσιµης πληροφορίας Λύση: Εξατοµίκευση των υπηρεσιών Μάρτιος 2006 Γ. Κορφιάτης 5
Εξατοµίκευση Σε επίπεδο ιστοχώρου: Αναγνώριση χρήστη Προσαρµογή ιστοσελίδας στα µέτρα του χρήστη Καθοδήγηση (πρόταση συνδέσµων) Μοντελοποίηση χρήστη µε τεχνικές Εξόρυξης Γνώσης από εδοµένα (Data Mining) Μάρτιος 2006 Γ. Κορφιάτης 6
Ανακάλυψη Προτύπων Πλοήγησης Στόχος η πρόταση συνδέσµων Μοντελοποίηση της πλοήγησης ιαδικασία εξόρυξης γνώσης από δεδοµένα χρήσης Μάρτιος 2006 Γ. Κορφιάτης 7
Προσεγγίσεις Ντετερµινιστικές Εύρεση συχνά επαναλαµβανόµενων ακολουθιών σελίδων Κανόνες διαδοχής, Κοινότητες χρηστών Στοχαστικές Κατασκευή µοντέλου πιθανοτήτων Χρήση µαρκοβιανών µοντέλων Χρήση Συµπερασµού Γραµµατικών Μάρτιος 2006 Γ. Κορφιάτης 8
Προσεγγίσεις Κατάλληλες για έναν ιστοχώρο αλλά Ακατάλληλες για τον Παγκόσµιο Ιστό Μεγάλος όγκος Ανοµοιογένεια περιεχοµένου Μάρτιος 2006 Γ. Κορφιάτης 9
Μοντελοποίηση της πλοήγησης σε όλο τον Παγκόσµιο Ιστό Τα δεδοµένα χρήσης δεν επαρκούν Χρειάζεται επιπλέον πληροφορία π.χ. σύγκριση περιεχοµένου των σελίδων Μάρτιος 2006 Γ. Κορφιάτης 10
Ηπροσέγγισήµας Περιγραφή πλοήγησης µε γραµµατική Χρήση µεθόδων Συµπερασµού Γραµµατικών Αξιοποίηση δεδοµένων χρήσης και πληροφορίας για οµοιότητα περιεχοµένου σελίδων Μάρτιος 2006 Γ. Κορφιάτης 11
Συµπερασµός Γραµµατικών Κλάδος της Μηχανικής Μάθησης Επαγωγική εκµάθηση γραµµατικής από δεδοµένα G 0 Παραγωγή εδοµένα Συµπερασµός G Μάρτιος 2006 Γ. Κορφιάτης 12
Κανονικές Γραµµατικές Απλούστερη κλάση γραµµατικών Κανόνες της µορφής: A ab a ε { n n } L = ab S ab 1 B ε B bb Μάρτιος 2006 Γ. Κορφιάτης 13
Πιθανοτικές Κανονικές Γραµµατικές Πιθανότητα εµφάνισης συµβολοσειράς Πιθανότητες πάνω στις µεταβάσεις και στους κόµβους Μάρτιος 2006 Γ. Κορφιάτης 14
Μέθοδος Alergia Συµπερασµός πιθανοτικής κανονικής γραµµατικής (αυτοµάτου) Ξεκινά από δενδρική δοµή (PPTA) Εφαρµογή: Σύµβολα Ιστοσελίδες Συµβολοσειρές Σύνοδοι χρήσης S = { ab, ab, ab, ad, de, def, gb, gb} Μάρτιος 2006 Γ. Κορφιάτης 15
Alergia: Αρχικό PPTA Μάρτιος 2006 Γ. Κορφιάτης 16
Alergia Συγχωνεύει κόµβους Κριτήριο Συµβατότητας: όµοιες µεταβάσεις Μάρτιος 2006 Γ. Κορφιάτης 17
Alergia: Εκτέλεση Μάρτιος 2006 Γ. Κορφιάτης 18
Alergia: Εκτέλεση Μάρτιος 2006 Γ. Κορφιάτης 19
Alergia: Εκτέλεση Μάρτιος 2006 Γ. Κορφιάτης 20
Alergia: Εκτέλεση Μάρτιος 2006 Γ. Κορφιάτης 21
Alergia: Εκτέλεση Μάρτιος 2006 Γ. Κορφιάτης 22
Μέθοδος Blue Fringe Παρόµοια µε τονalergia Πιο έξυπνη επιλογή συγχωνεύσεων Σύνολα κόκκινων και µπλε κόµβων Βαθµολογεί τα ζευγάρια κόκκινων-µπλε Επιλέγει το καλύτερο ζευγάρι Μεγαλύτερη χρονική πολυπλοκότητα Μάρτιος 2006 Γ. Κορφιάτης 23
Blue Fringe: Εκτέλεση Μάρτιος 2006 Γ. Κορφιάτης 24
Blue Fringe: Εκτέλεση Μάρτιος 2006 Γ. Κορφιάτης 25
Blue Fringe: Εκτέλεση Μάρτιος 2006 Γ. Κορφιάτης 26
Blue Fringe: Εκτέλεση Μάρτιος 2006 Γ. Κορφιάτης 27
Blue Fringe: Εκτέλεση Μάρτιος 2006 Γ. Κορφιάτης 28
Αξιοποίηση για µοντελοποίηση πλοήγησης στον Ιστό Σύµβολα Συµβολοσειρές Ιστοσελίδες Σύνοδοι χρήσης Συγχώνευση κόµβων Πιθανότητες στις µεταβάσεις ηµιουργία οµάδων σελίδων Συχνότητα µετάβασης µεταξύ σελίδων / οµάδων Μάρτιος 2006 Γ. Κορφιάτης 29
Νέα µέθοδος CANUMGI Content-Aware Navigational User Modeling with Grammatical Inference Τροποποίηση µεθόδων Alergia και Blue Fringe Κατασκευή του µοντέλου off-line Υπολογισµός συµβατότητας καταστάσεων Μετρικό χρήσης (όµοιες µεταβάσεις) Μετρικό περιεχοµένου (οµοιότητα περιεχοµένου σελίδων) Μάρτιος 2006 Γ. Κορφιάτης 30
Οµοιότητα περιεχοµένου Ιστοσελίδες ιάνυσµα λέξεων-κλειδιών (,,...,,...), { 0,1} x= x x x x 1 2 i i Χρήση µετρικού συνηµιτόνου COSINE x, y ( ) = i ( 2)( 2 x ) i yi i xy i i i Μάρτιος 2006 Γ. Κορφιάτης 31
Οµοιότητα περιεχοµένου Παράδειγµα: x = y = 1,0,0,1,0,1 ( ) 0,0,0,1,1,1 ( ) ( x 2)( y 2) i i i i xy i i i 10+00+00+ 1 1+01+ 1 1 3 3 Μάρτιος 2006 Γ. Κορφιάτης 32
CANUMGI-A Βασίζεται στον Alergia Τα δύο µετρικά λογικές τιµές Συνδυασµός µετρικών Σύζευξη ιάζευξη Μάρτιος 2006 Γ. Κορφιάτης 33
CANUMGI-B Βασίζεται στον Blue Fringe Τα δύο µετρικά πραγµατικές τιµές Συνδυασµός µετρικών Ελάχιστη τιµή Μέγιστη τιµή Σταθµισµένο άθροισµα Μάρτιος 2006 Γ. Κορφιάτης 34
CANUMGI-C Μείωση ιαστασιµότητας Αρχική οµαδοποίηση των σελίδων ως προς το περιεχόµενο Στόχος: Εκ των προτέρων χωρισµός σελίδων σε θεµατικές κατηγορίες Χρήση οµάδων αντί για σελίδες Ακολουθεί η επαγωγική διαδικασία Μάρτιος 2006 Γ. Κορφιάτης 35
CANUMGI-C Παράδειγµα: S + = { abc, de, ad, def, gb} C1 = a,f, C2 = c,e, C3 = b,d,g { } { } { } S + = { C1C3C2, C3C2, C1C3, C3C2C1, C3C3} Μάρτιος 2006 Γ. Κορφιάτης 36
CANUMGI-C PPTA χωρίς µείωση διαστασιµότητας Μάρτιος 2006 Γ. Κορφιάτης 37
CANUMGI-C PPTA µε µείωση διαστασιµότητας Μάρτιος 2006 Γ. Κορφιάτης 38
Χρήση του µοντέλου On-line λειτουργία Εξατοµικευµένη πλοήγηση Πρόταση σελίδων στους χρήστες ιαδικασία σε δύο στάδια: ιάσχιση του γράφου Επιλογή σελίδων Μάρτιος 2006 Γ. Κορφιάτης 39
ιάσχιση του γράφου Αλληλουχία σελίδων µεταβάσεις στο γράφο Αν δεν υπάρχει ρητή µετάβαση, επιλογή του πιο όµοιου κόµβουπαιδιού Αν δεν υπάρχει αρκετά όµοιος κόµβος, επιστροφή στον κόµβο εκκίνησης Μάρτιος 2006 Γ. Κορφιάτης 40
Επιλογή σελίδων Προσέγγιση 1 Επιλογή κόµβου-παιδιού µε µεγαλύτερη πιθανότητα µετάβασης Επιλογή σελίδων πιο κοντά στο κέντρο βάρους Προσέγγιση 2 Επιλογή σελίδων µε µεγαλύτερο γινόµενο πιθανότητας µετάβασης επί εγγύτητα στο κέντρο βάρους Μάρτιος 2006 Γ. Κορφιάτης 41
Πειραµατική αξιολόγηση εδοµένα χρήσης από αρχεία καταγραφής εταιρείας ISP Προεπεξεργασία Χωρισµός σε συνόδους χρήσης Εύρεση λέξεων-κλειδιών Χωρισµός δεδοµένων σε δύο σύνολα είγµα εκπαίδευσης(κατασκευή µοντέλου) είγµα ελέγχου(αξιολόγηση) Μάρτιος 2006 Γ. Κορφιάτης 42
Πειραµατική αξιολόγηση ιαδικασία Αξιοποίηση συνόδων χρήσης δείγµατος ελέγχου Αποκρύβουµε τελευταία σελίδα συνόδου χρήσης Χρησιµοποιούµε τις υπόλοιπες για διάσχιση του γράφου και επιλογή σελίδων Μάρτιος 2006 Γ. Κορφιάτης 43
Πειραµατική αξιολόγηση Μέτρο αξιολόγησης Αναµενόµενη χρησιµότητα της λίστας προτεινόµενων σελίδων για όλες τις προτεινόµενες σελίδες EU w οµοιότητα a0, a1,..., an 1 n 1 = j= 0 2 jh (, ) similarity w a j περιεχοµένου κρυµµένη σελίδα Μάρτιος 2006 Γ. Κορφιάτης 44
Πειραµατική αξιολόγηση Βάση σύγκρισης Απλό µοντέλο µε δηµιουργία οµάδων σελίδων βάσει οµοιότητας περιεχοµένου Πρόταση σελίδων Εύρεση οµάδων πιο όµοιων µε τις σελίδες που ήδη επισκέφτηκε ο χρήστης Επιλογή των πιο χαρακτηριστικών σελίδων από τις οµάδες αυτές Μάρτιος 2006 Γ. Κορφιάτης 45
Πειραµατική αξιολόγηση Μέθοδος Αναµ. Χρησιµότητα CANUMGI-A 8.57 CANUMGI-B 21.72 CANUMGI-C 20.59 Βάση σύγκρισης 24.25 Μάρτιος 2006 Γ. Κορφιάτης 46
Συµπεράσµατα Η νέαµέθοδος δεν ξεπέρασε το µοντέλο σύγκρισης Η γνώση της σειράς επίσκεψης µάλλον δε συµβάλλει στην πρόταση σελίδων Μεγάλη ανοµοιογένεια δεδοµένων χρήσης Πλοήγηση µέσα σε µία θεµατική κατηγορία Μάρτιος 2006 Γ. Κορφιάτης 47
Συµπεράσµατα Αυτοµεταβάσεις µε υψηλή πιθανότητα Μάρτιος 2006 Γ. Κορφιάτης 48
Συµπεράσµατα CANUMGI-B αποδίδει καλύτερα από τις άλλες Πιο έξυπνη επιλογή κόµβων Η µείωση διαστασιµότητας δε βελτίωσε τα αποτελέσµατα ε βοηθά η οµαδοποίηση Η γνώση των λίγων προηγούµενων επισκέψεων πιο χρήσιµη Μάρτιος 2006 Γ. Κορφιάτης 49
Μελλοντικές Κατευθύνσεις υναµικός προσδιορισµός παραµέτρων Μελέτη του µετρικού αξιολόγησης Προσεγγίσεις µε µαρκοβιανά µοντέλα Επιλεκτική χρησιµοποίηση δεδοµένων χρήσης + µοντέλο µε βάση το περιεχόµενο Χρήση πιθανοτικών γραµµατικών υπερκειµένου (HPG) Μάρτιος 2006 Γ. Κορφιάτης 50