ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη Αθηνά Θεσσαλονίκη, Φεβρουάριος 2005
ΟΜΑΔΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΧΡΗΣΤΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ INTERNET DATA AND USERS CLUSTERING
ΔΟΜΗ ΠΑΡΟΥΣΙΑΣΗΣ ΕΙΣΑΓΩΓΗ Σκοπός Εργασίας Web Mining Web Usage Mining ΠΑΡΟΥΣΙΑΣΗ ΠΡΟΒΛΗΜΑΤΟΣ Ο Γράφος Web Μετρικές του Web MajorClust ΠΡΟΤΕΙΝΟΜΕΝΗ ΜΕΘΟΔΟΛΟΓΙΑ Προ-Επεξεργασία Προφίλ Χρηστών Γράφος του Web Site Ομαδοποίηση Σελίδων Ομαδοποίηση Χρηστών ΠΕΙΡΑΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ
ΕΙΣΑΓΩΓΗ
ΣΚΟΠΟΣ ΕΡΓΑΣΙΑΣ Μελέτη μεθόδων ομαδοποίησης δεδομένων και χρηστών του Διαδικτύου Μοντελοποίηση ενός Web Site με τη μορφή γράφου Χρήση μετρικών του Web στον γράφο και τη συμπεριφορά των χρηστών Εφαρμογή του αλγόριθμου ομαδοποίησης MajorClust Ομαδοποίηση σελίδων και χρηστών Προτείνεται ολοκληρωμένη μεθοδολογία ανάλυσης ομαδοποίησης σελίδων και χρηστών του Web
ΕΙΣΑΓΩΓΗ Web Mining Ορισμός Η εφαρμογή τεχνικών του τομέα της Εξόρυξης Δεδομένων ή άλλων τεχνικών επεξεργασίας δεδομένων με σκοπό την αυτοματοποιημένη εξερεύνηση και εξαγωγή ενδιαφερόντων και ενδεχομένως χρήσιμων προτύπων και έμμεσων πληροφοριών από έγγραφα, υπηρεσίες ή τη δραστηριότητα των χρηστών που εντοπίζεται στον χώρο του Παγκόσμιου Ιστού (WWW).
ΕΙΣΑΓΩΓΗ Web Mining ΚΑΤΗΓΟΡΙΕΣ Web Content Mining Ανακάλυψη νέων πληροφοριών και γνώσης από την ανάλυση του περιεχομένου εγγράφων και ιστοσελίδων στο Web. Web Structure Mining Εξόρυξη γνώσης από τη δομή των Web Sites και εντοπίζει τις συσχετίσεις που υπάρχουν μεταξύ των ιστοσελίδων του. Web Usage Mining Εστιάζει στη συμπεριφορά των χρηστών, στη μοντελοποίηση, την πρόβλεψη και τη διεπαφή τους με το Web Site ΕΦΑΡΜΟΓΕΣ Προσωποποίηση - Προφίλ Χρηστών Στατικά / Δυναμικά Προσωπικά Δεδομένα Βελτίωση Απόδοσης Συστήματος Load Balancing Data Distribution Network Monitoring Security (IDS) Web Caching and Prefetching Διαμόρφωση Web Site Business Intelligence Marketing CRM
ΕΙΣΑΓΩΓΗ Web Usage Mining Πηγή πληροφορίας : Web Logs Προεπεξεργασία Εκκαθάριση Web Logs Αναγνώριση Χρηστών Αναγνώριση Συνόδων / Συναλλαγών Συμπλήρωση Διαδρομών Πλοήγησης Αναγνώριση Προτύπων Statistical Analysis Association Rules Clustering Classification Sequential Patterns Dependency Modeling Ανάλυση Προτύπων
ΠΑΡΟΥΣΙΑΣΗ ΠΡΟΒΛΗΜΑΤΟΣ
Ο ΓΡΑΦΟΣ WEB ΙΔΙΟΤΗΤΕΣ Κατευθυνόμενος Κόμβοι = Σύνολο σελίδων Ακμές = Σύνολο συνδέσμων Ασαφές μεγάλο μέγεθος Μεταβάλλεται συνεχώς Αραιός Οι ιδιότητες του δεν εξαρτώνται από την κλίμακα ΕΦΑΡΜΟΓΕΣ Μηχανές Αναζήτησης Σκιαγράφηση τάσεων Αποτελεσματικότερη μετάδοση πληροφορίας (Web Communities) Targeted Marketing
ΜΕΤΡΙΚΕΣ ΤΟΥ WEB Graph Properties Centrality Global Local Web Page Significance Relevance Quality Web Page Search Effectiveness Comparison Web Page Similarity Content Link Usage Characterization Information Theoretic
MAJORCLUST Ιεραρχικός Συσσωρευτικός Αποκλειστικός Μη Βέλτιστος Edge Connectivity λ ( G) = min{ E': E' E και G' = V, E\ E' να μην είναι συνδεδεμένος γράφος} Weighted Partial Edge Connectivity ( ) k C Ci λi Λ = i= 1 Λ(C*) Λ* = max{λ(c) όταν το C είναι μια ανάλυση του G }
ΠΡΟΤΕΙΝΟΜΕΝΗ ΜΕΘΟΔΟΛΟΓΙΑ
Διάγραμμα Προτεινόμενης Μεθοδολογίας
ΠΡΟ-ΕΠΕΞΕΡΓΑΣΙΑ Αποτελέσματα Προ-Επεξεργασίας Εκκαθάριση Web Logs Εικόνες, Error Codes, κτλ Αναγνώριση Χρηστών IP Address Αναγνώριση Συνόδων Time Window MFR Εκκαθάριση Αποτελεσμάτων Παράμετροι Min Session Size = 3 Max Session Size = 100 Min User Size = 3 Αρχικά Δεδομένα Μετά την Εκκαθάριση Users 15.346 875 Sessions 37.213 8.474 Web Pages 2.366 1.216 Page Views 109.974 48.455 Users List User 0 User 1 User 2... User Μ-1 0 User Sessions 1 1 0 1 1 1 0 1 0 0 0 1 0 1 2 3..... s 0,0 s 0,1 s 0,L P-1 Web Pages List
ΠΡΟΦΙΛ ΧΡΗΣΤΩΝ Βάρη Επισκέψεων Χρηστών Δυαδική Το ίδιο βάρος σε όλες τις επισκέψεις Σειρά Επίσκεψης Μεγαλύτερο βάρος στις επισκέψεις αργότερα στην ακολουθία των μεταβάσεων Διάρκεια Επίσκεψης TF.IDF Βάρος ανάλογο της διάρκειας της επίσκεψης Επισκέψεις συνόδων ανάλογες των λεκτικών όρων σε σύνολο εγγράφων
ΠΡΟΦΙΛ ΧΡΗΣΤΩΝ Αναπαράσταση Users List User Sessions s 0,j Users List User Profiles User 0 s 0,0 User 0 u 0 User 1 s 0,1 User 1 u 1 User 2... s 0,Li-1 User 2...... u 2 User Μ-1 Mean Value User Μ-1 u M-1 u 0 Mean User Session or User Profile u 0 Προφίλ Χρήστη i = Σ(ΣυνόδωνΣυνόδων j) ) / Πλήθος Συνόδων L i
ΓΡΑΦΟΣ ΤΟΥ WEB SITE Οι σελίδες ορίζουν το σύνολο των κόμβων V Οι ακμές του γράφου Ε προκύπτουν από τις μεταβάσεις των χρηστών από σελίδα σε σελίδα (σύνοδοι χρηστών) Ο γράφος μοντελοποιεί την πλοήγηση των χρηστών στο Web Site
ΓΡΑΦΟΣ ΤΟΥ WEB SITE Web Pages List = (0, 1, 2, 3, 4, 5, 6, 7, 8, 9) s = (0 1 5 9 4 5 1 7 9 4) 4) 0 7 2 3 9 8 6 1 4 5
ΓΡΑΦΟΣ ΤΟΥ WEB SITE Βάρη Ακμών Δεν μεταβάλλεται ο γράφος Δυαδική Διελεύσεις Χρηστών Διελεύσεις Συνδέσμων Μεταβάλλεται ο γράφος Bibliographic Coupling Co-Citation Citation Coupling Co-Occurrence Frequencies
ΓΡΑΦΟΣ ΤΟΥ WEB SITE Βάρη Κόμβων Δυαδική Διάρκεια Επισκέψεων (σύνολο Πλήθος Επισκέψεων RIC (Relative In Centrality) ROC (Relative Out Centrality) σύνολο χρηστών)
ΟΜΑΔΟΠΟΙΗΣΗ ΣΕΛΙΔΩΝ Μοντελοποίηση Web Site με γράφο Η ομαδοποίηση του γράφου εξαρτάται από: Συνόδους Πλοήγηση Χρηστών Μετρικές απόδοσης βαρών στις ακμές του γράφου Αλγόριθμο MajoCLust
ΟΜΑΔΟΠΟΙΗΣΗ ΣΕΛΙΔΩΝ Παράδειγμα νέου Majorclust Προσαρμογή MajorClust σε κατευθυνόμενους γράφους Τυχαία εξέταση κόμβων γράφου 1 8 1 2 2 8 1 2 2 10 30 10 10 30 10 3 3 50 20 5 4 1 3 3 20 4 50 5 6 7 6 7 In Weights Sum (3) = 50 < 70 = Out Weights Sum (3)
ΟΜΑΔΟΠΟΙΗΣΗ ΧΡΗΣΤΩΝ Η ομαδοποίηση χρηστών βασίζεται στην ομαδοποίηση σελίδων Κάθε χρήστης ανατίθεται σε μία (αποκλειστική) ή περισσότερες (ασαφής) ομάδες σελίδων Για κάθε χρήστη υπολογίζεται το ποσοστό συμμετοχής του σε κάθε ομάδα σελίδων με βάση το προφίλ του και τον βαθμό σπουδαιότητας των σελίδων της ομάδας.
ΟΜΑΔΟΠΟΙΗΣΗ ΧΡΗΣΤΩΝ Ποσοστό Συμμετοχής MaxUserMatch ik, P 1 j= 0, i, j 0 = u P 1 = j= 0 vj ck, p UserMatch ik, v c u UserParticipation i, k V = το σύνολο των κόμβων / σελίδων του Web Site C = η ομαδοποίηση του γράφου του Web Site U = ο πίνακας των προφίλ των χρηστών v j = το βάρος σπουδαιότητας της σελίδας i c k,p =0 ή 1, συμμετοχή της σελίδας p στην ομάδα k u i,j =βάροςβάρος της σελίδας j στο προφίλ του χρήστη i i = 0 M-1, 0 οι χρήστες k = 0 K-1, 0 οι ομάδες σελίδων j = 0 P-1, 0 οι σελίδες του Web Site = j k, p i, j UserMatch MaxUserMatch i, k i, k
ΟΜΑΔΟΠΟΙΗΣΗ ΧΡΗΣΤΩΝ Παράδειγμα Ομαδοποίησης Παράδειγμα Ομαδοποίησης Χρηστών Ομάδες Σελίδων Χρήστες Α 1 (90%) Β C 1 (70%) 2 (80%) 3 (75%) 2 (90%) 3 (100%) Ομάδες Χρηστών Χρήστες Ομάδες Σελίδων Α 1 Α Β C 1 2 3 2 3 Β C A Web Page Clusters B 90% 70% 80% 75% 90% 100% C Αντιστοίχιση Χρηστών Ομάδων Σελίδων Ομάδες Χρηστών Χρήστες Ομάδες Σελίδων Α 1 Α Β Ασαφής Ανάθεση Χρηστών Ø 2 3 Β C 1 2 Users 3 Αποκλειστική Ανάθεση Χρηστών
ΠΕΙΡΑΜΑΤΑ
ΠΕΙΡΑΜΑΤΑ Προ-επεξεργασία Ελάχιστο μέγεθος συνόδου 3 επισκέψεις Μέγιστο μέγεθος συνόδου 100 επισκέψεις Ελάχιστο μέγεθος χρήστη 3 σύνοδοι Session Timeout 30 MFR - Παράμετροι Εκκαθάρισης Δεδομένων Αρχικά Στοιχεία Τελικά Στοιχεία Ποσοστό Μεταβολής Users 15.346 875-94,30% Sessions 37.213 8.474-77,23% Web Pages 2.366 1.216-48,61% Page Views 109.974 48.455-55,94% Αποτελέσματα Προ-επεξεργασίας
ΠΕΙΡΑΜΑΤΑ Προ-επεξεργασία Κατανομή Μεγεθών Συνόδων Χρηστών
ΠΕΙΡΑΜΑΤΑ Ομαδοποίηση Σελίδων Μέθοδος Πλήθος Ακμών Πλήθος Κόμβων Κάτω Όριο Ανεξ. Γράφοι Ομάδες Σελίδων Μέσο Μέγεθος Ομάδας Μέγιστο Μέγεθος Ομάδας DB Index Λ Measure Δείκτης Ποιότητας Ομαδοποίησης Δυαδική 6.344 1.216-6 31 39.22 891 1,03999 1.290,000000 1,240.3881 Διελεύσεις Χρηστών 6.344 1.216-6 82 14.83 370 5,79798 1,159637 0.2000 Διελεύσεις Συνδέσμων 6.344 1.216-6 85 14.14 388 8,77218 1,178231 0.1343 Bibliographic Coupling 10.439 1.216 0,20 6 76 16 359 1,68472 856,854000 508.6005 Co-Citation Citation Coupling 9.149 1.216 0,20 6 64 25.87 544 1,36526 897,864000 657.6479 Co- Occurrence Frequencies 28.898 1.216 0,27 7 51 23.84 102 1,10190 10.702,271000 9,712.5258 Αποτελέσματα Μεθόδων Ομαδοποίησης Σελίδων
ΠΕΙΡΑΜΑΤΑ Ομαδοποίηση Σελίδων Κατανομή μεγεθών ομάδων σελίδων
ΠΕΙΡΑΜΑΤΑ Ομαδοποίηση Σελίδων Μέθοδος 1 Co-Occurrence Frequencies Λ Measure x 1 / DB-Index 9,712.5258 2 Δυαδική 1,240.3881 3 Co-Citation Citation Coupling 4 Bibliographic Coupling 657.6479 508.6005 5 Διελεύσεις Χρηστών 0.2000 6 Διελεύσεις Συνδέσμων 0.1343 Κατάταξη Περιπτώσεων Ομαδοποίησης Σελίδων
ΠΕΙΡΑΜΑΤΑ Ομαδοποίηση Σελίδων Ομαδοποίηση Σελίδων (Co-Occurrence Frequencies)
ΠΕΙΡΑΜΑΤΑ Ομαδοποίηση Χρηστών Απόδοση Βαρών Ακμών (Ομαδοποίηση Σελίδων) 1. Binary 2. Users Traverses 3. Links Traverses 4. Bibliographic Coupling 5. Co-citation Coupling 6. Co-occurrence occurrence Frequencies Προφίλ Χρηστών (Απόδοση Βαρών Επισκέψεων) 1. Binary 2. TF.IDF 3. View Time 4. Linear Order Κατάταξη Σπουδαιότητας Σελίδων 1. Binary 2. View Time 3. Hits Count 4. RIC 5. ROC 120 Περιπτώσεις Ομαδοποίησης Χρηστών
Μέγιστα Μεγέθη Ομάδων (αποκλειστική ΠΕΙΡΑΜΑΤΑ Ομαδοποίηση Χρηστών αποκλειστική ομαδοποίηση). Μέσα Μεγέθη Ομάδων (αποκλειστική ομαδοποίηση). Μέγιστα Μεγέθη Ομάδων (ασαφής ομαδοποίηση). Μέσα Μεγέθη Ομάδων (ασαφής ομαδοποίηση).
ΣΥΜΠΕΡΑΣΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ Η ποιότητα των ομαδοποιήσεων σελίδων και χρηστών είναι ένα υποκειμενικό ζήτημα που αφορά το συγκεκριμένο περιβάλλον εφαρμογής. «Καλύτερη» ομαδοποίηση σελίδων προκύπτει από τη μετρική απόδοσης βαρών ακμών «Co- Occurrence Frequencies» (DB-Index, Λ Measure) «Καλύτερη» ομαδοποίηση χρηστών προκύπτει από τον συνδυασμό Co-Occurrence Frequencies - TF.IDF Ανάλογα με το πρόβλημα που μελετάται, επιλέγονται οι μέθοδοι με τα αντίστοιχα χαρακτηριστικά
ΕΡΩΤΗΣΕΙΣ?
ΕΥΧΑΡΙΣΤΩ!