Web Mining Χριστίνα Αραβαντινού aravantino@ceid.upatras.gr Ιούνιος 2014 1 / 34 Χριστίνα Αραβαντινού Web Mining
Περιεχόµενα 1 2 3 4 5 6 2 / 34 Χριστίνα Αραβαντινού Web Mining
Το Web Mining στοχεύει στην ανακάλυψη γνώσης από το Web: Υπερσύνδεσµοι Περιεχόµενο ιστοσελίδων Αρχεία καταγραφής της χρήσης του Web Αποτέλεσµα πιο αποτελεσµατική αλληλεπίδραση των χρηστών µε το Web. 3 ϐασικά ϑέµατα: 3 / 34 Χριστίνα Αραβαντινού Web Mining
(1/2) Τεράστιο µέγεθος εύκολα προσβάσιµης πληροφορίας στον παγκόσµιο ιστό. Μεγάλο εύρος διαθέσιµης πληροφορίας, κάλυψη πολλών ϑεµάτων. εδοµένα µε διαφορετική µορφή, πχ δοµηµένοι πίνακες, κείµενο, multimedia. ιασυνδεδεµένη πληροφορία (υπερσύνδεσµοι). 4 / 34 Χριστίνα Αραβαντινού Web Mining
(2/2) Πλεονάζουσα/ ϑορυβώδης πληροφορία. Surface Web vs Deep Web. υναµικό µέγεθος του ιστού. Αλληλεπίδραση µεταξύ ανθρώπων, οργανισµών κλπ. 5 / 34 Χριστίνα Αραβαντινού Web Mining
οµή εδοµένων του Web Σκοπιά Ανάκτησης Πληροφορίας Σκοπιά Βάσεων εδοµένων Βελτίωση αναζήτησης Ανακάλυψη χρήσιµης πληροφορίας απ το περιεχόµενο/ δεδοµένα/έγγραφα του Παγκόσµιου Ιστού. κείµενο εικόνα ήχος ϐίντεο metadata υπερσύνδεσµοι 6 / 34 Χριστίνα Αραβαντινού Web Mining
οµή εδοµένων του Web οµή εδοµένων του Web Σκοπιά Ανάκτησης Πληροφορίας Σκοπιά Βάσεων εδοµένων Βελτίωση αναζήτησης Αδόµητα (κείµενο) Ηµιδοµηµένα (HTML) Πίνακες ή ϐάσεις δεδοµένων απ τις HTML σελίδες Multimedia Σύνδεση µε Text Mining µεγάλο µέρος του παγκόσµιου ιστού αποτελείται από κείµενα. Data Mining σε δοµηµένα δεδοµένα, ενώ τα δεδοµένα του παγκόσµιου ιστού είναι ηµιδοµηµένα. 7 / 34 Χριστίνα Αραβαντινού Web Mining
Σκοπιά Ανάκτησης Πληροφορίας οµή εδοµένων του Web Σκοπιά Ανάκτησης Πληροφορίας Σκοπιά Βάσεων εδοµένων Βελτίωση αναζήτησης Αδόµητα κείµενα: Boolean model Vector space model (tf-idf) Stemming λέξεων για συνένωση µορφολογικών διαφοροποιήσεων. Ανεστραµµένο ευρετήριο. Ηµιδοµηµένα κείµενα: Features που ϐασίζονται στη δοµή του κειµένου (HTML και υπερσύνδεσµοι). Τεχνικές εξόρυξης δεδοµένων. 8 / 34 Χριστίνα Αραβαντινού Web Mining
Σκοπιά Βάσεων εδοµένων οµή εδοµένων του Web Σκοπιά Ανάκτησης Πληροφορίας Σκοπιά Βάσεων εδοµένων Βελτίωση αναζήτησης ίνει σε µια ιστοσελίδα τη µορφή ϐάσης δεδοµένων. Καλύτερη διαχείριση πληροφορίας. Καλύτερη διατύπωση ερωτηµάτων. 9 / 34 Χριστίνα Αραβαντινού Web Mining
Βελτίωση αναζήτησης οµή εδοµένων του Web Σκοπιά Ανάκτησης Πληροφορίας Σκοπιά Βάσεων εδοµένων Βελτίωση αναζήτησης Χρήση ιεραρχίας εννοιών ιεραρχική κατηγοριοποίηση των κειµένων. Ανάλυση συνδέσµων µεταξύ ιστοσελίδων. Κατασκευή προφίλ χρηστών µε ϐάση τα URLs που επισκέπτονται συχνά πρόταση σχετικών ιστοσελίδων και διαφηµίσεων. 10 / 34 Χριστίνα Αραβαντινού Web Mining
Υπερσύνδεσµοι PageRank & HITS PageRank HITS Εφαρµογή ϑεωρίας γράφων για ανάλυση της δοµής του Παγκόσµιου Ιστού. Εξαγωγή προτύπων από υπερσυνδέσµους (σύνδεση ιστοσελίδας µε διαφορετική τοποθεσία). Ανάλυση της δενδρικής δοµής µιας ιστοσελίδας (χρήση HTML ή XML). 11 / 34 Χριστίνα Αραβαντινού Web Mining
Υπερσύνδεσµοι Υπερσύνδεσµοι PageRank & HITS PageRank HITS Οι ιστοσελίδες συνδέονται µε υπερσυνδέσµους, οι οποίοι ϕέρουν σηµαντική πληροφορία. Κάποιοι υπερσύνδεσµοι οργανώνουν την πληροφορία στην ίδια ιστοσελίδα. Αλλοι υπερσύνδεσµοι δείχνουν σε διαφορετικές ιστοσελίδες κύρος/σηµαντικότητα των σελίδων αυτών. Οι σελίδες στις οποίες δείχνουν πολλές σελίδες µάλλον περιέχουν έγκυρη πληροφορία. 12 / 34 Χριστίνα Αραβαντινού Web Mining
PageRank & HITS Υπερσύνδεσµοι PageRank & HITS PageRank HITS Προτάθηκαν το 1997-1998. Εξερευνούν τους υπερσυνδέσµους του διαδικτύου για να κατατάξουν τις σελίδες µε ϐάση το επίπεδο κύρους τους. PageRank:Sergey Brin and Larry Page, PhD students from Stanford University, at Seventh International World Wide Web Conference (WWW7) in April, 1998. HITS: Jon Kleinberg (Cornel University), at Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, January 1998. 13 / 34 Χριστίνα Αραβαντινού Web Mining
PageRank Υπερσύνδεσµοι PageRank & HITS PageRank HITS Μηχανή αναζήτησης Google. Ανεξαρτησία απ τα ερωτήµατα. Αντιµετωπίζει το spamming. Βλέπει έναν υπερσύνδεσµο από µια σελίδα x σε µια σελίδα y ως µια ψήφο απ τη x στην y. Ψήφοι που δίνονται από σηµαντικές σελίδες έχουν µεγαλύτερο ϐάρος και δίνουν κύρος και στις σελίδες στις οποίες δείχνουν. αριθµός σελίδων που δείχνουν στη σελίδα i το κύρος της i. 14 / 34 Χριστίνα Αραβαντινού Web Mining
PageRank Υπερσύνδεσµοι PageRank & HITS PageRank HITS Το Web σαν κατευθυνόµενος γράφος G = (V, E). n ο συνολικός αριθµός σελίδων. O j ο αριθµός των εξερχόµενων σελίδων της j. Το PageRank(P(i)) σκορ της σελίδας i ορίζεται ως: P(i) = (j,i) E P(j) O j. Η σηµαντικότητα της σελίδας i είναι το άθροισµα των PageRank σκορ όλων των σελίδων που δείχνουν στην i. 15 / 34 Χριστίνα Αραβαντινού Web Mining
PageRank Υπερσύνδεσµοι PageRank & HITS PageRank HITS n γραµµικές εξισώσεις µε n αγνώστους αναπαράσταση µε µητρώο. P = (P(1), P(2),..., P(n)) T A: µητρώο γειτνίασης 1, if (i, O A ij = i j) E 0, otherwise n εξισώσεις P = A T P 16 / 34 Χριστίνα Αραβαντινού Web Mining
PageRank Υπερσύνδεσµοι PageRank & HITS PageRank HITS Εξαγωγή της A T P µε χρήση Μαρκοβιανής αλυσίδας. Κάθε σελίδα ή κόµβος στο γράφηµα του Web ϑεωρείται ως µια κατάσταση της αλυσίδας. Ενας υπερσύνδεσµος είναι µια µετάβαση, η οποία οδηγεί από µια κατάσταση σε µια άλλη µε µια πιθανότητα. Μοντελοποίηση του Web σα µια στοχαστική διαδικασία. Μοντελοποίηση ενός Web surfer που περιηγείται στο διαδίκτυο σαν µια µετάβαση καταστάσεων. Πιθανότητα κάθε µετάβασης: 1 O i. 17 / 34 Χριστίνα Αραβαντινού Web Mining
PageRank Υπερσύνδεσµοι PageRank & HITS PageRank HITS Μια Μαρκοβιανή αλυσίδα είναι εργοδική αν: Κάθε κατάσταση µπορεί να µεταβεί σε οποιαδήποτε άλλη κατάσταση. Μπορούµε να µεταβούµε σε κάθε κατάσταση οποιαδήποτε στιγµή µε µη µηδενική πιθανότητα (αµείωτη). Μια κατάσταση i είναι περιοδική µε περίοδο k > 1 αν η αλυσίδα ϑα επιστρέφει στην κατάσταση i σε χρονικές στιγµές που είναι πολλαπλάσια του k. Αν µια κατάσταση δεν είναι περιοδική, είναι απεριοδική. Μια Μαρκοβιανή αλυσίδα είναι απεριοδική, αν όλες οι καταστάσεις της είναι απεριοδικές. 18 / 34 Χριστίνα Αραβαντινού Web Mining
PageRank Υπερσύνδεσµοι PageRank & HITS PageRank HITS Προσθήκη συνδέσµου από κάθε σελίδα σε οποιαδήποτε άλλη σελίδα. Ο κάθε σύνδεσµος ϑα πάρει µια µικρή πιθανότητα µετάβασης, ελεγχόµενη από µια παράµετρο d. Το µητρώο µεταβάσεων γίνεται αµείωτο και απεριοδικό. P(i) = (1 d) + d P(j) (j,i) E O j 19 / 34 Χριστίνα Αραβαντινού Web Mining
HITS Υπερσύνδεσµοι PageRank & HITS PageRank HITS Εξαρτάται απ το ερώτηµα αναζήτησης. Οταν ο χρήστης δίνει ένα ερώτηµα, Ο HITS πρώτα επεκτείνει τη λίστα µε τις σχετικές σελίδες που επιστρέφονται από µια µηχανή αναζήτησης και µετά παράγει δύο κατατάξεις του συνόλου των σελίδων (κύρους και κόµβου). 20 / 34 Χριστίνα Αραβαντινού Web Mining
HITS Υπερσύνδεσµοι PageRank & HITS PageRank HITS Κύρος: µια σελίδα µε πολλούς εισερχόµενους συνδέσµους. Η σελίδα µάλλον ϑα έχει έγκυρο περιεχόµενο για κάποιο ϑέµα. Πολλοί άνθρωποι την εµπιστεύονται και δείχνουν σ αυτή. Πολλοί κόµβοι αναφέρονται σε µια έγκυρη σελίδα. Κόµβος: µια σελίδα µε πολλούς εξερχόµενους συνδέσµους. Η σελίδα οργανώνει την πληροφορία για κάποιο ϑέµα. είχνει σε πολλές έγκυρες σελίδες πάνω στο ϑέµα. Ενας καλός κόµβος δείχνει σε πολλές έγκυρες σελίδες. 21 / 34 Χριστίνα Αραβαντινού Web Mining
HITS Υπερσύνδεσµοι PageRank & HITS PageRank HITS Αναθέτει ένα σκορ εγκυρότητας (a(i)) κι ένα σκορ κόµβου (h(i)) σε κάθε σελίδα στο σύνολο των σελίδων S. n ο αριθµός των σελίδων στο S. G = (V, E) το γράφηµα υπερσυνδέσµων του S. L το µητρώο γειτνίασης του γραφήµατος. 1, if (i, j) E L ij = 0, otherwise 22 / 34 Χριστίνα Αραβαντινού Web Mining
HITS Υπερσύνδεσµοι PageRank & HITS PageRank HITS a(i) = (j,i) E h(j) h(i) = (i,j) E a(j) a = (a(1), a(2),..., a(n)) T h = (h(1), h(2),..., h(n)) T a = L T h h = La 23 / 34 Χριστίνα Αραβαντινού Web Mining
HITS Υπερσύνδεσµοι PageRank & HITS PageRank HITS Ο υπολογισµός των σκορ εγκυρότητας και κόµβου είναι ίδιος µε τον υπολογισµό των PageRank σκορ. Εστω a k, h k τα σκορ εγκυρότητας και κόµβου στην k-οστή επανάληψη. Τότε οι σχέσεις που δίνουν τις τελικές λύσεις είναι: a k = L T La k 1 και h k = LL T h k 1, ξεκινώντας από a 0 = h 0 = (1, 1,..., 1). 24 / 34 Χριστίνα Αραβαντινού Web Mining
Είδη δεδοµένων Προεπεξεργασία των εδοµένων Καθαρισµός των εδοµένων Αναγνώριση Sessions Αναγνώριση Pageview Εφαρµογές Αυτόµατη ανακάλυψη προτύπων σε δεδοµένα που συλλέγονται ή παράγονται απ την αλληλεπίδραση του χρήστη µε µία ή περισσότερες σελίδες. Στόχος η ανάλυση των προτύπων συµπεριφοράς και των προφίλ των χρηστών που αλληλεπιδρούν µε έναν ιστότοπο. Τα πρότυπα αυτά αναπαριστώνται ως µια συλλογή αντικειµένων που προσπελαύνονται συχνά από µια οµάδα χρηστών µε παρόµοια ενδιαφέροντα. 25 / 34 Χριστίνα Αραβαντινού Web Mining
Είδη δεδοµένων Είδη δεδοµένων Προεπεξεργασία των εδοµένων Καθαρισµός των εδοµένων Αναγνώριση Sessions Αναγνώριση Pageview Εφαρµογές Πηγές: Αρχεία καταγραφής απ τον Web Server. Περιεχόµενο ιστοσελίδων. εδοµένα για τους επισκέπτες που συλλέγονται από εξωτερικά κανάλια. Προβλήµατα: Οχι πάντα διαθέσιµα δεδοµένα. Χρειάζεται η ενσωµάτωσή τους όταν είναι διαθέσιµα. Μετά εφαρµογή κάποιου αλγορίθµου εξόρυξης δεδοµένων. 26 / 34 Χριστίνα Αραβαντινού Web Mining
Προεπεξεργασία των εδοµένων Είδη δεδοµένων Προεπεξεργασία των εδοµένων Καθαρισµός των εδοµένων Αναγνώριση Sessions Αναγνώριση Pageview Εφαρµογές Καθαρισµός των δεδοµένων. Αναγνώριση Sessions Αναγνώριση Pageview Ενσωµάτωση δεδοµένων. Μετασχηµατισµός των δεδοµένων. 27 / 34 Χριστίνα Αραβαντινού Web Mining
Καθαρισµός των εδοµένων Είδη δεδοµένων Προεπεξεργασία των εδοµένων Καθαρισµός των εδοµένων Αναγνώριση Sessions Αναγνώριση Pageview Εφαρµογές Αφαίρεση µη σχετικών αναφορών και πεδίων στα αρχεία του server. Αφαίρεση λανθασµένων αναφορών. Προσθήκη αναφορών που λείπουν. 28 / 34 Χριστίνα Αραβαντινού Web Mining
Αναγνώριση Sessions Είδη δεδοµένων Προεπεξεργασία των εδοµένων Καθαρισµός των εδοµένων Αναγνώριση Sessions Αναγνώριση Pageview Εφαρµογές Οι δραστηριότητες που πραγµατοποιεί ένας χρήστης απ τη στιγµή που επισκέπτεται τη σελίδα, µέχρι τη στιγµή που ϕεύγει απ αυτή. ύσκολο να εντοπιστούν αξιόπιστα δεδοµένα εξαιτίας: proxy servers, ανωνυµία, δυναµικές διευθύνσεις IP κλπ. Time oriented vs navigation oriented heuristics. 29 / 34 Χριστίνα Αραβαντινού Web Mining
Αναγνώριση Pageview Είδη δεδοµένων Προεπεξεργασία των εδοµένων Καθαρισµός των εδοµένων Αναγνώριση Sessions Αναγνώριση Pageview Εφαρµογές Pageview:Αθροιστική αναπαράσταση της συλλογής των αντικειµένων που ϕαίνονται στον browser ενός χρήστη όταν κάνει µια πράξη (πχ ένα κλικ). Συλλογή αντικειµένων που αναπαριστούν ένα user event, πχ διάβασµα ενός άρθρου, προσθήκη ενός προϊόντος στο καλάθι κλπ. 30 / 34 Χριστίνα Αραβαντινού Web Mining
Εφαρµογές Είδη δεδοµένων Προεπεξεργασία των εδοµένων Καθαρισµός των εδοµένων Αναγνώριση Sessions Αναγνώριση Pageview Εφαρµογές Πρόβλεψη επόµενης κίνησης του χρήστη. Ανακάλυψη οµάδων χρηστών µε παρόµοιες ιδιότητες κι ενδιαφέροντα. Ανακάλυψη οµάδων χρηστών µε παρόµοια συµπεριφορά. Χαρακτηρισµός των χρηστών µε ϐάση κάποιες προκαθορισµένες κλάσεις. Εντοπισµός απάτης µε πιστωτικές κάρτες. 31 / 34 Χριστίνα Αραβαντινού Web Mining
Ζητήµατα Μια µηχανή αναζήτησης ξέρει ότι οι σελίδες που επιστρέφει περιέχουν τους όρους αναζήτησης, γιατί οι σελίδες έχουν γίνει crawled. Ενας crawler διαπερνά τον παγκόσµιο ιστό για να συλλέξει πληροφορία. Επιλογή ενός µικρού ποσοστού των σελίδων για indexing µόνο οι σηµαντικές σελίδες. 32 / 34 Χριστίνα Αραβαντινού Web Mining
Ζητήµατα Ζητήµατα Πολλά διαδοχικά αιτήµατα σ ένα µόνο server µπορεί να προκαλέσουν DoS. Τυχαιοποίηση της συχνότητας πρόσβασης ώστε να ϕαίνεται ότι ο crawler είναι ένας χρήστης ή browser. Crawler που ακολουθεί ακούσια συνδέσµους σε διαφηµίσεις. 33 / 34 Χριστίνα Αραβαντινού Web Mining
Bing Liu. Web Data Mining. Exploring Hyperlinks, Contents, and Usage Data. 34 / 34 Χριστίνα Αραβαντινού Web Mining