Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Σχετικά έγγραφα
Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ο αλγόριθμος PageRank της Google

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία

Εξόρυξη Γνώσης από εδοµένα (data mining)

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Εργαλεία ανάπτυξης εφαρμογών internet Ι

Τεχνικές Εξόρυξης Δεδομένων

Αξιολόγηση Υπηρεσιών ιαδικτύου µέσω Περιπτώσεων Μελέτης

Ανάκτηση Πληροφορίας

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-317: Εφαρµοσµένες Στοχαστικές ιαδικασίες - Εαρινό Εξάµηνο ιδάσκων : Π.

The DeGroot model for Social Influence and Opinions

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών

(elementary graph algorithms)

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Social Web: lesson #4

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Γραφήματα. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

2 Μάρκετινγκ µηχανών αναζήτησης (Search Engine Marketing).

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10

Γραµµική Αλγεβρα. Ενότητα 1 : Εισαγωγή στη Γραµµική Αλγεβρα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΥΠΗΡΕΣΙΑ. Ηλεκτρονική ιαχείριση Τάξης. Οδηγίες χρήσης για τον µαθητή.

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Πληροφορική Ι. Ενότητα 11 : Ο αλγόριθμος PageRank της Google. Δρ.

Το μοντέλο DeGroot και το Παίγνιο Επιρροής

Ανάκτηση Πληροφορίας

Σχεδίαση και Ανάπτυξη Ιστότοπων

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Αναζήτηση Κατά Πλάτος

International Diploma in IT Skills Proficiency Level

Αλγόριθµοι Γραφηµάτων

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΡΑΣΤΗΡΙΟΤΗΤΕΣ. Το εκπαιδευτικό υλικό υπόκειται σε Άδεια Χρήσης Creative Commons Αναφορά Μη-Εµπορική Χρήση Όχι Παράγωγο Έργο v. 3.0

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ


ΕΙΣΑΓΩΓΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ ΠΛΗΡΟΦΟΡΙΚΗΣ

Παγκόσμιος ιστός και Internet συχνά θεωρούνται το ίδιο πράγμα. Η αντίληψη αυτή είναι λανθασμένη καθώς ο ιστός αποτελεί μία μόνο εφαρμογή του

ΜΕΡΟΣ ΠΡΩΤΟ: Θεωρητική Προσέγγιση...15

Πνευµατικά ικαιώµατα

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Μελέτη Περίπτωσης: Random Surfer

χρήστες και υπηρεσίες

Διαδίκτυο είναι ένα σύστημα διασυνδεδεμένων δικτύων και υπολογιστών που απλώνεται σε όλο τον κόσμο και έχουν πρόσβαση σε αυτό εκατομμύρια χρήστες.

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων 1ο Σετ Ασκήσεων - Λύσεις

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Τα είδη των ιστοσελίδων. Web Sites E-commerce Sites CMS & Blog Sites CMS Flash Facebook Layouts Tumblr Themes

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Η HTML 5 θα αλλάξει το Web?

2. Αλγόριθμοι, δομές δεδομένων και πολυπλοκότητα

GIS: Εισαγωγή στα Γεωγραφικά Συστήµατα Πληροφοριών

Περιεχόµενα. 1 Tο βιβλίο "µε µια µατιά" Εισαγωγή στη Microsoft Access Γνωριµία µε τις βάσεις δεδοµένων της Access...

ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΟΥ

Κατευθυνόµενα γραφήµατα. Στοιχεία Θεωρίας Γραφηµάτων (1) Πολυγραφήµατα (Multigraphs)

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Κεφάλαιο 3. Γραφήµατα v1.0 ( ) Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

Πώς λειτουργεί το Google?

Ως Διαδίκτυο (Internet) ορίζεται το παγκόσμιο (διεθνές) δίκτυο ηλεκτρονικών υπολογιστών (international network).

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΓΙΑ ΤΟ ΔΙΑΔΙΚΤΥΟ

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

P = 0 1/2 1/ /2 1/

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Παγκόσμιος ιστός και Internet συχνά θεωρούνται το ίδιο πράγμα. Η αντίληψη αυτή είναι λανθασμένη καθώς ο ιστός αποτελεί μία μόνο εφαρμογή του

Στοιχεία Θεωρίας Γραφηµάτων (1)

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Κωδικοποίηση βίντεο (MPEG)

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

ΕΓΧΕΙΡΙΔΙΟ ΟΡΘΩΝ ΠΡΑΚΤΙΚΩΝ ΠΑΡΟΥΣΙΑ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΜΕΣΟΛΟΓΓΙΟΥ

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Διαδικασίες Markov Υπενθύμιση

Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0. Εφαρμογές Πληροφορικής Κεφ. 9 Καραμαούνας Πολύκαρπος 1

Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών. ΗΥ-317: Εφαρµοσµένες Στοχαστικές ιαδικασίες -Εαρινό Εξάµηνο 2016 ιδάσκων : Π.

Ενότητες Γ3.1 - Γ3.2 - Γ3.3

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ. Ανάπτυξη Πληροφοριακών Συστηµάτων Επισκόπηση Π.Σ. & τεχνικές για Ανάλυση και Ανάπτυξη. πληροφοριακών συστηµάτων

Markov. Γ. Κορίλη, Αλυσίδες. Αλυσίδες Markov

ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) INTERMEDIATE Υπηρεσίες Διαδικτύου ΕΚΔΟΣΗ 1.0. Διεύθυνση: Ασκληπιού 18 Τηλέφωνο:

Web-TMS Web Thesaurus Management System

Μελέτη Πολιτικών Χρονοδροµολόγησης σε Κατανεµηµένα Συστήµατα Πλοηγητών. Όνοµα : Ελένη Τσιακκούρη

Κεφάλαιο 4ο: Δικτυωτή Ανάλυση

Εισαγωγή στην επιστήμη των υπολογιστών. Οργάνωση εδομένων Κεφάλαιο 11ο ομές εδομένων

ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΟΜΑΔΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΧΡΗΣΤΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

Πανεπιστήμιο Αιγαίου. Χειμερινό Εξάμηνο. Σχολή Κοινωνικών Επιστημών Τμήμα Πολιτισμικής Τεχνολογίας Και Επικοινωνίας

ΜΑΘΗΜΑ: Εργαλεία Ανάπτυξης εφαρμογών internet.

Διαδίκτυο. Νίκος Παπαδόπουλος

Στρατηγικό Σχέδιο Για τη Βιώσιµη Ανάπτυξη της Θεσσαλονίκης (ΣΣΒΑΘ) 1 η Ενδιάµεση Έκθεση 3. ηµιουργία και Λειτουργία Web site

Συνοπτική Παρουσίαση Πακέτου Στατιστικών Ιστοσελίδων.

Γαβαλάς Δαμιανός

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03


Μεταπτυχιακή Διατριβή

Transcript:

Web Mining Χριστίνα Αραβαντινού aravantino@ceid.upatras.gr Ιούνιος 2014 1 / 34 Χριστίνα Αραβαντινού Web Mining

Περιεχόµενα 1 2 3 4 5 6 2 / 34 Χριστίνα Αραβαντινού Web Mining

Το Web Mining στοχεύει στην ανακάλυψη γνώσης από το Web: Υπερσύνδεσµοι Περιεχόµενο ιστοσελίδων Αρχεία καταγραφής της χρήσης του Web Αποτέλεσµα πιο αποτελεσµατική αλληλεπίδραση των χρηστών µε το Web. 3 ϐασικά ϑέµατα: 3 / 34 Χριστίνα Αραβαντινού Web Mining

(1/2) Τεράστιο µέγεθος εύκολα προσβάσιµης πληροφορίας στον παγκόσµιο ιστό. Μεγάλο εύρος διαθέσιµης πληροφορίας, κάλυψη πολλών ϑεµάτων. εδοµένα µε διαφορετική µορφή, πχ δοµηµένοι πίνακες, κείµενο, multimedia. ιασυνδεδεµένη πληροφορία (υπερσύνδεσµοι). 4 / 34 Χριστίνα Αραβαντινού Web Mining

(2/2) Πλεονάζουσα/ ϑορυβώδης πληροφορία. Surface Web vs Deep Web. υναµικό µέγεθος του ιστού. Αλληλεπίδραση µεταξύ ανθρώπων, οργανισµών κλπ. 5 / 34 Χριστίνα Αραβαντινού Web Mining

οµή εδοµένων του Web Σκοπιά Ανάκτησης Πληροφορίας Σκοπιά Βάσεων εδοµένων Βελτίωση αναζήτησης Ανακάλυψη χρήσιµης πληροφορίας απ το περιεχόµενο/ δεδοµένα/έγγραφα του Παγκόσµιου Ιστού. κείµενο εικόνα ήχος ϐίντεο metadata υπερσύνδεσµοι 6 / 34 Χριστίνα Αραβαντινού Web Mining

οµή εδοµένων του Web οµή εδοµένων του Web Σκοπιά Ανάκτησης Πληροφορίας Σκοπιά Βάσεων εδοµένων Βελτίωση αναζήτησης Αδόµητα (κείµενο) Ηµιδοµηµένα (HTML) Πίνακες ή ϐάσεις δεδοµένων απ τις HTML σελίδες Multimedia Σύνδεση µε Text Mining µεγάλο µέρος του παγκόσµιου ιστού αποτελείται από κείµενα. Data Mining σε δοµηµένα δεδοµένα, ενώ τα δεδοµένα του παγκόσµιου ιστού είναι ηµιδοµηµένα. 7 / 34 Χριστίνα Αραβαντινού Web Mining

Σκοπιά Ανάκτησης Πληροφορίας οµή εδοµένων του Web Σκοπιά Ανάκτησης Πληροφορίας Σκοπιά Βάσεων εδοµένων Βελτίωση αναζήτησης Αδόµητα κείµενα: Boolean model Vector space model (tf-idf) Stemming λέξεων για συνένωση µορφολογικών διαφοροποιήσεων. Ανεστραµµένο ευρετήριο. Ηµιδοµηµένα κείµενα: Features που ϐασίζονται στη δοµή του κειµένου (HTML και υπερσύνδεσµοι). Τεχνικές εξόρυξης δεδοµένων. 8 / 34 Χριστίνα Αραβαντινού Web Mining

Σκοπιά Βάσεων εδοµένων οµή εδοµένων του Web Σκοπιά Ανάκτησης Πληροφορίας Σκοπιά Βάσεων εδοµένων Βελτίωση αναζήτησης ίνει σε µια ιστοσελίδα τη µορφή ϐάσης δεδοµένων. Καλύτερη διαχείριση πληροφορίας. Καλύτερη διατύπωση ερωτηµάτων. 9 / 34 Χριστίνα Αραβαντινού Web Mining

Βελτίωση αναζήτησης οµή εδοµένων του Web Σκοπιά Ανάκτησης Πληροφορίας Σκοπιά Βάσεων εδοµένων Βελτίωση αναζήτησης Χρήση ιεραρχίας εννοιών ιεραρχική κατηγοριοποίηση των κειµένων. Ανάλυση συνδέσµων µεταξύ ιστοσελίδων. Κατασκευή προφίλ χρηστών µε ϐάση τα URLs που επισκέπτονται συχνά πρόταση σχετικών ιστοσελίδων και διαφηµίσεων. 10 / 34 Χριστίνα Αραβαντινού Web Mining

Υπερσύνδεσµοι PageRank & HITS PageRank HITS Εφαρµογή ϑεωρίας γράφων για ανάλυση της δοµής του Παγκόσµιου Ιστού. Εξαγωγή προτύπων από υπερσυνδέσµους (σύνδεση ιστοσελίδας µε διαφορετική τοποθεσία). Ανάλυση της δενδρικής δοµής µιας ιστοσελίδας (χρήση HTML ή XML). 11 / 34 Χριστίνα Αραβαντινού Web Mining

Υπερσύνδεσµοι Υπερσύνδεσµοι PageRank & HITS PageRank HITS Οι ιστοσελίδες συνδέονται µε υπερσυνδέσµους, οι οποίοι ϕέρουν σηµαντική πληροφορία. Κάποιοι υπερσύνδεσµοι οργανώνουν την πληροφορία στην ίδια ιστοσελίδα. Αλλοι υπερσύνδεσµοι δείχνουν σε διαφορετικές ιστοσελίδες κύρος/σηµαντικότητα των σελίδων αυτών. Οι σελίδες στις οποίες δείχνουν πολλές σελίδες µάλλον περιέχουν έγκυρη πληροφορία. 12 / 34 Χριστίνα Αραβαντινού Web Mining

PageRank & HITS Υπερσύνδεσµοι PageRank & HITS PageRank HITS Προτάθηκαν το 1997-1998. Εξερευνούν τους υπερσυνδέσµους του διαδικτύου για να κατατάξουν τις σελίδες µε ϐάση το επίπεδο κύρους τους. PageRank:Sergey Brin and Larry Page, PhD students from Stanford University, at Seventh International World Wide Web Conference (WWW7) in April, 1998. HITS: Jon Kleinberg (Cornel University), at Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, January 1998. 13 / 34 Χριστίνα Αραβαντινού Web Mining

PageRank Υπερσύνδεσµοι PageRank & HITS PageRank HITS Μηχανή αναζήτησης Google. Ανεξαρτησία απ τα ερωτήµατα. Αντιµετωπίζει το spamming. Βλέπει έναν υπερσύνδεσµο από µια σελίδα x σε µια σελίδα y ως µια ψήφο απ τη x στην y. Ψήφοι που δίνονται από σηµαντικές σελίδες έχουν µεγαλύτερο ϐάρος και δίνουν κύρος και στις σελίδες στις οποίες δείχνουν. αριθµός σελίδων που δείχνουν στη σελίδα i το κύρος της i. 14 / 34 Χριστίνα Αραβαντινού Web Mining

PageRank Υπερσύνδεσµοι PageRank & HITS PageRank HITS Το Web σαν κατευθυνόµενος γράφος G = (V, E). n ο συνολικός αριθµός σελίδων. O j ο αριθµός των εξερχόµενων σελίδων της j. Το PageRank(P(i)) σκορ της σελίδας i ορίζεται ως: P(i) = (j,i) E P(j) O j. Η σηµαντικότητα της σελίδας i είναι το άθροισµα των PageRank σκορ όλων των σελίδων που δείχνουν στην i. 15 / 34 Χριστίνα Αραβαντινού Web Mining

PageRank Υπερσύνδεσµοι PageRank & HITS PageRank HITS n γραµµικές εξισώσεις µε n αγνώστους αναπαράσταση µε µητρώο. P = (P(1), P(2),..., P(n)) T A: µητρώο γειτνίασης 1, if (i, O A ij = i j) E 0, otherwise n εξισώσεις P = A T P 16 / 34 Χριστίνα Αραβαντινού Web Mining

PageRank Υπερσύνδεσµοι PageRank & HITS PageRank HITS Εξαγωγή της A T P µε χρήση Μαρκοβιανής αλυσίδας. Κάθε σελίδα ή κόµβος στο γράφηµα του Web ϑεωρείται ως µια κατάσταση της αλυσίδας. Ενας υπερσύνδεσµος είναι µια µετάβαση, η οποία οδηγεί από µια κατάσταση σε µια άλλη µε µια πιθανότητα. Μοντελοποίηση του Web σα µια στοχαστική διαδικασία. Μοντελοποίηση ενός Web surfer που περιηγείται στο διαδίκτυο σαν µια µετάβαση καταστάσεων. Πιθανότητα κάθε µετάβασης: 1 O i. 17 / 34 Χριστίνα Αραβαντινού Web Mining

PageRank Υπερσύνδεσµοι PageRank & HITS PageRank HITS Μια Μαρκοβιανή αλυσίδα είναι εργοδική αν: Κάθε κατάσταση µπορεί να µεταβεί σε οποιαδήποτε άλλη κατάσταση. Μπορούµε να µεταβούµε σε κάθε κατάσταση οποιαδήποτε στιγµή µε µη µηδενική πιθανότητα (αµείωτη). Μια κατάσταση i είναι περιοδική µε περίοδο k > 1 αν η αλυσίδα ϑα επιστρέφει στην κατάσταση i σε χρονικές στιγµές που είναι πολλαπλάσια του k. Αν µια κατάσταση δεν είναι περιοδική, είναι απεριοδική. Μια Μαρκοβιανή αλυσίδα είναι απεριοδική, αν όλες οι καταστάσεις της είναι απεριοδικές. 18 / 34 Χριστίνα Αραβαντινού Web Mining

PageRank Υπερσύνδεσµοι PageRank & HITS PageRank HITS Προσθήκη συνδέσµου από κάθε σελίδα σε οποιαδήποτε άλλη σελίδα. Ο κάθε σύνδεσµος ϑα πάρει µια µικρή πιθανότητα µετάβασης, ελεγχόµενη από µια παράµετρο d. Το µητρώο µεταβάσεων γίνεται αµείωτο και απεριοδικό. P(i) = (1 d) + d P(j) (j,i) E O j 19 / 34 Χριστίνα Αραβαντινού Web Mining

HITS Υπερσύνδεσµοι PageRank & HITS PageRank HITS Εξαρτάται απ το ερώτηµα αναζήτησης. Οταν ο χρήστης δίνει ένα ερώτηµα, Ο HITS πρώτα επεκτείνει τη λίστα µε τις σχετικές σελίδες που επιστρέφονται από µια µηχανή αναζήτησης και µετά παράγει δύο κατατάξεις του συνόλου των σελίδων (κύρους και κόµβου). 20 / 34 Χριστίνα Αραβαντινού Web Mining

HITS Υπερσύνδεσµοι PageRank & HITS PageRank HITS Κύρος: µια σελίδα µε πολλούς εισερχόµενους συνδέσµους. Η σελίδα µάλλον ϑα έχει έγκυρο περιεχόµενο για κάποιο ϑέµα. Πολλοί άνθρωποι την εµπιστεύονται και δείχνουν σ αυτή. Πολλοί κόµβοι αναφέρονται σε µια έγκυρη σελίδα. Κόµβος: µια σελίδα µε πολλούς εξερχόµενους συνδέσµους. Η σελίδα οργανώνει την πληροφορία για κάποιο ϑέµα. είχνει σε πολλές έγκυρες σελίδες πάνω στο ϑέµα. Ενας καλός κόµβος δείχνει σε πολλές έγκυρες σελίδες. 21 / 34 Χριστίνα Αραβαντινού Web Mining

HITS Υπερσύνδεσµοι PageRank & HITS PageRank HITS Αναθέτει ένα σκορ εγκυρότητας (a(i)) κι ένα σκορ κόµβου (h(i)) σε κάθε σελίδα στο σύνολο των σελίδων S. n ο αριθµός των σελίδων στο S. G = (V, E) το γράφηµα υπερσυνδέσµων του S. L το µητρώο γειτνίασης του γραφήµατος. 1, if (i, j) E L ij = 0, otherwise 22 / 34 Χριστίνα Αραβαντινού Web Mining

HITS Υπερσύνδεσµοι PageRank & HITS PageRank HITS a(i) = (j,i) E h(j) h(i) = (i,j) E a(j) a = (a(1), a(2),..., a(n)) T h = (h(1), h(2),..., h(n)) T a = L T h h = La 23 / 34 Χριστίνα Αραβαντινού Web Mining

HITS Υπερσύνδεσµοι PageRank & HITS PageRank HITS Ο υπολογισµός των σκορ εγκυρότητας και κόµβου είναι ίδιος µε τον υπολογισµό των PageRank σκορ. Εστω a k, h k τα σκορ εγκυρότητας και κόµβου στην k-οστή επανάληψη. Τότε οι σχέσεις που δίνουν τις τελικές λύσεις είναι: a k = L T La k 1 και h k = LL T h k 1, ξεκινώντας από a 0 = h 0 = (1, 1,..., 1). 24 / 34 Χριστίνα Αραβαντινού Web Mining

Είδη δεδοµένων Προεπεξεργασία των εδοµένων Καθαρισµός των εδοµένων Αναγνώριση Sessions Αναγνώριση Pageview Εφαρµογές Αυτόµατη ανακάλυψη προτύπων σε δεδοµένα που συλλέγονται ή παράγονται απ την αλληλεπίδραση του χρήστη µε µία ή περισσότερες σελίδες. Στόχος η ανάλυση των προτύπων συµπεριφοράς και των προφίλ των χρηστών που αλληλεπιδρούν µε έναν ιστότοπο. Τα πρότυπα αυτά αναπαριστώνται ως µια συλλογή αντικειµένων που προσπελαύνονται συχνά από µια οµάδα χρηστών µε παρόµοια ενδιαφέροντα. 25 / 34 Χριστίνα Αραβαντινού Web Mining

Είδη δεδοµένων Είδη δεδοµένων Προεπεξεργασία των εδοµένων Καθαρισµός των εδοµένων Αναγνώριση Sessions Αναγνώριση Pageview Εφαρµογές Πηγές: Αρχεία καταγραφής απ τον Web Server. Περιεχόµενο ιστοσελίδων. εδοµένα για τους επισκέπτες που συλλέγονται από εξωτερικά κανάλια. Προβλήµατα: Οχι πάντα διαθέσιµα δεδοµένα. Χρειάζεται η ενσωµάτωσή τους όταν είναι διαθέσιµα. Μετά εφαρµογή κάποιου αλγορίθµου εξόρυξης δεδοµένων. 26 / 34 Χριστίνα Αραβαντινού Web Mining

Προεπεξεργασία των εδοµένων Είδη δεδοµένων Προεπεξεργασία των εδοµένων Καθαρισµός των εδοµένων Αναγνώριση Sessions Αναγνώριση Pageview Εφαρµογές Καθαρισµός των δεδοµένων. Αναγνώριση Sessions Αναγνώριση Pageview Ενσωµάτωση δεδοµένων. Μετασχηµατισµός των δεδοµένων. 27 / 34 Χριστίνα Αραβαντινού Web Mining

Καθαρισµός των εδοµένων Είδη δεδοµένων Προεπεξεργασία των εδοµένων Καθαρισµός των εδοµένων Αναγνώριση Sessions Αναγνώριση Pageview Εφαρµογές Αφαίρεση µη σχετικών αναφορών και πεδίων στα αρχεία του server. Αφαίρεση λανθασµένων αναφορών. Προσθήκη αναφορών που λείπουν. 28 / 34 Χριστίνα Αραβαντινού Web Mining

Αναγνώριση Sessions Είδη δεδοµένων Προεπεξεργασία των εδοµένων Καθαρισµός των εδοµένων Αναγνώριση Sessions Αναγνώριση Pageview Εφαρµογές Οι δραστηριότητες που πραγµατοποιεί ένας χρήστης απ τη στιγµή που επισκέπτεται τη σελίδα, µέχρι τη στιγµή που ϕεύγει απ αυτή. ύσκολο να εντοπιστούν αξιόπιστα δεδοµένα εξαιτίας: proxy servers, ανωνυµία, δυναµικές διευθύνσεις IP κλπ. Time oriented vs navigation oriented heuristics. 29 / 34 Χριστίνα Αραβαντινού Web Mining

Αναγνώριση Pageview Είδη δεδοµένων Προεπεξεργασία των εδοµένων Καθαρισµός των εδοµένων Αναγνώριση Sessions Αναγνώριση Pageview Εφαρµογές Pageview:Αθροιστική αναπαράσταση της συλλογής των αντικειµένων που ϕαίνονται στον browser ενός χρήστη όταν κάνει µια πράξη (πχ ένα κλικ). Συλλογή αντικειµένων που αναπαριστούν ένα user event, πχ διάβασµα ενός άρθρου, προσθήκη ενός προϊόντος στο καλάθι κλπ. 30 / 34 Χριστίνα Αραβαντινού Web Mining

Εφαρµογές Είδη δεδοµένων Προεπεξεργασία των εδοµένων Καθαρισµός των εδοµένων Αναγνώριση Sessions Αναγνώριση Pageview Εφαρµογές Πρόβλεψη επόµενης κίνησης του χρήστη. Ανακάλυψη οµάδων χρηστών µε παρόµοιες ιδιότητες κι ενδιαφέροντα. Ανακάλυψη οµάδων χρηστών µε παρόµοια συµπεριφορά. Χαρακτηρισµός των χρηστών µε ϐάση κάποιες προκαθορισµένες κλάσεις. Εντοπισµός απάτης µε πιστωτικές κάρτες. 31 / 34 Χριστίνα Αραβαντινού Web Mining

Ζητήµατα Μια µηχανή αναζήτησης ξέρει ότι οι σελίδες που επιστρέφει περιέχουν τους όρους αναζήτησης, γιατί οι σελίδες έχουν γίνει crawled. Ενας crawler διαπερνά τον παγκόσµιο ιστό για να συλλέξει πληροφορία. Επιλογή ενός µικρού ποσοστού των σελίδων για indexing µόνο οι σηµαντικές σελίδες. 32 / 34 Χριστίνα Αραβαντινού Web Mining

Ζητήµατα Ζητήµατα Πολλά διαδοχικά αιτήµατα σ ένα µόνο server µπορεί να προκαλέσουν DoS. Τυχαιοποίηση της συχνότητας πρόσβασης ώστε να ϕαίνεται ότι ο crawler είναι ένας χρήστης ή browser. Crawler που ακολουθεί ακούσια συνδέσµους σε διαφηµίσεις. 33 / 34 Χριστίνα Αραβαντινού Web Mining

Bing Liu. Web Data Mining. Exploring Hyperlinks, Contents, and Usage Data. 34 / 34 Χριστίνα Αραβαντινού Web Mining