Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Σχετικά έγγραφα
Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Μελέτη Περίπτωσης: Random Surfer

ΜΑΘΗΜΑ 3ο. Βασικές έννοιες

u v 4 w G 2 G 1 u v w x y z 4

Κεφάλαιο 4ο: Δικτυωτή Ανάλυση

ΑΝΑΛΥΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Σ. ΖΗΜΕΡΑΣ Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικών- Χρηματοοικονομικών Μαθηματικών Σάμος

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός. Διάλεξη 14η

Μαρκοβιανές Αλυσίδες

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων 1ο Σετ Ασκήσεων - Λύσεις

Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου


Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

καθ. Βασίλης Μάγκλαρης

Να επιλύουμε και να διερευνούμε γραμμικά συστήματα. Να ορίζουμε την έννοια του συμβιβαστού και ομογενούς συστήματος.

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Πιθανότητες & Τυχαία Σήματα. Διγαλάκης Βασίλης

ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Αριθμητική Ανάλυση και Εφαρμογές

Information Retrieval

Στοχαστικές Στρατηγικές. διαδρομής (1)

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

HY Λογική Διδάσκων: Δ. Πλεξουσάκης Εαρινό Εξάμηνο. Φροντιστήριο 6

Αριθμητική Ανάλυση και Εφαρμογές

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βάλια

1.1 ΓΡΑΜΜΙΚΑ ΣΥΣΤΗΜΑΤΑ

ΠΜΣ στην Αναλογιστική Επιστήμη και Διοικητική Κινδύνου. Πιστωτικός Κίνδυνος. Διάλεξη 1: Εκτιμώντας τις πιθανότητες αθέτησης από τις τιμές της αγοράς

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Δημιουργία μιας επιτυχημένης παρουσίας στο διαδίκτυο

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Συστήματα Markov Ένα σύστημα Markov διαγράμματος μετάβασης καταστάσεων

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Επισκόπηση Γνώσεων Πιθανοτήτων (2/2) Διαδικασία Γεννήσεων Θανάτων Η Ουρά Μ/Μ/1

Διαδικασίες Markov Υπενθύμιση

Πώς λειτουργεί το Google?

Ο αλγόριθμος PageRank της Google

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 2. Σταύρος Παπαϊωάννου

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ

Θεωρία Υπολογισμού και Πολυπλοκότητα Μαθηματικό Υπόβαθρο

Διάλεξη 29: Γράφοι. Διδάσκων: Παναγιώτης Ανδρέου

Στοχαστικές Ανελίξεις (3) Αγγελική Αλεξίου

Μοντελοποίηση, Ανάλυση και Σχεδιασμός Στοχαστικών Συστημάτων

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Έξι βαθμοί διαχωρισμού

Μοντελοποίηση, Ανάλυση και Σχεδιασμός Στοχαστικών Συστημάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΟΧΑΣΤΙΚΑ ΜΟΝΤΕΛΑ

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Κατευθυνόμενα γραφήματα. Μαθηματικά Πληροφορικής 6ο Μάθημα. Βρόχοι. Μη κατευθυνόμενα γραφήματα. Ορισμός

Εισόδημα Κατανάλωση

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

ΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας

Ανάκτηση Πληροφορίας

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

12. ΑΝΙΣΩΣΕΙΣ Α ΒΑΘΜΟΥ. είναι δύο παραστάσεις μιας μεταβλητής x πού παίρνει τιμές στο

Πολυτεχνείο Κρήτης Σχολή Ηλεκτρονικών Μηχανικών Και Μηχανικών Η/Υ. ΠΛΗ 513 Αυτόνομοι Πράκτορες

ΦΥΣΙΚΗ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Α ΛΥΚΕΙΟΥ

ΑΝΙΣΩΣΕΙΣ. 3.1 ΑΝΙΣΩΣΕΙΣ 1 ου ΒΑΘΜΟΥ. Οι ανισώσεις: αx + β > 0 και αx + β < 0

Προβλήματα Μεταφορών (Transportation)

ΚΕΦΑΛΑΙΟ 2 ΔΙΑΤΑΞΕΙΣ, ΜΕΤΑΘΕΣΕΙΣ, ΣΥΝΔΥΑΣΜΟΙ

ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΓΙΑ ΕΠΙΛΕΓΜΕΝΟ ΕΚΘΕΤΙΚΟ ΠΛΗΘΥΣΜΟ ΑΠΟ k ΠΛΗΘΥΣΜΟΥΣ

Πεπερασμένες Διαφορές.

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

ΚΑΤΑΝΟΜΈΣ. 8.1 Εισαγωγή. 8.2 Κατανομές Συχνοτήτων (Frequency Distributions) ΚΕΦΑΛΑΙΟ

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 1. Σταύρος Παπαϊωάννου

ΥΣ02 Τεχνητή Νοημοσύνη Χειμερινό Εξάμηνο

Σπιν 1 2. Γενικά. Ŝ και S ˆz γράφονται. ιδιοκαταστάσεις αποτελούν ορθοκανονική βάση στον χώρο των καταστάσεων του σπιν 1 2.

d(v) = 3 S. q(g \ S) S

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ενηµέρωση του διανύσµατος PageRank. Η εξέλιξη του Web

1 Arq thc Majhmatik c Epagwg c

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής

ΗΥ180: Λογική Διδάσκων: Δημήτρης Πλεξουσάκης. Φροντιστήριο 8 Επίλυση για Horn Clauses Λογικός Προγραμματισμός Τετάρτη 9 Μαΐου 2012

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

ΑΝΑΛΥΣΗ 1 ΠΕΜΠΤΟ ΜΑΘΗΜΑ, Μ. Παπαδημητράκης.

Σχεδίαση και Ανάλυση Αλγορίθμων Ενότητα 3: ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ - ΓΡΑΦΗΜΑΤΑ

Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

HMY 795: Αναγνώριση Προτύπων

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Προγραμματιστικές Ασκήσεις, Φυλλάδιο 1

Transcript:

Ανάκληση Πληποφοπίαρ Διδάζκων Δημήηριος Καηζαρός Διάλεξη 17η: 23/05/2016 1

Spamming PageRank 2

(Link Spam Farms) Spamming: Παξαπιάλεζε ησλ κεραλώλ αλαδήηεζεο γηα λα απνθηεζεί πςειόηεξε δηάηαμε (ranking) γηα θάπνηεο ζειίδεο (ή ηζηνηόπνπο) απ απηή πνπ πξαγκαηηθά αμίδνπλ. Τεχνικές Spamming Hiding Term Link Content hiding Cloaking Redirection 3

Ο αιγόξηζκνο PageRank c: ε ζηαζεξά damping T: ν πίλαθαο κεηαβάζεσλ Ν: ζπλνιηθόο αξηζκόο ζειίδσλ ηνπ Web 1 N : δηάλπζκα πνπ όια ηα ζηνηρεία ηνπ είλαη ίζα κε 1 Σηελ νπζία, απηή ε έθθξαζε νδεγεί ζε δηαηύπσζε ηνπ πξνβιήκαηνο PageRank σο γξακκηθό ζύζηεκα 4

Spam Farm για εξύψωση μιας σελίδας (1/4) Υποθέσεις: Κάθε σελίδα της φάρμας δείχνει μόνο προς τη μια και μοναδική σελίδα-στόχο, της οποίας ο spammer θέλει ν αυξήσει το PageRank. Αυτή η σελίδα είναι μέρος της φάρμας Η φάρμα αποτελείται από δεδομένο αριθμό k σελίδων, λόγω κόστους συντήρησης, ή πόρων Είναι πιθανό, εκτός των σελίδων της φάρμας, ο spammer να κατορθώσει να αποκτήσει συνδέσμους προς τη σελίδα που θέλει και διαμέσου έγκριτων πηγών, π.χ., από Web directory, ή από unmoderated bulletin boards. Αυτούς τους συνδέσμους θα τους ονομάζουμε hijacked links και το PageRank που φτάνει στη φάρμα διαμέσου αυτών θα καλείται leakage λ Ενώ ο spammer έχει πλήρη έλεγχο των σελίδων της φάρμας, δεν έχει τον πλήρη έλεγχο των σελίδων που περιέχουν τους hijacked links 5

Spam Farm για εξύψωση μιας σελίδας (2/4) ΘΕΩΡΗΜΑ. Η τιμή PageRank p 0 της σελίδας-στόχος του προηγούμενου σχήματος είναι: ΑΠΟΔΕΙΞΗ. Σύμφωνα με την προηγούμενη διατύπωση του PageRank, η τιμή PageRank των σελίδων της φάρμας είναι: Αντικαθιστώντας την τιμή των p i, έχουμε: 6

Spam Farm για εξύψωση μιας σελίδας (3/4) Βέλτιστη δομή της φάρμας. Έστω ότι με p και λ συμβολίζουμε τα διανύσματα που αντιπροσωπεύουν τις τιμές PageRank και του leakage των σελίδων της φάρμας: Τότε η εξίσωση του PageRank για τις σελίδες της φάρμας είναι: ΘΕΩΡΗΜΑ. Η τιμή PageRank p 0 της σελίδας-στόχος του προηγούμενου σχήματος είναι μέγιστη εάν e=1 k, 1 kf=1, G=0 kxk και λ 0 =λ (=λ 0 +λ 1 +λ 2 + ) και λ i =0 i=1,,k 7

Spam Farm για εξύψωση μιας σελίδας (4/4) Μ άλλα λόγια, η δομή της φάρμας είναι βέλτιστη, εάν: Όλες οι boosting σελίδες δείχνουν και δείχνονται από τη σελίδα-στόχο (e=1 k ) Δεν υπάρχουν σύνδεσμοι μεταξύ των boosting σέλίδων (G=0 kxk ) Η σελίδα-στόχος δείχνει σε μερικές ή όλες τις boosting σελίδες (1 kf=1) Όλοι οι hijacked σύνδεσμοι δείχνουν στη σελίδα-στόχο (λ 0 =λ και λ i =0 i=1,,k) 8

Συμμαχίες link spam farms: Δυο φάρμες Η μία φάρμα έχει k boosting σελίδες και η άλλη έχει m boosting σελίδες Χωρίς να συνδέονται οι φάρμες μεταξύ τους, η μέγιστη τμή της σελίδαςστόχος είναι: Εάν κάνουμε την συνδεσμολογία των δυο farms με τον τρόπο που φαίνεται στο πιο πάνω σχήμα, τότε: Συνεπώς, κερδίζει ο spammer που έχει τις λιγότερες σελίδες στη φάρμα του! 9

Συμμαχίες link spam farms: Δυο φάρμες Εάν εκτελέσουμε τη διπλανή συνδεσμολογία, τότε p 0 = q 0 και: Άρα ωφελούνται και οι δυο, κατά ποσά ανάλογα του μεγέθους της άλλης φάρμας, που είναι το ζητούμενο για τους spammers: 10

Συμμαχίες link spam farms: Δακτύλιοι Εάν έχουμε F φάρμες, και συμβολίσουμε με t i την τιμή PageRank της σελίδας-στόχου κάθε φάρμας και με b i τον αριθμό των boosting σελίδων κάθε φάρμας, τότε το PageRank score της πρώτης σελίδας-στόχου θα είναι: Γενικά, η τιμή PageRank της i-οστής σελίδας-στόχου θα είναι: 11

Συμμαχίες link spam farms: Κλίκες Εάν συμβολίσουμε με t i την τιμή PageRank της σελίδαςστόχου κάθε φάρμας και με b i τον αριθμό των boosting σελίδων κάθε φάρμας, τότε το PageRank score της πρώτης σελίδας-στόχου θα είναι: Γενικά, η τιμή PageRank της i-οστής σελίδας-στόχου θα είναι: 12

Ζητήματα στη δομή των link spam farms Πότε έχει νόημα να συμμετάσχει μια νέα φάρμα σε μια ήδη υπάρχουσα συμμαχία; Πόσες σελίδες πρέπει να έχει η νέα φάρμα, ώστε να ωφελήσει και τις υπάρχουσες φάρμες; Πότε έχει νόημα να αποχωρήσει μια φάρμα από μια συμμαχία στην οποία συμμετέχει; Υπάρχει κάποιος critical αριθμός κόμβων, πέρα από τον οποίο είναι καλύτερα η φάρμα να υπάρχει μόνη της; Αφού οι βέλτιστες δομές των link spam farms είναι εύκολα ανιχνεύσιμες από τις μηχανές αναζήτησης, είναι πιθανό ότι οι spammers θα δημιουργήσουν ακανόνιστες δομές που όμως θα μοιάζουν με τις βέλτιστες; Πώς τις ανιχνεύουμε αυτές; 13

Η μέθοδος BrowseRank 14

Εισαγωγή Η page importance, που αναπαριστά την αξία μιας σελίδας του Web, είναι παράγων-κλειδί για την αναζήτηση στο Web, επειδή οι σύγχρονες μηχανές αναζήτησης, ο ερπυσμός (crawling), το indexing, και η διαβάθμιση (ranking) συνήθως καθοδηγούνται από αυτή τη μετρική Προς το παρόν, η page importance υπολογίζεται με χρήση του link graph του Web και αυτή η διαδικασία λέγεται link analysis Παρουσιάσαμε ήδη αλγορίθμους για link analysis: τον HITS και PageRank 15

Google PageRank Ο PageRank βασίζεται σε μια discrete-time Markov διαδικασία πάνω στον Web link graph για να υπολογίσει την page importance, και στην ουσία υλοποιεί έναν τυχαίο περίπατο (random walk) ενός Web surfer πάνω στους υπερσυνδέσμους (hyperlinks) του Web Περιορισμοί του PageRank Ο link graph, πάνω στον οποίο βασίζεται ο PageRank, δεν είναι αξιόπιστη πηγή δεδομένων, επειδή τα hyperlinks του Web μπορούν να προστεθούν/διαγραφούν συχνά από τους δημιουργούς περιεχομένου Ο PageRank μοντελοποιεί απλά έναν random walk πάνω στον link graph, αλλά ΔΕΝ λαμβάνει υπόψην του την διάρκεια του χρόνου που ξοδεύει ο surfer πάνω στις Web σελίδες κατά την διάρκεια του random walk 16

User Browsing Graph Μπορούμε να βρούμε μια καλύτερη πηγή δεδομένων αντί του link graph? Χρήση του user browsing graph, που προκύπτει από τα user behavior data Τα δεδομένα συμπεριφοράς των χρηστών (user behavior data) μπορούν να καταγραφούν από τους browsers και να συλλεγούν από τους web servers 17

Continuous-time Markov chain Τι είδους αλγορίθμους πρέπει να χρησιμοποιήσουμε για να αξιοποιήσουμε την νέα πηγή δεδομένων; Η χρήση μιας discrete-time Markov process δεν είναι πλάον επαρκής Ορίζουμε μια continuous-time Markov process ως το μοντέλο για τον user browsing graph Υποθέτουμε ότι η διαδικασία είναι time-homogenous Η stationary probability distribution της διαδικασίας μπορεί να χρησιμοποιηθεί για να ορίσουμε την importance των Web pages Εφαρμόζουμε τον αλγόριθμο BrowseRank, για να υπολογίσουμε αποδοτικά την stationary probability distribution της continuous-time Markov process Κάνουμε χρήση ενός μοντέλου προσθετικού θορύβου (additive noise) για να αναπαραστήσουμε τις παρατηρήσεις σε σχέση με την Markov process και για να εκτιμήσουμε τις παραμέτρους τις διαδικασίας Υιοθετούμε μια embedded Markov chain για να επιταχύνουμε τον υπολογισμό της stationary distribution 18

User Behavior Data Τα user behavior data μπορούν να καταγραφούν και να αναπαρασταθούν με τριάδες της μορφής <URL, TIME, TYPE> Από τα δεδομένα, εξάγουμε μεταβάσεις των χρηστών από σελίδα σε σελίδα καθώς και τον χρόνο που ξοδεύουν οι χρήστες στις σελίδες ως ακολούθως: Κατακερματισμός των sessions (διάσπαση με: time rule & type rule) Κατασκευή των URL pair Εκτίμηση της reset probability Εξαγωγή του staying time 19

Εξαγωγή του staying time Για κάθε ζεύγος URL, χρησιμοποιούμε την διαφορά μεταξύ του χρόνου της δεύτερης σελίδας και αυτού της πρώτης σελίδας, ως εκτίμηση του χρόνου παραμονής στην πρώτη σελίδα Για την τελευταία σελίδα του session, χρησιμοποιούμε το ακόλουθο ευρεστικό για να εκτιμήσουμε τον χρόνο παραμονής Εάν το session κατακερματιστεί με τον time rule, παίρνουμε ένα τυχαίο (!?) δείγμα από την κατανομή των χρόνων των παρατηρημένων staying time των σελίδων σε όλες τις εγγραφές Εάν η session κατακερματιστεί με τον type rule, χρησιμοποιούμε την διαφορά μεταξύ του χρόνου της τελευταίας σελίδας στο session και του χρόνου της πρώτης σελίδας του επόμενου session (INPUT page) 20

Χτίσιμο ενός user browsing graph Κάθε κόμβος στο γράφημα αναπαριστά ένα URL στα user behavior data, και συσχετίζεται με: reset probability, και staying time ως μεταδεδομένα Κάθε κατευθυνόμενη ακμή αναπαριστά μια μετάβαση μεταξύ δυο κόμβων, και συσχετίζεται με τον αριθμό των μεταβάσεων που αποτελεί το βάρος της Ο user browsing graph είναι ένα γράφημα με βάρη στις ακμές που οι κόμβοι του περιέχουν μεταδεδομένα 21

Υποθέσεις Ανεξαρτησία χρηστών και sessions Οι διαδικασίες browsing διαφορετικών χρηστών σε διαφορετικές sessions είναι ανεξάρτητες. Με άλλα λόγια, θεωρούμε το web browsing ως μια στοχαστική διαδικασία, με τα παρατηρούμενα δεδομένα σε κάθε session του κάθε χρήστη να είναι ένα I.I.D. δείγμα από αυτήν την διαδικασία Ιδιότητα του Markov Η επόμενη σελίδα που επιλέγει να επισκεφτεί κάποιος χρήστης εξαρτάται μόνο από την τρέχουσα σελίδα, και είναι ανεξάρτητη από τις σελίδες που επισκέφτηκε προηγουμένως Αυτή η υπόθεση είναι επίσης βασική στον PageRank Time-homogeneity Οι συμπεριφορές browsing των χρηστών (π.χ., μεταβάσεις και staying time) δεν εξαρτώνται από τον χρόνο. Παρόλο που αυτή η υπόθεση δεν είναι απαραιτήτως αληθής στην πράξη, την υιοθετούμε για τεχνικούς λόγους Αυτή η υπόθεση είναι επίσης βασική στον PageRank 22

Το continuous-time Markov μοντέλο Έστω ένας Web surfer που περιηγείται σε όλες τις Webpages Έστω ότι X s είναι η σελίδα την οποία επισκέπτεται ο surfer την χρονική στιγμή s, s>0 Τότε, με τις τρεις υποθέσεις, η διαδικασία X = {X s, s 0} σχηματίζει μια continuous-time time-homogenous Markov process Έστω ότι p ij (t) είναι η transition probability από την σελίδα i στην j για το χρονικό διάστημα t σε αυτήν την διαδικασία Μπορεί ν αποδειχτεί ότι υπάρχει μια stationary probability distribution π, η οποία είναι μοναδική και ανεξάρτητη του t, και συσχετίζεται με την P(t) = [p ij (t)] NΧN, τέτοια ώστε για οποιονδήποτε t > 0 π = πp(t) Το i th κελί της κατανομής π είναι το κλάσμα του χρόνου που ο surfer περνά στην i th σελίδα προς τον χρόνο που περνά σε όλες τις σελίδες όταν το χρονικό διάστημα t τείνει στο άπειρο Με αυτήν την λογική, η κατναομή π μπορεί ν αποτελέσει μια μετρική της page importance 23

Μηχανισμός Για να υπολογίσουμε αυτήν την stationary probability distribution, χρειάζεται να εκτιμήσουμε την πιθανότητα κάθε κελιού του matrix P(t) Στην πράξη, είναι δύσκολο να έχουμε αυτόν τον πίνακα, επειδή είναι δύσκολο να πάρουμε την πληροφορίας για όλα τα πιθανά χρονικά διαστήματα Για να επιλύσουμε αυτό το πρόβλημα, προτείνεται ένας νέος λαόγριθμος που βασίζεται στον transition rate matrix Ο transition rate matrix ορίζεται ως η παράγωγος της P(t) όταν t τείνει στο 0, εάν υπάρχει Q = P (0) Αποκαλούμε τον πίνακα Q = (q ij ) NXN ως ο Q-matrix 24

Ο Q-πίνακας Όταν ο χώρος καταστάσεων είναι πεπερασμένος, υπάρχει μια έναπρος-ένα αντιστοιχία μεταξύ του Q-πίνακα και του P(t), και ισχύει INF < q ii < +INF και SUM j q ij = 0 Εξαιτίας αυτής της αντιστοιχίας, μπορούμε να χρησιμοποιήσουμε την Q-Process για να αναπαραστήσουμε την αρχική continuoustime Markov process, δηλαδή, η browsing process X = {X s, s 0} που ορίστηκε προηγουμένως είναι μια Q-Process εξαιτίας του πεπερασμένου χώρου καταστάσεων Τα πλεονεκτήματα της χρήσης του Q-πίνακα Οι παράμετροι του Q-matrix μπορούν να εκτιμηθούν από τα δεδομένα Βασιζόμενοι στον Q-matrix, υπάρχει ένα αποδοτικός τρόπος για να υπολογίσουμε την stationary probability distribution του P(t) Η αποκαλούμενη EMC είναι μια discrete-time Markov process που έχει πίνακα πιθανοτήτων μεταβάσεων με μηδενικά σε όλες τις θέσεις της διαγωνίου, και -q ij /q ii στις θέσεις εκτός της διαγωνίου 25

Το βασικό θεώρημα Η διαδικασία Y είναι μια discrete-time Markov chain, και έτσι η stationary probability distribution π μπορεί να υπολογιστεί από απλές μεθόδους, π.χ., την power method Κατόπιν, θα εξηγήσουμε πώς να εκτιμήσουμε τις παραμέτρους στον Q-πίνακα, ή ισοδύναμα, τις παραμέτρους q ii και τις transition probabilities -q ij /q ii (-q ij /q ii > 0, αφού q ii <0) 26

Εκτίμηση των q ii Για μια Q-Process, ο staying time T i πάνω στον i th κόμβο καθορίζεται από μια exponential distribution με παραμέτρους q ii : P(Ti > t) = exp(q ii t) Αυτό υπονοεί ότι μπορούμε να εκτιμήσουμε τα q ii από μεγάλους αριθμούς παρατηρήσεων του staying time στα the user behavior data Αυτή η εργασία δεν είναι απλή, επειδή οι παρατηρήσεις των user behavior data συνήθως περιέχουν θόρυβο εξαιτίας της ταχύτητας σύνδεσης του Internet, μέγεθος page, δομή page, και άλλων παραμέτρων, δηλαδή, οι παρατηρούμενες τιμές δεν ικανοποιούν την exponential distribution Υποθέτουμε ότι η Z είναι συνδυασμός του πραγματικού staying time T i και του θορύβου U, δηλαδή: Z = U + T i 27

Εκτίμηση της Transition Probability στην EMC Οι πιθανότητες μετάβασης στην EMC περιγράφουν τις καθαρές μεταβάσεις του surfer πάνω στον user browsing graph Η εκτίμηση αυτών μπορεί να βασιστεί στις παρατηρημένες μεταβάσεις μεταξύ σελίδων στα user behavior data Χρησιμοποιούμε την ακόλουθη μέθοδο για την εκτίμηση 28

Εκτίμηση της Transition Probability στην EMC 29

Εκτίμηση της Transition Probability στην EMC Η διαισθητική ερμηνεία της μετάβασης έχει ως εξής: Όταν ο surfer περιηγείται πάνω στον user browsing graph, μπορεί να ακολουθήσει έναν σύνδεσμο με ποιθανότητα α, ή να επιλέξει να ξεκινήσει από μια νέα σελίδα με πιθανότητα (1-α) Η επιλογή της νέας σελίδας καθορίζεται από την reset probability Πλεονεκτήματα της χρήσης της Εξίσωσης (8) για την εκτίμηση αυτή η εκτίμηση δεν θα είναι πολωμένη λόγω του περιορισμένου αριθμού των παρατηρημένων μεταβάσεων η αντίστοιχη EMC είναι πρωτογενής, και συνεπώς έχει μια μοναδική stationary distribution Επομένως, μπορούμε να χρησιμοποιήσουμε την power method για να υπολογίσουμε την stationary distribution με αποδοτικό τρόπο 30

Ο αλγόριθμος BrowseRank 31

Top-20 Websites από τους 3 αλγορίθμους 32

Αποτελέσματα-1 33

Αποτελέσματα-2 34