Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός



Σχετικά έγγραφα
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Επιταχύνοντας την εκτέλεση του PageRank

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Αναγνώριση Προτύπων Ι

Ανάκληση Πληπουοπίαρ. Διδάζκων Δημήηπιορ Καηζαπόρ

Γραφική Λύση & Πρότυπη Μορφή Μαθηματικού Μοντέλου

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκτηση Πληροφορίας

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ευαισθησία του PageRank. Το πρόβληµα PageRank ως. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Μαρκοβιανές Αλυσίδες

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

ΜΑΣ 371: Αριθμητική Ανάλυση ΙI ΑΣΚΗΣΕΙΣ. 1. Να βρεθεί το πολυώνυμο Lagrange για τα σημεία (0, 1), (1, 2) και (4, 2).

Θέμα 1. με επαυξημένο 0 1 1/ 2. πίνακα. και κλιμακωτή μορφή αυτού

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων 1ο Σετ Ασκήσεων - Λύσεις

Η ΚΑΝΟΝΙΚΗ ΜΟΡΦΗ JORDAN

ΠΛΗ 12 - Ιδιοτιμές και ιδιοδιανύσματα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Ο αλγόριθμος PageRank της Google

Αναγνώριση Προτύπων Ι

Παράδειγμα 1. Δίνεται ο κάτωθι κλειστός βρόχος αρνητικής ανάδρασης με. Σχήμα 1. στο οποίο εφαρμόζουμε αρνητική ανάδραση κέρδους

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

ΚΕΦ.6:ΤΕΤΡΑΓΩΝΙΚΕΣ ΜΟΡΦΕΣ. ΣΥΜΜΕΤΡΙΚΟΙ ΠΙΝΑΚΕΣ

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

5. ΣΥΣΤΗΜΑΤΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Systematic Sampling)

Kεφάλαιο 4. Συστήματα διαφορικών εξισώσεων. F : : F = F r, όπου r xy

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΟΧΑΣΤΙΚΑ ΜΟΝΤΕΛΑ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Information Retrieval

HMY 795: Αναγνώριση Προτύπων

Κοινωνικοοικονομική Αξιολόγηση Επενδύσεων Διάλεξη 3 η. Αποτελεσματικότητα και Ευημερία

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ ΑΠΟΙΚΙΑΣ ΜΥΡΜΗΓΚΙΩΝ ANT COLONY OPTIMIZATION METHODS

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ. Διάλεξη 15: O αλγόριθμος SIMPLE

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Θέση και Προσανατολισμός

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Ανάκτηση Πληροφορίας

( 1)( 3) ( ) det( ) (1 )( 1 ) ( 2)( 2) pl( ) det( L ) (5 )( 7 ) ( 1) ( ) det( M ) (1 )(1 )

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ» ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12) ΕΠΑΝΑΛΗΠΤΙΚΗ ΤΕΛΙΚΗ ΕΞΕΤΑΣΗ 5 Ιουλίου 2009

Οι παράµετροι του µοντέλου PageRank

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 4

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

ΑΝΑΛΥΣΗ 2. Μ. Παπαδημητράκης.

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση Ι. Λυχναρόπουλος

ΤΡΙΦΑΣΙΚΑ ΚΥΚΛΩΜΑΤΑ ΕΝΑΛΛΑΣΣΟΜΕΝΟΥ ΡΕΥΜΑΤΟΣ

Ανταγωνιστική Εκμάθηση Δίκτυα Kohonen. Κυριακίδης Ιωάννης 2013

Μελέτη Περίπτωσης: Random Surfer

Ασκήσεις μελέτης της 8 ης διάλεξης

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Περιεχόμενα 3ης Διάλεξης 1 Σύνοψη Προηγούμενου Μαθήματος 2 Δεσμευμένη Πιθανότητα 3 Bayes Theorem 4 Στοχαστική Ανεξαρτησία 5 Αμοιβαία (ή πλήρης) Ανεξαρ

ΕΙΣΑΓΩΓΗ Η μελέτη διαφόρων στοχαστικών φαινομένων μπορεί γενικά να γίνει χρησιμοποιώντας

Αριθμητική Ανάλυση και Εφαρμογές

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Μερικές φορές δεν μπορούμε να αποφανθούμε για την τιμή του άπειρου αθροίσματος.

Κεφάλαιο 4ο: Δικτυωτή Ανάλυση

The DeGroot model for Social Influence and Opinions

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Κατακερματισμός. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Περιεχόμενα 3ης Διάλεξης 1 Σύνοψη Προηγούμενου Μαθήματος 2 Δεσμευμένη Πιθανότητα 3 Bayes Theorem 4 Στοχαστική Ανεξαρτησία 5 Αμοιβαία (ή πλήρης) Ανεξαρ

Συνδυαστική Βελτιστοποίηση Εισαγωγή στον γραμμικό προγραμματισμό (ΓΠ)

Γραμμικός Προγραμματισμός Μέθοδος Simplex

Στατιστική Συμπερασματολογία

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 4

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

ΜΕΜ251 Αριθμητική Ανάλυση

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 3

Αριθµητική Γραµµική ΑλγεβραΚεφάλαιο 4. Αριθµητικός Υπολογισµός Ιδιοτιµών 2 Απριλίου και2015 Ιδιοδιανυσµάτων 1 / 50

ΜΕΜ251 Αριθμητική Ανάλυση

Υπολογιστική Νοημοσύνη. Μάθημα 12: Παραδείγματα Ασκήσεων 2

HMY 795: Αναγνώριση Προτύπων

( ) x 1 1. cone( (10.1) ( ) x ) := D (10.2) D Ax b 0 Ax 0 b. i λ i 1

9. Συστολικές Συστοιχίες Επεξεργαστών

Το μοντέλο Perceptron

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

ΕΝΤΟΛΕΣ. 7.1 Εισαγωγικό μέρος με επεξήγηση των Εντολών : Επεξήγηση των εντολών που θα

Transcript:

Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 13η: 28/04/2014 1

Παράμετροι του μοντέλου PageRank 2

Ηπαράμετροςα(1/2) Η παράμετρος αυτή ελέγχει στην ουσία την προτεραιότητα που δίνεται στη δομή των υπερσυνδέσμων ή στην τηλεμεταφορά Είδαμε στην προηγούμενη διαφάνεια ότι οι Brin & Page πρότειναν τιμή.85 για την παράμετρο αυτή Γιατί αυτήν την τιμή; Ποια είναι η επίδραση του α στο πρόβλημα του PageRank; Με α=.5, τότε η επαναληπτική μέθοδος χρειάζεται μόνο 34 επαναλήψεις για να συγκλίνει σε μια ακρίβεια 10-10!! Όμως αυτό σημαίνει ότι η τεχνητά εισαχθείσα έννοια της τηλεμεταφοράς θα είναι ίσης σημαντικότητας με τη δομή των υπερσυνδέσμων!? 3

Ηπαράμετροςα(2/2) Για α=1.0, οι αριθμός των επαναλήψεων για σύγκλιση γίνεται απαγορευτικός Ακόμα και για α=.85 απαιτούνται μερικές ημέρες για να επιτευχθεί η σύγκλιση όταν οι πίνακες είναι του μεγέθους του Παγκοσμίου Ιστού Απλώς το α=.85 επιτυγχάνει ένα αποδεκτό tradeoff Πέρααπόαυτόόμως, η παράμετρος ελέγχει και την ευαισθησία του διανύσματος PageRank Γιατιμέςτουακοντάσε1, τότε ακόμα και μικρές αλλαγές στη δομή του Web Επηρεάζουν σημαντικά τις τιμές PageRank των σελίδων 4

Ο πίνακας υπερσυνδέσμων H Διάφορες προσαρμογές μπορεί να γίνουν πάνω στον H Στην βασική υλοποίηση, κάθε εξερχόμενος σύνδεσμος έχει το ίδιο βάρος/σημαντικότητα Παρόλο που η τακτική αυτή είναι δημοκρατική, εύκολη στην υλοποίηση, εντούτοις δεν είναι η κατάλληλη για τα rankings Στην πραγματικότητα, ο random surfer δεν διαλέγει τυχαία με την ίδια πιθανότητα ποιον σύνδεσμο θα ακολουθήσει, αλλά λαμβάνει υπόψη του το πλούσιο περιεχόμενο των σελίδων όπου θα πάει, αλλά και το κείμενο πάνω στους υπερσυνδέσμους Έτσι, αντί για την υπόθεση του random surfer, έχουμε τον intelligent surfer 5

Παράδειγμα προσαρμοσμένου πίνακα H Πώς αποφασίζουμε με ποιο τρόπο θα αναθέσουμε διαφορετικά βάρη στους εξερχόμενους υπερσυνδέσμους; Από τα access logs! Παράδειγμα: Από την P 1 είναι δυο φορές πιο πιθανό να πάμε στην P 2 παρά στην P 3 Προφανώς όλες οι παρόμοιες μέθοδοι θα είναι ευρεστικές Για παράδειγμα, τα στοιχεία Η 45 και Η 46 μπορούν να προσδιοριστούν με βάση την ομοιότητα (cosine similarity) μεταξύ των σελίδων P 4 με την P 5 και P 6 Για το γράφημα με τους 6 κόμβους ο νέος πίνακας H θα μετατραπεί στον ακόλουθο: 6

Παράδειγμα προσαρμοσμένου πίνακα H 7

Ο πίνακας τηλεμεταφοράς Ε (1/3) Μια από τις πρώτες προσαρμογές ήταν ότι αντί για τη χρήση του 1/nee T προτιμήθηκε ο πίνακας ev T To v T με v T > 0, είναι ένα διάνυσμα πιθανοτήτων που ονομάζεται personalization ή teleportation διάνυσμα Αφού το v T είναι διάνυσμα πιθανοτήτων με θετικά στοιχεία, κάθε κόμβος είναι συνδεδεμένος με κάθε άλλο κόμβο, άρα ο G είναι πρωτογενής Χρησιμοποιώντας το v T αντί για το 1/ne T σημαίνει ότι οι πιθανότητες τηλεμεταφοράς δεν είναι πλέον ομοιόμορφες 8

Ο πίνακας τηλεμεταφοράς Ε (2/3) Άρα για κάθε τηλεμεταφορά, ο surfer δεν επιλέγει ομοιόμορφα σε ποια σελίδα θα πάει, αλλά καθοδηγείται από το διάνυσμα v T Αυτή η μετατροπή ευτυχώς δεν καταστρέφει τα πλεονεκτήματα της power method Όταν G=αS+(1-α)ev T, τότε η power method γίνεται: 9

Ο πίνακας τηλεμεταφοράς Ε (3/3) Αυτή η αλλαγή δεν έχει καμία επίδραση πάνω στο ρυθμό σύγκλισης στον πολλαπλασιασμό διανύσματος με αραιό πίνακα στις μικρές αποθηκευτικές απαιτήσεις Όμως, αλλάζει το ίδιο το διάνυσμα PageRank!! Αυτό δεν είναι μειονέκτημα!? Δεν είναι απαραίτητο ότι σε όλους μας ταιριάζει το ίδιο ranking Άλλωστε, παρέχει μια ευελιξία ώστε ανάλογα τις ανάγκες μας να προσαρμόζουμε απλά το v T 10

Προσωποποίηση του PageRank Η προσωποποίηση αλλάζει το διάνυσμα PageRank, από query-independet και user-independent σε userdependent και πιο δύσκολο στον υπολογισμό Στην θεωρία είναι ωραία η προσωποποίηση, αλλά στην πράξη είναι δύσκολα εφαρμόσιμη Κάθε π Τ απαιτεί μερικές ημέρες για τον υπολογισμό του Οπότε, αφού επικρατεί η άποψη ότι η προσωποποιημένη αναζήτηση είναι η μελλοντική τάση στις μηχανές αναζήτησης, αρκετοί δημιούργησαν ψευδοπροσωποποιημένα διανύσματα PageRank Δεν απευθύνονται σε κάθε χρήστη, αλλά σε ομάδες χρηστών 11

Topic-sensitive PageRank (1/3) Δημιουργία ενός πεπερασμένου αριθμού PageRank διανυσμάτων π Τ (v it ), κάθεένααπόαυτάπολωμένοως προς κάποια συγκεκριμένο θέμα Ποια θέματα επιλέχθηκαν; Ο Taher Haveliwala επέλεξε τα 16 πρώτα από το Open Directory Project (ODP) Τα 16 πολωμένα διανύσματα προϋπολογίζονται Το ζήτημα είναι να τα συνδυάσουμε αποτελεσματικά κατά την ερώτηση του χρήστη 12

Topic-sensitive PageRank (2/3) Ο Taher Haveliwala έφτιαξε έναν κυρτό συνδυασμό αυτών ως εξής π Τ = β 1 π Τ (v 1T ) +β 2 π Τ (v 2T ) + +β 16 π Τ (v 16T ) όπου Σβ ι =1 Για παράδειγμα, η ερώτησηscience project ideas εμπίπτει μεταξύ των εξής κατηγοριών του ODP: Κατηγορία 7: Kids και Teens Κατηγορία 10: Reference Κατηγορία 12: Science Προφανώς τα αντίστοιχα διανύσματα αυτών των κατηγοριών πρέπει να πάρουν μεγαλύτερο βάρος ή ίσως και όλο το βάρος 13

Topic-sensitive PageRank (3/3) Για τον υπολογισμό των βαρών χρησιμοποιήθηκε ένας classifier Bayes Όταν υπολογιστεί το topic-sensitive score, συνδυάζεται με το αντίστοιχο content score O Jeh Glen, Taher Haveliwala & Serendap Kamvar δημιούργησαν το καλοκαίρι του 2003 την εταιρεία Kaltix γιαναπροωθήσουντηνιδέατου personalized PageRank, και τελικά η εταιρεία τους αγοράστηκε το Σεπτέμβριο του 2003 από την Google Τον Μάρτιο του 2004, η Google προώθησε την προσωποποίηση http://labs.google.com/personalized 14

Το φάσμα του personalized πίνακα G (1/4) ΘΕΩΡΗΜΑ: Εάν το φάσμα (ιδιοτιμές) του στοχαστικού πίνακα S είναι {1,λ 2,λ 3,,λ n }, τότε το φάσμα του personalized πίνακα Google G=αS + (1-α)ev T είναι {1,αλ 2,αλ 3,,αλ n }, όπου το v T είναι ένα διάνυσμα πιθανοτήτων 15

Το φάσμα του personalized πίνακα G (2/4) Αφού ο S είναι στοχαστικός, τότε το (1,e) είναι ένα ζεύγος του S Έστω ότι Q = (e X) είναι μη ιδιόμορφος (nonsingular) πίνακας που έχει το ιδιοδιάνυσμα e ως πρώτη στήλη του Έστω ότι Τότε Απ εδώ παίρνουμε δυο χρήσιμες ταυτότητες y T e=1 Y T e=0 16

Το φάσμα του personalized πίνακα G (3/4) Ως συνέπεια, ο μετασχηματισμός ομοιότητας φανερώνει ότι ο Y T SX περιέχει τις υπόλοιπες ιδιοτιμές του S, λ 2,λ 3,,λ n 17

Το φάσμα του personalized πίνακα G (4/4) Εφαρμόζοντας τον μετασχηματισμό ομοιότητας στον G=αS + (1-α)ev T Επομένως, οι ιδιοτιμές του G=αS + (1-α)ev T είναι οι {1,αλ 2,αλ 3,,αλ n } 18