Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Η µέθοδος HITS. Η µέθοδος SALSA. Hypertext Induced Topic Search. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Σχετικά έγγραφα
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηπιορ Καηζαπόρ

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Επίλυση Γραµµικών Συστηµάτων

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

ΚΕΦΑΛΑΙΟ 3 ΑΡΙΘΜΗΤΙΚΗ ΕΠΙΛΥΣΗ ΓΡΑΜΜΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. nn n n

Αριθµητική Γραµµική ΑλγεβραΚεφάλαιο 4. Αριθµητικός Υπολογισµός Ιδιοτιµών 2 Απριλίου και2015 Ιδιοδιανυσµάτων 1 / 50

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ευαισθησία του PageRank. Το πρόβληµα PageRank ως. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

ΚΕΦΑΛΑΙΟ 4 ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΕΥΡΕΣΗΣ ΠΡΑΓΜΑΤΙΚΩΝ Ι ΙΟΤΙΜΩΝ. 4.1 Γραµµικοί µετασχηµατισµοί-ιδιοτιµές-ιδιοδιανύσµατα

Αδιάσπαστοι, p-κυκλικοί, συνεπώς διατεταγµένοι πίνακες και γραφήµατα

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

Αριθµητική Ανάλυση. Ενότητα 4 Αριθµητικός Υπολογισµός Ιδιοτιµών και Ιδιοδιανυσµάτων. Ν. Μ. Μισυρλής. Τµήµα Πληροφορικής και Τηλεπικοινωνιών,

Κατάταξη σε Γραφήματα Ιστού - Ranking on Web Graphs

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ΙΙ (ΠΕΡΙΤΤΟΙ) Ασκησεις - Φυλλαδιο 9 Επαναληπτικες Ασκησεις

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

Kεφάλαιο 4. Συστήµατα διαφορικών εξισώσεων

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Γραµµικη Αλγεβρα ΙΙ Ασκησεις - Φυλλαδιο 10

Τµήµα Πληροφορικής και Τηλεπικοινωνιών

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Επιταχύνοντας την εκτέλεση του PageRank

Στοχαστικά Σήµατα και Εφαρµογές

{ } ΠΛΗ 12: ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΤΗ ΠΛΗΡΟΦΟΡΙΚΗ Ι 2 η ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ. Απαντήσεις. 1. (15 µονάδες)

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (ΗΥ-119)

Ανάκτηση Πληροφορίας

1 Επανάληψη εννοιών από τον Απειροστικό Λογισμό

Κεφάλαιο 9 Ιδιοτιµές και Ιδιοδιανύσµατα

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Κεφάλαιο 6 Ιδιοτιµές και Ιδιοδιανύσµατα

Κατευθυνόµενα γραφήµατα. Στοιχεία Θεωρίας Γραφηµάτων (1) Πολυγραφήµατα (Multigraphs)

QR είναι ˆx τότε x ˆx. 10 ρ. Ποιά είναι η τιµή του ρ και γιατί (σύντοµη εξήγηση). P = [X. 0, X,..., X. (n 1), X. n] a(n + 1 : 1 : 1)

Αλγόριθµοι και Πολυπλοκότητα

Στοιχεία Θεωρίας Γραφηµάτων (1)

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Γραµµική Αλγεβρα. Ενότητα 1 : Εισαγωγή στη Γραµµική Αλγεβρα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Διδάσκων: Καθηγητής Νικόλαος Μαρμαρίδης, Καθηγητής Ιωάννης Μπεληγιάννης

Εισαγωγή στην ανάλυση συνδέσμων

Γραµµικη Αλγεβρα Ι Επιλυση Επιλεγµενων Ασκησεων Φυλλαδιου 4

Αναζήτηση Κατά Πλάτος

Γραµµική Αλγεβρα. Ενότητα 2 : Επίλυση Γραµµικών Εξισώσεων. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Kεφάλαιο 4. Συστήµατα διαφορικών εξισώσεων.

!q j. = T ji Kάθε πίνακας µπορεί να γραφεί σαν άθροισµα ενός συµµετρικού και ενός αντι-συµµετρικού πίνακα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Μαθηµατικό Παράρτηµα 2 Εξισώσεις Διαφορών

Διδάσκων: Καθηγητής Νικόλαος Μαρμαρίδης, Καθηγητής Ιωάννης Μπεληγιάννης

ΚΕΦ.6:ΤΕΤΡΑΓΩΝΙΚΕΣ ΜΟΡΦΕΣ. ΣΥΜΜΕΤΡΙΚΟΙ ΠΙΝΑΚΕΣ

Γραµµική Αλγεβρα. Ενότητα 1 : Εισαγωγή στη Γραµµική Αλγεβρα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (2 Ιουλίου 2009) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ

Γραµµική Αλγεβρα. Ενότητα 2 : Επίλυση Γραµµικών Εξισώσεων. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Αλγόριθµοι Γραφηµάτων

Γραµµική Αλγεβρα. Ενότητα 6 : Ιδιοτιµές & Ιδιοδιανύσµατα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ευκλείδειοι Χώροι. Ορίζουµε ως R n, όπου n N, το σύνολο όλων διατεταµένων n -άδων πραγµατικών αριθµών ( x

Ορίζουσες ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. Προηγείται της Γραµµικής Αλγεβρας. Εχει ενδιαφέρουσα γεωµετρική ερµηνεία. ΛΥ.

Κεφάλαιο 6 Ιδιοτιμές και Ιδιοδιανύσματα

Μη κατευθυνόµενα γραφήµατα. Στοιχεία Θεωρίας Γραφηµάτων (1) Υπογραφήµατα.

5.1 Ιδιοτιµές και Ιδιοδιανύσµατα

Αριθµητική Ανάλυση. 27 Οκτωβρίου Αριθµητική Ανάλυση 27 Οκτωβρίου / 72

2η Οµάδα Ασκήσεων. ΑΣΚΗΣΗ 3 (Θεωρία-Αλγόριθµοι-Εφαρµογές)

ΜΕΜ251 Αριθμητική Ανάλυση

Ασκήσεις3 Διαγωνισιμότητα Βασικά σημεία Διαγωνίσιμοι πίνακες: o Ορισμός και παραδείγματα.

Θέµατα ( ικαιολογείστε πλήρως όλες τις απαντήσεις σας)

Διδάσκων: Καθηγητής Νικόλαος Μαρμαρίδης, Καθηγητής Ιωάννης Μπεληγιάννης

Γραµµική Αλγεβρα Ι. Ενότητα: Εισαγωγικές Εννοιες. Ευάγγελος Ράπτης. Τµήµα Μαθηµατικών

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

Κεφάλαιο 3. Γραφήµατα v1.0 ( ) Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

Επίκουρος Καθηγητής Παν/µίου Ιωαννίνων. Μαθηµατικά Ι Ακαδ. Έτος /58

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΑΡΤΙΟΙ) Ασκησεις - Φυλλαδιο 4

Εφαρμοσμένα Μαθηματικά ΙΙ

Κεφάλαιο 4 Διανυσματικοί Χώροι

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

Ασκήσεις3 Διαγωνίσιμες Γραμμικές Απεικονίσεις

4 k 2 = 2 ( 1+ 2 k 2. k 2 2 k= k 2. 1.ii) Αν σχηµατίσουµε τον πίνακα µε γραµµές τα δύο διανύσµατα έχουµε: Γ1 Γ1 ---> { }

ΓΡΑΠΤΗΣ ΕΡΓΑΣΙΑΣ. ΛΥΣΕΙΣ 3 ης. Άσκηση 1. , z1. Παρατηρούµε ότι: z0 = z5. = + ) και. β) 1 ος τρόπος: Έστω z = x+ iy, x, = x + y.

1. a. Έστω b. Να βρεθούν οι ιδιοτιμές και τα ιδιοδιανύσματα του A Έστω A και ( x) [ x]

Επιστηµονικός Υπολογισµός ΙΙ

Γ. Κορίλη Αλγόριθµοι ροµολόγησης


7 ΑΛΓΕΒΡΑ ΜΗΤΡΩΝ. 7.2 ΜΗΤΡΕΣ ΕΙΔΙΚΗΣ ΜΟΡΦΗΣ (Ι)

Εφαρμοσμένα Μαθηματικά ΙΙ

Γραµµική Αλγεβρα. Ενότητα 6 : Ιδιοτιµές & Ιδιοδιανύσµατα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Αριθμητική Ανάλυση και Εφαρμογές

Διαγωνοποίηση μητρών. Στοιχεία Γραμμικής Άλγεβρας

Κεφάλαιο 2.4 Matrix Algorithms

Ασκήσεις2 8. ; Αληθεύει ότι το (1, 0, 1, 2) είναι ιδιοδιάνυσμα της f ; b. Να βρεθούν οι ιδιοτιμές και τα ιδιοδιανύσματα της γραμμικής απεικόνισης 3 3

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΑΡΤΙΟΙ) Λυσεις Ασκησεων - Φυλλαδιο 2

Λύσεις και Υποδείξεις Επιλεγµένων Ασκήσεων

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΠΕΡΙΤΤΟΙ) Ασκησεις - Φυλλαδιο 4

Σποραδικές Μήτρες (Sparse Matrices) Αθανάσιος Μυγδαλ ας ΑΠΘ AΠΘ. 17 Μαρτίου 2010 c Α.Μ.

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση Ι. Λυχναρόπουλος

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ΙΙ (ΠΕΡΙΤΤΟΙ) Προτεινοµενες Ασκησεις - Φυλλαδιο 3

Transcript:

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 14η: 30/05/2007 1 Η µέθοδος HITS Η µέθοδος SALSA 2 Η µέθοδος HITS Hypertext Induced Topic Search 3 1

Hypertext Induced Topic Search (HITS) Επινοήθηκε από τον Jon Kleinberg το 1998 ιαφορές των δυο κύριων αλγορίθµων ranking: Ο PageRank είναι query-independent O HITS είναι query-dependent O PageRank παράγει ένα µέτρο σηµαντικότητας που χαρακτηρίζει κάθε ιστοσελίδα Ο HITS παράγει δυο τέτοιους αριθµούς Το authority score & τo hub score Ο HITS αναλύει τις σελίδες ως authorities και hubs Μια authority είναι µια σελίδα µε πολλούς εισερχόµενους υπερσυνδέσµους Ένα hub είναι µια σελίδα µε πολλούς εξερχόµενους υπερσυνδέσµους Οι καλές authorities δείχνονται από καλά hubs, και τα καλά hubs δείχνουν σε καλές authorities 4 Hypertext Induced Topic Search (HITS) Ο HITS ενσωµατώθηκε στο έργο της IBM CLEVER Αποτέλεσε τη βάση για τη µηχανή αναζήτησης Teoma (αγοράστηκε από την Ask Jeeves, τώρα Ask.com Συνεπώς, κάθε σελίδα i έχει ένα authority score a i και ένα hub score h i Με e ij συµβολίζουµε την ύπαρξη υπερσυνδέσµου από την ιστοσελίδα i στην j Υποθέτουµε ότιαρχικάέχουµε αναθέσεισεκάθειστοσελίδα ένα authority score x i και ένα hub score y i Ο HITS υπολογίζει επαναληπτικά τις ποσότητες: 5 Hypertext Induced Topic Search (HITS) Έστω ο πίνακας γειτνίασης L ij µεστοιχείαίσαµε 1, εάν υπάρχει υπερσύνδεσµος από την ιστοσελίδα i στην j, και ίσα µε 0, στην άλλη περίπτωση Οι προηγούµενες επαναληπτικές εξισώσεις µπορούν να γραφούν µε τη βοήθεια πινάκων ως εξής: x (k) =L T y (k-1) και y (k) =Lx (k) Ο αρχικός αλγόριθµος HITS Αρχικοποίηση του y (0) =e (και άλλες επιλογές αρχικοποίησης είναι πιθανές) Μέχρι να επέλθει σύγκλιση: x (k) =L T y (k-1) y (k) =Lx (k) ++k; Κανονικοποίηση των x (k) και y (k) 6 2

Hypertext Induced Topic Search (HITS) Οι προηγούµενες εξισώσεις µπορούν να απλοποιηθούν στις επόµενες: x (k) =L T Lx (k-1) και y (k) =LL T y (k) Άρα, ορίζουν την επαναληπτική power µέθοδο για τον υπολογισµό των κυρίαρχων ιδιοδιανυσµάτων των πινάκων L T L και LL T Είναι παρόµοια περίπτωση µε τον υπολογισµό τουpagerank, αλλά χρησιµοποιείται διαφορετικός πίνακας συντελεστών ΟπίνακαςL T L λέγεται πίνακας authority, αφού καθορίζει τα authority scores ΟπίνακαςLL T λέγεται πίνακας hub, αφού καθορίζει τα hub scores Καιοιδυοπίνακαςείναισυµµετρικοί, θετικοί και semidefinite 7 Υλοποίηση του HITS (1/5) Root Set 8 Υλοποίηση του HITS (2/5) IN Root Set OUT 9 3

Υλοποίηση του HITS (3/5) IN Root Set OUT 10 Υλοποίηση του HITS (4/5) Base Set IN Root Set OUT 11 Υλοποίηση του HITS (5/5) Το Root Set βρίσκεται µε τηβοήθειαµιας µηχανής αναζήτησης µε keyword-search Το Base Set είναι ο Neighborhood Graph Ενσωµατώνονται και τεχνικές σηµασιολογικής συγγένειας στηνεπιλογήτωνσελίδωνπουθ απαρτίζουν το Base Set Για να µην µεγαλώσει σε τεράστιο µέγεθος το Base Set, ορίζουµε έναν µέγιστο αριθµό κόµβων (µε εισερχόµενους/εξερχόµενους) υπερσυνδέσµους για τον κάθε κόµβο του Root Set τους οποίους ενσωµατώνουµε στοbase Set εν χρειάζεται να υπολογίσουµε τοκυρίαρχοιδιοδιάνυσµα και για τον πίνακα L T L αλλά και για τον LL T, αλλά µόνο για τον ένα πίνακα, αφού ισχύει: y=lx 12 4

Σύγκλιση του HITS (1/6) Ο επαναληπτικός αλγόριθµος για τον υπολογισµό τουhits είναι συνήθως η power µέθοδος πάνω στους πίνακες L T L και LL T Για έναν διαγωνιοποιήσιµο πίνακα B µε διακριτές ιδιοτιµές {λ 1,λ 2,,λ k } όπου λ 1 > λ 2 λ 3 λ k η power µέθοδος υπολογίζει επαναληπτικά το εξής: όπου m(x (k) ) είναι σταθερά κανονικοποίησης παραγόµενη από το x (k) Συνήθως, είναι η (προσηµασµένη) συνιστώσα µε τοµέγιστο µέγεθος. Στην περίπτωση αυτή, το m(x (k) ) συγκλίνει στην κυρίαρχη ιδιοτιµή λ 1 και το x (k) στο αντίστοιχο κανονικοποιηµένο ιδιοδιάνυσµα 13 Σύγκλιση του HITS (2/6) Εάν απαιτείται µόνοτοιδιοδιάνυσµα και όχι και η αντίστοιχη ιδιοτιµή, τότε η σταθερά κανονικοποίησης µπορεί να είναι η m(x (k) ) = x (k) Εάν λ 1 < 0, τότε η m(x (k) ) = x (k) δεν µπορεί να συγκλίνει στην λ 1, αλλά η x (k) συγκλίνει στο ιδιοδιάνυσµα που αντιστοιχεί στην λ 1 Επειδή οι πίνακες L T L και LL T είναι συµµετρικοί, θετικοί, semidefinite και µη-αρνητικοί, οι διακριτές τους ιδιοτιµές {λ 1,λ 2,,λ k } είναι πραγµατικοί αριθµοί και µη-αρνητικοί, και ισχύει ότι µε λ 1 > λ 2 > λ 3 > > λ k 0 Έτσι, ο HITS µε κανονικοποίηση πάντα συγκλίνει Ορυθµός σύγκλισης δίνεται από τον ρυθµό µε τον οποίο ισχύει ότι [λ 2 (L T L)/λ 1 (L T L)] k 0 14 Σύγκλιση του HITS (3/6) υστυχώς, δεν µπορούµε να δώσουµε ικανοποιητική προσέγγιση για τον ασυµπτωτικό ρυθµό σύγκλισης του HITS Πολλά πειράµατα δείχνουν ότι η διαφορά των πρώτων ιδιοτιµών (λ 1 -λ 2 ) είναι αρκετά µεγάλη, και συνεπώς απαιτούνται µόνο µερικές επαναλήψεις (10-15) γιανασυγκλίνει Παράτηνταχείασύγκλισηόµως, υπάρχει πρόβληµα µε τη µοναδικότητα των διανυσµάτων authority και hub που προκύπτουν ως λύση µε τηνpower µέθοδο, π.χ., για τον L 15 5

Σύγκλιση του HITS (4/6) Έχει δυο διακριτές ιδιοτιµές, τις 2 και 0, οι οποίες έχουν πολλαπλότητα 2 Εάν ξεκινήσουµε µε τοx (0) = ¼ e T καταλήγουµε στοδιάνυσµα authority x ( ) = (1/3 1/3 1/3 0) T Εάν ξεκινήσουµε µε τοx (0) = (1/4 1/8 1/8 1/2 καταλήγουµε στο διάνυσµα authority x ( ) = (1/2 1/4 1/4 0) T Αιτία του προβλήµατος µοναδικότητας είναι η reducibility Θα λέµε ότι ένας πίνακας B είναι reducible εάν υπάρχει πίνακας µετάθεσης Q τέτοιος ώστε (οι X και Z είναι τετραγωνικοί): 16 Σύγκλιση του HITS (5/6) Η reducibility ενός πίνακα σηµαίνει ότι υπάρχουν καταστάσεις καταβόθρες, ενώ η irreducibility σηµαίνει ότι από οποιαδήποτε κατάσταση µπορώ να µεταβώ σε οποιαδήποτε άλλη κατάσταση Το θεώρηµα Perron-Frobenious εγγυάται ότι ένας irreducible, µη-αρνητικός πίνακας έχει ένα µοναδικό, κανονικοποιηµένο θετικό κυρίαρχο ιδιοδιάνυσµα, το λεγόµενο διάνυσµα Perron Συνεπώς, η reducibility του L T L είναι υπεύθυνη για η σύγκλιση σε περισσότερα του ενός διανύσµατα-λύσεις Το ίδιο πρόβληµα αντιµετώπισε και ο πίνακας S στο PageRank, αλλά µε µια µετατροπή του πίνακα σε irreducible επιλύθηκε Το ίδιο µπορεί να γίνει και µε τονhits 17 Σύγκλιση του HITS (6/6) Αντί για τον αρχικό πίνακα authority, χρησιµοποιούµε τον πίνακα ξl T L + (1-ξ)/n ee T Όµοια για τον πίνακα hub Αυτός ο τροποποιηµένος HITS, λέγεται Exponential HITS Τέλος, ανεξάρτητα από το εάν η κυρίαρχη ιδιοτιµή τουπίνακα επανάληψης B είναι απλή ή πολλαπλή, η σύγκλισησεέναµη- µηδενικό διάνυσµα εξαρτάται από εάν το αρχικό διάνυσµα x (0) δεν βρίσκεται στην εµβέλεια του (Β-λ 1 Ι) Εάν το x (0) παράγεται τυχαία, τότε µε (σχεδόν) βεβαιότητα δεν θα υφίσταται το πρόβληµα 18 6

Παράδειγµα εφαρµογής του HITS (1/4) Έστω ότι, σε απάντηση ενός ερωτήµατος σε µια παραδοσιακή keyword-based µηχανή αναζήτησης, επιστρέφονται οι ιστοσελίδες που αντιστοιχούν στους κόµβους 1 και 6 3 10 2 1 6 5 19 Παράδειγµα εφαρµογής του HITS (2/4) Τα κανονικοποιηµένα κύρια ιδιοδιανύσµατα µε ταauthority και hub scores είναι: x T = (0 0 0.3660 0.1340 0.5 0) y T = (0.3660 0 0.2113 0 0.2113 0.2113) 20 Παράδειγµα εφαρµογής του HITS (3/4) Μπορεί να συµβούν δυο τύπων ισοπαλίες Στις τιµές 0 Μπορεί να αποφευχθούν µε τηνprimitivity τροποποίηση Στις θετικές τιµές αυτές είναι σπάνιες σε µεγάλους θετικά-ορισµένους πίνακες µπορούν να επιλυθούν µε FCFS Authority ranking = (6 3 5 1 2 10) Hub ranking = (1 3 6 10 2 5) Για λόγους σύγκρισης, υπολογίζουµε ξανάταδιανύσµατα authority και hub, αλλά χρησιµοποιώντας τον irreducible πίνακα ξl T L + (1-ξ)/n ee T ως πίνακα authority και τον irreducible πίνακα ξll T + (1-ξ)/n ee T ως πίνακα hub 21 7

Παράδειγµα εφαρµογής του HITS (4/4) Για ξ=0.95, έχουµε x T = (0.0032 0.0023 0.3634 0.1351 0.4936 0.0023) y T = (0.3628 0.0032 0.2106 0.0023 0.2106 0.2106) Στο παράδειγµα αυτό, η µετατροπή τους σε irreducible πίνακες δεν άλλαξε το ranking, ούτε το authority ούτε το hub ranking Όµως, απέφυγε τις ισοπαλίες στο 0 22 Πλεονεκτήµατα/Μειονεκτήµατα του HITS Παρουσιάζει δυο λίστες στο χρήστη Authoritative σελίδες, για εις βάθος αναζήτηση σε κάποιο αντικείµενο Hub σελίδες, δηλ., portal σελίδες, για αναζήτηση σε εύρος Λύνει ένα µικρό πρόβληµα, σε µέγεθος πινάκων Είναι query-dependent Σε run-time, δηλ., για κάθε ερώτηµα τουχρήστη, χτίσιµο τουbase Set, και εύρεση ενός ιδιοδιανύσµατος Μπορεί να γίνει query-independent, δηλ., να εκτελεστεί πάνω σεόλοτογράφηµα τουweb Είναι πολύ επιρρεπής σε spamming Με προσθήκη συνδέσµων από/προς την ιστοσελίδα µας Φυσικά, είναι ευκολότερο να αυξήσουµε το hub score της ιστοσελίδας µας, αλλά εξ αιτίας της αλληλεξάρτησής τους µπορεί να αυξηθεί και το authority score ως αποτέλεσµα τηςαύξησηςτουhub score 23 Πλεονεκτήµατα/Μειονεκτήµατα του HITS Παρουσιάζει το φαινόµενο topic drift Κατά το χτίσιµο τουbase Set, είναι πιθανό ότι µια πολύ authoritative σελίδα, αλλά εκτός αντικειµένου της αναζήτησης, να εµφανιστεί στο Base Set επειδή έχει σύνδεσµο από/προς κάποια σελίδα του Root Set Αυτή η σελίδα µπορεί να έχει τόσο βάρος, ώστε αυτή και όλες οι γειτονικές της να εµφανίζονται στην κορυφή της λίστας των αποτελεσµάτων, µε συνέπεια η λίστα των αποτελεσµάτων να κυριαρχηθεί από σελίδες εκτός του ζητούµενου αντικειµένου Το πρόβληµα µπορεί να αντιµετωπιστεί εάν ζυγίσουµε τα hub και authority scores των σελίδων µε βάσητη σχετικότητά της κάθε σελίδας ως προς το αντικείµενο της αναζήτησης, δηλ., αντί για τον δυαδικό πίνακα L, να έχουµε κάτι ανάλογο µε τον πίνακα του intelligent surfer 24 8

Σχέση του HITS µε τηβιβλιοµετρία (1/2) Co-citation: υο σελίδες δέχονται υπερσύνδεσµο απότηνίδιασελίδα Οπίνακαςauthority L T L σχετίζεται µε την έννοια του co-citation Ranking µε βάσητοinlink παρέχει αξιοπρεπή προσέγγιση του HITS authority Co-reference: υο σελίδες έχουν υπερσύνδεσµο προς την ίδια σελίδα Οπίνακαςhub LL T σχετίζεται µε την έννοια του co-reference Ranking µε βάσητοoutlink παρέχει αξιοπρεπή προσέγγιση του HITS hub 25 Σχέση του HITS µε τηβιβλιοµετρία (2/2) 1 2 3 4 D in : διαγώνιος πίνακας µε τοindegree των κόµβων και C cit ο πίνακας cocitation Το στοιχείο (3,3) δείχνει ότι ο κόµβος 3 έχει indegree 2 Το στοιχείο (4,3) δείχνει ότι οι κόµβοι 4 και 3 δεν έχουν κοινό inlink D out : διαγώνιος πίνακας µε τοoutdegree των κόµβων και C ref ο πίνακας coreference Το στοιχείο (1,2) δείχνει ότι οι κόµβοι 1 και 2 έχουν 1 κοινό σύνδεσµο (προς τον κόµβο 3) Το στοιχείο (4,2) δείχνει ότι οι κόµβοι 4 και 2 δεν έχουν κοινό σύνδεσµο προς κάποιο κόµβο 26 Query-independent HITS (1/4) Ο query-independent αλγόριθµος HITS Αρχικοποίηση του x (0) =e/n (και άλλες επιλογές αρχικοποίησης είναι πιθανές) Μέχρι να επέλθει σύγκλιση: x (k) = ξl T Lx (k-1) + (1-ξ)/n e x (k) = x (k) / x (k) 1 y (k) = ξll T y (k-1) + (1-ξ)/n e y (k) = y (k) / y (k) 1 ++k; Θέτουµε x = x (k) και y = y (k) Συγκλίνει στα µοναδικά θετικά διανύσµατα hub και authority, ανεξάρτητα από τη reducibility του πίνακα Ο L είναι ο πίνακας γειτνίασης όλου του Web γραφήµατος 27 9

Query-independent HITS (2/4) Μέθοδος HITS Modified HITS Random surfer PageRank Intelligent surfer PageRank Πολλαπλασιασµοί 0 0 n nnz(h) Προσθέσεις 2nnz(L) 4nnz(L) + 2n nnz(l) + n nnz(h) + n ΘΕΩΡΗΜΑ. Έστω ότι Μ = είναι ο τροποποιηµένος πίνακας authority. Έστω ότι λ 1 λ 2 λ n είναι οι ιδιοτιµές του L T L και γ 1 γ 2. γ n είναι οι ιδιοτιµές του M. Τότε ισχύει η σχέση: γ 1 αλ 1 γ 2 αλ 2. γ n αλ n Υπάρχουν scalars β i 0, β i =1, ώστε γ i =ξλ i +(1-ξ)β i 28 Query-independent HITS (3/4) Τα όρια γ 2 /γ 1 παράγονται εξετάζοντας ακραία συµπεριφορά Στην καλύτερη περίπτωση, η τροποποίηση του L T L αυξάνει µόνο το λ 2 σε µέγιστη τιµή λ 2 +1-ξ (δηλ., β 2 =1, β i =0, i 2) Στη χειρότερη περίπτωση, το λ 1 αυξάνει σε µέγιστη τιµή λ 1 +1-ξ (δηλ., β 1 =1, β i =0, i 1) Στην πράξη, πολλά β i αυξάνουν ταυτόχρονα, αλλά η σχέση β i =1 εγγυάται ότι το αποτέλεσµα δεν έχει δραµατικές επιπτώσεις, όπως στις δυο ακραίες περιπτώσεις Μέθοδος Σύγκλιση HITS λ 2 /λ 1 Modified HITS (ξλ 2 )/(ξλ 1 +1-ξ) γ 2 /γ 1 λ 2 /λ 1 (1-ξ)/(ξλ 1 ) Random surfer PageRank α Intelligent surfer PageRank α 29 Query-independent HITS (4/4) Ανεξάρτητα από τις ακριβείς τιµές των β i, το ξ επιλέγεται συνήθως κοντά στο 1, οπότε γ 2 /γ 1 λ 2 /λ 1 Έτσι ο ασυµπτωτικός ρυθµός σύγκλισης του HITS και του τροποποιηµένου HITS είναι ο ίδιος Πειράµατα έχουν δείξει ότι λ 2 /λ 1 < 0.5, το οποίο είναι πολύ µικρότερο του α=0.85 του PageRank Με περίπου διπλάσιο κόστος ανά επανάληψη, ο queryindependent-hits απαιτεί λιγότερο από ¼ των επαναλήψεων του PageRank και παράγει 2 διανύσµατα στο χρήστη 30 10

Επιτάχυνση του HITS Ο Kleinberg χρησιµοποίησε την power µέθοδο για τον υπολογισµό των κυρίαρχων δεξιών ιδιοδιανυσµάτων των πινάκων L T L και LL T Οι πίνακες του HITS είναι πολύ µικροί σε σχέση µε τους αντίστοιχους του PageRank, και κατά πάσα πιθανότητα, χρησιµοποιούνται τεχνικές που είναι memory-intensive για τον υπολογισµό τωνδυοπινάκωντουhits, π.χ., Lanczos Για τον query-dependent HITS δεν υπάρχει έρευνα σχετική µε µεθόδους επιτάχυνσης Για τον query-independent HITS µπορούν να χρησιµοποιηθούν οι ίδιες τεχνικές που έχουµε συζητήσειγια τον PageRank 31 Ευαισθησία του HITS ΘΕΩΡΗΜΑ. Έστω Ε ο πίνακας διαταραχής, ώστε Ĺ T Ĺ = L T L + E. Όταν η λ 1 είναι απλή, τότε sin (x,x ) E 2 /(λ 1 -λ 2 ) Συνεπώς, εάν το χάσµα ιδιοδιανυσµάτων είναι µεγάλο, τότε ο πίνακας authority δεν είναι ευαίσθητος σε µικρές αλλαγές στο Web γράφηµα 32 Η µέθοδος SALSA Stochastic Approach for Link Structure Analysis 33 11

Οµοιότητες SALSA µε HITS και PageRank Επινοήθηκε από τους Ronny Lempel και Shlomo Moran το 2000 Συνδυασµός HITS και PageRank Ο SALSA χρησιµοποιεί authority και hub score Ο SALSA δηµιουργεί ένα neighborhood graph χρησιµοποιώντας authority και hub ιστοσελίδες και υπερσυνδέσµους 34 ιαφορές SALSA µε HITS και PageRank Η µέθοδος SALSA δηµιουργεί ένα διµερές γράφηµα (bipartite graph) των σελίδων authority και hub στο neighborhood γράφηµα Το ένα σύνολο περιέχει τις hub σελίδες Το άλλο σύνολο περιέχει τις authority σελίδες Μια σελίδα µπορεί να περιέχεται και στα δυο σύνολα 35 Neighborhood Graph Ν 3 10 2 1 6 5 36 12

ιµερές γράφηµα G του Neighborhood Graph N 37 Markov αλυσίδες Από το διµερές γράφηµα G σχηµατίζονται δυο πίνακες Μια hub Markov chain µε πίνακαh Μια authority Markov chain µε πίνακαa Οι πίνακες H και A µπορεί να παραχθούν από τον πίνακα γειτνίασης (adjacency matrix) L που έχουµε δει στον υπολογισµό του HITS και του PageRank Ο HITS χρησιµοποιεί τον unweighted matrix L Ο PageRank χρησιµοποιεί τη row-weighted έκδοση του πίνακα L SALSA χρησιµοποιεί row και column weighting 38 Πώς υπολογίζονται οι H και A; Έστω ότι L r είναι ο L µε κάθεµη-µηδενική γραµµή του να διαιρείται µε τοάθροισµά της Έστω ότι L c είναι ο L µε κάθεµη-µηδενική στήλη του να διαιρείται µε το άθροισµά της 39 13

Παράδειγµα τωνl r και L c 40 Οι πίνακες H και A Ο πίνακας H, SALSA hub matrix, αποτελείται από τις µη-µηδενικές γραµµές και στήλες του L r L c T Ο πίνακας A, SALSA authority matrix, αποτελείται από τις µη-µηδενικές γραµµές και στήλες του πίνακα L ct L r 41 Οι πίνακες L r L c T και L ct L r 42 14

Οι πίνακες H και A 43 Ιδιοδιανύσµατα Av = λv v T A= λ v T Αριθµητικός υπολογισµός: Power µέθοδος 44 Η power µέθοδος X k+1 = AX k X k+1t = X kt A Συγκλίνει στο κυρίαρχο ιδιοδιάνυσµα (dominant eigenvector), δηλ., σ αυτό που αντιστοιχεί στην κυρίαρχη ιδιοτιµή ( λ = 1). 45 15

Η power µέθοδος Οι πίνακες H και A πρέπει να είναι irreducible, ώστε να συγκλίνει η power µέθοδος σε ένα unique eigenvector, ξεκινώντας από κάποια αρχική τιµή Εάν το neighborhood γράφηµα G είναι συνδεδεµένο (connected), τότε ο H και ο A είναι irreducible Εάν το G δεν είναι συνδεδεµένο, τότεηεκτέλεσητηςpower µεθόδου στον H και A δεν θα έχει ως αποτέλεσµα τη σύγκλιση σε ένα µοναδικό κυρίαρχο ιδιοδιάνυσµα 46 Στο παράδειγµα το G δεν είναι συνδεδεµένο Είναι προφανές ότι το γράφηµα δεν είναι συνδεδεµένο, αφού η σελίδα 2 στο σύνολο hub συνδέεται µόνο µε τη σελίδα 1 στο σύνολο authority, και αντίστροφα Οι H και A είναι reducible και εποµένως περιέχουν multiple irreducible connected components 47 Connected Components Ο πίνακας H περιέχει δυο connected components, C = {2} και D = {1, 3, 6, 10} Ο πίνακας A περιέχει δυο connected components, E = {1} και F = {3, 5, 6} 48 16

Cutting και Pasting. Μέρος I Εκτελούµε την power method σε κάθε συνιστώσα των H και A 49 Cutting και Pasting. Μέρος II Ενώνουµε τις δυο συνιστώσες για κάθε πίνακα Πρέπει να πολλαπλασιάσουµε κάθε στοιχείο του διανύσµατος µε το κατάλληλο weight H: A: SALSA hub ranking: 1/6 2 3/10 HITS hub ranking: 1 3/6/10 2 5 SALSA authority ranking: 6 1/3 5 HITS hub ranking: 6 3 5 1 2/10 50 Πλεονεκτήµατα/Μειονεκτήµατα του εν εµφανίζει το φαινόµενο topic drift, όπως ο HITS Παρέχει authority και hub scores Χειρίζεται το spamming καλύτερα από ότι ο HITS, αλλά όχι τόσο καλά όσο ο PageRank Είναι query-dependent 51 17