Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηπιορ Καηζαπόρ

Σχετικά έγγραφα
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Η µέθοδος HITS. Η µέθοδος SALSA. Hypertext Induced Topic Search. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός. Διάλεξη 14η

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

ΔΝΓΔΙΚΤΙΚΔΣ ΛΥΣΔΙΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΤΔΥΘΥΝΣΗΣ Γ ΛΥΚΔΙΟΥ ΓΔΥΤΔΡΑ 27 ΜΑΪΟΥ 2013

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

ΔΝΓΔΙΚΣΙΚΔ ΛΤΔΙ ΣΑ ΜΑΘΗΜΑΣΙΚΑ ΠΡΟΑΝΑΣΟΛΙΜΟΤ 2017

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γευηέρα 11 Ηουνίου 2018 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ. (Ενδεικηικές Απανηήζεις)

iii. iv. γηα ηελ νπνία ηζρύνπλ: f (1) 2 θαη

ΓΙΑΙΡΔΣΟΣΗΣΑ. Οπιζμόρ 1: Έζηω d,n. Λέκε όηη ν d δηαηξεί ηνλ n (ζπκβνιηζκόο: dn) αλ. ππάξρεη c ηέηνην ώζηε n. Θεώπημα 2: Γηα d,n,m,α,b ηζρύνπλ:

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

ΓΗΑΓΩΝΗΣΜΑ ΣΤΑ ΜΑΘΖΜΑΤΗΚΑ. Ύλη: Μιγαδικοί-Σσναρηήζεις-Παράγωγοι Θεη.-Τετν. Καη Εήηημα 1 ο :

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Αιγόξηζκνη Γνκή επηινγήο. Πνιιαπιή Δπηινγή Δκθωιεπκέλεο Δπηινγέο. Δηζαγωγή ζηηο Αξρέο ηεο Δπηζηήκεο ηωλ Η/Υ. introcsprinciples.wordpress.

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Να ζρεδηαζζεί ην θαηεπζπλόκελν γξάθεκα πνπ νξίδεηαη από ηνλ εμήο πίλαθα γεηηλίαζεο.

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

f '(x)g(x)h(x) g'(x)f (x)h(x) h'(x) f (x)g(x)

ΣΥΣΤΗΜΑΤΑ ΑΛΓΕΒΡΑ Α ΛΥΚΕΙΟΥ. 1. Να ιπζνύλ ηα ζπζηήκαηα. 1 0,3x 0,1y x 3 3x 4y 2 4x 2y ( x 1) 6( y 1) (i) (ii)

(Ενδεικηικές Απανηήζεις) ΘΔΜΑ Α. Α1. Βιέπε απόδεημε Σει. 262, ζρνιηθνύ βηβιίνπ. Α2. Βιέπε νξηζκό Σει. 141, ζρνιηθνύ βηβιίνπ

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

Βάσεις Δεδομέμωμ. Εξγαζηήξην V. Τκήκα Πιεξνθνξηθήο ΑΠΘ

Φςζική Πποζαναηολιζμού Γ Λςκείος. Αζκήζειρ Ταλανηώζειρ 1 ο Φςλλάδιο

ΚΕΦ. 2.3 ΑΠΟΛΤΣΗ ΣΘΜΗ ΠΡΑΓΜΑΣΘΚΟΤ ΑΡΘΘΜΟΤ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

ΓΗΜΟΙΑ ΟΙΚΟΝΟΜΙΚΗ ΣΟΜΟ Γ

Κεθάλαιο 7. Πξνζθνξά ηνπ θιάδνπ Μ. ΨΥΛΛΑΚΗ

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ ΚΑΗ ΔΠΑΛ ΣΔΣΑΡΣΖ 25 ΜΑΨΟΤ 2016 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΑΡΥΔ ΟΗΚΟΝΟΜΗΚΖ ΘΔΧΡΗΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ - ΔΠΗΛΟΓΖ

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΤΙΚΗ ΣΚΥΤΑΛΟΓΡΟΜΙΑ 2015 ΓΙΑ ΤΟ ΓΥΜΝΑΣΙΟ Τεηάπηη 28 Ιανουαπίου 2015 ΛΔΥΚΩΣΙΑ Τάξη: Α Γυμναζίου

Μηα ζπλάξηεζε κε πεδίν νξηζκνύ ην Α, ζα ιέκε όηη παξνπζηάδεη ηοπικό μέγιζηο ζην, αλ ππάξρεη δ>0, ηέηνην ώζηε:

Γ ΣΑΞΖ ΔΝΗΑΗΟΤ ΛΤΚΔΗΟΤ ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΘΔΣΗΚΩΝ ΚΑΗ ΟΗΚΟΝΟΜΗΚΩΝ ΠΟΤΓΩΝ ΤΝΑΡΣΖΔΗ ΟΡΗΑ ΤΝΔΥΔΗΑ (έως Θ.Bolzano) ΘΔΜΑ Α

ΣΧΕΣΕΙΣ ΚΑΙ ΣΥΝΑΡΤΗΣΕΙΣ

Ανάκληση Πληπουοπίαρ. Διδάζκων Δημήηπιορ Καηζαπόρ

Ο γεωκεηξηθόο ηόπνο ηωλ εηθόλωλ ηωλ κηγαδηθώλ αξηζκώλ z είλαη ν θύθινο κε θέληξν ηελ αξρή ηωλ αμόλωλ θαη αθηίλα ξ=2.

Δπηιέγνληαο ην «Πξνεπηινγή» θάζε θνξά πνπ ζα ζπλδέεζηε ζηελ εθαξκνγή ζα βξίζθεζηε ζηε λέα ρξήζε.

ΕΙΣΑΓΩΓΗ ΣΤΗ ΘΕΩΡΙΑ ΣΗΜΑΤΩΝ & ΣΥΣΤΗΜΑΤΩΝ. ΜΕΤΑΣΦΗΜΑΤΙΣΜΟΣ Laplace

Κατάταξη σε Γραφήματα Ιστού - Ranking on Web Graphs

ΟΠΤΙΚΗ Α. ΑΝΑΚΛΑΣΖ - ΓΗΑΘΛΑΣΖ

Απαντήσεις θέματος 2. Παξαθάησ αθνινπζεί αλαιπηηθή επίιπζε ησλ εξσηεκάησλ.

ΑΠΛΟΠΟΙΗΗ ΛΟΓΙΚΩΝ ΤΝΑΡΣΗΕΩΝ ΜΕ ΠΙΝΑΚΕ KARNAUGH

Άζκηζη ζτέζης κόζηοσς-τρόνοσ (Cost Time trade off) Καηαζκεσαζηική ΑΔ

x x 15 7 x 22. ΘΔΜΑ Α 3x 2 9x 4 3 3x 18x x 5 y 9x 4 Α1. i. . Η ιύζε είλαη y y x 3y y x 3 2x 6y y x x y 6 x 2y 1 y 6

ΑΠΑΝΤΗΣΔΙΣ ΓΙΚΤΥΑ ΥΠΟΛΟΓΙΣΤΩΝ II ΔΠΑΛ

ΘΔΚΑ ΡΖΠ ΑΛΑΓΛΩΟΗΠΖΠ

Επωηήζειρ Σωζηού Λάθοςρ ηων πανελλαδικών εξεηάζεων Σςναπηήζειρ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙΜΟ Α ΛΤΚΔΙΟΤ. Ημεπομηνία: 10/12/11 Ώπα εξέτασηρ: 09:30-12:30 ΠΡΟΣΔΙΝΟΜΔΝΔ ΛΤΔΙ

Πολυεπίπεδα/Διασυμδεδεμέμα Δίκτυα

ΘΔΜΑ 1 ο Μονάδες 5,10,10

Διαγωνοποίηση μητρών. Στοιχεία Γραμμικής Άλγεβρας

Ζαχαρίας Μ. Κοντοπόδης Εργαστήριο Λειτουργικών Συστημάτων ΙΙ

ΔΕΟ 13. Ποσοτικές Μέθοδοι. θαη λα ππνινγίζεηε ην θόζηνο γηα παξαγόκελα πξντόληα. Να ζρεδηαζηεί γηα εύξνο πξντόλησλ έσο

ΜΑΘΗΜΑΤΙΚΑ ΘΔΤΙΚΗΣ ΚΑΙ ΤΔΦΝΟΛΟΓΙΚΗΣ ΚΑΤΔΥΘΥΝΣΗΣ Β ΛΥΚΔΙΟΥ ΤΔΣΤ(1) ΣΤΑ ΓΙΑΝΥΣΜΑΤΑ

x x x x tan(2 x) x 2 2x x 1

ΕΞΙΣΩΣΕΙΣ. (iv) (ii) (ii) (ii) 5. Γηα ηηο δηάθνξεο ηηκέο ηνπ ι λα ιπζνύλ νη εμηζώζεηο : x 6 3 9x

Hellas online Προεπιλεγμένες ρσθμίσεις για FritzBox Fon WLAN 7140 (Annex B) FritzBox Fon WLAN Annex B ( )

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

ΣΕΙ Δυτικήσ Μακεδονίασ, Παράρτημα Καςτοριάσ Τμήμα Πληροφορικήσ και Τεχνολογίασ Υπολογιςτών

ΕΞΙΣΩΣΕΙΣ. Α. Πρωτοβάθμιεσ Εξιςώςεισ. Β. Διερεφνηςη Εξιςώςεων. 1x είναι αδφνατθ. x 1 x 1. Άλγεβρα Α Λυκείου

Κευάλαιο 8 Μονοπωλιακή Συμπεριφορά- Πολλαπλή Τιμολόγηση

ΒΗΜΑ 2. Εηζάγεηε ηνλ Κωδηθό Πξόζβαζεο πνπ ιακβάλεηε κε SMS & δειώλεηε επηζπκεηό Όλνκα Πξόζβαζεο (Username) θαη ην ζαο

Η επιζκόπηζη ηης έμμιζθης ενηολής ζηην Αλλοδαπή. Καηεξίλα Γαιαλνπνύινπ, Intellectual Property Manager, Microsoft Ειιάο Α.Ε.

ΜΑΘΗΜΑ / ΤΑΞΗ : ΗΛΕΚΤΡΟΛΟΓΙΑ/Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: ΗΜΕΡΟΜΗΝΙΑ: 08/09/2014

Εισαγωγή στην ανάλυση συνδέσμων

Ανάκτηση Πληροφορίας

Εγκατάσταση του πακέτου XAMPP. Β Τεχνική Σχολή Λεμεςοφ Σχολική χρονιά Άριςτοσ Παςιάσ

Αζκήζεις ζτ.βιβλίοσ ζελίδας 13 14

ΑΛΛΑΓΗ ΟΝΟΜΑΣΟ ΚΑΙ ΟΜΑΔΑ ΕΡΓΑΙΑ, ΚΟΙΝΟΥΡΗΣΟΙ ΦΑΚΕΛΟΙ ΚΑΙ ΕΚΣΤΠΩΣΕ ΣΑ WINDOWS XP

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ Γ ΗΜΕΡΗΣΙΩΝ

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (ΗΥ-119)

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γεσηέρα 10 Ηοσνίοσ 2019 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ. (Ενδεικηικές Απανηήζεις)

(γ) Να βξεζεί ε ρξνλνεμαξηώκελε πηζαλόηεηα κέηξεζεο ηεο ζεηηθήο ηδηνηηκήο ηνπ ηειεζηή W.

1. Οδηγίερ εγκαηάζηαζηρ και σπήζηρ έξςπνυν καπηών και τηθιακών πιζηοποιηηικών με σπήζη ηος λογιζμικού Μοzilla Thunderbird

ΣΟ ΑΠΛΟ ΕΚΚΡΕΜΕ. Σν απιό εθθξεκέο απνηειείηαη από κηα κάδα m ζηελ άθξε αβαξνύο. λήκαηνο κήθνπο L,ηνπ νπνίνπ ην άιιν άθξν είλαη εμαξηεκέλν ζε αθιόλεην

Άμεσοι Αλγόριθμοι: Προσπέλαση Λίστας (list access)

f x 2xln x x x 2ln x 1 x f x 0 x 2ln x 1 0 2ln x 1 0 ln x ln e x e

ΡΤΘΜΙΕΙ ΔΙΚΣΤΟΤ ΣΑ WINDOWS

EL Eνωμένη στην πολυμορυία EL A8-0046/319. Τροπολογία

ΔΙΑΓΩΝΙΣΜΑ ΣΤΗ ΦΥΣΙΚΗ. Ύλη: Εσθύγραμμη Κίνηζη

ΠΑΡΑΡΣΗΜΑ Δ. ΔΤΡΔΗ ΣΟΤ ΜΔΣΑΥΗΜΑΣΙΜΟΤ FOURIER ΓΙΑΦΟΡΩΝ ΗΜΑΣΩΝ

ISO/IEC 27001:2005 Certificate No: IS Aegate Ltd 2011 All rights reserved

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙ ΜΟ

1 Είζοδορ ζηο Σύζηημα ΣΔΕΔ ή BPMS

Σήκαηα Β Α Γ Γ Δ Λ Η Σ Ο Ι Κ Ο Ν Ο Μ Ο Υ Γ Ι Α Λ Δ Ξ Η - ( 2 ) ΕΙΣΑΓΨΓΗ ΣΤΙΣ ΤΗΛΕΠΙΚΟΙΝΨΝΙΕΣ

Απνηειέζκαηα Εξσηεκαηνινγίνπ 2o ηεηξάκελν

α) ηε κεηαηόπηζε x όηαλ ην ζώκα έρεη κέγηζην ξπζκό κεηαβνιήο ζέζεο δ) ην κέγηζην ξπζκό κεηαβνιήο ηεο ηαρύηεηαο

Master Class 3. Ο Ν.Ζανταρίδης προτείνει θέματα Μαθηματικών Γ Λσκειοσ ΘΕΜΑ 1.

ΚΕΦ.6:ΤΕΤΡΑΓΩΝΙΚΕΣ ΜΟΡΦΕΣ. ΣΥΜΜΕΤΡΙΚΟΙ ΠΙΝΑΚΕΣ

ΠΡΟΣΕΙΝΟΜΕΝΕ ΛΤΕΙ. β. Η θαηάιπζε είλαη εηεξνγελήο, αθνύ ν θαηαιύηεο είλαη ζηεξεόο ελώ ηα αληηδξώληα αέξηα (βξίζθνληαη ζε δηαθνξεηηθή θάζε).

Τν εθπαηδεπηηθό πιηθό ηεο Φξνληηζηεξηαθήο Δθπαίδεπζεο Τζηάξα δηαλέκεηαη δωξεάλ απνθιεηζηηθά από ηνλ ψεθηαθό ηόπν ηνπ schooltime.gr

1 Επανάληψη εννοιών από τον Απειροστικό Λογισμό

Transcript:

Ανάκληση Πληποφοπίαρ Διδάζκων Δημήηπιορ Καηζαπόρ Διάλεξη 16η: 10/05/2017 1

Η μέθοδορ HITS Hypertext Induced Topic Search 2

Hypertext Induced Topic Search (HITS) Επινοήθηκε από τον Jon Kleinberg το 1998 Διαφορές των δυο κύριων αλγορίθμων ranking: Ο PageRank είναι query-independent O HITS είναι query-dependent O PageRank παράγει ένα μέτρο σημαντικότητας που χαρακτηρίζει κάθε ιστοσελίδα Ο HITS παράγει δυο τέτοιους αριθμούς Το authority score & τo hub score Ο HITS αναλύει τις σελίδες ως authorities και hubs Μια authority είναι μια σελίδα με πολλούς εισερχόμενους υπερσυνδέσμους Ένα hub είναι μια σελίδα με πολλούς εξερχόμενους υπερσυνδέσμους Οι καλές authorities δείχνονται από καλά hubs, και τα καλά hubs δείχνουν σε καλές authorities 3

Hypertext Induced Topic Search (HITS) Ο HITS ενσωματώθηκε στο έργο της IBM CLEVER Αποτέλεσε τη βάση για τη μηχανή αναζήτησης Teoma (αγοράστηκε από την Ask Jeeves, τώρα Ask.com Συνεπώς, κάθε σελίδα i έχει ένα authority score a i και ένα hub score h i Με e ij συμβολίζουμε την ύπαρξη υπερσυνδέσμου από την ιστοσελίδα i στην j Υποθέτουμε ότι αρχικά έχουμε αναθέσει σε κάθε ιστοσελίδα ένα authority score x i και ένα hub score y i Ο HITS υπολογίζει επαναληπτικά τις ποσότητες: 4

Hypertext Induced Topic Search (HITS) Έστω ο πίνακας γειτνίασης L ij με στοιχεία ίσα με 1, εάν υπάρχει υπερσύνδεσμος από την ιστοσελίδα i στην j, και ίσα με 0, στην άλλη περίπτωση Οι προηγούμενες επαναληπτικές εξισώσεις μπορούν να γραφούν με τη βοήθεια πινάκων ως εξής: x (k) =L T y (k-1) και y (k) =Lx (k) Ο απχικόρ αλγόπιθμορ HITS Απσικοποίηζη ηος y (0) =e (και άλλερ επιλογέρ απσικοποίηζηρ είναι πιθανέρ) Μέσπι να επέλθει ζύγκλιζη: x (k) =L T y (k-1) y (k) =Lx (k) ++k; Κανονικοποίηζη ηων x (k) και y (k) 5

Hypertext Induced Topic Search (HITS) Οι προηγούμενες εξισώσεις μπορούν να απλοποιηθούν στις επόμενες: x (k) =L T Lx (k-1) και y (k) =LL T y (k) Άρα, ορίζουν την επαναληπτική power μέθοδο για τον υπολογισμό των κυρίαρχων ιδιοδιανυσμάτων των πινάκων L T L και LL T Είναι παρόμοια περίπτωση με τον υπολογισμό του PageRank, αλλά με διαφορετικό πίνακα συντελεστών Ο πίνακας L T L λέγεται πίνακας authority, αφού καθορίζει τα authority scores Ο πίνακας LL T λέγεται πίνακας hub, αφού καθορίζει τα hub scores Και οι δυο πίνακας είναι συμμετρικοί, θετικοί και semidefinite 6

Υινπνίεζε ηνπ HITS (1/5) Root Set 7

Υινπνίεζε ηνπ HITS (2/5) IN Root Set OUT 8

Υινπνίεζε ηνπ HITS (3/5) IN Root Set OUT 9

Υινπνίεζε ηνπ HITS (4/5) Base Set IN Root Set OUT 10

Υινπνίεζε ηνπ HITS (5/5) Το Root Set βρίσκεται με τη βοήθεια μιας μηχανής αναζήτησης με keyword-search Το Base Set είναι ο Neighborhood Graph Ενσωματώνονται και τεχνικές σημασιολογικής συγγένειας στην επιλογή των σελίδων που θ απαρτίζουν το Base Set Για να μην μεγαλώσει σε τεράστιο μέγεθος το Base Set, ορίζουμε έναν μέγιστο αριθμό κόμβων (με εισερχόμενους/εξερχόμενους) υπερσυνδέσμους για τον κάθε κόμβο του Root Set τους οποίους ενσωματώνουμε στο Base Set Δεν χρειάζεται να υπολογίσουμε το κυρίαρχο ιδιοδιάνυσμα και για τον πίνακα L T L αλλά και για τον LL T, αλλά μόνο για τον ένα πίνακα, αφού ισχύει: y=lx 11

Σύγκλιση του HITS (1/6) Ο επαναληπτικός αλγόριθμος για τον υπολογισμό του HITS είναι συνήθως η power μέθοδος πάνω στους πίνακες L T L και LL T Για έναν διαγωνιοποιήσιμο πίνακα B με διακριτές ιδιοτιμές {λ 1,λ 2,,λ k } όπου λ 1 > λ 2 λ 3 λ k η power μέθοδος υπολογίζει επαναληπτικά το εξής: όπου m(x (k) ) είναι σταθερά κανονικοποίησης παραγόμενη από το x (k) Συνήθως, είναι η (προσημασμένη) συνιστώσα με το μέγιστο μέγεθος. Στην περίπτωση αυτή, το m(x (k) ) συγκλίνει στην κυρίαρχη ιδιοτιμή λ 1 και το x (k) στο αντίστοιχο κανονικοποιημένο ιδιοδιάνυσμα 12

Σύγκλιση του HITS (2/6) Εάν απαιτείται μόνο το ιδιοδιάνυσμα και όχι και η αντίστοιχη ιδιοτιμή, τότε η σταθερά κανονικοποίησης μπορεί να είναι η m(x (k) ) = x (k) Εάν λ 1 < 0, τότε η m(x (k) ) = x (k) δεν μπορεί να συγκλίνει στην λ 1, αλλά η x (k) συγκλίνει στο ιδιοδιάνυσμα που αντιστοιχεί στην λ 1 Επειδή οι πίνακες L T L και LL T είναι συμμετρικοί, θετικοί, semidefinite και μη-αρνητικοί, οι διακριτές τους ιδιοτιμές {λ 1,λ 2,,λ k } είναι πραγματικοί αριθμοί και μηαρνητικοί, και ισχύει ότι με λ 1 > λ 2 > λ 3 > > λ k 0 Έτσι, ο HITS με κανονικοποίηση πάντα συγκλίνει Ο ρυθμός σύγκλισης δίνεται από τον ρυθμό με τον οποίο ισχύει ότι [λ 2 (L T L)/λ 1 (L T L)] k 0 13

Σύγκλιση του HITS (3/6) Δυστυχώς, δεν μπορούμε να δώσουμε ικανοποιητική προσέγγιση για τον ασυμπτωτικό ρυθμό σύγκλισης του HITS Πολλά πειράματα δείχνουν ότι η διαφορά των πρώτων ιδιοτιμών (λ 1 -λ 2 ) είναι αρκετά μεγάλη, και συνεπώς απαιτούνται μόνο μερικές επαναλήψεις (10-15) για να συγκλίνει Παρά την ταχεία σύγκλιση όμως, υπάρχει πρόβλημα με τη μοναδικότητα των διανυσμάτων authority και hub που προκύπτουν ως λύση με την power μέθοδο, π.χ., για τον L 14

Σύγκλιση του HITS (4/6) Έχει δυο διακριτές ιδιοτιμές, τις 2 και 0, οι οποίες έχουν πολλαπλότητα 2 Εάν ξεκινήσουμε με το x (0) = ¼ e T καταλήγουμε στο διάνυσμα authority x ( ) = (1/3 1/3 1/3 0) T Εάν ξεκινήσουμε με το x (0) = (1/4 1/8 1/8 1/2 καταλήγουμε στο διάνυσμα authority x ( ) = (1/2 1/4 1/4 0) T Αιτία του προβλήματος μοναδικότητας είναι η reducibility Θα λέμε ότι ένας πίνακας B είναι reducible εάν υπάρχει πίνακας μετάθεσης Q τέτοιος ώστε (οι X και Z είναι τετραγωνικοί): 15

Σύγκλιση του HITS (5/6) Η reducibility ενός πίνακα σημαίνει ότι υπάρχουν καταστάσεις καταβόθρες, ενώ η irreducibility σημαίνει ότι από οποιαδήποτε κατάσταση μπορώ να μεταβώ σε οποιαδήποτε άλλη κατάσταση Το θεώρημα Perron-Frobenious εγγυάται ότι ένας irreducible, μη-αρνητικός πίνακας έχει ένα μοναδικό, κανονικοποιημένο θετικό κυρίαρχο ιδιοδιάνυσμα, το λεγόμενο διάνυσμα Perron Συνεπώς, η reducibility του L T L είναι υπεύθυνη για η σύγκλιση σε περισσότερα του ενός διανύσματα-λύσεις Το ίδιο πρόβλημα αντιμετώπισε και ο πίνακας S στο PageRank, αλλά με μια μετατροπή του πίνακα σε irreducible επιλύθηκε Το ίδιο μπορεί να γίνει και με τον HITS 16

Σύγκλιση του HITS (6/6) Αντί για τον αρχικό πίνακα authority, χρησιμοποιούμε τον πίνακα ξl T L + (1-ξ)/n ee T Όμοια για τον πίνακα hub Αυτός ο τροποποιημένος HITS, λέγεται Exponential HITS Τέλος, ανεξάρτητα από το εάν η κυρίαρχη ιδιοτιμή του πίνακα επανάληψης B είναι απλή ή πολλαπλή, η σύγκλιση σε ένα μη-μηδενικό διάνυσμα εξαρτάται από εάν το αρχικό διάνυσμα x (0) δεν βρίσκεται στην εμβέλεια του (Β-λ 1 Ι) Εάν το x (0) παράγεται τυχαία, τότε με (σχεδόν) βεβαιότητα δεν θα υφίσταται το πρόβλημα 17

Παράδειγμα εφαρμογής του HITS (1/4) Έστω ότι, σε απάντηση ενός ερωτήματος σε μια παραδοσιακή keyword-based μηχανή αναζήτησης, επιστρέφονται οι ιστοσελίδες που αντιστοιχούν στους κόμβους 1 και 5 3 6 2 1 5 4 18

Παράδειγμα εφαρμογής του HITS (2/4) Τα κανονικοποιημένα κύρια ιδιοδιανύσματα με τα authority και hub scores είναι: x T = (0 0 0.3660 0.1340 0.5 0) y T = (0.3660 0 0.2113 0 0.2113 0.2113) 19

Παράδειγμα εφαρμογής του HITS (3/4) Μπορεί να συμβούν δυο τύπων ισοπαλίες Στις τιμές 0 Μπορεί να αποφευχθούν με την primitivity τροποποίηση Στις θετικές τιμές αυτές είναι σπάνιες σε μεγάλους θετικά-ορισμένους πίνακες μπορούν να επιλυθούν με FCFS Authority ranking = (6 3 5 1 2 10) Hub ranking = (1 3 6 10 2 5) Για λόγους σύγκρισης, υπολογίζουμε ξανά τα διανύσματα authority και hub, αλλά χρησιμοποιώντας τον irreducible πίνακα ξl T L + (1-ξ)/n ee T ως πίνακα authority και τον irreducible πίνακα ξll T + (1-ξ)/n ee T ως πίνακα hub 20

Παράδειγμα εφαρμογής του HITS (4/4) Για ξ=0.95, έχουμε x T = (0.0032 0.0023 0.3634 0.1351 0.4936 0.0023) y T = (0.3628 0.0032 0.2106 0.0023 0.2106 0.2106) Στο παράδειγμα αυτό, η μετατροπή τους σε irreducible πίνακες δεν άλλαξε το ranking, ούτε το authority ούτε το hub ranking Όμως, απέφυγε τις ισοπαλίες στο 0 21

Πλεονεκτήματα/Μειονεκτήματα του HITS Παρουσιάζει δυο λίστες στο χρήστη Authoritative σελίδες, για εις βάθος αναζήτηση σε κάποιο αντικείμενο Hub σελίδες, δηλ., portal σελίδες, για αναζήτηση σε εύρος Λύνει ένα μικρό πρόβλημα, σε μέγεθος πινάκων Είναι query-dependent Σε run-time, δηλ., για κάθε ερώτημα του χρήστη, χτίσιμο του Base Set, και εύρεση ενός ιδιοδιανύσματος Μπορεί να γίνει query-independent, δηλ., να εκτελεστεί πάνω σε όλο το γράφημα του Web Είναι πολύ επιρρεπής σε spamming Με προσθήκη συνδέσμων από/προς την ιστοσελίδα μας Φυσικά, είναι ευκολότερο να αυξήσουμε το hub score της ιστοσελίδας μας, αλλά εξ αιτίας της αλληλεξάρτησής τους μπορεί να αυξηθεί και το authority score ως αποτέλεσμα της αύξησης του hub score 22

Πλεονεκτήματα/Μειονεκτήματα του HITS Παρουσιάζει το φαινόμενο topic drift Κατά το χτίσιμο του Base Set, είναι πιθανό ότι μια πολύ authoritative σελίδα, αλλά εκτός αντικειμένου της αναζήτησης, να εμφανιστεί στο Base Set επειδή έχει σύνδεσμο από/προς κάποια σελίδα του Root Set Αυτή η σελίδα μπορεί να έχει τόσο βάρος, ώστε αυτή και όλες οι γειτονικές της να εμφανίζονται στην κορυφή της λίστας των αποτελεσμάτων, με συνέπεια η λίστα των αποτελεσμάτων να κυριαρχηθεί από σελίδες εκτός του ζητούμενου αντικειμένου Το πρόβλημα μπορεί να αντιμετωπιστεί εάν ζυγίσουμε τα hub και authority scores των σελίδων με βάση τη σχετικότητά της κάθε σελίδας ως προς το αντικείμενο της αναζήτησης, δηλ., αντί για τον δυαδικό πίνακα L, να έχουμε κάτι ανάλογο με τον πίνακα του intelligent surfer 23

Σχέση του HITS με τη Βιβλιομετρία (1/2) Co-citation: Δυο σελίδες δέχονται υπερσύνδεσμο από την ίδια σελίδα Ο πίνακας authority L T L σχετίζεται με την έννοια του co-citation Ranking με βάση το inlink παρέχει αξιοπρεπή προσέγγιση του HITS authority Co-reference: Δυο σελίδες έχουν υπερσύνδεσμο προς την ίδια σελίδα Ο πίνακας hub LL T σχετίζεται με την έννοια του co-reference Ranking με βάση το outlink παρέχει αξιοπρεπή προσέγγιση του HITS hub 24

Σχέση του HITS με τη Βιβλιομετρία (2/2) 1 2 3 4 D in : διαγώνιος πίνακας με το indegree των κόμβων και C cit ο πίνακας cocitation Το στοιχείο (3,3) δείχνει ότι ο κόμβος 3 έχει indegree 2 Το στοιχείο (4,3) δείχνει ότι οι κόμβοι 4 και 3 δεν έχουν κοινό inlink D out : διαγώνιος πίνακας με το outdegree των κόμβων και C ref ο πίνακας co-reference Το στοιχείο (1,2) δείχνει ότι οι κόμβοι 1 και 2 έχουν 1 κοινό σύνδεσμο (προς τον κόμβο 3) Το στοιχείο (4,2) δείχνει ότι οι κόμβοι 4 και 2 δεν έχουν κοινό σύνδεσμο προς κάποιο κόμβο 25

Query-independent HITS (1/4) Ο query-independent αλγόπιθμορ HITS Απσικοποίηζη ηος x (0) =e/n (και άλλερ επιλογέρ απσικοποίηζηρ είναι πιθανέρ) Μέσπι να επέλθει ζύγκλιζη: x (k) = ξl T Lx (k-1) + (1-ξ)/n e x (k) = x (k) / x (k) 1 y (k) = ξll T y (k-1) + (1-ξ)/n e y (k) = y (k) / y (k) 1 ++k; Θέηοςμε x = x (k) και y = y (k) Σπγθιίλεη ζηα κνλαδηθά ζεηηθά δηαλύζκαηα hub θαη authority, αλεμάξηεηα από ηε reducibility ηνπ πίλαθα Ο L είλαη ν πίλαθαο γεηηλίαζεο όινπ ηνπ Web γξαθήκαηνο 26

Query-independent HITS (2/4) Μέθοδος Πολλαπλαζιαζμο ί Προζθέζεις HITS 0 2nnz(L) Modified HITS 0 4nnz(L) + 2n Random surfer PageRank n nnz(l) + n Intelligent surfer PageRank nnz(h) nnz(h) + n ΘΕΩΡΗΜΑ. Έζηω όηη Μ = είλαη ν ηξνπνπνηεκέλνο πίλαθαο authority. Έζηω όηη ι 1 ι 2 ι n είλαη νη ηδηνηηκέο ηνπ L T L θαη γ 1 γ 2. γ n είλαη νη ηδηνηηκέο ηνπ M. Τόηε ηζρύεη ε ζρέζε: γ 1 αι 1 γ 2 αι 2. γ n αι n Υπάξρνπλ scalars β i 0, β i =1, ώζηε γ i =μι i +(1-μ)β i 27

Query-independent HITS (3/4) Τα όξηα γ 2 /γ 1 παξάγνληαη εμεηάδνληαο αθξαία ζπκπεξηθνξά Σηελ θαιύηεξε πεξίπηωζε, ε ηξνπνπνίεζε ηνπ L T L απμάλεη κόλν ην ι 2 ζε κέγηζηε ηηκή ι 2 +1-μ (δει., β 2 =1, β i =0, i 2) Σηε ρεηξόηεξε πεξίπηωζε, ην ι 1 απμάλεη ζε κέγηζηε ηηκή ι 1 +1-μ (δει., β 1 =1, β i =0, i 1) Σηελ πξάμε, πνιιά β i απμάλνπλ ηαπηόρξνλα, αιιά ε ζρέζε β i =1 εγγπάηαη όηη ην απνηέιεζκα δελ έρεη δξακαηηθέο επηπηώζεηο, όπωο ζηηο δπν αθξαίεο πεξηπηώζεηο Μέθοδος ύγκλιζη HITS ι 2 /ι 1 Modified HITS (ξλ 2 )/(ξλ 1 +1-ξ) γ 2 /γ 1 λ 2 /λ 1 (1-ξ)/(ξλ 1 ) Random surfer PageRank Intelligent surfer PageRank α α 28

Query-independent HITS (4/4) Ανεξάρτητα από τις ακριβείς τιμές των β i, το ξ επιλέγεται συνήθως κοντά στο 1, οπότε γ 2 /γ 1 λ 2 /λ 1 Έτσι ο ασυμπτωτικός ρυθμός σύγκλισης του HITS και του τροποποιημένου HITS είναι ο ίδιος Πειράματα έχουν δείξει ότι λ 2 /λ 1 < 0.5, το οποίο είναι πολύ μικρότερο του α=0.85 του PageRank Με περίπου διπλάσιο κόστος ανά επανάληψη, ο query-independent-hits απαιτεί λιγότερο από ¼ των επαναλήψεων του PageRank και παράγει 2 διανύσματα στο χρήστη 29

Επιτάχυνση του HITS Ο Kleinberg χρησιμοποίησε την power μέθοδο για τον υπολογισμό των κυρίαρχων δεξιών ιδιοδιανυσμάτων των πινάκων L T L και LL T Οι πίνακες του HITS είναι πολύ μικροί σε σχέση με τους αντίστοιχους του PageRank, και κατά πάσα πιθανότητα, χρησιμοποιούνται τεχνικές που είναι memory-intensive για τον υπολογισμό των δυο πινάκων του HITS, π.χ., Lanczos Για τον query-dependent HITS δεν υπάρχει έρευνα σχετική με μεθόδους επιτάχυνσης Για τον query-independent HITS μπορούν να χρησιμοποιηθούν οι ίδιες τεχνικές που έχουμε συζητήσει για τον PageRank 30

Ευαισθησία του HITS ΘΕΩΡΗΜΑ. Έστω Ε ο πίνακας διαταραχής, ώστε Ĺ T Ĺ = L T L + E. Όταν η λ 1 είναι απλή, τότε sin (x,x ) E 2 /(λ 1 -λ 2 ) Συνεπώς, εάν το χάσμα ιδιοδιανυσμάτων είναι μεγάλο, τότε ο πίνακας authority δεν είναι ευαίσθητος σε μικρές αλλαγές στο Web γράφημα 31

Η μέθοδορ SALSA Stochastic Approach for Link Structure Analysis 32

Οκνηόηεηεο SALSA κε HITS θαη PageRank Επηλνήζεθε από ηνπο Ronny Lempel θαη Shlomo Moran ην 2000 Σπλδπαζκόο HITS θαη PageRank Ο SALSA ρξεζηκνπνηεί authority θαη hub score Ο SALSA δεκηνπξγεί έλα neighborhood graph ρξεζηκνπνηώληαο authority θαη hub ηζηνζειίδεο θαη ππεξζπλδέζκνπο 33

Δηαθνξέο SALSA κε HITS θαη PageRank Η κέζνδνο SALSA δεκηνπξγεί έλα δηκεξέο γξάθεκα (bipartite graph) ηωλ ζειίδωλ authority θαη hub ζην neighborhood γξάθεκα Τν έλα ζύλνιν πεξηέρεη ηηο hub ζειίδεο Τν άιιν ζύλνιν πεξηέρεη ηηο authority ζειίδεο Μηα ζειίδα κπνξεί λα πεξηέρεηαη θαη ζηα δπν ζύλνια 34

Neighborhood Graph Ν 3 10 2 1 6 5 35

Δηκεξέο γξάθεκα G ηνπ Neighborhood Graph N 36

Markov αιπζίδεο Από ην δηκεξέο γξάθεκα G ζρεκαηίδνληαη δπν πίλαθεο Μηα hub Markov chain κε πίλαθα H Μηα authority Markov chain κε πίλαθα A Οη πίλαθεο H θαη A κπνξεί λα παξαρζνύλ από ηνλ πίλαθα γεηηλίαζεο (adjacency matrix) L πνπ έρνπκε δεη ζηνλ ππνινγηζκό ηνπ HITS θαη ηνπ PageRank Ο HITS ρξεζηκνπνηεί ηνλ unweighted matrix L Ο PageRank ρξεζηκνπνηεί ηε row-weighted έθδνζε ηνπ πίλαθα L SALSA ρξεζηκνπνηεί row θαη column weighting 37

Πώο ππνινγίδνληαη νη H θαη A; Έζηω όηη L r είλαη ν L κε θάζε κε-κεδεληθή γξακκή ηνπ λα δηαηξείηαη κε ην άζξνηζκά ηεο Έζηω όηη L c είλαη ν L κε θάζε κε-κεδεληθή ζηήιε ηνπ λα δηαηξείηαη κε ην άζξνηζκά ηεο 38

Παξάδεηγκα ηωλ L r θαη L c 39

Οη πίλαθεο H θαη A Ο πίλαθαο H, SALSA hub matrix, απνηειείηαη από ηηο κε-κεδεληθέο γξακκέο θαη ζηήιεο ηνπ L r L c T Ο πίλαθαο A, SALSA authority matrix, απνηειείηαη από ηηο κε-κεδεληθέο γξακκέο θαη ζηήιεο ηνπ πίλαθα L ct L r 40

Οη πίλαθεο L r L c T θαη L ct L r 41

Οη πίλαθεο H θαη A 42

Ιδηνδηαλύζκαηα Av = λv v T A = λ v T Αξηζκεηηθόο ππνινγηζκόο: Power κέζνδνο 43

Η power κέζνδνο X k+1 = AX k X k+1 T = X kt A Σπγθιίλεη ζην θπξίαξρν ηδηνδηάλπζκα (dominant eigenvector), δει., ζ απηό πνπ αληηζηνηρεί ζηελ θπξίαξρε ηδηνηηκή ( λ = 1). 44

Η power κέζνδνο Οη πίλαθεο H θαη A πξέπεη λα είλαη irreducible, ώζηε λα ζπγθιίλεη ε power κέζνδνο ζε έλα unique eigenvector, μεθηλώληαο από θάπνηα αξρηθή ηηκή Εάλ ην neighborhood γξάθεκα G είλαη ζπλδεδεκέλν (connected), ηόηε ν H θαη ν A είλαη irreducible Εάλ ην G δελ είλαη ζπλδεδεκέλν, ηόηε ε εθηέιεζε ηεο power κεζόδνπ ζηνλ H θαη A δελ ζα έρεη ωο απνηέιεζκα ηε ζύγθιηζε ζε έλα κνλαδηθό θπξίαξρν ηδηνδηάλπζκα 45

Σην παξάδεηγκα ην G δελ είλαη ζπλδεδεκέλν Είλαη πξνθαλέο όηη ην γξάθεκα δελ είλαη ζπλδεδεκέλν, αθνύ ε ζειίδα 2 ζην ζύλνιν hub ζπλδέεηαη κόλν κε ηε ζειίδα 1 ζην ζύλνιν authority, θαη αληίζηξνθα Οη H θαη A είλαη reducible θαη επνκέλωο πεξηέρνπλ multiple irreducible connected components 46

Connected Components Ο πίλαθαο H πεξηέρεη δπν connected components, C = {2} θαη D = {1, 3, 6, 10} Ο πίλαθαο A πεξηέρεη δπν connected components, E = {1} θαη F = {3, 5, 6} 47

Cutting θαη Pasting. Μέξνο I Εθηεινύκε ηελ power method ζε θάζε ζπληζηώζα ηωλ H θαη A 48

Cutting θαη Pasting. Μέξνο II Ελώλνπκε ηηο δπν ζπληζηώζεο γηα θάζε πίλαθα Πξέπεη λα πνιιαπιαζηάζνπκε θάζε ζηνηρείν ηνπ δηαλύζκαηνο κε ην θαηάιιειν weight H: A: SALSA hub ranking: 1/6 2 3/10 HITS hub ranking: 1 3/6/10 2 5 SALSA authority ranking: 6 1/3 5 HITS hub ranking: 6 3 5 1 2/10 49

Πλεονεκτήματα/Μειονεκτήματα του Δελ εκθαλίδεη ην θαηλόκελν topic drift, όπωο ν HITS Παξέρεη authority θαη hub scores Φεηξίδεηαη ην spamming θαιύηεξα από όηη ν HITS, αιιά όρη ηόζν θαιά όζν ν PageRank Είλαη query-dependent 50