Web Searching ΙΙ Τεχνικές Ανάλυσης Συνδέσμων (Link Analysis Techniques)

Σχετικά έγγραφα
HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Web Searching

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Web Searching

Web Searching I: History and Basic Notions, Crawling II: Link Analysis Techniques III: Web Spam Page Identification

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Web Searching ΙΙΙ

Oscillatory integrals

Matrix Hartree-Fock Equations for a Closed Shell System

Approximation of distance between locations on earth given by latitude and longitude

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ 035: οµές εδοµένων και Αλγόριθµοι για Ηλεκτρολόγους Μηχανικούς και Μηχανικούς Υπολογιστών

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Solutions 3. February 2, Apply composite Simpson s rule with m = 1, 2, 4 panels to approximate the integrals:

The Simply Typed Lambda Calculus

Αλγόριθμοι και πολυπλοκότητα NP-Completeness (2)

Instruction Execution Times

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Homomorphism in Intuitionistic Fuzzy Automata

(a,b) Let s review the general definitions of trig functions first. (See back cover of your book) sin θ = b/r cos θ = a/r tan θ = b/a, a 0

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Block Ciphers Modes. Ramki Thurimella

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω

Solutions_3. 1 Exercise Exercise January 26, 2017

Ανάκτηση Πληροφορίας

2 Composition. Invertible Mappings

Physics 505 Fall 2005 Practice Midterm Solutions. The midterm will be a 120 minute open book, open notes exam. Do all three problems.

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Εθνικό Μετσόβιο Πολυτεχνείο. Thales Workshop, 1-3 July 2015.

Example 1: THE ELECTRIC DIPOLE

Space Physics (I) [AP-3044] Lecture 1 by Ling-Hsiao Lyu Oct Lecture 1. Dipole Magnetic Field and Equations of Magnetic Field Lines

Optimal Placing of Crop Circles in a Rectangle

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 10η: Basics of Game Theory part 2 Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Fractional Colorings and Zykov Products of graphs

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Laplace s Equation in Spherical Polar Coördinates

CHAPTER (2) Electric Charges, Electric Charge Densities and Electric Field Intensity

Network Science. Θεωρεία Γραφηµάτων (2)

ΚΩΔΙΚΟΣ ΕΡΓΟΥ: 1272 ΥΔΡΟΠΟΛΗ

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

To find the relationships between the coefficients in the original equation and the roots, we have to use a different technique.

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βασιλική

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

ΕΙΣΑΓΩΓΗ ΣΤΟN ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

derivation of the Laplacian from rectangular to spherical coordinates

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

AMS 212B Perturbation Methods Lecture 14 Copyright by Hongyun Wang, UCSC. Example: Eigenvalue problem with a turning point inside the interval

Αλγόριθμοι και πολυπλοκότητα Δυναμικός Προγραμματισμός

Έξι βαθμοί διαχωρισμού

Εισαγωγή στην ανάλυση συνδέσμων

[ ] ( l) ( ) Option 2. Option 3. Option 4. Correct Answer 1. Explanation n. Q. No to n terms = ( 10-1 ) 3

Κατανεμημένα Συστήματα. Javascript LCR example

Tridiagonal matrices. Gérard MEURANT. October, 2008

Analytical Expression for Hessian

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

I Feel Pretty VOIX. MARIA et Trois Filles - N 12. BERNSTEIN Leonard Adaptation F. Pissaloux. ι œ. % α α α œ % α α α œ. œ œ œ. œ œ œ œ. œ œ. œ œ ƒ.

Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 8η - Εικονικοί Κόσμοι και Πολιτιστικό Περιεχόμενο

Προβλήματα Ελάχιστου Κόστους Ροής σε Δίκτυο. Δίκτυα Ροής Ελάχιστου Κόστους (Minimum Cost Flow Networks)

Αντισταθμιστική ανάλυση

Reminders: linear functions

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Δομές Δεδομένων. Ιωάννης Γ. Τόλλης Τμήμα Επιστήμης Υπολογιστών Πανεπιστήμιο Κρήτης

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκτηση Πληροφορίας

Example Sheet 3 Solutions

Synthetic Aperture Radar Processing

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

A8-0417/158

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Monolithic Crystal Filters (M.C.F.)

Εικονική Αναπαράσταση Νοηµατικής Γλώσσας στο ιαδίκτυο

Αναζήτηση σε Γράφους. Μανόλης Κουμπαράκης. ΥΣ02 Τεχνητή Νοημοσύνη 1

EE512: Error Control Coding

Overview. Transition Semantics. Configurations and the transition relation. Executions and computation

Προγραμματισμός Η/Υ. Αλγόριθμοι. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Εισαγωγή στους Αλγορίθμους Ενότητα 10η

Γιάννης Σαμωνάκης. 1 ο ΣΧΟΛΕΙΟ ΚΩΔΙΚΑ «Βασικά Θέματα Προγραμματισμού στην Ανάπτυξη Δυναμικών Διαδικτυακών Εφαρμογών» (Part 4 - PHP)

Ανάκτηση Πληροφορίας

EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS

Αλγόριθμοι Ταξινόμησης Μέρος 3

VBA Microsoft Excel. J. Comput. Chem. Jpn., Vol. 5, No. 1, pp (2006)

Tutorial Note - Week 09 - Solution

Parametrized Surfaces

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Διακριτά Μαθηματικά. Ενότητα 2: Γραφήματα

If ABC is any oblique triangle with sides a, b, and c, the following equations are valid. 2bc. (a) a 2 b 2 c 2 2bc cos A or cos A b2 c 2 a 2.

Ανάκτηση Πληροφορίας

ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ

Προγραμματισμός Η/Υ. 4 η ενότητα: Δομές Δεδομένων. Τμήμα. Τεχνολόγων Περιβάλλοντος. ΤΕΙ Ιονίων Νήσων. Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Χαράλαμπος Καραγιαννίδης

Παράδειγμα #5 EΠΙΛΥΣΗ ΜΗ ΓΡΑΜΜΙΚΩΝ ΑΛΓΕΒΡΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΜΕΘΟΔΟ NEWTON ΕΠΙΜΕΛΕΙΑ: Ν. Βασιλειάδης. ( k ) ( k)

Ordinal Arithmetic: Addition, Multiplication, Exponentiation and Limit

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

Μεταγλωττιστές Βελτιστοποίηση

Transcript:

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 9 HΥ63 - Συστήματα Ανάκτησης Πληροφοριών Infomtion Retievl IR Systems Web Seching ΙΙ Τεχνικές Ανάλυσης Συνδέσμων Link Anlysis Techniques Γιάννης Τζίτζικας άλ ιάλεξη : 9 Ημερομηνία : CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Διάθρωση Bibliometics cittion nlysis, impct fcto, bibliogphic coupling, co-cittion, cittions vs links Authoities nd Hubs HITS lgoithm PgeRnk Pesonlized PgeRnk Othe pplictions of Link Anlysis Cwling Revese Engineeing CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

Ανάκτηση Πληροφοριών από τον Ιστό: Προκλήσεις και Απαιτήσεις Gtheing techniques Sclble Index Stuctues efficiently updtble Impove the discimintion bility Θα δούμε τεχνικές που συμβάλουν σε αυτό CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3 Bibliometics: Cittion Anlysis Πολλά έγγραφα περιλαμβάνουν βιβλιογραφία, δηλαδή μνείες αναφορές σε ήδη δημοσιευμένα άρθρα. Θεωρώντας τις μνείες ως συνδέσμους, μπορούμε να δούμε μια συλλογή εγγράφων ως έναν διευθυνόμενο γράφο. Η δομή αυτού του γράφου είναι ανεξάρτητη των περιεχομένων και από αυτόν μπορούμε να εξάγουμε συμπεράσματα για την ομοιότητα των εγγράφων και τη δομή του χώρου. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

Impct Fcto Βαθμός Επιρροής Μέτρο σπουδαιότητας ποιότητας, επίδρασης των επιστημονικών περιοδικών που προτάθηκε από τον Gfield το 97. Μετρά πόσο συχνά τα άρθρα του περιοδικού αναφέρονται από άλλα μεταγενέστερα άρθρα Υπολογίζεται και δημοσιεύεται ετησίως από το Institute fo Scientific Infomtion ISI. Ο βαθμός επιρροής ενός περιοδικού J το έτος Υ είναι ο μέσος αριθμός των αναφορών σε άρθρα δημοσιευμένα στο περιοδικό J τα έτη Υ- ή Υ-, από άρθρα δημοσιευμένα σε άλλα περιοδικά το έτος Υ. Δεν λαμβάνει υπόψη την «ποιότητα» των άρθρων που κάνουν τις αναφορές CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 5 Συμβολισμοί A ina outa CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 6

Bibliogphic Coupling Βιβλιογραφική Ζεύξη Μέτρο ομοιότητας εγγράφων που προτάθηκε από τον Kessle τo 963 Η βιβλιογραφική ζεύξη εγγράφων Α και Β ισούται με το πλήθος των εγγράφων που αναφέρονται και από το Α και από το Β. Το μέγεθος της τομής των βιβλιογραφιών τους Κανονικοποίηση βάσει του μεγέθους των βιβλιογραφιών A B out A out B out A out B out A out B CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 7 Co-Cittion Ένα διαφορετικό μέτρο ομοιότητας που προτάθηκε από τον Smll το 973 Ο βαθμός co-cittion εγγράφων Α και Β ισούται με το πλήθος των εγγράφων που αναφέρουν και το Α και το Β. Κανονικοποίηση βάσει του συνολικού αριθμού εγγράφων που αναφέρουν ή το Α ή το Β in A in B A B in A in B in A in B CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 8

Μνείες vs. Σύνδεσμοι Cittions vs. Links Οι σύνδεσμοι του Ιστού είναι κάπως διαφορετικοί από τις αναφορές: Mny links e nvigtionl. Mny pges with high in-degee e potls not content povides. Not ll links e endosements. Compny websites don t point to thei competitos. Cittions to elevnt litetue is enfoced by pee-eview. eview CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 9 Ο Γράφος του Ιστού Θεωρούμε τον Ιστό ως έναν διευθυνόμενο γράφο GV,E Διαγράφουμε τους κυκλικούς συνδέσμους αυτοσυνδέσμους μ ς self- hypelinks Οι πολλαπλοί σύνδεσμοι από μια σελίδα p σε μια q καταπίπτουν σε έναν σύνδεσμο p,q in E CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

Authoities Αυθεντίες Authoities e pges tht e ecognized s poviding significnt, tustwothy, nd useful infomtion on topic. Α simple mesue of uthoity could be inp Howeve in-degee tets ll links s equl όπως στο βαθμό επιρροής. Should links fom pges tht e themselves uthoittive count moe? CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Hubs Κομβικά Σημεία Hubs e index pges tht povide lots of useful links to elevnt content pges topic uthoities. Παραδείγματα Hub pges για ανάκτηση πληροφοριών: http://tec.nist.gov/ http://www-k.is.tokushim-u.c.jp/membe/kit/nlp/ir.html tokushim u c html Α simple mesue fo identifying hubs could be outp CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

HITS Hypelink-Induced Topic Sech Αλγόριθμος που προτάθηκε από τον Kleinbeg το 998. Προσπαθεί να διακρίνει uthoities και hubs για ένα συγκεκριμένο θέμα topic, αναλύοντας το σχετικό υπογράφο του Ιστού. Βασίζεται στις εξής αμοιβαίως οριζόμενες και αναδρομικές προτάσεις: Hubs point to lots of uthoities. Authoities e pointed to by lots of hubs. Hubs Authoities Hubs nd Authoities tend to fom biptite gph nodes cn be ptitioned into goups such tht thee e no links between the nodes of the sme goup: CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3 Ο Αλγόριθμος HITS Εντοπίζει τα hubs και τα uthoities για ένα συγκεκριμένο θέμα topic που προσδιορίζεται από μια επερώτηση q Κατ αρχάς προσδιορίζεται το σύνολο S των σχετικών σελίδων με το q και αυτό ονομάζεται βάση bse set Κατόπιν, αναλύει τη δομή των συνδέσμων στον υπογράφο του ιστού που ορίζεται από το S, και διακρίνει hubs και uthoities. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

Κατασκευή του Υπογράφου Βάσης Bse Subgph Fo specific quey Q, let the set of documents etuned by stndd sech engine be clled the oot set R i.e. RAnsQ. Initilize S to R. Add to S ll pges pointed to by ny pge in R. Add to S ll pges tht point to ny pge in R. S R R nsq { out p p R} { in p p } S : R R CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 5 Περιορίζοντας το μέγεθος της Βάσης To limit computtionl expense: Limit numbe of oot pges to the top pges etieved fo the quey. Limit numbe of bck-pointe pointe pges to ndom setoftmost5 pges etuned by evese link quey. To eliminte puely nvigtionl links: Eliminte links between two pges on the sme host. To eliminte non-uthoity-conveying links: Allow only m m 8 pges fom given host s pointes to ny individul pge. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 6

Authoities nd In-Degee Even within the bse set S fo given quey, the nodes with highest in-degee e not necessily uthoities my just be genelly popul pges like Yhoo o Amzon. Tue uthoity ypges e pointed to by numbe of hubs i.e. pges tht point to lots of uthoities. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 7 HITS: Επαναληπτικός αλγόριθμος Use n itetive lgoithm to slowly convege on mutully einfocing set of hubs nd uthoities. Mintin fo ech pge p S: Authoity scoe: p vecto Hub scoe: hp vecto h Initilize ll php Mintin nomlized scoes: p p S p S h p CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 8

HITS: Κανόνες Ενημέρωσης Updte Rules Authoities e pointed to by lots of good hubs: p h q q in p Hubs point to lots of good uthoities: h p q q out p CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 9 Παράδειγμα Κανόνων Ενημέρωσης h + h + h3 3 5 h 5 + 6 + 7 6 7 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

HITS: Επαναληπτικός Αλγόριθμος Initilize fo ll p S: php Fo i to k: Fo ll p S: p Fo ll p S: Fo ll p S: Fo ll p S: q in p updte uth. scoes h q h p q q out p pp/c hp hp/c c: updte hub scoes c c p S p hh p nomlize nomlizel h CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete p S HITS: Σύγκλιση Με άπειρες επαναλήψεις ο αλγόριθμος συγκλίνει σε ένα σταθερό σημείο fix-point. p Define A to be the djcency mtix fo the subgph defined by S. A ij foi i S, j S iff i j Authoity vecto,, conveges to the pincipl eigenvecto of A T A Hub vecto, h, conveges to the pincipl eigenvecto of AA T Στην πράξη, επαναλήψεις συνήθως επαρκούν. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

HITS: Αποτελέσματα Authoities fo quey: Jv jv.sun.com comp.lng.jv FAQ Authoities fo quey sech engine Yhoo.com Excite.com Lycos.com Altvist.com Authoities fo quey Gtes Micosoft.com odhed.com Σόλ Σχόλια In most cses, the finl uthoities wee not in the initil oot set geneted using Altvist. Authoities wee bought in fom linked nd evese-linked pges nd then HITS computed thei high uthoity scoe. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3 Εύρεση παρόμοιων σελίδων αξιοποιώντας τη δομή συνδέσμων Given pge p, let R the oot set be k e.g. pges tht point to p Rinp Gow bse set S fom R. Run HITS on S. Retun the best uthoities in S s the best simil-pges fo p. θυμηθείτε το co-cittion Finds uthoities in the link neighbo-hood of p. Αποτελέσματα για hond.com toyot.com fod.com bmwus.com stuncs.com nissnmotos.com udi.com volvocs.com CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

PgeRnk Μια διαφορετική τεχνική ανάλυσης συνδέσμων που χρησιμοποιείται από το Google Bin & Pge, 998. Δεν κάνει διάκριση μεταξύ αυθεντιών και κομβικών σημείων Διατάσσει τις σελίδες βάσει κύρους uthoity. Εφαρμόζεται σε όλες τις σελίδες του ιστού δεν περιορίζεται στη γειτονιά των σελίδων της απάντησης μιας επερώτησης CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 5 PgeRnk: Η αρχική έκδοση Η απλή καταμέτρηση των εισερχόμενων συνδέσμων δηλαδή ο in-degee ή αλλιώς cittion count δεν λαμβάνει υπόψη το κύρος των σελίδων από τις οποίες εκκινούν οι εισερχόμενοι σύνδεσμοι. Αρχικός βαθμός pge nk για μια σελίδα p: R p c R q out q q in p Μια σελίδα q «δίδει ίσο ποσοστό τους κύρους της» στις σελίδες που δείχνει. Το c είναι μια σταθερά για κανονικοποίηση ώστε το άθροισμα των βαθμών των σελίδων να ισούται με CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 6

PgeRnk: Η αρχική έκδοση ΙΙ Μπορούμε να εκλάβουμε τη βαθμολόγηση ως μια διαδικασία ροής «κύρους». Η ροή γίνεται μέσω των συνδέσμων και έχει την ίδια κατεύθυνση με αυτούς..5.8.9.5.3.3.3.8.3 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 7 PgeRnk: Ο Αρχικός Αλγόριθμος Επανάληψη της διαδικασίας ροής μέχρι να έχουμε σύγκλιση: Let S be the totl set of pges. Initilize p S: Rp /S Until nks do not chnge much convegence Fo ech p S: R p R q out q q in p Fo ech p S: Rp R p/c nomlize c R p p S CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 8

Παράδειγμα Σημείου Σταθεροποίησης Fixpoint....... CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 9 Παράδειγμα Επαναλήψεων CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3

Rndom Sufe Model Μοντέλο Τυχαίου Περιηγητή Ο PgeRnk μπορεί να θεωρηθεί οτι μοντελοποιεί έναν «τυχαίο περιηγητή» ndom sufe ο οποίος ξεκινάει από μια τυχαία επιλεγμένη σελίδα και κατόπιν τυχαία επιλέγει και ακολουθεί έναν σύνδεσμο από την τρέχουσα σελίδα, κ.ο.κ Το Rp εκφράζει την πιθανότητα να βρίσκεται ο τυχαίος περιηγητής στη σελίδα p μια δεδομένη στιγμή CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3 Οι αδυναμίες της αρχικής έκδοσης: Rnk Sinks nd Rnk Leks Rnk sink καταβόθρα βαθμών: ny stongly connected set of k pges fom which no links point outwds poblem: nodes not in the sink eceive nk ndom sufe would enclve fo eve within the sink Rnk lek διαρροή: ny individul pge with no outgoing link ny nk eching nk lek is lost foeve will cuse ll the nks to eventully convege to Rnk lek is specil cse of Rnk sink fo k CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3

Rnk Lek: Παράδειγμα b c b c.3.3.3.5.3.5.5.5.5.75.5.75.75.75.75.375.75.375 375.375.375375.375375.875.375.875.875.875.875.9375.875.9375.9375.9375.9375.688.9375.688.688.688.688.3.688.3.3.3.3.77.33.77.7.7.7.586.7.586.586.586.586.93.586.93 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 33 Τρόποι Αντιμετώπισης Lek nodes: Μια σκέψη θα ήταν να απαλείψουμε όλους τους lek nodes those with outdegee Μια άλλη λύση θα ήταν να θεωρήσουμε ότι κάθε lek node έχει ένα σύνδεσμο προς κάθε άλλη σελίδα Sink nodes. «τηλεμεταφορά» telepoting R q R p c + E p q in p out q CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3

Αναθεωρώντας το Μοντέλου του Τυχαίου Περιηγητή Ο PgeRnk μπορεί να θεωρηθεί οτι μοντελοποιεί έναν «τυχαίο περιηγητή» ndom sufe ο οποίος ξεκινάει από μια τυχαία επιλεγμένη σελίδα και κατόπιν με πιθανότητα Εp κάνει ένα άλμα σε μια τυχαία σελίδα, αλλιώς με πιθανότητα -Ep επιλέγει και ακολουθεί έναν σύνδεσμο από την τρέχουσα σελίδα, κ.ο.κ Το Rp εκφράζει την πιθανότητα να βρίσκεται ο τυχαίος περιηγητής στη σελίδα p μια δεδομένη στιγμή Σημείωση: Τα τυχαία άλματα αποτρέπουν την «παγίδευση» του περιηγητή σε καταβόθρες ή σε σελίδες που δεν έχουν εξερχόμενους συνδέσμους CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 35 Ο αλγόριθμος PgeRnk Let S be the totl set of pges. Let p S: p Ep α/s fo some <α<,, e.g..5 Initilize p S: Rp /S Until nks do not chnge much convegence g Fo ech p S: R q R p + E p out q q in p Fo ech p S: Rp R p/c nomlize c R p p S CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 36

PgeRnk: Διατύπωση με Γραμμική Αλγεβρα 3 M Adjcency mtix M Tnsition mtix T j y M p q if q out M p q if q p T, /,, Tnsition mtix T / T / The PgeRnk scoe Rp of pge is defined s + q R R + p in q N q out q p R CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 37 The equivlent mtix eqution: N N R T R + PgeRnk: Διατύπωση με Γραμμική Αλγεβρα 3 N N R T R + / + 3 / 3 + + 3/ 3 + + / / 3/ / 3 3/ 3 + + / 3/ / 3 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 38

Ο Αλγόριθμος PgeRnk function PgeRnk Input T: tnsition mtix, N: numbe of pges, b : decy fcto fo PgeRnk, M b : numbe of itetions output R* : PgeRnk scoes d /Ν * N // initil scoe fo ll pges is /Ν R* d 3 fo i to M b do // evlutes PgeRnk scoes R* b T R* + - b d etun R* CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 39 PgeRnk: Ταχύτητα σύγκλισης Speed of Convegence Ely expeiments on Google used 3 million links. PgeRnk lgoithm conveged within smll tolence in bout 5 itetions. Numbe of itetions equied fo convegence is empiiclly Olog n whee n is the numbe of links. Theefoe clcultion is quite efficient. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

Pesonlized PgeRnk Εξατομικευμένος PgeRnk Μπορούμε να εξατομικεύσουμε / προκαταβάλουμε το PgeRnk, τροποποιώντας κατάλληλα το Ε ώστε να μην περιγράφει μια ομοιόμορφη κατανομή Για παράδειγμα, με τον τρόπο αυτό μπορούμε να περιορίσουμε τα «τυχαία άλματα» σε ένα συγκεκριμένο σύνολο σελίδων Παράδειγμα: Αν pwww.csd.uoc.g/~hy63 τότε Εpα αλλιώς Ep // ευνοεί τις ιστοσελίδες που είναι κοντά στο γράφο στην ιστοσελίδα // του μαθήματος ΗΥ63 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Simple Title Sech with PgeRnk Google Rnking Use simple Boolen sech to sech web-pge titles nd nk the etieved pges by thei PgeRnk. Smple sech fo univesity : Altvist etuned ndom set of pges with univesity in the title seemed to pefe shot URLs. Pimitive Google etuned the home pges of top univesities. Complete Google nking includes bsed on univesity publictions pio to commeciliztion. Vecto-spce simility component. Keywod poximity component. HTML-tg weight component e.g. title pefeence. PgeRnk component. Detils of cuent commecil nking functions e tde secets CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

Ανάλυση Συνδέσμων: Συμπεράσματα Η Ανάλυση συνδέσμων αξιοποιεί τη δομή του γράφου του Ιστού προκειμένου να βοηθήσει την ανάκτηση πληροφοριών Είναι ίσως η μεγαλύτερη καινοτομία στην αναζήτηση στον Ιστό Ο βασικό ατού της επιτυχίας του Google. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3 Άλλες Εφαρμογές του PgeRnk: Cwling/Spideing Αξιοποίηση του PgeRnk για εστίαση της διάσχισης στις «σημαντικές σελίδες» Τρόπος Υπολογισμός του PgeRnk βάσει των σελίδων που έχουν ήδη συλλεχθεί Ταξινόμηση των σελίδων στην ουρά του cwle βάσει του εκτιμούμενου PgeRnk. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete

Ανάλυση Συνδέσμων: Άλλες εφαρμογές Αναγνώριση κοινοτήτων communities Έχει παρατηρηθεί ότι κάθε κοινότητα χαρακτηρίζεται από ένα σύνολο uthoity και hub σελίδων Αναγνώριση σελίδων spm θα παρουσιαστεί στην επόμενη διάλεξη Web-spm pge identifiction Κατανόηση και Οπτικοποίηση μεγάλων Εννοιολογικών Σχημάτων Node Reputbility in PP Netwoks... και πολλές άλλες εφαρμογές CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 5 SALSA Stochstic Appoch fo Link-Stuctued Anlysis Ο αλγόριθμος SALSA, όπως συμβαίνει και με τον HITS, διατάσει τις σελίδες μια απάντησης βάσει των υπερσυνδέσμων και στην διάκριση uthoity και hub σελίδων. Η διαφοροποίηση του από το HITS εντοπίζεται στα εξής : - καταφέρνει να αναγνωρίσει και να ανιχνεύσει περισσότερες σελίδες ως uthoities, σε θεματικές ομάδες εγγράφων όπου το HITS αδυνατεί. - θεωρεί λιγότερο στενή τη σχέση ανάμεσα στις uthoity και hub σελίδες CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 6