HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Web Searching

Σχετικά έγγραφα
Web Searching ΙΙ Τεχνικές Ανάλυσης Συνδέσμων (Link Analysis Techniques)

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Web Searching

Web Searching I: History and Basic Notions, Crawling II: Link Analysis Techniques III: Web Spam Page Identification

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Web Searching ΙΙΙ

Oscillatory integrals

Approximation of distance between locations on earth given by latitude and longitude

Matrix Hartree-Fock Equations for a Closed Shell System

Instruction Execution Times

2 Composition. Invertible Mappings

The Simply Typed Lambda Calculus

Αλγόριθμοι και πολυπλοκότητα NP-Completeness (2)

Solutions 3. February 2, Apply composite Simpson s rule with m = 1, 2, 4 panels to approximate the integrals:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ 035: οµές εδοµένων και Αλγόριθµοι για Ηλεκτρολόγους Μηχανικούς και Μηχανικούς Υπολογιστών

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω

To find the relationships between the coefficients in the original equation and the roots, we have to use a different technique.

(a,b) Let s review the general definitions of trig functions first. (See back cover of your book) sin θ = b/r cos θ = a/r tan θ = b/a, a 0

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Solutions_3. 1 Exercise Exercise January 26, 2017

Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Εθνικό Μετσόβιο Πολυτεχνείο. Thales Workshop, 1-3 July 2015.

Fractional Colorings and Zykov Products of graphs

derivation of the Laplacian from rectangular to spherical coordinates

Example 1: THE ELECTRIC DIPOLE

Example Sheet 3 Solutions

Homomorphism in Intuitionistic Fuzzy Automata

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

Optimal Placing of Crop Circles in a Rectangle

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

Finite Field Problems: Solutions

CHAPTER 101 FOURIER SERIES FOR PERIODIC FUNCTIONS OF PERIOD

EE512: Error Control Coding

Tridiagonal matrices. Gérard MEURANT. October, 2008

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 10η: Basics of Game Theory part 2 Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

Block Ciphers Modes. Ramki Thurimella

Space Physics (I) [AP-3044] Lecture 1 by Ling-Hsiao Lyu Oct Lecture 1. Dipole Magnetic Field and Equations of Magnetic Field Lines

Ψηφιακή Οικονομία. Διάλεξη 11η: Markets and Strategic Interaction in Networks Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

Other Test Constructions: Likelihood Ratio & Bayes Tests

I Feel Pretty VOIX. MARIA et Trois Filles - N 12. BERNSTEIN Leonard Adaptation F. Pissaloux. ι œ. % α α α œ % α α α œ. œ œ œ. œ œ œ œ. œ œ. œ œ ƒ.

Laplace s Equation in Spherical Polar Coördinates

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

CHAPTER (2) Electric Charges, Electric Charge Densities and Electric Field Intensity

Analytical Expression for Hessian

Αναερόβια Φυσική Κατάσταση

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Tutorial Note - Week 09 - Solution

Modbus basic setup notes for IO-Link AL1xxx Master Block

Statistical Inference I Locally most powerful tests

If ABC is any oblique triangle with sides a, b, and c, the following equations are valid. 2bc. (a) a 2 b 2 c 2 2bc cos A or cos A b2 c 2 a 2.

Εισαγωγή στην ανάλυση συνδέσμων

ΕΙΣΑΓΩΓΗ ΣΤΟN ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

Εικονική Αναπαράσταση Νοηµατικής Γλώσσας στο ιαδίκτυο

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Αντισταθμιστική ανάλυση

Reminders: linear functions

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

Μηχανική Μάθηση Hypothesis Testing

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

Math 6 SL Probability Distributions Practice Test Mark Scheme

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

Section 8.3 Trigonometric Equations

Physics 505 Fall 2005 Practice Midterm Solutions. The midterm will be a 120 minute open book, open notes exam. Do all three problems.

1. Αφετηρία από στάση χωρίς κριτή (self start όπου πινακίδα εκκίνησης) 5 λεπτά µετά την αφετηρία σας από το TC1B KALO LIVADI OUT

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

[ ] ( l) ( ) Option 2. Option 3. Option 4. Correct Answer 1. Explanation n. Q. No to n terms = ( 10-1 ) 3

Overview. Transition Semantics. Configurations and the transition relation. Executions and computation

Πώς μπορεί κανείς να έχει έναν διερμηνέα κατά την επίσκεψή του στον Οικογενειακό του Γιατρό στο Ίσλινγκτον Getting an interpreter when you visit your

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

ΚΩΔΙΚΟΣ ΕΡΓΟΥ: 1272 ΥΔΡΟΠΟΛΗ

Every set of first-order formulas is equivalent to an independent set

Ανάκτηση Πληροφορίας

Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 8η - Εικονικοί Κόσμοι και Πολιτιστικό Περιεχόμενο

6.3 Forecasting ARMA processes

Example of the Baum-Welch Algorithm

CHAPTER 48 APPLICATIONS OF MATRICES AND DETERMINANTS

Review-2 and Practice problems. sin 2 (x) cos 2 (x)(sin(x)dx) (1 cos 2 (x)) cos 2 (x)(sin(x)dx) let u = cos(x), du = sin(x)dx. = (1 u 2 )u 2 ( du)

Inverse trigonometric functions & General Solution of Trigonometric Equations

Notes on Tobin s. Liquidity Preference as Behavior toward Risk

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Solutions to Exercise Sheet 5

C.S. 430 Assignment 6, Sample Solutions

w o = R 1 p. (1) R = p =. = 1

Math221: HW# 1 solutions

Practice Exam 2. Conceptual Questions. 1. State a Basic identity and then verify it. (a) Identity: Solution: One identity is csc(θ) = 1

ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

Fourier Series. MATH 211, Calculus II. J. Robert Buchanan. Spring Department of Mathematics

Ανάκτηση Πληροφορίας

Numerical Analysis FMN011

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

PARTIAL NOTES for 6.1 Trigonometric Identities

( )( ) La Salle College Form Six Mock Examination 2013 Mathematics Compulsory Part Paper 2 Solution

TMA4115 Matematikk 3

SCITECH Volume 13, Issue 2 RESEARCH ORGANISATION Published online: March 29, 2018

Transcript:

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 7 HΥ63 - Συστήματα Ανάκτησης Πληροφοριών Infomtion Retievl (IR Systems Web Seching I: Histoy nd Bsic Notions, Cwling II: Link Anlysis Techniques III: Web Spm Pge Identifiction Γιάννης Τζίτζικας ιάλεξη : 9 Ημερομηνία : 5 / / 7 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 76 Διάθρωση Bibliometics cittion nlysis, impct fcto, bibliogphic coupling, co-cittion, cittions vs links Authoities nd Hubs (HITS lgoithm PgeRnk Pesonlized PgeRnk Othe pplictions of Link Anlysis Cwling Revese Engineeing CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 77

Ανάκτηση Πληροφοριών από τον Ιστό: Προκλήσεις και Απαιτήσεις Gtheing techniques Sclble Index Stuctues efficiently updtble Impove the discimintion bility Θα δούμε τεχνικές που συμβάλουν σε αυτό CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 78 Bibliometics: Cittion Anlysis Πολλά έγγραφα περιλαμβάνουν βιβλιογραφία, δηλαδή μνείες (αναφορές σε ήδη δημοσιευμένα άρθρα. Θεωρώντας τις μνείες ως συνδέσμους, μπορούμε να δούμε μια συλλογή εγγράφων ως έναν διευθυνόμενο γράφο. Η δομή αυτού του γράφου είναι ανεξάρτητη των περιεχομένων και από αυτόν μπορούμε να εξαγάγουμε συμπεράσματα για την ομοιότητα των εγγράφων καιτηδομήτουχώρου. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 79

Impct Fcto (Βαθμός Επιρροής Μέτρο σπουδαιότητας (ποιότητας, επίδρασης των επιστημονικών περιοδικών που προτάθηκε από τον Gfield το 97. Μετρά πόσο συχνά τα άρθρα του περιοδικού αναφέρονται από άλλα (μεταγενέστερα άρθρα Υπολογίζεται και δημοσιεύεται ετησίως από το Institute fo Scientific Infomtion (ISI. Ο βαθμός επιρροής ενός περιοδικού J το έτος Υ είναι ο μέσος αριθμός των αναφορών σε άρθρα δημοσιευμένα στο περιοδικό J τα έτη Υ- ήυ-, από άρθρα δημοσιευμένα σε άλλα περιοδικά το έτος Υ. Δεν λαμβάνει υπόψη την «ποιότητα» των άρθρων που κάνουν τις αναφορές CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 8 Συμβολισμοί A in(a out(a CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 8

Bibliogphic Coupling (Βιβλιογραφική Ζεύξη Μέτρο ομοιότητας εγγράφων που προτάθηκε από τον Kessle τo 963 Η βιβλιογραφική ζεύξη εγγράφων Α και Β ισούται με το πλήθος των εγγράφων που αναφέρονται και από το Α και από το Β. Το μέγεθος της τομής των βιβλιογραφιών τους Κανονικοποίηση βάσει του μεγέθους των βιβλιογραφιών A B out( A out( B out( A out( B out( A out( B CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 8 Co-Cittion Ένα διαφορετικό μέτρο ομοιότητας που προτάθηκε από τον Smll το 973 Η βαθμός co-cittion εγγράφων Α και Β ισούται με το πλήθος των εγγράφων που αναφέρουν και το Α και το Β. Κανονικοποίηση βάσει του συνολικού αριθμού εγγράφων που αναφέρουν ή το Α ή το Β in( A in( B A B in( A in( B in( A in( B CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 83

Μνείες vs. Σύνδεσμοι (Cittions vs. Links Οι σύνδεσμοι του Ιστού είναι κάπως διαφορετικοί από τις αναφορές: Mny links e nvigtionl. Mny pges with high in-degee e potls (not content povides. Not ll links e endosements. Compny websites don t point to thei competitos. Cittions to elevnt litetue is enfoced by pee-eview. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 8 ΟΓράφοςτουΙστού Θεωρούμε τον Ιστό ως έναν διευθυνόμενο γράφο G(V,E Διαγράφουμε τους κυκλικούς συνδέσμους (αυτοσυνδέσμους selfhypelinks Οι πολλαπλοί σύνδεσμοι (από μια σελίδα p σε μια q καταπίπτουν σε έναν σύνδεσμο (p,q in E CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 85

Authoities (Αυθεντίες Authoities e pges tht e ecognized s poviding significnt, tustwothy, nd useful infomtion on topic. Α simple mesue of uthoity could be in( Howeve in-degee tets ll links s equl (όπως στον βαθμό επιρροής. Should links fom pges tht e themselves uthoittive count moe? CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 86 Hubs (Κομβικά Σημεία Hubs e index pges tht povide lots of useful links to elevnt content pges (topic uthoities. Παραδείγματα Hub pges για ανάκτηση πληροφοριών: http://tec.nist.gov/ http://www-k.is.tokushim-u.c.jp/membe/kit/nlp/ir.html Α simple mesue fo identifying hubs could be out( CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 87

HITS (Hypelink-Induced Topic Sech Αλγόριθμος που προτάθηκε από τον Kleinbeg το 998. Προσπαθεί να διακρίνει uthoities και hubs για ένα συγκεκριμένο θέμα (topic, αναλύοντας το σχετικό υπογράφο του Ιστού. Βασίζεται στις εξής (αμοιβαίως οριζόμενες και αναδρομικές προτάσεις: Hubs point to lots of uthoities. Authoities e pointed to by lots of hubs. Hubs Authoities Hubs nd Authoities tend to fom biptite gph (nodes cn be ptitioned into goups such tht thee e no links between the nodes of the sme gou: CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 88 Ο Αλγόριθμος HITS Εντοπίζει τα hubs και τα uthoities για ένα συγκεκριμένο θέμα (topic που προσδιορίζεται από μια επερώτηση q Κατ αρχάς προσδιορίζεται το σύνολο S των σχετικών σελίδων με το q και αυτό ονομάζεται βάση (bse set Κατόπιν, αναλύει τη δομή των συνδέσμων στον υπογράφο του ιστού που ορίζεται από το S, και διακρίνει hubs και uthoities. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 89

Κατασκευή του Υπογράφου Βάσης (Bse Subgph Fo specific quey Q, let the set of documents etuned by stndd sech engine be clled the oot set R (i.e. RAns(Q. Initilize S to R. Add to S ll pges pointed to by ny pge in R. Add to S ll pges tht point to ny pge in R. S R R ns( Q S : R ( { out( p R} ( { in( p R} CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 9 Περιορίζοντας το μέγεθος της Βάσης To limit computtionl expense: Limit numbe of oot pges to the top pges etieved fo the quey. Limit numbe of bck-pointe pges to ndom set of t most 5 pges etuned by evese link quey. To eliminte puely nvigtionl links: Eliminte links between two pges on the sme host. To eliminte non-uthoity-conveying links: Allow only m (m 8 pges fom given host s pointes to ny individul pge. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 9

Authoities nd In-Degee Even within the bse set S fo given quey, the nodes with highest in-degee e not necessily uthoities (my just be genelly popul pges like Yhoo o Amzon. Tue uthoity pges e pointed to by numbe of hubs (i.e. pges tht point to lots of uthoities. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 9 HITS: Επαναληπτικός αλγόριθμος Use n itetive lgoithm to slowly convege on mutully einfocing set of hubs nd uthoities. Mintin fo ech pge p S: Authoity scoe: ( (vecto Hub scoe: h( (vecto h Initilize ll (h( Mintin nomlized scoes: ( h( p S p S CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 93

HITS: Κανόνες Ενημέρωσης (Updte Rules Authoities e pointed to by lots of good hubs: ( q in( h( q Hubs point to lots of good uthoities: h( ( q q out( CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 9 Παράδειγμα Κανόνων Ενημέρωσης ( h( + h( + h(3 3 5 h( (5 + (6 + (7 6 7 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 95

HITS: Επαναληπτικός Αλγόριθμος Initilize fo ll p S: (h( Fo i to k: Fo ll p S: (updte uth. scoes ( Fo ll p S: h( Fo ll p S: Fo ll p S: q in( ((/c h( q q out( h( h(/c c: (updte hub scoes ( q c c CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 96 p S p S ( h( (nomlize (nomlize h HITS: Σύγκλιση Με άπειρες επαναλήψεις ο αλγόριθμος συγκλίνει σε ένα σταθερό σημείο (fix-point. Define A to be the djcency mtix fo the subgph defined by S. A ij fo i S, j S iff i j Authoity vecto,, conveges to the pincipl eigenvecto of A T A Hub vecto, h, conveges to the pincipl eigenvecto of AA T Στην πράξη, επαναλήψεις συνήθως επαρκούν. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 97

HITS: Αποτελέσματα Authoities fo quey: Jv jv.sun.com comp.lng.jv FAQ Authoities fo quey sech engine Yhoo.com Excite.com Lycos.com Altvist.com Authoities fo quey Gtes Micosoft.com odhed.com Σχόλια In most cses, the finl uthoities wee not in the initil oot set geneted using Altvist. Authoities wee bought in fom linked nd evese-linked pges nd then HITS computed thei high uthoity scoe. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 98 Εύρεση παρόμοιων σελίδων αξιοποιώντας τη δομή συνδέσμων Given pge p, let R (the oot set be k (e.g. pges tht point to p ( Rin( Gow bse set S fom R. Run HITS on S. Retun the best uthoities in S s the best simil-pges fo p. θυμηθείτε το co-cittion Finds uthoities in the link neighbo-hood of p. Αποτελέσματα για hond.com toyot.com fod.com bmwus.com stuncs.com nissnmotos.com udi.com volvocs.com CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 99

PgeRnk Μια διαφορετική τεχνική ανάλυσης συνδέσμων που χρησιμοποιείται από το Google (Bin & Pge, 998. Δεν κάνει διάκριση μεταξύ αυθεντιών και κομβικών σημείων Διατάσσει τις σελίδες βάσει κύρους (uthoity. Εφαρμόζεται σε όλες τις σελίδες του ιστού (δεν περιορίζεται στη γειτονιά των σελίδων της απάντησης μιας επερώτησης CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 PgeRnk: Η αρχική έκδοση Just mesuing in-degee (cittion count doesn t ccount fo the uthoity of the souce of link. Initil pge nk eqution fo pge p: R( c R( q q in( out( q A pge q, gives n equl fction of its uthoity to ll the pges it points to (e.g.. c is nomlizing constnt set so tht the nk of ll pges lwys sums to. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7

PgeRnk: Η αρχική έκδοση (ΙΙ Cn view it s pocess of PgeRnk flowing fom pges to the pges they cite...9.5.5.3.3.3.8.8.3 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 PgeRnk: Ο Αρχικός Αλγόριθμος Itete nk-flowing pocess until convegence: Let S be the totl set of pges. Initilize p S: R( /S Until nks do not chnge (much (convegence Fo ech p S: R ( R( q q in( out( q Fo ech p S: R( R (/c (nomlize c R ( p S CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 3

Smple Stble Fixpoint....... CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 Παράδειγμα Επαναλήψεων CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 5

Rndom Sufe Model (Μοντέλο Τυχαίου Περιηγητή PgeRnk cn be seen s modeling ndom sufe tht stts on ndom pge nd then t ech point: ndomly follows link on the cuent pge. R( models the pobbility tht this ndom sufe will be on pge p t ny given time. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 6 Οι αδυναμίες της αρχικής έκδοσης: Rnk Sinks nd Rnk Leks Rnk sink: ny stongly connected set of k pges fom which no links point outwds poblem: nodes not in the sink eceive nk ndom sufe would enclve fo eve within the sink Rnk lek: ny individul pge with no outgoing link ny nk eching nk lek is lost foeve will cuse ll the nks to eventully convege to Rnk lek is specil cse of Rnk sink (fo k CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 7

Rnk Lek: Παράδειγμα b c b c.3.3.3.5.3.5.5.5.5.75.5.75.75.75.75.375.75.375.375.375.375.875.375.875.875.875.875.9375.875.9375.9375.9375.9375.688.9375.688.688.688.688.3.688.3.3.3.3.7.3.7.7.7.7.586.7.586.586.586.586.93.586.93 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 8 Τρόποι Αντιμετώπισης Lek nodes: Απαλοιφή όλων των lek nodes (those with out-degee Υπόθεση ότι κάθε lek node έχει έναν σύνδεσμο προς κάθε άλλη σελίδα Sink nodes. telepoting R( c q in( R( q out( q + E( CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 9

Αναθεωρώντας το Μοντέλου του Τυχαίου Περιηγητή PgeRnk cn be seen s modeling ndom sufe tht stts on ndom pge nd then t ech point: with pobbility E( ndomly jumps to pge p. othewise, ndomly follows link on the cuent pge. R( models the pobbility tht this ndom sufe will be on pge p t ny given time. // E jumps e needed to pevent the ndom sufe fom getting tpped in web sinks with no outgoing links. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 Ο αλγόριθμος PgeRnk Let S be the totl set of pges. Let p S: E( α/s (fo some <α<, e.g..5 Initilize p S: R( /S Until nks do not chnge (much (convegence Fo ech p S: R ( q in( R( q + out ( q E( Fo ech p S: R( R (/c (nomlize c R ( p S CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7

CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 PgeRnk: Διατύπωση με Γραμμική Αλγεβρα M p q if q out M p q if q p T, ( ( /, (, ( Tnsition mtix T 3 / / T M Adjcency mtix M The PgeRnk scoe R( of pge is defined s + ( ( ( ( ( p in q N q out q R p R The equivlent mtix eqution: N N R T R + ( CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 3 PgeRnk: Διατύπωση με Γραμμική Αλγεβρα 3 + ( 3 / / 3 + + ( 3/ 3/ 3 + + + + / ( 3/ / ( / ( 3/ ( / ( 3 N N R T R + (

Ο Αλγόριθμος PgeRnk function PgeRnk Input T: tnsition mtix, N: numbe of pges, b : decy fcto fo PgeRnk, M b : numbe of itetions output R* : PgeRnk scoes ( d /Ν * N // initil scoe fo ll pges is /Ν ( R* d (3 fo i to M b do // evlutes PgeRnk scoes R* b T R* + ( - b d etun R* CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 PgeRnk: Ταχύτητα σύγκλισης (Speed of Convegence Ely expeiments on Google used 3 million links. PgeRnk lgoithm conveged (within smll tolence in bout 5 itetions. Numbe of itetions equied fo convegence is empiiclly O(log n (whee n is the numbe of links. Theefoe clcultion is quite efficient. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 5

Pesonlized PgeRnk Μπορούμε να εξατομικεύσουμε / προκαταβάλουμε το PgeRnk, τροποποιώντας κατάλληλα το Ε (ώστε να μην περιγράφει μια ομοιόμορφη κατανομή Για παράδειγμα, με τον τρόπο αυτό μπορούμε να περιορίσουμε τα «τυχαία άλματα» σε ένα συγκεκριμένο σύνολο σελίδων Παράδειγμα: Αν pwww.csd.uoc.g/~hy63 τότε Ε(α αλλιώς E( // ευνοεί τις ιστοσελίδες που είναι κοντά (στο γράφο στην ιστοσελίδα // του μαθήματος CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 6 Simple Title Sech with PgeRnk (Google Rnking Use simple Boolen sech to sech web-pge titles nd nk the etieved pges by thei PgeRnk. Smple sech fo univesity : Altvist etuned ndom set of pges with univesity in the title (seemed to pefe shot URLs. Pimitive Google etuned the home pges of top univesities. Complete Google nking includes (bsed on univesity publictions pio to commeciliztion. Vecto-spce simility component. Keywod poximity component. HTML-tg weight component (e.g. title pefeence. PgeRnk component. Detils of cuent commecil nking functions e tde secets CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 7

Ανάλυση Συνδέσμων: Συμπεράσματα Η Ανάλυση συνδέσμων αξιοποιεί τη δομή του γράφου του Ιστού προκειμένου να βοηθήσει την ανάκτηση πληροφοριών Είναι ίσως η μεγαλύτερη καινοτομία στην αναζήτηση στον Ιστό Ο βασικό ατού της επιτυχίας του Google. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 8 Άλλες Εφαρμογές του PgeRnk: Cwling/Spideing Αξιοποίηση του PgeRnk για εστίαση της διάσχισης στις «σημαντικές σελίδες» Τρόπος Υπολογισμός του PgeRnk βάσει των σελίδων που έχουν ήδη συλλεχθεί Ταξινόμηση των σελίδων στην ουρά του cwle βάσει του εκτιμούμενου PgeRnk. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 9

Ανάλυση Συνδέσμων: Άλλες εφαρμογές Αναγνώριση κοινοτήτων (communities Έχει παρατηρηθεί ότι κάθε κοινότητα χαρακτηρίζεται από ένα σύνολο uthoity και hub σελίδων Αναγνώριση σελίδων spm (θα παρουσιαστεί στην επόμενη διάλεξη Web-spm pge identifiction Κατανόηση και Οπτικοποίηση μεγάλων Εννοιολογικών Σχημάτων Node Reputbility in PP Netwoks... CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 SALSA (Stochstic Appoch fo Link-Stuctued Anlysis Ο αλγόριθμος SALSA, όπως συμβαίνει και με τον HITS, διατάσει τις σελίδες μια απάντησης βάσει των υπερσυνδέσμων και στην διάκριση uthoity και hub σελίδων. Η διαφοροποίηση του από το HITS εντοπίζεται στα εξής : - καταφέρνει να αναγνωρίσει και να ανιχνεύσει περισσότερες σελίδες ως uthoities, σε θεματικές ομάδες εγγράφων όπου το HITS αδυνατεί. - θεωρεί λιγότερο στενή τη σχέση ανάμεσα στις uthoity και hub σελίδες CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7