Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 7 HΥ63 - Συστήματα Ανάκτησης Πληροφοριών Infomtion Retievl (IR Systems Web Seching I: Histoy nd Bsic Notions, Cwling II: Link Anlysis Techniques III: Web Spm Pge Identifiction Γιάννης Τζίτζικας ιάλεξη : 9 Ημερομηνία : 5 / / 7 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 76 Διάθρωση Bibliometics cittion nlysis, impct fcto, bibliogphic coupling, co-cittion, cittions vs links Authoities nd Hubs (HITS lgoithm PgeRnk Pesonlized PgeRnk Othe pplictions of Link Anlysis Cwling Revese Engineeing CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 77
Ανάκτηση Πληροφοριών από τον Ιστό: Προκλήσεις και Απαιτήσεις Gtheing techniques Sclble Index Stuctues efficiently updtble Impove the discimintion bility Θα δούμε τεχνικές που συμβάλουν σε αυτό CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 78 Bibliometics: Cittion Anlysis Πολλά έγγραφα περιλαμβάνουν βιβλιογραφία, δηλαδή μνείες (αναφορές σε ήδη δημοσιευμένα άρθρα. Θεωρώντας τις μνείες ως συνδέσμους, μπορούμε να δούμε μια συλλογή εγγράφων ως έναν διευθυνόμενο γράφο. Η δομή αυτού του γράφου είναι ανεξάρτητη των περιεχομένων και από αυτόν μπορούμε να εξαγάγουμε συμπεράσματα για την ομοιότητα των εγγράφων καιτηδομήτουχώρου. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 79
Impct Fcto (Βαθμός Επιρροής Μέτρο σπουδαιότητας (ποιότητας, επίδρασης των επιστημονικών περιοδικών που προτάθηκε από τον Gfield το 97. Μετρά πόσο συχνά τα άρθρα του περιοδικού αναφέρονται από άλλα (μεταγενέστερα άρθρα Υπολογίζεται και δημοσιεύεται ετησίως από το Institute fo Scientific Infomtion (ISI. Ο βαθμός επιρροής ενός περιοδικού J το έτος Υ είναι ο μέσος αριθμός των αναφορών σε άρθρα δημοσιευμένα στο περιοδικό J τα έτη Υ- ήυ-, από άρθρα δημοσιευμένα σε άλλα περιοδικά το έτος Υ. Δεν λαμβάνει υπόψη την «ποιότητα» των άρθρων που κάνουν τις αναφορές CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 8 Συμβολισμοί A in(a out(a CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 8
Bibliogphic Coupling (Βιβλιογραφική Ζεύξη Μέτρο ομοιότητας εγγράφων που προτάθηκε από τον Kessle τo 963 Η βιβλιογραφική ζεύξη εγγράφων Α και Β ισούται με το πλήθος των εγγράφων που αναφέρονται και από το Α και από το Β. Το μέγεθος της τομής των βιβλιογραφιών τους Κανονικοποίηση βάσει του μεγέθους των βιβλιογραφιών A B out( A out( B out( A out( B out( A out( B CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 8 Co-Cittion Ένα διαφορετικό μέτρο ομοιότητας που προτάθηκε από τον Smll το 973 Η βαθμός co-cittion εγγράφων Α και Β ισούται με το πλήθος των εγγράφων που αναφέρουν και το Α και το Β. Κανονικοποίηση βάσει του συνολικού αριθμού εγγράφων που αναφέρουν ή το Α ή το Β in( A in( B A B in( A in( B in( A in( B CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 83
Μνείες vs. Σύνδεσμοι (Cittions vs. Links Οι σύνδεσμοι του Ιστού είναι κάπως διαφορετικοί από τις αναφορές: Mny links e nvigtionl. Mny pges with high in-degee e potls (not content povides. Not ll links e endosements. Compny websites don t point to thei competitos. Cittions to elevnt litetue is enfoced by pee-eview. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 8 ΟΓράφοςτουΙστού Θεωρούμε τον Ιστό ως έναν διευθυνόμενο γράφο G(V,E Διαγράφουμε τους κυκλικούς συνδέσμους (αυτοσυνδέσμους selfhypelinks Οι πολλαπλοί σύνδεσμοι (από μια σελίδα p σε μια q καταπίπτουν σε έναν σύνδεσμο (p,q in E CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 85
Authoities (Αυθεντίες Authoities e pges tht e ecognized s poviding significnt, tustwothy, nd useful infomtion on topic. Α simple mesue of uthoity could be in( Howeve in-degee tets ll links s equl (όπως στον βαθμό επιρροής. Should links fom pges tht e themselves uthoittive count moe? CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 86 Hubs (Κομβικά Σημεία Hubs e index pges tht povide lots of useful links to elevnt content pges (topic uthoities. Παραδείγματα Hub pges για ανάκτηση πληροφοριών: http://tec.nist.gov/ http://www-k.is.tokushim-u.c.jp/membe/kit/nlp/ir.html Α simple mesue fo identifying hubs could be out( CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 87
HITS (Hypelink-Induced Topic Sech Αλγόριθμος που προτάθηκε από τον Kleinbeg το 998. Προσπαθεί να διακρίνει uthoities και hubs για ένα συγκεκριμένο θέμα (topic, αναλύοντας το σχετικό υπογράφο του Ιστού. Βασίζεται στις εξής (αμοιβαίως οριζόμενες και αναδρομικές προτάσεις: Hubs point to lots of uthoities. Authoities e pointed to by lots of hubs. Hubs Authoities Hubs nd Authoities tend to fom biptite gph (nodes cn be ptitioned into goups such tht thee e no links between the nodes of the sme gou: CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 88 Ο Αλγόριθμος HITS Εντοπίζει τα hubs και τα uthoities για ένα συγκεκριμένο θέμα (topic που προσδιορίζεται από μια επερώτηση q Κατ αρχάς προσδιορίζεται το σύνολο S των σχετικών σελίδων με το q και αυτό ονομάζεται βάση (bse set Κατόπιν, αναλύει τη δομή των συνδέσμων στον υπογράφο του ιστού που ορίζεται από το S, και διακρίνει hubs και uthoities. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 89
Κατασκευή του Υπογράφου Βάσης (Bse Subgph Fo specific quey Q, let the set of documents etuned by stndd sech engine be clled the oot set R (i.e. RAns(Q. Initilize S to R. Add to S ll pges pointed to by ny pge in R. Add to S ll pges tht point to ny pge in R. S R R ns( Q S : R ( { out( p R} ( { in( p R} CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 9 Περιορίζοντας το μέγεθος της Βάσης To limit computtionl expense: Limit numbe of oot pges to the top pges etieved fo the quey. Limit numbe of bck-pointe pges to ndom set of t most 5 pges etuned by evese link quey. To eliminte puely nvigtionl links: Eliminte links between two pges on the sme host. To eliminte non-uthoity-conveying links: Allow only m (m 8 pges fom given host s pointes to ny individul pge. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 9
Authoities nd In-Degee Even within the bse set S fo given quey, the nodes with highest in-degee e not necessily uthoities (my just be genelly popul pges like Yhoo o Amzon. Tue uthoity pges e pointed to by numbe of hubs (i.e. pges tht point to lots of uthoities. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 9 HITS: Επαναληπτικός αλγόριθμος Use n itetive lgoithm to slowly convege on mutully einfocing set of hubs nd uthoities. Mintin fo ech pge p S: Authoity scoe: ( (vecto Hub scoe: h( (vecto h Initilize ll (h( Mintin nomlized scoes: ( h( p S p S CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 93
HITS: Κανόνες Ενημέρωσης (Updte Rules Authoities e pointed to by lots of good hubs: ( q in( h( q Hubs point to lots of good uthoities: h( ( q q out( CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 9 Παράδειγμα Κανόνων Ενημέρωσης ( h( + h( + h(3 3 5 h( (5 + (6 + (7 6 7 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 95
HITS: Επαναληπτικός Αλγόριθμος Initilize fo ll p S: (h( Fo i to k: Fo ll p S: (updte uth. scoes ( Fo ll p S: h( Fo ll p S: Fo ll p S: q in( ((/c h( q q out( h( h(/c c: (updte hub scoes ( q c c CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 96 p S p S ( h( (nomlize (nomlize h HITS: Σύγκλιση Με άπειρες επαναλήψεις ο αλγόριθμος συγκλίνει σε ένα σταθερό σημείο (fix-point. Define A to be the djcency mtix fo the subgph defined by S. A ij fo i S, j S iff i j Authoity vecto,, conveges to the pincipl eigenvecto of A T A Hub vecto, h, conveges to the pincipl eigenvecto of AA T Στην πράξη, επαναλήψεις συνήθως επαρκούν. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 97
HITS: Αποτελέσματα Authoities fo quey: Jv jv.sun.com comp.lng.jv FAQ Authoities fo quey sech engine Yhoo.com Excite.com Lycos.com Altvist.com Authoities fo quey Gtes Micosoft.com odhed.com Σχόλια In most cses, the finl uthoities wee not in the initil oot set geneted using Altvist. Authoities wee bought in fom linked nd evese-linked pges nd then HITS computed thei high uthoity scoe. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 98 Εύρεση παρόμοιων σελίδων αξιοποιώντας τη δομή συνδέσμων Given pge p, let R (the oot set be k (e.g. pges tht point to p ( Rin( Gow bse set S fom R. Run HITS on S. Retun the best uthoities in S s the best simil-pges fo p. θυμηθείτε το co-cittion Finds uthoities in the link neighbo-hood of p. Αποτελέσματα για hond.com toyot.com fod.com bmwus.com stuncs.com nissnmotos.com udi.com volvocs.com CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 99
PgeRnk Μια διαφορετική τεχνική ανάλυσης συνδέσμων που χρησιμοποιείται από το Google (Bin & Pge, 998. Δεν κάνει διάκριση μεταξύ αυθεντιών και κομβικών σημείων Διατάσσει τις σελίδες βάσει κύρους (uthoity. Εφαρμόζεται σε όλες τις σελίδες του ιστού (δεν περιορίζεται στη γειτονιά των σελίδων της απάντησης μιας επερώτησης CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 PgeRnk: Η αρχική έκδοση Just mesuing in-degee (cittion count doesn t ccount fo the uthoity of the souce of link. Initil pge nk eqution fo pge p: R( c R( q q in( out( q A pge q, gives n equl fction of its uthoity to ll the pges it points to (e.g.. c is nomlizing constnt set so tht the nk of ll pges lwys sums to. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7
PgeRnk: Η αρχική έκδοση (ΙΙ Cn view it s pocess of PgeRnk flowing fom pges to the pges they cite...9.5.5.3.3.3.8.8.3 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 PgeRnk: Ο Αρχικός Αλγόριθμος Itete nk-flowing pocess until convegence: Let S be the totl set of pges. Initilize p S: R( /S Until nks do not chnge (much (convegence Fo ech p S: R ( R( q q in( out( q Fo ech p S: R( R (/c (nomlize c R ( p S CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 3
Smple Stble Fixpoint....... CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 Παράδειγμα Επαναλήψεων CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 5
Rndom Sufe Model (Μοντέλο Τυχαίου Περιηγητή PgeRnk cn be seen s modeling ndom sufe tht stts on ndom pge nd then t ech point: ndomly follows link on the cuent pge. R( models the pobbility tht this ndom sufe will be on pge p t ny given time. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 6 Οι αδυναμίες της αρχικής έκδοσης: Rnk Sinks nd Rnk Leks Rnk sink: ny stongly connected set of k pges fom which no links point outwds poblem: nodes not in the sink eceive nk ndom sufe would enclve fo eve within the sink Rnk lek: ny individul pge with no outgoing link ny nk eching nk lek is lost foeve will cuse ll the nks to eventully convege to Rnk lek is specil cse of Rnk sink (fo k CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 7
Rnk Lek: Παράδειγμα b c b c.3.3.3.5.3.5.5.5.5.75.5.75.75.75.75.375.75.375.375.375.375.875.375.875.875.875.875.9375.875.9375.9375.9375.9375.688.9375.688.688.688.688.3.688.3.3.3.3.7.3.7.7.7.7.586.7.586.586.586.586.93.586.93 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 8 Τρόποι Αντιμετώπισης Lek nodes: Απαλοιφή όλων των lek nodes (those with out-degee Υπόθεση ότι κάθε lek node έχει έναν σύνδεσμο προς κάθε άλλη σελίδα Sink nodes. telepoting R( c q in( R( q out( q + E( CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 9
Αναθεωρώντας το Μοντέλου του Τυχαίου Περιηγητή PgeRnk cn be seen s modeling ndom sufe tht stts on ndom pge nd then t ech point: with pobbility E( ndomly jumps to pge p. othewise, ndomly follows link on the cuent pge. R( models the pobbility tht this ndom sufe will be on pge p t ny given time. // E jumps e needed to pevent the ndom sufe fom getting tpped in web sinks with no outgoing links. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 Ο αλγόριθμος PgeRnk Let S be the totl set of pges. Let p S: E( α/s (fo some <α<, e.g..5 Initilize p S: R( /S Until nks do not chnge (much (convegence Fo ech p S: R ( q in( R( q + out ( q E( Fo ech p S: R( R (/c (nomlize c R ( p S CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7
CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 PgeRnk: Διατύπωση με Γραμμική Αλγεβρα M p q if q out M p q if q p T, ( ( /, (, ( Tnsition mtix T 3 / / T M Adjcency mtix M The PgeRnk scoe R( of pge is defined s + ( ( ( ( ( p in q N q out q R p R The equivlent mtix eqution: N N R T R + ( CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 3 PgeRnk: Διατύπωση με Γραμμική Αλγεβρα 3 + ( 3 / / 3 + + ( 3/ 3/ 3 + + + + / ( 3/ / ( / ( 3/ ( / ( 3 N N R T R + (
Ο Αλγόριθμος PgeRnk function PgeRnk Input T: tnsition mtix, N: numbe of pges, b : decy fcto fo PgeRnk, M b : numbe of itetions output R* : PgeRnk scoes ( d /Ν * N // initil scoe fo ll pges is /Ν ( R* d (3 fo i to M b do // evlutes PgeRnk scoes R* b T R* + ( - b d etun R* CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 PgeRnk: Ταχύτητα σύγκλισης (Speed of Convegence Ely expeiments on Google used 3 million links. PgeRnk lgoithm conveged (within smll tolence in bout 5 itetions. Numbe of itetions equied fo convegence is empiiclly O(log n (whee n is the numbe of links. Theefoe clcultion is quite efficient. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 5
Pesonlized PgeRnk Μπορούμε να εξατομικεύσουμε / προκαταβάλουμε το PgeRnk, τροποποιώντας κατάλληλα το Ε (ώστε να μην περιγράφει μια ομοιόμορφη κατανομή Για παράδειγμα, με τον τρόπο αυτό μπορούμε να περιορίσουμε τα «τυχαία άλματα» σε ένα συγκεκριμένο σύνολο σελίδων Παράδειγμα: Αν pwww.csd.uoc.g/~hy63 τότε Ε(α αλλιώς E( // ευνοεί τις ιστοσελίδες που είναι κοντά (στο γράφο στην ιστοσελίδα // του μαθήματος CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 6 Simple Title Sech with PgeRnk (Google Rnking Use simple Boolen sech to sech web-pge titles nd nk the etieved pges by thei PgeRnk. Smple sech fo univesity : Altvist etuned ndom set of pges with univesity in the title (seemed to pefe shot URLs. Pimitive Google etuned the home pges of top univesities. Complete Google nking includes (bsed on univesity publictions pio to commeciliztion. Vecto-spce simility component. Keywod poximity component. HTML-tg weight component (e.g. title pefeence. PgeRnk component. Detils of cuent commecil nking functions e tde secets CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 7
Ανάλυση Συνδέσμων: Συμπεράσματα Η Ανάλυση συνδέσμων αξιοποιεί τη δομή του γράφου του Ιστού προκειμένου να βοηθήσει την ανάκτηση πληροφοριών Είναι ίσως η μεγαλύτερη καινοτομία στην αναζήτηση στον Ιστό Ο βασικό ατού της επιτυχίας του Google. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 8 Άλλες Εφαρμογές του PgeRnk: Cwling/Spideing Αξιοποίηση του PgeRnk για εστίαση της διάσχισης στις «σημαντικές σελίδες» Τρόπος Υπολογισμός του PgeRnk βάσει των σελίδων που έχουν ήδη συλλεχθεί Ταξινόμηση των σελίδων στην ουρά του cwle βάσει του εκτιμούμενου PgeRnk. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 9
Ανάλυση Συνδέσμων: Άλλες εφαρμογές Αναγνώριση κοινοτήτων (communities Έχει παρατηρηθεί ότι κάθε κοινότητα χαρακτηρίζεται από ένα σύνολο uthoity και hub σελίδων Αναγνώριση σελίδων spm (θα παρουσιαστεί στην επόμενη διάλεξη Web-spm pge identifiction Κατανόηση και Οπτικοποίηση μεγάλων Εννοιολογικών Σχημάτων Node Reputbility in PP Netwoks... CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7 SALSA (Stochstic Appoch fo Link-Stuctued Anlysis Ο αλγόριθμος SALSA, όπως συμβαίνει και με τον HITS, διατάσει τις σελίδες μια απάντησης βάσει των υπερσυνδέσμων και στην διάκριση uthoity και hub σελίδων. Η διαφοροποίηση του από το HITS εντοπίζεται στα εξής : - καταφέρνει να αναγνωρίσει και να ανιχνεύσει περισσότερες σελίδες ως uthoities, σε θεματικές ομάδες εγγράφων όπου το HITS αδυνατεί. - θεωρεί λιγότερο στενή τη σχέση ανάμεσα στις uthoity και hub σελίδες CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete, Sping 7