Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 9 HΥ63 - Συστήματα Ανάκτησης Πληροφοριών Infomtion Retievl IR Systems Web Seching ΙΙ Τεχνικές Ανάλυσης Συνδέσμων Link Anlysis Techniques Γιάννης Τζίτζικας άλ ιάλεξη : 9 Ημερομηνία : CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Διάθρωση Bibliometics cittion nlysis, impct fcto, bibliogphic coupling, co-cittion, cittions vs links Authoities nd Hubs HITS lgoithm PgeRnk Pesonlized PgeRnk Othe pplictions of Link Anlysis Cwling Revese Engineeing CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete
Ανάκτηση Πληροφοριών από τον Ιστό: Προκλήσεις και Απαιτήσεις Gtheing techniques Sclble Index Stuctues efficiently updtble Impove the discimintion bility Θα δούμε τεχνικές που συμβάλουν σε αυτό CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3 Bibliometics: Cittion Anlysis Πολλά έγγραφα περιλαμβάνουν βιβλιογραφία, δηλαδή μνείες αναφορές σε ήδη δημοσιευμένα άρθρα. Θεωρώντας τις μνείες ως συνδέσμους, μπορούμε να δούμε μια συλλογή εγγράφων ως έναν διευθυνόμενο γράφο. Η δομή αυτού του γράφου είναι ανεξάρτητη των περιεχομένων και από αυτόν μπορούμε να εξάγουμε συμπεράσματα για την ομοιότητα των εγγράφων και τη δομή του χώρου. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete
Impct Fcto Βαθμός Επιρροής Μέτρο σπουδαιότητας ποιότητας, επίδρασης των επιστημονικών περιοδικών που προτάθηκε από τον Gfield το 97. Μετρά πόσο συχνά τα άρθρα του περιοδικού αναφέρονται από άλλα μεταγενέστερα άρθρα Υπολογίζεται και δημοσιεύεται ετησίως από το Institute fo Scientific Infomtion ISI. Ο βαθμός επιρροής ενός περιοδικού J το έτος Υ είναι ο μέσος αριθμός των αναφορών σε άρθρα δημοσιευμένα στο περιοδικό J τα έτη Υ- ή Υ-, από άρθρα δημοσιευμένα σε άλλα περιοδικά το έτος Υ. Δεν λαμβάνει υπόψη την «ποιότητα» των άρθρων που κάνουν τις αναφορές CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 5 Συμβολισμοί A ina outa CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 6
Bibliogphic Coupling Βιβλιογραφική Ζεύξη Μέτρο ομοιότητας εγγράφων που προτάθηκε από τον Kessle τo 963 Η βιβλιογραφική ζεύξη εγγράφων Α και Β ισούται με το πλήθος των εγγράφων που αναφέρονται και από το Α και από το Β. Το μέγεθος της τομής των βιβλιογραφιών τους Κανονικοποίηση βάσει του μεγέθους των βιβλιογραφιών A B out A out B out A out B out A out B CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 7 Co-Cittion Ένα διαφορετικό μέτρο ομοιότητας που προτάθηκε από τον Smll το 973 Ο βαθμός co-cittion εγγράφων Α και Β ισούται με το πλήθος των εγγράφων που αναφέρουν και το Α και το Β. Κανονικοποίηση βάσει του συνολικού αριθμού εγγράφων που αναφέρουν ή το Α ή το Β in A in B A B in A in B in A in B CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 8
Μνείες vs. Σύνδεσμοι Cittions vs. Links Οι σύνδεσμοι του Ιστού είναι κάπως διαφορετικοί από τις αναφορές: Mny links e nvigtionl. Mny pges with high in-degee e potls not content povides. Not ll links e endosements. Compny websites don t point to thei competitos. Cittions to elevnt litetue is enfoced by pee-eview. eview CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 9 Ο Γράφος του Ιστού Θεωρούμε τον Ιστό ως έναν διευθυνόμενο γράφο GV,E Διαγράφουμε τους κυκλικούς συνδέσμους αυτοσυνδέσμους μ ς self- hypelinks Οι πολλαπλοί σύνδεσμοι από μια σελίδα p σε μια q καταπίπτουν σε έναν σύνδεσμο p,q in E CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete
Authoities Αυθεντίες Authoities e pges tht e ecognized s poviding significnt, tustwothy, nd useful infomtion on topic. Α simple mesue of uthoity could be inp Howeve in-degee tets ll links s equl όπως στο βαθμό επιρροής. Should links fom pges tht e themselves uthoittive count moe? CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Hubs Κομβικά Σημεία Hubs e index pges tht povide lots of useful links to elevnt content pges topic uthoities. Παραδείγματα Hub pges για ανάκτηση πληροφοριών: http://tec.nist.gov/ http://www-k.is.tokushim-u.c.jp/membe/kit/nlp/ir.html tokushim u c html Α simple mesue fo identifying hubs could be outp CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete
HITS Hypelink-Induced Topic Sech Αλγόριθμος που προτάθηκε από τον Kleinbeg το 998. Προσπαθεί να διακρίνει uthoities και hubs για ένα συγκεκριμένο θέμα topic, αναλύοντας το σχετικό υπογράφο του Ιστού. Βασίζεται στις εξής αμοιβαίως οριζόμενες και αναδρομικές προτάσεις: Hubs point to lots of uthoities. Authoities e pointed to by lots of hubs. Hubs Authoities Hubs nd Authoities tend to fom biptite gph nodes cn be ptitioned into goups such tht thee e no links between the nodes of the sme goup: CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3 Ο Αλγόριθμος HITS Εντοπίζει τα hubs και τα uthoities για ένα συγκεκριμένο θέμα topic που προσδιορίζεται από μια επερώτηση q Κατ αρχάς προσδιορίζεται το σύνολο S των σχετικών σελίδων με το q και αυτό ονομάζεται βάση bse set Κατόπιν, αναλύει τη δομή των συνδέσμων στον υπογράφο του ιστού που ορίζεται από το S, και διακρίνει hubs και uthoities. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete
Κατασκευή του Υπογράφου Βάσης Bse Subgph Fo specific quey Q, let the set of documents etuned by stndd sech engine be clled the oot set R i.e. RAnsQ. Initilize S to R. Add to S ll pges pointed to by ny pge in R. Add to S ll pges tht point to ny pge in R. S R R nsq { out p p R} { in p p } S : R R CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 5 Περιορίζοντας το μέγεθος της Βάσης To limit computtionl expense: Limit numbe of oot pges to the top pges etieved fo the quey. Limit numbe of bck-pointe pointe pges to ndom setoftmost5 pges etuned by evese link quey. To eliminte puely nvigtionl links: Eliminte links between two pges on the sme host. To eliminte non-uthoity-conveying links: Allow only m m 8 pges fom given host s pointes to ny individul pge. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 6
Authoities nd In-Degee Even within the bse set S fo given quey, the nodes with highest in-degee e not necessily uthoities my just be genelly popul pges like Yhoo o Amzon. Tue uthoity ypges e pointed to by numbe of hubs i.e. pges tht point to lots of uthoities. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 7 HITS: Επαναληπτικός αλγόριθμος Use n itetive lgoithm to slowly convege on mutully einfocing set of hubs nd uthoities. Mintin fo ech pge p S: Authoity scoe: p vecto Hub scoe: hp vecto h Initilize ll php Mintin nomlized scoes: p p S p S h p CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 8
HITS: Κανόνες Ενημέρωσης Updte Rules Authoities e pointed to by lots of good hubs: p h q q in p Hubs point to lots of good uthoities: h p q q out p CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 9 Παράδειγμα Κανόνων Ενημέρωσης h + h + h3 3 5 h 5 + 6 + 7 6 7 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete
HITS: Επαναληπτικός Αλγόριθμος Initilize fo ll p S: php Fo i to k: Fo ll p S: p Fo ll p S: Fo ll p S: Fo ll p S: q in p updte uth. scoes h q h p q q out p pp/c hp hp/c c: updte hub scoes c c p S p hh p nomlize nomlizel h CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete p S HITS: Σύγκλιση Με άπειρες επαναλήψεις ο αλγόριθμος συγκλίνει σε ένα σταθερό σημείο fix-point. p Define A to be the djcency mtix fo the subgph defined by S. A ij foi i S, j S iff i j Authoity vecto,, conveges to the pincipl eigenvecto of A T A Hub vecto, h, conveges to the pincipl eigenvecto of AA T Στην πράξη, επαναλήψεις συνήθως επαρκούν. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete
HITS: Αποτελέσματα Authoities fo quey: Jv jv.sun.com comp.lng.jv FAQ Authoities fo quey sech engine Yhoo.com Excite.com Lycos.com Altvist.com Authoities fo quey Gtes Micosoft.com odhed.com Σόλ Σχόλια In most cses, the finl uthoities wee not in the initil oot set geneted using Altvist. Authoities wee bought in fom linked nd evese-linked pges nd then HITS computed thei high uthoity scoe. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3 Εύρεση παρόμοιων σελίδων αξιοποιώντας τη δομή συνδέσμων Given pge p, let R the oot set be k e.g. pges tht point to p Rinp Gow bse set S fom R. Run HITS on S. Retun the best uthoities in S s the best simil-pges fo p. θυμηθείτε το co-cittion Finds uthoities in the link neighbo-hood of p. Αποτελέσματα για hond.com toyot.com fod.com bmwus.com stuncs.com nissnmotos.com udi.com volvocs.com CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete
PgeRnk Μια διαφορετική τεχνική ανάλυσης συνδέσμων που χρησιμοποιείται από το Google Bin & Pge, 998. Δεν κάνει διάκριση μεταξύ αυθεντιών και κομβικών σημείων Διατάσσει τις σελίδες βάσει κύρους uthoity. Εφαρμόζεται σε όλες τις σελίδες του ιστού δεν περιορίζεται στη γειτονιά των σελίδων της απάντησης μιας επερώτησης CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 5 PgeRnk: Η αρχική έκδοση Η απλή καταμέτρηση των εισερχόμενων συνδέσμων δηλαδή ο in-degee ή αλλιώς cittion count δεν λαμβάνει υπόψη το κύρος των σελίδων από τις οποίες εκκινούν οι εισερχόμενοι σύνδεσμοι. Αρχικός βαθμός pge nk για μια σελίδα p: R p c R q out q q in p Μια σελίδα q «δίδει ίσο ποσοστό τους κύρους της» στις σελίδες που δείχνει. Το c είναι μια σταθερά για κανονικοποίηση ώστε το άθροισμα των βαθμών των σελίδων να ισούται με CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 6
PgeRnk: Η αρχική έκδοση ΙΙ Μπορούμε να εκλάβουμε τη βαθμολόγηση ως μια διαδικασία ροής «κύρους». Η ροή γίνεται μέσω των συνδέσμων και έχει την ίδια κατεύθυνση με αυτούς..5.8.9.5.3.3.3.8.3 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 7 PgeRnk: Ο Αρχικός Αλγόριθμος Επανάληψη της διαδικασίας ροής μέχρι να έχουμε σύγκλιση: Let S be the totl set of pges. Initilize p S: Rp /S Until nks do not chnge much convegence Fo ech p S: R p R q out q q in p Fo ech p S: Rp R p/c nomlize c R p p S CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 8
Παράδειγμα Σημείου Σταθεροποίησης Fixpoint....... CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 9 Παράδειγμα Επαναλήψεων CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3
Rndom Sufe Model Μοντέλο Τυχαίου Περιηγητή Ο PgeRnk μπορεί να θεωρηθεί οτι μοντελοποιεί έναν «τυχαίο περιηγητή» ndom sufe ο οποίος ξεκινάει από μια τυχαία επιλεγμένη σελίδα και κατόπιν τυχαία επιλέγει και ακολουθεί έναν σύνδεσμο από την τρέχουσα σελίδα, κ.ο.κ Το Rp εκφράζει την πιθανότητα να βρίσκεται ο τυχαίος περιηγητής στη σελίδα p μια δεδομένη στιγμή CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3 Οι αδυναμίες της αρχικής έκδοσης: Rnk Sinks nd Rnk Leks Rnk sink καταβόθρα βαθμών: ny stongly connected set of k pges fom which no links point outwds poblem: nodes not in the sink eceive nk ndom sufe would enclve fo eve within the sink Rnk lek διαρροή: ny individul pge with no outgoing link ny nk eching nk lek is lost foeve will cuse ll the nks to eventully convege to Rnk lek is specil cse of Rnk sink fo k CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3
Rnk Lek: Παράδειγμα b c b c.3.3.3.5.3.5.5.5.5.75.5.75.75.75.75.375.75.375 375.375.375375.375375.875.375.875.875.875.875.9375.875.9375.9375.9375.9375.688.9375.688.688.688.688.3.688.3.3.3.3.77.33.77.7.7.7.586.7.586.586.586.586.93.586.93 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 33 Τρόποι Αντιμετώπισης Lek nodes: Μια σκέψη θα ήταν να απαλείψουμε όλους τους lek nodes those with outdegee Μια άλλη λύση θα ήταν να θεωρήσουμε ότι κάθε lek node έχει ένα σύνδεσμο προς κάθε άλλη σελίδα Sink nodes. «τηλεμεταφορά» telepoting R q R p c + E p q in p out q CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3
Αναθεωρώντας το Μοντέλου του Τυχαίου Περιηγητή Ο PgeRnk μπορεί να θεωρηθεί οτι μοντελοποιεί έναν «τυχαίο περιηγητή» ndom sufe ο οποίος ξεκινάει από μια τυχαία επιλεγμένη σελίδα και κατόπιν με πιθανότητα Εp κάνει ένα άλμα σε μια τυχαία σελίδα, αλλιώς με πιθανότητα -Ep επιλέγει και ακολουθεί έναν σύνδεσμο από την τρέχουσα σελίδα, κ.ο.κ Το Rp εκφράζει την πιθανότητα να βρίσκεται ο τυχαίος περιηγητής στη σελίδα p μια δεδομένη στιγμή Σημείωση: Τα τυχαία άλματα αποτρέπουν την «παγίδευση» του περιηγητή σε καταβόθρες ή σε σελίδες που δεν έχουν εξερχόμενους συνδέσμους CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 35 Ο αλγόριθμος PgeRnk Let S be the totl set of pges. Let p S: p Ep α/s fo some <α<,, e.g..5 Initilize p S: Rp /S Until nks do not chnge much convegence g Fo ech p S: R q R p + E p out q q in p Fo ech p S: Rp R p/c nomlize c R p p S CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 36
PgeRnk: Διατύπωση με Γραμμική Αλγεβρα 3 M Adjcency mtix M Tnsition mtix T j y M p q if q out M p q if q p T, /,, Tnsition mtix T / T / The PgeRnk scoe Rp of pge is defined s + q R R + p in q N q out q p R CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 37 The equivlent mtix eqution: N N R T R + PgeRnk: Διατύπωση με Γραμμική Αλγεβρα 3 N N R T R + / + 3 / 3 + + 3/ 3 + + / / 3/ / 3 3/ 3 + + / 3/ / 3 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 38
Ο Αλγόριθμος PgeRnk function PgeRnk Input T: tnsition mtix, N: numbe of pges, b : decy fcto fo PgeRnk, M b : numbe of itetions output R* : PgeRnk scoes d /Ν * N // initil scoe fo ll pges is /Ν R* d 3 fo i to M b do // evlutes PgeRnk scoes R* b T R* + - b d etun R* CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 39 PgeRnk: Ταχύτητα σύγκλισης Speed of Convegence Ely expeiments on Google used 3 million links. PgeRnk lgoithm conveged within smll tolence in bout 5 itetions. Numbe of itetions equied fo convegence is empiiclly Olog n whee n is the numbe of links. Theefoe clcultion is quite efficient. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete
Pesonlized PgeRnk Εξατομικευμένος PgeRnk Μπορούμε να εξατομικεύσουμε / προκαταβάλουμε το PgeRnk, τροποποιώντας κατάλληλα το Ε ώστε να μην περιγράφει μια ομοιόμορφη κατανομή Για παράδειγμα, με τον τρόπο αυτό μπορούμε να περιορίσουμε τα «τυχαία άλματα» σε ένα συγκεκριμένο σύνολο σελίδων Παράδειγμα: Αν pwww.csd.uoc.g/~hy63 τότε Εpα αλλιώς Ep // ευνοεί τις ιστοσελίδες που είναι κοντά στο γράφο στην ιστοσελίδα // του μαθήματος ΗΥ63 CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete Simple Title Sech with PgeRnk Google Rnking Use simple Boolen sech to sech web-pge titles nd nk the etieved pges by thei PgeRnk. Smple sech fo univesity : Altvist etuned ndom set of pges with univesity in the title seemed to pefe shot URLs. Pimitive Google etuned the home pges of top univesities. Complete Google nking includes bsed on univesity publictions pio to commeciliztion. Vecto-spce simility component. Keywod poximity component. HTML-tg weight component e.g. title pefeence. PgeRnk component. Detils of cuent commecil nking functions e tde secets CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete
Ανάλυση Συνδέσμων: Συμπεράσματα Η Ανάλυση συνδέσμων αξιοποιεί τη δομή του γράφου του Ιστού προκειμένου να βοηθήσει την ανάκτηση πληροφοριών Είναι ίσως η μεγαλύτερη καινοτομία στην αναζήτηση στον Ιστό Ο βασικό ατού της επιτυχίας του Google. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 3 Άλλες Εφαρμογές του PgeRnk: Cwling/Spideing Αξιοποίηση του PgeRnk για εστίαση της διάσχισης στις «σημαντικές σελίδες» Τρόπος Υπολογισμός του PgeRnk βάσει των σελίδων που έχουν ήδη συλλεχθεί Ταξινόμηση των σελίδων στην ουρά του cwle βάσει του εκτιμούμενου PgeRnk. CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete
Ανάλυση Συνδέσμων: Άλλες εφαρμογές Αναγνώριση κοινοτήτων communities Έχει παρατηρηθεί ότι κάθε κοινότητα χαρακτηρίζεται από ένα σύνολο uthoity και hub σελίδων Αναγνώριση σελίδων spm θα παρουσιαστεί στην επόμενη διάλεξη Web-spm pge identifiction Κατανόηση και Οπτικοποίηση μεγάλων Εννοιολογικών Σχημάτων Node Reputbility in PP Netwoks... και πολλές άλλες εφαρμογές CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 5 SALSA Stochstic Appoch fo Link-Stuctued Anlysis Ο αλγόριθμος SALSA, όπως συμβαίνει και με τον HITS, διατάσει τις σελίδες μια απάντησης βάσει των υπερσυνδέσμων και στην διάκριση uthoity και hub σελίδων. Η διαφοροποίηση του από το HITS εντοπίζεται στα εξής : - καταφέρνει να αναγνωρίσει και να ανιχνεύσει περισσότερες σελίδες ως uthoities, σε θεματικές ομάδες εγγράφων όπου το HITS αδυνατεί. - θεωρεί λιγότερο στενή τη σχέση ανάμεσα στις uthoity και hub σελίδες CS63 - Infomtion Retievl Systems Ynnis Tzitziks, U. of Cete 6