Ανάκτηση Κειμένου (εισαγωγικά θέματα)

Θέματα σχετικά με από τον Παγκόσμιο Ιστό Ανάκτηση Κειμένου (εισαγωγικά θέματα) Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 2 Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Βάσεις Κειμένων (document databases) Μεγάλη συλλογή από κείμενα από διάφορες πηγές: [news artcles, research papers, books, dgtal lbrares, e-mal messages, and Web pages, lbrary database, etc.] Τα δεδομένα δεν ακολουθούν κάποιο αυστηρό μοντέλο ημιδομημένα sem-structured Informaton retreval Ανάκτηση Πληροφορίας Η πληροφορία οργανώνεται σε (ένα μεγάλο αριθμό) από κείμενα -documents Informaton retreval problem: εντοπισμός των σχετικών κειμένων (documents) με βάση την είσοδο του χρήστη όπως λέξεις κλειδιά ή παραδείγματα κειμένου IR συστήματα Κατάλογοι βιβλιοθηκών Onlne document management systems IR vs. DBMS Ενημερώσεις, επεξεργασία δοσοληψιών κλπ Ερωτήσεις με λέξεις κλειδιά, rankng(διαβάθμιση)/relevance Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 3 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 4 Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Βασικές έννοιες Ένα έγγραφο (document) αρχείο κειμένου μπορεί να περιγράφει από ένα σύνολο αντιπροσωπευτικών λέξεωνκλειδιά (keywords) που ονομάζονται όροι δεικτοδότησης - ndex terms. ιαφορετικοί όροι με διαφορετικό βαθμό σχετικότητας μπορούν να χρησιμοποιηθούν για την περιγραφή κειμένων με διαφορετικό περιεχόμενο Αυτό επιτυγχάνεται με την ανάθεση αριθμητικών βαρών (numercal weghts) σε κάθε όροι δεικτοδότησης του κειμένου (π.χ.: συχνότητα, tf-df) Αναλογία με Σ Β : Όροι εικτοδότησης Γνωρίσματα Βάρη Τιμές γνωρισμάτων Αναζήτηση με μια λέξη κλειδί (keyword queres). Αίτημα Boole (t t 2 t ) (t 2 t 22 t 22 ). (t j t j2 t jj ) Όπου τα t j είναι όροι έχουν ή όχι τους όρους 2. Αίτημα ιαβάθμισης (Rankng) βαθμός σχετικότητας Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 5 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 6

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 7 Ανάκτηση Πληροφορίας Ευρετηριοποίηση για την Ανάκτηση Κειμένου Βασικές Μετρικές Precson Ακρίβεια: το ποσοστό των ανακτημένων εγγράφων που είναι σχετικά με την ερώτηση (δηλαδή, το ποσοστό των «σωστών» απαντήσεων») Relevant Relevant & Retreved Retreved All Documents { Relevant} { Retreved} precson = { Retreved} Συνήθως, κατασκευάζονται ευρετήρια που περιέχουν ζεύγη <όρος, d-αρχείου> με πιθανών επιπλέον πεδία όπως η συχνότητα εμφάνισης του όρου στο αρχείο Παρόμοια, ευρετήρια χρησιμοποιούν και οι μηχανές αναζήτησης Recall Ανάκληση: το ποσοστό των σχετικών εγγράφων που ανακτούνται { Relevant} { Retreved} recall = { Relevant} Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 8 Ευρετηριοποίηση για την Ανάκτηση Κειμένου Ευρετηριοποίηση για την Ανάκτηση Κειμένου Μια ταξινομημένη λίστα (ανεστραμμένη λίστα) (nverted fle, nverted lst, nverted ndex) για κάθε όρο Παράδειγμα Rd Λέξεις-Κλειδιά agent James Bond 2 agent moble computer 3 James Madson move 4 James Bond move Agent <,2> Bond <,4> Computer <2> James <,3,4> Madson <3> Moble <2> Move <3,4> Ευρετήριο Λεξιλογίου: Για τον ταχύτερο εντοπισμό της λίστας για κάθε όρο: Το σύνολο των όρων μπορεί να οργανωθεί με τη χρήση μιας δομής ευρετηρίου (π.χ. Β+-δέντρο) Στα φύλλα, δείκτες προς την αντίστοιχη ανεστραμμένη λίστα Παράδειγμα Ένας όρος, σύζευξη, διάζευξη Παράδειγμα ερωτήσεων Postngs (keyword, DocID) Ταξινόμηση κάθε λίστας με βάση το DocID Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 9 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 0 Ευρετηριοποίηση για την Ανάκτηση Κειμένου Ευρετηριοποίηση για την Ανάκτηση Κειμένου Υπογραφή εγγράφου (Fle Sgnature) Μια εγγραφή ευρετηρίου για κάθε έγγραφο στη βάση δεδομένων Κάθε εγγραφή σταθερό μέγεθος b bts, εύρος της υπογραφής Κατασκευή της υπογραφής ενός αρχείου: Σε κάθε όρο που υπάρχει στο αρχείο, εφαρμόζεται μια συνάρτηση κατακερματισμού, που επιστρέφει ένα αριθμό από το ως το b και το αντίστοιχο bt της υπογραφής του αρχείου γίνεται Για μια ερώτηση, φτιάχνουμε την υπογραφή της και σαρώνουμε τις υπογραφές των αρχείων για να βρούμε κάποια που ταιριάζει False postves Αποφυγή σάρωσης όλου του αρχείου υπογραφών: Αρχείο υπογραφών με κατακόρυφο διαμερισμό σε μονοψήφιες στήλες: ιαμερίζουμε ένα αρχείο υπογραφών σε ένα σύνολο κατακόρυφων δυαδικών στηλών Για κ άσσους ανάκτηση κ-στηλών Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 2

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 3 Boolean Model υαδικό Μοντέλο Το μοντέλο που είδαμε μέχρι στιγμής θεωρεί ότι οι όροι δεικτοδότησης είτε υπάρχουν είτε δεν υπάρχουν στο αρχείο (κείμενο) ηλαδή, τα βάρη είναι όλα δυαδικά (0 ή ) Οι ερωτήσεις είναι όροι συνδεδεμένοι με : not, and, και or πχ.: car and repar, plane or arplane Το δυαδικό μοντέλο προβλέπει ότι ένα αρχείο είναι είτε σχετικό είτε μη σχετικό με βάση ένα ταίριασμα της ερώτησης με το αρχείο Συχνότητα όρου term frequency : πόσες φορές εμφανίζεται ένας όρος σε ένα έγγραφο Κανονικοποιημένο ώστε να αποφύγουμε να δώσουμε μεγαλύτερο βάρος σε μεγάλα έγγραφα Σημασία του όρου t σε ένα έγγραφο Τοπική μέτρηση tf = Μοντέλο με βάρη k n n k Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 4 Ανεστραμμένη συχνότητα εγγράφου (nverse document frequency) μετρά πόσο γενικά σημαντικός είναι ένας όρος tfdf = tf df Ολική μέτρηση D df = log { d : d t} D αριθμός εγγράφων Πόσα έγγραγφα τον περιέχουν Έγγραφα στα οποία ανήκει ο όρος t Μεγάλη τιμή όταν μεγάλη συχνότητα εμφάνισης (σε ένα συγκεκριμένο έγγραφο) και μικρή συχνότητα εμφάνισης του όρου σε όλη τη συλλογή Βάρος χρήσιμο για να αποφύγουμε κοινούς όρους Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 5 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 6 Άλλα Μοντέλα Ένας πίνακας με τη συχνότητα των όρων (term frequency table) Κάθε εγγραφή frequent_table(, j) = # of occurrences of the word t n document d Συνήθως, το ποσοστό (rato) αντί του πραγματικού αριθμού εμφανίσεων Vector Model Μοντέλο ιανυσμάτων Τα αρχεία και οι ερωτήσεις αναπαρίστανται ως m-διάστατα διανύσματα, όπου m είναι ο συνολικός αριθμός όρων στη συλλογή Ο βαθμός ομοιότητας ενός αρχείου d και μιας ερώτησης q υπολογίζεται ως η συνέλιξη τους, χρησιμοποιώντας μετρικές όπως η Ευκλείδεια απόσταση ή το συνημίτονο της γωνίας των δύο διανυσμάτων Smlarty metrcs μετρική ομοιότητας: μεταξύ ενός κειμένου και μιας ερώτησης (συνόλου από λέξεις-κλειδιά - όρους) Relatve term occurrences v v2 Cosne dstance: cos( v, v2) = v v2 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 7 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 8

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 9 Άλλα Θέματα Latent Semantc Indexng Βασική Ιδέα Smlar documents have smlar word frequences Dffculty: the sze of the term frequency matrx s very large Use a sngular value decomposton (SVD) technques to reduce the sze of frequency table Retan the K most sgnfcant rows of the frequency table Ρίζα λέξεων -Word stem Πολλές λέξεις είναι μικρές παραλλαγές αφού έχουν μια κοινή ρίζα E.g., drug, drugs, drugged Συνώνυμα - Synonymy: Ενώ η λέξη-κλειδί T δεν εμφανίζετε στο κείμενο αν και το κείμενο είναι σχετικό Πολυσημία - Polysemy: Η ίδια λέξη μπορεί να σημαίνει διαφορετικά πράγματα με βάση τα συμφραζόμενα Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 20 Άλλα Θέματα Stop lst Σύνολο λέξεων που δεν είναι σχετικά αν και εμφανίζονται συχνά, πχ, a, the, of, for, to, wth, etc. Μηχανές Αναζήτησης Οντολογίες -Wordnet Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 2 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 22 Μηχανές Αναζήτησης Μηχανές Αναζήτησης Βασισμένες σε ευρετήρια: Αναζητούν σελίδες, τις δεικτοδοτούν και κατασκευάζουν τεράστια ευρετήρια βασισμένα σε λέξεις κλειδιά Χρήσιμες για τον εντοπισμό σελίδων που περιέχουν συγκεκριμένες λέξεις κλειδιά Θα δούμε Page Rank HITS Προβλήματα Ένα θέμα μπορεί να περιέχει χιλιάδες έγγραφα Πολλά σχετικά με κάποιο θέμα έγγραφα μπορεί να μην περιέχουν τις λέξεις κλειδιά που το προσδιορίζουν Και οι δύο εκμεταλλεύονται την ύπαρξη lnks συνδέσεων ανάμεσα στις σελίδες Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 23 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 24

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 25 PageRank: εισαγωγή PageRank: Capturng Page Popularty (Brn & Page 98) PageRank Ο αρχικός αλγόριθμος του google, παρουσιάστηκε στην κλασική εργασία: The Anatomy of a Large Scale Hypertextual Web Search Engne, Sergey Brn and Lawrence Page Η εργασία περιλαμβάνει μια πολύ ενδιαφέρουσα «ιστορικής σημασίας» εισαγωγή We chose our system name, Google, because t s a common spellng of googol, or 0 00 and fts well wth our goal of buldng very large-scale search engnes. The verb, "google", was added to the Merram Webster Collegate Dctonary and the Oxford Englsh Dctonary n 2006, meanng, "to use the Google search engne to obtan nformaton on the Internet." (source: Wkpeda) Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 26 PageRank: Βασική Ιδέα PageRank: Βασική Ιδέα Βασική Ιδέα Ακόμα και αν ένα τεράστιο ευρετήριο με όλες τις λέξεις και τι σελίδες -> αυτόπουέχεισημασίαείναιοισημαντικέςσελίδες(precson vs recall) ΣΤΟΧΟΣ: υπολογισμός μιας τιμής για κάθε σελίδα που να χαρακτηρίζει πόσο σημαντική είναι αυτή η σελίδα, η ποσότητα αυτή λέγεται page rank Οι Web pages δεν είναι όλες το ίδιο σημαντικές www.joe-schmoe.com vs www.stanford.edu Αναφορές (Inlnks) ως «ψήφοι» -votes www.stanford.edu 23,400 nlnks www.joe-schmoe.com nlnk Τι είναι σημαντικό οι συνδέσεις μια σελίδα που δέχεται πολλές αναφορές περιμένει κανείς να είναι γενικά πιο σημαντική Βασική Ιδέα (συνέχεια) Ο PageRank βασίζεται στην «μέτρηση αναφορών» ctaton countng, αλλά με μια βελτίωση: εν είναι όλες οι αναφορές το ίδιο σημαντικές! Θεωρεί «έμμεσες αναφορές» ndrect ctatons : αναφορές από σημαντικές σελίδες (δηλαδή, από σελίδες που επίσης έχουν πολλές αναφορές) θεωρούνται πιο σημαντικές Αναδρομικός ορισμός! Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 27 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 28 Ορισμός PageRank Ορισμός PageRank Παράδειγμα Απλή Αναδρομική ιατύπωση Η ψήφος κάθε ακμής (αναφοράς) είναι ανάλογη της σημαντικότητας (PR) της σελίδας από την οποία προέρχεται Υπάρχει μια γενική ποσότητα PR που μοιράζεται στις σελίδες του συστήματος. Έστω 4 σελίδες: A, B, C και D. Αρχική προσεγγιστική τιμή για καθεμία PR = 0.25 Έστω B, C, και D έχουν lnk μόνο στο A, τότε όλα το PageRank PR( ) τους θα μαζευόταν στο Α Αν μια σελίδα P με σημαντικότητα (PR) y έχει n outlnks, κάθε lnk παίρνει y/n ψήφους Έστω τώρα ότι η Β έχει lnk στη C, και η D έχει lnks και στο Β και στο C ΗτιμήτουPR μιας σελίδας μοιράζεται ανάμεσα στις εξωτερικές ακμές της Άρα η ψήφος της B έχει αξία για την Α 0.25 και 0.25 για την C. Αντίστοιχα, μόνο το /3 του PageRank του D μετρά για PageRank του Α (περίπου 0.083). Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 29 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 30

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 3 Ορισμός PageRank Απλό μοντέλο «ροής» - flow model Το web το 839 Γενικός ορισμός του PageRank για μια σελίδα Α: Έστω ότι η A έχει τις σελίδες T,...,Tn που δείχνουν σε αυτήν (δηλαδή, αναφορές) Έστω C(Τ) ο αριθμός των εξωτερικών ακμών μιας σελίδας T y a/2 Yahoo y/2 y/2 y = y /2 + a /2 a = y /2 + m m = a /2 PR(A) = PR(T)/C(T) +... + PR(Tn)/C(Tn) Amazon m M soft a a/2 m Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 32 ιατύπωσημετηνμορφήπίνακα Λύση των εξισώσεων ροής 3 εξισώσεις, 3 άγνωστοι, όχι σταθερές Μη μοναδική λύση Οι λύσεις ισοδύναμες με κλιμάκωση (scale factor) Επιπρόσθετος περιορισμός για μοναδικότητα της λύσης y+a+m = (το συνολικό PR που μοιράζεται στις σελίδες) y = 2/5, a = 2/5, m = /5 Ο πίνακας M έχει μια γραμμή και μια στήλη για κάθε web σελίδα (πίνακας γειτνίασης) Έστω ότι η σελίδα j έχει n outlnks Αν j ->, τότε M j =/n Αλλιώς, M j =0 M είναι column stochastc matrx Οι στήλες έχουν άθροισμα Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 33 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 34 ιατύπωσημετηνμορφήπίνακα(παράδειγμα) Amazon Yahoo M soft y = y /2 + a /2 a = y /2 + m m = a /2 y a m y /2 /2 0 a /2 0 m 0 /2 0 Άθροισμα (οι ψήφοι του y) ιατύπωσημετηνμορφήπίνακα Έστω r ένα διάνυσμα με μια εγγραφή web σελίδα r είναι η σημαντικότητα (PR) της σελίδας r: rank vector [PR(y) PR(a) PR(m)] Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 35 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 36

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 37 Yahoo PR ιάνυσμα (παράδειγμα) y a m y /2 /2 0 a /2 0 m 0 /2 0 Έστω ότι η σελίδα j έχει lnks σε 3 σελίδες, συμπεριλαμβανομένου του j Amazon M soft r = Mr /3 = y = y /2 + a /2 a = y /2 + m m = a /2 y /2 /2 0 y a = /2 0 a m 0 /2 0 m M r r Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 38 Ιδιοδιανύσματα (egenvectors) Οι εξισώσεις ροής μπορούν να γραφούν Power Iteraton method Επαναληπτική Μέθοδο Ένα απλό επαναληπτικό σχήμα (relaxaton) Έστω N web σελίδες r = Mr ηλαδή, ο rank vector είναι ένα ιδιοδιάνυσμα (egenvector) του στοχαστικού πίνακα γειτνίασης του web Συγκεκριμένα είναι το βασικό ιδιοδιάνυσμα (αυτό που αντιστοιχεί στην ιδιοτιμή λ = ) Αρχικοποίηση: r 0 = [/N,.,/N] T Επανάληψη: r k+ = Mr k Τερματισμός όταν r k+ - r k < ε x = N x είναι L norm Μπορεί να χρησιμοποιηθούν και άλλες μετρικές, πχ Ευκλείδεια Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 39 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 40 Amazon y a = m Yahoo /3 /3 /3 Παράδειγμα M soft /3 /2 /6 5/2 /3 /4 y a m y /2 /2 0 a /2 0 m 0 /2 0 3/8 /24 /6... Συγκλίνει; Μοναδική Λύση; 2/5 2/5 /5 Μοντέλο Τυχαίου ικτυακού Περιηγητή Surfer- (random walk) Tο PageRank μιας σελίδας μπορεί επίσης να θεωρηθεί ότι εκφράζει την πιθανότητα ένας τυχαίος περιηγητής να φτάσει σε αυτήν (δηλαδή, εκφράζει πόσο δημοφιλής είναι) Ένας τυχαίος περιηγητής ξεκινά από μια τυχαία σελίδα και συνεχίζει να κάνει clck σε lnks, χωρίς να επιστρέφει σε προηγούμενη σελίδα Τη χρονική στιγμή t, ο περιηγητής είναι σε κάποια σελίδα P Τη χρονική στιγμή t+, ο περιηγητής ακολουθεί ένα εξωτερικό lnk - outlnk του P τυχαία (unformly at random) Φτάνει σε κάποια σελίδα Q του P Συνεχίζει την παραπάνω διαδικασία επ άπειρων Έστω p(t) το διάνυσμα του οποίου το -οστό στοιχείο είναι η πιθανότητα ο περιηγητής να είναι στη σελίδα τη χρονική στιγμή t p(t) probablty dstrbuton - κατανομή πιθανότητας στις σελίδες Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 4 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 42

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 43 The statonary dstrbuton Που είναι ο περιηγητής τη χρονική στιγμή t+? Ακολουθεί ένα lnk unformly at random p(t+) = M p(t) Έστω ότι ο τυχαίος περίπατος φτάνει μια κατάσταση όπου p(t+) = M p(t) = p(t) Τότε p(t) ονομάζεται statonary dstrbuton για τον τυχαίο περίπατο Επειδή ο πίνακας r ικανοποιεί την r = Mr είναι statonary dstrbuton για τον τυχαίο περιηγητή Βασικό αποτέλεσμα από τη θεωρία τυχαίων περιπάτων (και Markov processes): Για γράφους που ικανοποιούν συγκεκριμένες συνθήκες, η statonary dstrbuton είναι μοναδική και τελικά φτάνουμε σε αυτήν ανεξάρτητα από την αρχική κατανομή πιθανότητας τη χρονική στιγμή t = 0 (σύγκλιση). Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 44 Επεκτάσεις (τυχαίο άλμα) Επεκτάσεις (τυχαίο άλμα) Spder traps (παράδειγμα) Spder traps Yahoo y a m Μια ομάδα σελίδων είναι μια αραχνο-παγίδα spder trap αν δεν υπάρχουν ακμές από την ομάδα σε σελίδες εκτός της ομάδας Οτυχαίοςsurfer παγιδεύεται Amazon M soft y /2 /2 0 a /2 0 0 m 0 /2 Οι συνθήκες που χρειάζονται για το θεώρημα των τυχαίων περιπάτων παύουν να ισχύουν y a = m /2 3/2 3/4 /2 7/4 5/8 3/8 2... 0 0 3 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 45 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 46 Επεκτάσεις (τυχαίο άλμα) Επεκτάσεις (τυχαίο άλμα) Επέκταση Μοντέλου Επέκταση Μοντέλου Σε κάθε βήμα, ο τυχαίος surfer έχει δύο δυνατότητες: Με πιθανότητα β, ακολουθεί ένα τυχαίο lnk Με πιθανότητα -β πετάγεται σε κάποια άλλη σελίδα τυχαία Τιμές για το β: 0.8-0.9 Καταφέρνει να βγει από την παγίδα μετά από κάποιες χρονικές στιγμές Αρχικός ορισμός του PageRank για μια σελίδα Α: PR(A) = PR(T)/C(T) +... + PR(Tn)/C(Tn) Ορισμός με τον παράγοντας απόσβεσης d (dampng factor) μεταξύ του 0 και του PR(A) = (-d) + d (PR(T)/C(T) +... + PR(Tn)/C(Tn)) Ώστε το άθροισμα να είναι > -d/n Ο πρώτος παράγοντας με την ίδια πιθανότητα διαλέγω οποιαδήποτε σελίδα Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 47 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 48

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 49 Επεκτάσεις (τυχαίο άλμα) Επεκτάσεις (τυχαίο άλμα) Παράδειγμα (d=0.8) Μοντέλο Τυχαίου Surfer (φυσική ερμηνεία) Ένας τυχαίος surfer ξεκινά από μια τυχαία σελίδα και συνεχίζει να κάνει clck σε lnks, χωρίς να επιστρέφει σε προηγούμενη σελίδα αλλά τελικά βαριέται και ξεκινά από κάποια άλλη τυχαία σελίδα Το d (ο παράγοντας απόσβεσης) είναι η πιθανότητα σε κάθε σελίδα ο τυχαίος surfer να βαρεθεί και να αρχίσει από κάποια άλλη τυχαία σελίδα Amazon y a = m Yahoo M soft.00 0.60.40 /2 /2 0 0.8 /2 0 0 + 0.2 0 /2 0.84 0.60.56 y 7/5 7/5 /5 a 7/5 /5 /5 m /5 7/5 3/5 0.776 0.536.688... /3 /3 /3 /3 /3 /3 /3 /3 /3 7/ 5/ 2/ Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 50 Επεκτάσεις (τυχαίο άλμα) Επεκτάσεις (τυχαίο άλμα) ιατύπωση της επέκτασης με μεταπηδήσεις με τη μορφή πίνακα Έστω Ν σελίδες Έστω σελίδα j, με ένα σύνολο outlnks O(j) M j = / O(j) αν j-> and M j = 0 otherwse Η τυχαία μεταπήδηση είναι ισοδύναμη με το Να προσθέσουμε ένα τυχαίο lnk από το j σε οποιαδήποτε άλλη σελίδα με (-β)/n Ελάττωση της πιθανότητας να ακολουθήσουμε ένα outlnk από / O(j) σε β/ O(j) Ή ισοδύναμα: χρέωσε σε κάθε σελίδα ένα ποσοστό (-β) της τιμής της και κάνε κατανομή αυτού ομοιόμορφα Κατασκευή του ΝxΝ πίνακαα A j = βm j + (-β)/n Ο A είναι στοχαστικός πίνακας Το page rank διάνυσμα r είναι το βασικό ιδιοδιάνυσμα αυτού του πίνακα r = Ar Ισοδύναμα, r είναι statonary dstrbuton των τυχαίων περιπάτων με μεταπηδήσεις (random walk wth teleports) Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 5 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 52 Επεκτάσεις (αδιέξοδα) Επεκτάσεις (αδιέξοδα) Αδιέξοδα Yahoo /2 /2 0 /3 /3 /3 0.8 /2 0 0 + 0.2 /3 /3 /3 0 /2 0 /3 /3 /3 Οι σελίδες χωρίς outlnks για τον τυχαίο surfer Amazon M soft y 7/5 7/5 /5 a 7/5 /5 /5 m /5 7/5 /5 y a = m 0.6 0.6 0.787 0.547 0.387 0.648 0.430 0.333... 0 0 0 Μη στοχαστικό! Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 53 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 54

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 55 Επεκτάσεις (αδιέξοδα) O Αλγόριθμος PageRank Χειρισμός αδιεξόδων (dead-end) Μεταπήδηση Για αδιέξοδα, ακολούθησε τυχαία μεταπήδηση με πιθανότητα Τροποποίησε τον πίνακα Ψαλίδισε τα αδιέξοδα και αναπροσάρμοσε το γράφο Προ-επεξεργασία τους γράφου για σβήσιμο των αδιεξόδων Πιθανών πολλαπλές επαναλήψεις Υπολογισμός page rank στον ελαττωμένο γράφο Υπολογισμός προσεγγιστικών τιμών για αδιέξοδα μεταφέροντας τις τιμές από τον ελαττωμένο γράφο ΜιασελίδαμπορείναέχειυψηλόPR αν υπάρχουν πολλές σελίδες που δείχνουν σε αυτήν ή όταν κάποιες σελίδες που δείχνουν σε αυτήν έχουν υψηλό PR Και οι δύο περιπτώσεις έχουν σημασία: Πχ στη δεύτερη περίπτωση αν υπάρχει lnk από πχ Yahoo! Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 56 Spamdexng Content spam Lnk spam Google bombng: PageRank συνέχεια Προσθήκη αναφορών που επηρεάζουν άμεσα το PR Lnk farms: Σελίδες που αναφέρονται η μία στην άλλη Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 57 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 58 O Αλγόριθμος PageRank O Αλγόριθμος PageRank Παράδειγμα Αν δούμε το Web ως γράφo, θέλουμε να βρούμε τους σημαντικούς/κεντρικούς κόμβους Με βάση το PageRank: Ένας κόμβος είναι σημαντικός αν συνδέεται με σημαντικούς κόμβους Μια ποσότητα σε κάθε σελίδα (κόμβο) H ποσότητα εξαρτάται από πόσες σελίδες δείχνουν σε αυτήν και μοιράζεται στις σελίδες που δείχνει (αναδρομικός ορισμός) Κάθε κόμβος μια αρχική τιμή PageRank την οποία μοιράζει ισοδύναμα στους κόμβους στους οποίους δείχνει Πχ κάθε ακμή Του κόμβου 2 έχει ½ Του κόμβου 5 έχει κλπ Ισοδύναμα, η πιθανότητα μετάβασης σε κάποιον κόμβο Random walks (τυχαίοι περίπατοι) M o Πίνακας Γειτνίασης (Πίνακας μετάβασης για αλυσίδες Markov) r το διάνυσμα PageRank r = M r Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 59 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 60

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 6 O Αλγόριθμος PageRank O Αλγόριθμος PageRank Παράδειγμα Teleport M o Πίνακας Γειτνίασης, r το διάνυσμα PageRank r = M r r είναι το ιδιοδιάνυσμα που αντιστοιχεί στην ιδιοτιμή λ = (είναι η μεγαλύτερη ιδιοτιμή, επειδή ο πίνακας είναι column-stochastc) Πίνακας Α A j = β M j + (-β)/n Fly-out probablty r = Ar Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 62 O Αλγόριθμος PageRank Θεματικό PageRank (Topc-Specfc PageRank) Υπολογισμός δημοτικότητας (popularty) για κάποιο θέμα E.g., computer scence, health HITS Bas the random walk Όταν ο τυχαίος περιπατητής teleports, επιλέγει μια σελίδα από ένα σύνολο S σελίδων του παγκόσμιου ιστού S περιέχει μόνο σελίδες που είναι σχετικές με ένα θέμα Πχ., Open Drectory (DMOZ) σελίδες για κάποιο θέμα (www.dmoz.org) Για κάθε σύνολο teleport S, διαφορετικό διάνυσμα r S Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 63 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 64 Εισαγωγή HITS ορισμοί ΟαλγόριθμοςHITS (Hyperlnk-Induced Topc Search) Προβλήματα με τη χρήση της δομής των συνδέσεων του Web εν αρκεί να δείχνουν πολλές συνδέσεις Μια σύνδεση δε σημαίνει απαραίτητα θετική γνώμη (αναγνώριση για τη σελίδα ) (κάποιες συνδέσεις διαφημίσεις, αλλά navgaton, κλπ) Μια αυθεντία (authorty) για κάποιο θέμα σπάνια θα έχει lnk σε αντίπαλη αυθεντία στον ίδιο τομέα Οι αυθεντικές σελίδες σπάνια είναι περιγραφικές/αντιπροσωπευτικές Για κάθε θέμα: δύο είδη σελίδων Αυθεντική (authorty): Μια σελίδα που είναι αυθεντία σε ένα θέμα και αναγνωρίζεται ως τέτοια από άλλες σελίδες (δηλαδή, υπάρχουν πολλοί σύνδεσμοι σε αυτήν) Κομβικοί (hubs): Μια σελίδα που αναφέρεται σε μια αυθεντική σελίδα Βασική ιδέα: Οι σελίδες που αναφέρονται από άλλες σελίδες συχνά πρέπει να είναι αυθεντίες (Authortes) Οι σελίδες που αναφέρουν πολλές άλλες σελίδες πρέπει να είναι καλά κομβικά σημεία (hubs) Κομβικοί Αυθεντικοί Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 65 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 66

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 67 Βασική ιδέα του HITS Καλές αυθεντίες είναι αυτές στις οποίες αναφέρονται καλά κομβικά σημεία Καλά κομβικά σημεία είναι αυτά τα οποία αναφέρονται σε καλές αυθεντίες Αναδρομική έκφραση Σημείωση: Αναθέτει σε κάθε σελίδα δύο τιμές για κάθε θέμα διάνυσμα h (hub) και α (authorty) Το web ως ένας κατευθυνόμενος γράφος Κόμβοι: ιστοσελίδες Ακμή από Α στον Β: η ιστοσελίδα Α έχει έναν υπερ-σύνδεσμο στην ιστοσελίδα Β Ο αλγόριθμος χωρίζεται σε 2 φάσεις: Φάση Ι: (δειγματοληπτικό στάδιο) ένα σύνολο σελίδων που αποτελεί το βασικό σύνολο για κάποιο θέμα Φάση ΙΙ: (επαναληπτικό στάδιο) επεξεργασία του βασικού συνόλου για τον εντοπισμό καλών αυθεντικών και καλών κομβικών ιστοσελίδων Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 68 Φάση Ι: Υπολογισμός βασικού συνόλου Φάση Ι: Υπολογισμός βασικού συνόλου (διεύρυνση του συνόλου ρίζα). Υπολογισμός αρχικού συνόλου: σύνολο-ρίζα Κλασικοί μέθοδοι: πχ ανάκτηση όλων των σελίδων που περιέχουν τις λέξεις κλειδιά (περιμένουμε ότι θα περιέχει (τουλάχιστον) αναφορές προς σχετικές σελίδες) 2. + Σελίδες-σύνδεσμοι: Σελίδα που είτε συμπεριλαμβάνει σύνδεσμο που να αναφέρεται σε έναν κόμβο p στο σύνολο ρίζα (p είναι αυθεντία) είτε Ένας κόμβος p στο σύνολο ρίζα (p είναι κομβικό σημείο) περιέχει σύνδεσμο που αναφέρεται σε αυτήν Βασικό Σύνολο: διεύρυνση του συνόλου-ρίζα ώστε να περιλαμβάνει και τις σελίδες συνδέσμους Βασικές Ιστοσελίδες Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 69 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 70 Φάση ΙΙ: Ποιες βασικές ιστοσελίδες είναι κόμβοι και αυθεντίες Κάθε βασική σελίδα p δύο τιμές: h p - Συντελεστής Κομβικού Ρόλου (πολλούς δείκτες σε αυθεντικές) a p - Συντελεστής Αυθεντικότητας (πολλοί δείκτες από κομβικές σε αυτήν) Βασική διαφορά από τον Page Rank ύο τιμές ανά σελίδα (αυθεντία κομβικό σημείο) Θεματικά υποσύνολα του web γράφου - ξεκινάμεαπότοβασικό σύνολο Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 7 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 72

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 73 Πίνακας Γειτνίασης Αναπαράσταση με πίνακες Φάση ΙΙ: Ποιες βασικές ιστοσελίδες είναι κόμβοι και αυθεντίες Αρχικοποίηση, p, h p = και α p = Επαναληπτικά, αυξάνεται a p = Σ h q Βασικές σελίδες q που δείχνουν στην p h p = Σα q Βασικές σελίδες q στις οποίες δείχνει η p Έστω το βασικό σύνολο σελίδων {, 2,..., n} Πίνακας Γειτνίασης (adjacency matrx) B: n x n B[, j] = αν η σελίδα περιέχει σύνδεσμο που δείχνει στη σελίδα j Έστω h = <h, h 2,, h n > το διάνυσμα συντελεστών κομβικών ρόλων και α = <α, α 2,..., α n > το διάνυσμα συντελεστών αυθεντικότητας (αντίστοιχο του r vector) Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 74 ιατύπωσημετηνμορφήπίνακα(παράδειγμα) Οι κανόνες ενημέρωσης Αρχικά h = B a η επανάληψη h = B B Τ h = (B B Τ )h 2η επανάληψη h = (B B Τ ) 2 h a = B Τ h a = B T B a = (B T B) a a = (B T B) 2 a Σύγκλιση στα ιδιοδιανύσματα του ΒΒ Τ και Β Τ Β αν κανονικοποιηθούν αρχικά οι συντελεστές Amazon h = BB T h Netscape B = M soft n m a n m a 0 0 0 B T = 0 0 0 n m a 3 2 B B T = 0 2 0 2 3 2 6 = 0 2 2 0 2 4 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 75 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 76 d 3 d 4 d d 2 00 0 0 0 A = Πίνακας Γειτνίασης 0 0 0 0 0 Αρχικές Τιμές: a=h= hd ( ) = ad ( ) d j OUT ( d) ad ( ) = hd ( ) d j IN( d) v v v v T h = Aa; a = A h v v T v T v h = AA h; a = A Aa j j Iterate Normalze: 2 2 ad ( ) = hd ( ) = Προβλήματα Drftng: όταν ένα κομβικό σημείο περιέχει πολλά θέματα Topc hjackng: όταν πολλές σελίδες από το ίδιο web ste δείχνουν στοίδιοδημοφιλέςκόμβο Agan egenvector problems Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 77 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 78

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 79 Google: Άλλα στοιχεία Anchor Text Λίγα ακόμη για τις μηχανές αναζήτησης Το κείμενο που υπάρχει στα lnks έχει διαφορετική αντιμετώπιση Οι περισσότερες μηχανές αναζήτησης το συσχέτιζαν με τη σελίδα στην οποία εμφανίζεται Google και με τη σελίδα στην οποία δείχνει Πιο ακριβείς πληροφορίες για τις σελίδες που δείχνουν παρά για τις σελίδες στις οποίες εμφανίζονται Μπορεί να δείχνουν σε σελίδες που δεν έχουν κείμενο αλλά εικόνες, προγράμματα, κλπ Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 80 Most of Google s mplemented n C or C++ for effcency and can run n ether Solars or Lnux. The web crawlng (downloadng of web pages) s done by several dstrbuted crawlers. There s a URLserver that sends lsts of URLs to be fetched to the crawlers. Google: Αρχιτεκτονική Every web page has an assocated ID number called a docid whch s assgned whenever a new URL s parsed out of a web page. The ndexng functon s performed by the ndexer and the sorter. The ndexer reads the repostory, uncompresses the documents, and parses them. document -> a set of word occurrences called hts. Ηts: word, poston n document, an approxmaton of font sze, and captalzaton. The ndexer dstrbutes these hts nto a set of "barrels", creatng a partally sorted forward ndex. Google: Αρχιτεκτονική The web pages that are fetched are then sent to the storeserver. The storeserver then compresses and stores the web pages nto a repostory. Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 8 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 82 Google: Αρχιτεκτονική Google: Αρχιτεκτονική Indexer: It parses out all the lnks n every web page and stores mportant nformaton about them n an anchors fle. Ths fle contans enough nformaton to determne where each lnk ponts from and to, and the text of the lnk. URLresolver relatve URLs -> absolute URLs -> docids. The sorter takes the barrels, whch are sorted by docid and resorts them by wordid to generate the nverted ndex. + lexcon Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 83 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 84

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 85 Google: Αρχιτεκτονική The searcher s run by a web server uses the lexcon bult by DumpLexcon together wth the nverted ndex and the PageRanks to answer queres. Παγκόσμιου Ιστού Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 86 Εισαγωγή Εισαγωγή The WWW s huge, wdely dstrbuted, global nformaton servce center for ΥΠΗΡΕΣΙΕΣ - Informaton servces: news, advertsements, consumer nformaton, fnancal management, educaton, government, e-commerce, etc. ΣΥΝ ΕΣΜΟΙ - Hyper-lnk nformaton ΠΛΗΡΟΦΟΡΙΑ ΧΡΗΣΗΣ - Access and usage nformaton WWW provdes rch sources for data mnng Challenges Too huge for effectve data warehousng and data mnng Too complex and heterogeneous: no standards and structure Growng and changng very rapdly Hosts 40000000 35000000 30000000 25000000 20000000 5000000 0000000 5000000 Internet growth Broad dversty of user communtes 0 Sep-69 Sep-72 Sep-75 Only a small porton of the nformaton on the Web s truly relevant or useful 99% of the Web nformaton s useless to 99% of Web users How can we fnd hgh-qualty Web pages on a specfed topc? Sep-78 Sep-8 Sep-84 Sep-87 Sep-90 Sep-93 Sep-96 Sep-99 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 87 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 88 Κατηγορίες ς από το Web από το Web περιεχομένου σελίδων Περιεχομένου αποτελεσμάτων αναζήτησης από το Web ομής Ανίχνευση Γενικών Προτύπων Προσπέλασης Χρήσης Ανίχνευση προσαρμοσμένης (customzed) χρήσης Ψάχνουμε για Web access patterns Web structures Regularty and dynamcs of Web contents Προβλήματα The abundance problem: ο αριθμός των σελίδων που συσχετίζονται με έναν όρο μπορεί να είναι πολύ μεγάλος Lmted coverage of the Web: hdden Web sources, majorty of data n DBMS Lmted query nterface based on keyword-orented search Lmted customzaton to ndvdual users Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 89 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 90

Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 9 Κατηγορίες ς από το Web από το Web Κατηγορίες ς από το Web από το Web Περιεχομένου Web Page Content Mnng Web Page Summarzaton WebLog (Lakshmanan et.al. 996), WebOQL(Mendelzon et.al. 998): Web Structurng query languages; Can dentfy nformaton wthn gven web pages Ahoy! (Etzon et.al. 997):Uses heurstcs to dstngush personal home pages from other web pages ShopBot (Etzon et.al. 997): Looks for product prces wthn web pages αποτελεσμάτων αναζήτησης ομής Ανίχνευση Γενικών Προτύπων Προσπέλασης Χρήσης Ανίχνευση προσαρμοσμένης (customzed) χρήσης περιεχομένου σελίδων Περιεχομένου ομής Αποτελεσμάτων Αναζήτησης Search Engne Result Summarzaton Clusterng Search Result (Leousk and Croft, 996, Zamr and Etzon, 997): Ομαδοποίηση των αποτελεσμάτων χρησιμοποιώντας φράσεις στους τίτλους και snppets Ανίχνευση Γενικών Προτύπων Προσπέλασης Χρήσης Ανίχνευση προσαρμοσμένης (customzed) χρήσης Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 92 Κατηγορίες ς από το Web Κατηγορίες ς από το Web περιεχομένου σελίδων Περιεχομένου αποτελεσμάτων αναζήτησης από το Web ομής Ανίχνευση Γενικών Προτύπων Προσπέλασης PageRank, HITS Small-world models, Χρήσης Ανίχνευση προσαρμοσμένης (customzed) χρήσης Mnng Web log records to dscover user access patterns of Web pages Applcatons εδομένων Χρήσης Target potental customers for electronc commerce Enhance the qualty and delvery of Internet nformaton servces to the end user Improve Web server system performance Identfy potental prme advertsement locatons Web logs provde rch nformaton about Web dynamcs Typcal Web log entry ncludes the URL requested, the IP address from whch the request orgnated, and a tmestamp Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 93 Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 94 Κατηγορίες ς από το Web Τεχνικές ς εδομένων Χρήσης Construct multdmensonal vew on the Weblog database Perform multdmensonal OLAP analyss to fnd the top N users, top N accessed Web pages, most frequently accessed tme perods, etc. Perform data mnng on Weblog records Fnd assocaton patterns, sequental patterns, and trends of Web accessng May need addtonal nformaton,e.g., user browsng sequences of the Web pages n the Web server buffer Conduct studes to Analyze system performance, mprove system desgn by Web cachng, Web page prefetchng, and Web page swappng Δεδομένων: Ακ. Έτος 2007-2008 ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ 95