Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 11η: 09/05/2007 1

Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank 2

Αρχιτεκτονική Μηχανής Αναζήτησης 3

Ευρετήρια (Indexes) Ευρετήρια Περιεχοµένου (αντιστραµµένο ευρετήριο) Βοηθητικά Ευρετήρια Θέσης (γεωγραφικής) Εικόνων Ευρετήρια Συνδεσµολογίας (Link indexes) Ποιες ποσότητες µας ενδιαφέρουν? Οντότητα H a v T π (k)t Περιγραφή Αραιός πίνακας υπερσυνδέσµων Αραιό δυαδικό διάνυσµα dangling κόµβων Πυκνό διάνυσµα προσωποποίησης, εκτός εάν v T =e T /n Πυκνό διάνυσµα PageRank τρέχουσας επανάληψης της power µεθόδου Αποθήκευση nnz(h) D ακέραιοι n doubles n doubles

Αποθήκευση H (1/2) Εάν χωράει στην κύρια µνήµη, τότε OK Εάν όχι, τότε Συµπίεση, ώστε να χωρέσει στην κύρια µνήµη και επινόηση µιας νέας µορφής του PageRank για να εκτελείται πάνω στη συµπιεσµένη µορφή Αποτελεσµατική υλοποίηση του I/O στα µη συµπιεσµένα δεδοµένα Ακόµα και για µικρά γραφήµατα, για τα οποία ο H χωράει στην κύρια µνήµη, απαιτούνται έξυπνες τεχνικές για να ελαττωθεί ο φόρτος εργασίας Για τον random surfer, ο H µπορεί να γραφεί ως H = D -1 L D: κρατά τους outdegrees των κόµβων [D -1 ] ii = 1/d ii, εάν δεν είναι dangling κόµβος [D -1 ] ii = 1/d ii, εάν είναι dangling κόµβος L: πίνακας γειτνίασης (adjacency matrix) 5

Αποθήκευση H (2/2) Με τον τρόπο αυτό εξοικονοµείται χώρος: αντί για nnz(h) Με τον τρόπο αυτό επιταχύνεται η εκτέλεση της power µεθόδου: π (k+1)t = απ (k)t H + (απ (k)t a+1-α)v T Το π (k)t H απαιτεί nnz(h) πολλαπλασιασµούς και nnz(h) προσθέσεις Με χρήση του diag(d -1 ), το π (k)t H µπορεί να επιτευχθεί ως π (k)t D -1 L = π (k)τ.* (diag(d -1 ))L Το πρώτο κοµµάτι απαιτεί n πολλαπλασιασµούς, και ο πολλαπλασιασµός µε το L απαιτεί nnz(h) προσθέσεις. Άρα, κερδίσαµε nnz(h)-n πολλαπλασιασµούς υστυχώς, αυτήηαποσύνθεσηισχύειµόνο για τον random surfer Για τον intelligent surfer πρέπει να καταφύγουµε στιςτεχνικές compressed row (column) storage Κερδίζουµε χώρο, αλλά χάνουµε σεεπεξεργασία 6

Compressed Row Storage (CRS) (1/2) Απαιτούνται οι εξής πίνακες val: αποθηκεύει τις µη-µηδενικές τιµές col_ind: αποθηκεύει τους αντίστοιχους δείκτες της στήλης όπου εµφανίζονται µη-µηδενικές τιµές row_ptr: αποθηκεύει τις θέσεις του πίνακα val όπου αρχίζουν νέες γραµµές Παραδοσιακά: row_ptr(n+1) = nnz(val) + 1 Ισχύει ότι: row_ptr(i+1) row_ptr(i) = αριθµός των µη- µηδενικών τιµών που υπάρχουν στην i-οστή γραµµή Για έναν πίνακα Α mxn : η CRS απαιτεί 2nnz(Α)+mµ+1, αντί για το mxn που απαιτεί η παραδοσιακή αποθήκευση Ανάλογα ισχύουν και για τη CCS 7

Compressed Row Storage (CRS) (2/2) val 0.577 0.72 0.577 0.577 0.72 0.577 0.577 0.72 0.577 0.72 0.72 col_ind 2 5 7 2 3 6 7 2 3 1 5 6 3 1 row_ptr 1 5 7 9 10 12 1 16 18 20: nnz(val) 8

Λίστες γειτνίασης (Adjacency Lists) Adjacency list των στηλών του πίνακα H (ή τουl): θυµηθείτε ότι κάθε στήλη κρατά την inlink πληροφορία για την ιστοσελίδα i Ο παρακάτω πίνακας είναι η adjacency list αναπαράσταση για το διπλανό γράφηµα Κόµβος 1 2 3 5 6 Εισερχόµενοι σύνδεσµοι από 3 1, 3 1 5, 6 3,, 5 9

Η τεχνική του κενού (The gap technique) Για τη συµπίεση των adjacency lists, δυο σηµαντικές τεχνικές Gap technique Reference encoding technique Η gap τεχνική εκµεταλλεύεται την τοπικότητα (locality) των διασυνδεδεµένων ιστοσελίδων Ησελίδα πηγή και η σελίδα προορισµός είναι κοντά λεξικογραφικά, δηλ., η σελίδα 100 είναι πιθανότερο να έχει εισερχόµενους υπερσυνδέσµους από τις σελίδες 112, 113, 116, 117, κ.τ.λ., και είναι λιγότερο πιθανό να έχει συνδέσµους από τις π.χ., 92,.931.010 Κόµβος Εισερχόµενοι σύνδεσµοι από 100 112 0 2 0 Αποθηκεύεται η ετικέτα της πρώτης σελίδας που έχει σύνδεσµο προςτην100, δηλ., η 112, και κατόπιν µόνο τα κενά µετα ξύ διαδοχικών σελίδων 10

Ητεχνικήτουreference encoding (1/2) Εκµεταλλεύεται την οµοιότητα µεταξύ των ιστοσελίδων Εάν οι ιστοσελίδες P i και P j έχουν παρόµοιες adjacency lists µπορούµε να αναπαραστήσουµε τη λίστα της P j µεόρουςτηςp i Η P i λέγεται reference page της P j Οι ιστοσελίδες του ίδιου domain συχνά έχουν τους ίδιους εξερχόµενους υπερσυνδέσµους Θεωρήστε το παρακάτω παράδειγµα: 5 7 12 89 101 190 390 5 6 12 50 101 190 reference encode P j σε σχέση µε τηp i 1010110 6 50 11

Ητεχνικήτουreference encoding (2/2) ηµιουργούµε δυο διανύσµατα sharing vector (binary): Ίδιο µήκος µε την adjacency list της P i Περιέχει 1 στην k-οστή θέση, εάν το k-οστό στοιχείο της λίστας της P i εµφανίζεται στη λίστα της P j dissimilarity vector ΠεριέχειόλαταστοιχείατηςλίσταςτηςP j που δεν εµφανίζονται στη λίστα της P i Το sharing vector είναι πιο οικονοµικό από την adjacency λίστα Η αποτελεσµατικότητα της κωδικοποίησης εξαρτάται από τον αριθµό των διαφορετικών σελίδων Μεγάλη επικάλυψη σηµαίνει µικρό dissimilarity vector εν είναι εύκολο να εντοπίσουµε γιατηνκάθεσελίδαµια reference page 12

Επόµενη διάλεξη Θα συνεχίσουµε µε περισσότερα ζητήµατα υλοποίησης, σχετικά µε: Σύγκλιση Ακρίβεια Dangling κόµβους Μοντελοποίηση Back button Νέο κεφάλαιο: Επιτάχυνση του PageRank Adaptive power method Extrapolation Aggregation Άλλες αριθµητικές µεθόδους 13