Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα Ν. Μ. Σγούρος Τμήμα Ψηφιακών Συστημάτων, Παν. Πειραιώς sgouros@unipi.gr
Δομή του WWW
Ορισμός Προβλήματος Υποθέτουμε ότι οι πηγές πληροφοριών αναπριστώνται ως κόμβοι σε έναν κατευθυνόμενο γράφο. Οι σύνδεσμοι αναπαριστούν τις παραπομπές (links) μεταξύ των διαφόρων πηγών πληροφορίας. Ο χρήστης αναζητά πηγές πληροφοριών με βάση ένα σύνολο από λέξεεις-κλειδιά και ο αλγόριθμος επιστρέφει ένα σύνολο κόμβων σχετικών με τις λέξεις-κλειδιά που όρισε ο χρήστης. Αρχικά ως μετρο της σχετικότητας χρησιμοποιήθηκαν διάφορες παραλλαγές της συνολικής συχνότητας με την οποία εμφανίζοντας οι συγκεκριμένες λέξεις σε κάθε κόμβο. Το κύριο μειονέκτημα της συγκεκριμένης προσέγγισης ήταν ότι ενώ λαμβάνει υπόψη της την εσωτερική δομή του κάθε κόμβου αγνοεί τις παραπομπές που περιέχει σε άλλους κόμβους και δεν έχει κάποιο τρόπο να αξιολογήσει την ποιότητα της πληροφορίας που περιέχει ο συγκεκριμένος κόμβος.
Προγενέστερες Μεθοδολογίες Αρχικά ως μετρο της σχετικότητας χρησιμοποιήθηκαν διάφορες παραλλαγές της συνολικής συχνότητας με την οποία εμφανίζοντας οι συγκεκριμένες λέξεις σε κάθε κόμβο. Το κύριο μειονέκτημα της συγκεκριμένης προσέγγισης ήταν ότι ενώ λαμβάνει υπόψη της την εσωτερική δομή του κάθε κόμβου αγνοεί τις παραπομπές που περιέχει σε άλλους κόμβους και δεν έχει κάποιο τρόπο να αξιολογήσει την ποιότητα της πληροφορίας που περιέχει ο συγκεκριμένος κόμβος.
Σύγχρονες Μεθοδολογίες Ανάλυση της δομής του δικτύου στο οποίο ανήκουν οι πηγές πληροφορίας και εκτίμηση της σπουδαιότητας κάθε κόμβου. Δύο είδη κόμβων: Αυθεντίες (Authorities) Κόμβοι που διαθέτοιυν μεγάλο βαθμό αναγνώρισης από άλλους κόμβους Κέντρα Πληροφόρησης (Hubs) Κόμβοι που περιέχουν συνδέσμους σε άλλους κόμβους και αναγνωρίζονται ως χρήσιμα κέντρα συγκέντρωσης πληροφοριών
Εκτίμηση Σχετικότητας- Link- Based Ranking Αν ή αναζήτηση αφορά μουσεία ποιοί από τους κόμβους στα δεξιά είναι πιο σχετικοί; Κάθε κόμβος έχει δύο βαθμούς: Auth, Hub
PageRank Ο υπολογισμός της σπουδαιότητας κάθε κόμβου στηρίζεται στον υπολογισμό του έσω- και έξω- βαθμού κάθε κόμβου. Kάθε κόμβος διαμοιράζει την σπουδαιότητα του ισομερώς σε όλες τις συνδέσεις που αρχίζουν από αυτόν και δέχεται σπουδαιότητα από τους κόμβους από στους οποίους καταλήγουν συνδέσεις σε αυτόν. Ουσιαστικά η σπουδαιότητα εκτιμά την πιθανότητα επίσκεψης ενός κόμβου κατά την εκτέλεση ενός περιπάτου στο γράφο κατά τον οποίο αρχίζοντας από ένα τυχαίο κόμβο Α ακολουθούμε τυχαία κάποια από τις ακμές που αρχίζουν από τον Α και επαναλαμβάνουμε τη διαδικασία στο νέο κόμβο...
Βήματα Η αρχική τιμή σπουδιαότητας για κάθε κόμβο στο γράφο είναι 1/n, όπου n το πλήθος των κόμβων. Επιλέγουμε ένα αριθμό επναλήψεων k και έναν κόμβο αναφοράς Α. Για καθεμία από τις k επαναλήψεις κάθε κόμβος επαναυπολογίζει τη σπουδαιότητα του με βάση τη σπουδαιότητα που εισρέει και εκρέει από αυτόν και τη σπουδαιότητα που διαθέτει κάθε στιγμή.
Παράδειγμα
Χαρακτηριστικά Αποδεικνύεται ότι εκτός από ορισμένες ειδικές περιπτώσεις οι τιμές σπουδαιότητας για κάθε κόμβο συγκλίνουν σε οριακές τιμές όσο ο αριθμός των επαναλήψεων k τείνει στο άπειρο. Στην περίπτωση πλήρως συνδεδεμένων κατευθυνόμεννων γράφων αποδεικνύεται ότι υπάρχει ένα μοναδικό τέτοιο σύνολο τιμών.
Προβλήματα Κόμβοι οι οποίοι έχουν έσω-βαθμό μεγαλύτερο της μονάδας αλλά μηδενικό έξω βαθμό. Μη πλήρως συνδεδεμένος γράφος
Επίλυση Προβλημάτων Μετά την εφαρμογή του κανόνα επαναυπολογισμού που περιγράψαμε σε όλους τους κόμβους αντιστοίχισε τις τιμές σπουδιαότητας όλων των κόμβων που προκύπτουν σε μια κλίμακα από 0 έως s όπου s μια σταθερά 0<s<1. Επομένως η συνολική σπουδιαότητα των κόμβων τώρα θα μειωθεί από 1 σε s. Διαμοίρασε την υπόλοιπη σπουδαιότητα (1-s) ισομερώς σε όλους τους κόμβους. Ο συγκεκριμένος κανόνας ουσιαστικά μετατρέπει τον γράφο σε πλήρως συνδεδεμένο καθώς ο διαμοιρασμός της υπόλοιπης σπουδιαότηττας είναι ισοδύναμος με τη σύνδεση κάθε κόμβου με όλους τους άλλους στο δίκτυο.
Επεκτάσεις Ενσωμάτωση γεωγραφικών, χρονικών και προσωποποιημένων πληροφοριών Αναπαράσταση μη κειμενικών πηγών πληροφορίας Αντιμετώπιση κρουσμάτων αποπροσανατολισμού των μεθόδων αναζήτησης
Eigenvector Centrality Η μέθοδος PageRank αξιοποιεί την ιδεά της eigenvextor centrality στην περίπτωση του WWW. Σε μια κοινωνία δεν είναι τόσο σημαντική η ποσότητα όσο η ποιότητα των γνωριμιών σου. Επομένως θεωρούμε ότι η κεντρικότητα ενός κόμβου είναι ανάλογη του αθροίσματος της κεντρικότητας καθενός από τους γείτονες του. Μια τέτοια σχέση είναι αυτοαναφορική. Αν αναπαραστήουμε ως V το διάνυσμα που περιέχει την κεντρικότητα κάθε κόμβου ενός δικτύο τότε η κεντρικότητα Vi του i-στου κόμβου του δικτύου εκφράζεται ώς: V i = k*σ(adj ij *V j ) όπου k ένας συντελεστής αναλογίας και Adj είναι ο πίνακας γειτνίασης για το δίκτυο. Άρα το διάνυσμα V αποτελεί ένα ιδιοδιάνυσμα του πίνακα Adj. Αν τα κελιά του Adj lπεριέχουν θετικές τιμές τότε επιλέγουμε να αντιστοιχίσουμε το V με την κανονικοποιημένη μορφή του μεγαλύτερου από όλα τα ιδιοδιανύσματα του Adj
Katz-Bonacich Centrality