Ένα Κατανεμημένο Πλαίσιο Μη Γραμμικής Μείωσης Διαστάσεων

Transcript

1 Ο Π Α Τ Π Π Ε Ένα Κατανεμημένο Πλαίσιο Μη Γραμμικής Μείωσης Διαστάσεων Ονοματεπώνυμο: Διαλεκτή Βαλσάμου Επιβλέπων Καθηγητής: Μιχάλης Βαζιριάννης Αθήνα 2009

2 Περιεχόμενα 1 Εισαγωγή Το Πρόβλημα της Διαστατικότητας Μείωση Διαστάσεων Γραμμική και Μη Γραμμική Μείωση Διάστασης Μη Γραμμική Μείωση Διάστασης Γενικά Σφαιρικές Τεχνικές Isomap Kernel Principal Components Analysis Τοπικές Τεχνικές Locally Linear Embedding Local Tangent Space Alignment Laplacian Eigenmaps Περιορισμοί και Προβλήματα Πολυπλοκότητα Κεντρική και Κατανεμημένη Αρχιτεκτονική Isodis Ανάγκη για Επέκταση Περιορισμοί Κατανεμημένη Φύση Συναρτήσεις Κατακερματισμού Γενικά Συναρτήσεις που διατηρούν την ομοιότητα LSH simhash Άλλες Τεχνικές & Συμπεράσματα i

3 4 Δρομολόγηση μέσω Κατανεμημένων Πινάκων Κατακερματισμού Εισαγωγή Ομότιμα Συστήματα 1ης και 2ης γενιάς Napster Gnutella Kazaa, Limewire, Νέο Gnutella Ομότιμα Συστήματα 3ης γενιάς Freenet CAN Chord Koorde Pastry Tapestry Συμπεράσματα Αρχιτεκτονική Προσεγγίσεις Αρχιτεκτονική του Συστήματος Αλγόριθμος Αρχιτεκτονική του Αλγορίθμου Υποπροβλήματα Πειράματα Τεχνητά Δεδομένα Swiss Roll Helix D Clusters Φυσικά Δεδομένα Faces Isolet Δεδομένα Κειμένου και Συσταδοποίηση Επίλογος Σύνοψη Συμπεράσματα & Περαιτέρω Μελέτη ii

4 Κατάλογος σχημάτων 2.1 Κόμβοι και σύνολο δεδομένων. Τα χρωματιστά σημεία αποτελούν το δείγμα Η διαδικασία της ευθυγράμμισης και συσχέτισης των επί μέρους πολύπτυχων Δομή Πίνακα Κατακερματισμού Ιεραρχεία δικτύου Napster Αδόμητο δίκτυο Gnutella Νεώτερα Ιεραρχικά Μοντέλα Αναζήτηση κλειδιού στο Freenet Τρισδιάστατος δακτύλιος, ο χώρος των αναγνωριστικών του CAN Δακτύλιος του Chord Γράφος de Brujin Δρομολόγηση μέσω Koorde Φύλλα και δομή πίνακα Pastry Ανταλλαγή μηνυμάτων στο Tapestry Κόμβοι Δικτύου και Κόμβοι Γράφου - Συντομότερα Μονοπάτια Swiss Roll: Τα αρχικά τρισδιάστατα δεδομένα Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Isomap Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Landmark Isomap Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Hash Isomap Swiss Roll: Τα αρχικά τρισδιάστατα δεδομένα Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Isomap Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Landmark Isomap Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Hash Isomap Swiss Roll: Τα αρχικά τρισδιάστατα δεδομένα Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Isomap Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Landmark Isomap Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Hash Isomap iii

5 6.13 Έλικα: Αρχικά τρισδιάστατα δεδομένα Έλικα: Τα δεδομένα σε 2 διαστάσεις, Isomap Έλικα: Τα δεδομένα σε 2 διαστάσεις, Landmark Isomap Έλικα: Τα δεδομένα σε 2 διαστάσεις, Hash Isomap D Clusters: Αρχικά τρισδιάστατα δεδομένα D Clusters: Τα δεδομένα σε 2 διαστάσεις, Isomap D Clusters: Τα δεδομένα σε 2 διαστάσεις, Landmark Isomap D Clusters: Τα δεδομένα σε 2 διαστάσεις, Hash Isomap Faces: Τα αρχικά δεδομένα, απεικονισμένα τεχνητά σε 3 διαστάσεις Faces: Τα δεδομένα προβεβλημένα σε 2 διαστάσεις, Isomap Faces: Τα δεδομένα προβεβλημένα σε 2 διαστάσεις, Landmark Isomap Faces: Τα δεδομένα προβεβλημένα σε 2 διαστάσεις, Hash Isomap Faces: Τα δεδομένα προβεβλημένα σε 2 διαστάσεις, MDS ISOLET: Τα αρχικά δεδομένα, απεικονισμένα τεχνητά σε 3 διαστάσεις ISOLET: Τα δεδομένα προβεβλημένα σε 3 διαστάσεις, Isomap ISOLET: Τα δεδομένα προβεβλημένα σε 3 διαστάσεις, Landmark Isomap ISOLET: Τα δεδομένα προβεβλημένα σε 3 διαστάσεις, Hash Isomap DBLP: Η προβολή των δεδομένων σε 3 διαστάσεις, Isomap DBLP: Η προβολή των δεδομένων σε 3 διαστάσεις, Landmarks Isomap DBLP: Η προβολή των δεδομένων σε 3 διαστάσεις, Hash Isomap 60 iv

6 Περίληψη Καθώς η αποθηκευμένη πληροφορία στον κόσμο αυξάνεται με ραγδαίους ρυθμούς, η επιστήμη που ασχολείται με την επεξεργασίας των δεδομένων χρειάζεται να εφεύρει νέες τεχνικές για να διευκολύνει την αντιμετώπιση πολύ μεγάλων συλλογών με δεδομένα χώρων πολύ υψηλής διαστατικότητας. Παράλληλα, η πληροφορία αυτή βρίσκεται όλο και πιο συχνά διάσπαρτη στο διαδίκτυο, με αποτέλεσμα η ανάγκη για τέτοιους αλγορίθμους που προβλέπουν την λειτουργικότητα πάνω από κατανεμημένα στο δίκτυο περιβάλλοντα να είναι επιτακτική. Ο αλγόριθμος που προτείνουμε αποτελεί μία παραλλαγή του καταξιωμένου αλγορίθμου Isomap, η οποία χρησιμοποιεί συναρτήσεις κατακερματισμού για να προεπεξεργαστεί τα δεδομένα εισόδου. Η χρήση των αναγνωριστικών αντί για τα ίδια τα δεδομένα καθιστά τον αλγόριθμο αυτόν ικανό να συμπεριλεφθεί στο κατανεμημένο πλαίσιο το οποίο περιγράφεται στην εργασία αυτή. Οι πλέον σημαντικές προσεγγίσεις συστημάτων ομοτίμων -που αποτελούν την υπερισχύουσα τάση στον χώρο των κατανεμημένων συστημάτων, χρησιμοποιούν συναρτήσεις κατακερματισμού για την προβολή των δεδομένων σε κάποιον χώρο αναγνωριστικών και στην συνέχεια την τεχνική των κατανεμημένων πινάκων κατακερματισμού. Με βάση την χρήση θεμελιωμένων πρακτικών και την επιβεβαίωση μέσω πειραμάτων, προτείνεται ένας αλγόριθμος επαληθευμένος στην σωστή λειτουργικότητά του, ο οποίος θα αποτελέσει την καρδιά ενός πλήρως κατανεμημένου p2p πλαισίου για μείωση διαστατικότητας σε μη γραμμικά δεδομένα.

7 Κεφάλαιο 1 Εισαγωγή Οι χώροι υψηλής διαστατικότητας συμπεριφέρονται αντίθετα με την ανθρώπινη διαίσθηση, και είναι πολύ δύσκολο να γίνουν αντιληπτοί βιωματικά. Παρότι θα πίστευε κανείς ότι η συμπεριφορά των πολυδιάστατων χώρων μοιάζει με αυτή των δύο ή τριών διαστάσεων που γνωρίζουμε, στην πραγματικότητα οι πρώτοι έχουν κάποια πολύ ιδιαίτερα χαρακτηριστικά που ξεφεύγουν της απεικονιστικής δυνατότητας του ανθρώπινου νου. 1.1 Το Πρόβλημα της Διαστατικότητας Το 1961 ο Bellman εισήγαγε την έννοια της κατάρας των διαστάσεων[33], του προβλήματος της ανάλυσης δεδομένων πολλών μεταβλητών καθώς αυξάνει η διάσταση. Η επεξεργασία των δεδομένων υψηλής διαστατικότητας είναι εξαιρετικά άπληστη σε πόρους όπως ο χρόνος και μνήμη, δύο πολύτιμα αγαθά στην Επιστήμη των Υπολογιστών. Οι περισσότερες τεχνικές εξόρυξης δεδομένων έχουν αισθητά μειωμένη απόδοση για δεδομένα τέτοιας φύσης, καθώς η εξαγωγή συμπερασμάτων είναι πολλαπλά δυσκολότερη και συχνά πρακτικά ανέφικτη. Αντιστοίχως επηρεάζονται και πολλές περιοχές της επιστήμης που εξαρτώνται από την ανάλυση και απεικόνιση δεδομένων ο μεγάλος όγκος πολυδιάστατων δεδομένων παράγει σχήματα υπερεπιφανειών δύσκολα στην αναγνώριση και την ερμηνεία. Η χωρική και χρονική πολυπλοκότητα αποτελεί μία σοβαρότατη τροχοπέδη, όμως δεν είναι το μόνο πρόβλημα των πολυδιάστατων χώρων. Ένα άλλο χαρακτηριστικό αυτών των χώρων είναι η ύπαρξη πολύ μεγάλων περιοχών κενών από δεδομένα, οι οποίες εμφανίζονται συχνά στα περίπλοκα σχήματα απεικόνισης τέτοιων συλλογών δεδομένων. Το γνώρισμα αυτό, γνωστό ως Φαινόμενο Κενού Χώρου [32] αφορά την πολύ αραιή δομή των χώ- 1

8 ρων πολλών διαστάσεων. Η ανομοιόμορφη κατανομή πληροφορίας μέσα σε αυτούς έχει ως αποτέλεσμα το σημαντικά μεγαλύτερο ποσοστό δεδομένων να βρίσκεται συγκεντρωμένο σε μικρές σε αναλογία περιοχές. Οι υπολογισμοί και η επεξεργασία λοιπόν θα διευκολύνονταν αισθητά εάν λαμβάνονταν υπόψη μόνο αυτά τα σημαντικά δεδομένα, μικρότερης διάστασης. Τα κατανεμημένα περιβάλλοντα, τέλος, στα οποία αναπτύσσονται και λειτουργούν όλο και περισσότερες εφαρμογές στις ημέρες μας, έρχονται να προσθέσουν άλλη μία παράμετρο δυσκολίας: τον δικτυακό φόρτο. Ο όγκος της πληροφορίας που ανταλλάσσεται μέσω δικτύου σε τέτοια συστήματα, όταν τα δεδομένα χαρακτηρίζονται από υψηλή διαστατικότητα, είναι τεράστιος. 1.2 Μείωση Διαστάσεων Η επιστήμη πλέον διαθέτει τα μέσα επίλυσης του παραπάνω προβλήματος, σε πολλές περιπτώσεις. Η μεθοδολογία μείωσης της διάστασης των δεδομένων αφορά την προβολή διανυσμάτων υψηλής διαστατικότητας σε χώρους χαμηλότερης διάστασης, ενώ ταυτόχρονα οι μεταξύ τους σχέσεις διατηρούνται. Η τεχνική αυτή είναι εφικτή, πρωτίστως επειδή ένας αριθμός μεταβλητών δεν επηρεάζουν τα σχήματα που προκύπτουν. Οι σχέσεις μεταξύ των μεταβλητών, επίσης, επιτρέπουν συχνά την αποκοπή περιττής πληροφορίας, και ως εκ τούτου την μείωση της διαστατικότητας των διανυσμάτων που περιγράφουν τα δεδομένα. Η μείωση αυτή, θεωρείται αποτελεσματική και είναι θεμιτή μόνον όταν προσφέρει οφέλη που δικαιολογούν το κόστος της εφαρμογής της. 1.3 Γραμμική και Μη Γραμμική Μείωση Διάστασης Η πρώτη βασική διάκριση μεταξύ των επί μέρους αλγορίθμων για μείωση διάστασης αφορά την φύση των δεδομένων: υπάρχουν δεδομένα γραμμικά καθώς και μη γραμμικά. Η γραμμικότητα αυτή των δεδομένων μπορεί να εξηγηθεί με τρόπο εύκολα αντιληπτό στον άνθρωπο με βάση την μορφή των σχημάτων που δημιουργούν τα δεδομένα στον χώρο. Για παράδειγμα ένα δισδιάστατο παραλληλόγραμμο ή άλλη παρόμοια επιφάνεια θα αντιστοιχούσε σε δεδομένα που συμπεριφέρονται γραμμικά, ενώ αντίθετα μία σαμπρέλλα ή μία σπείρα θα ήταν ένα σχήμα μη γραμμικό, που θα συμπεριφερθεί εντελώς διαφορετικά κατά την επεξεργασία από κάποιον αλγόριθμο μείωσης. 2

9 Η διαφορά αυτή στην συμπεριφορά των δεδομένων αυτών έχει κυρίως να κάνει με τον τρόπο που υπολογιζόνται οι αποστάσεις μεταξύ σημείων. Κατά την μείωση των διαστάσεων ενός συνόλου δεδομένων πρέπει να διατηρηθούν σωστά οι αποστάσεις μεταξύ γειτονικών σημείων για να διατηρηθούν και οι ιδιότητές τους. Στα μη γραμμικά όμως σχήματα δύο σημεία είναι δυνατόν να έχουν βρεθεί κοντά στον χώρο, ενώ δεν βρίσκονται πραγματικά κοντά -δεν ``μοιάζουν'' δηλαδή, κατά την ερμηνεία των δεδομένων αυτό θα συμβεί, φερ'ειπείν, στις αναδιπλώσεις των πολύπτυχων. Όπως ακριβώς ένα διπλωμένο ύφασμα φέρνει κοντά σημεία που είναι απομακρυσμένα στην κανονική του μορφή, έτσι ακριβώς συμβαίνει και με τα πολύπτυχα. Η τεχνικές που περιμένουν γραμμικότητα από την είσοδό τους αποτυγχάνουν να εντοπίσουν αυτήν την ιδιότητα των δεδομένων, να κατανοήσουν την καμπυλότητα και τις λοιπές περίπλοκες λεπτομέρειες των μη γραμμικών μοντέλων. Παραδείγματα τύπων δεδομένων που κατατάσσονται στην κατηγορία των μη γραμμικών είναι τα γεωγραφικά δεδομένα, οι εικόνες, οι συλλογές κειμένων, και οι περισσότερες μορφές δεδομένων που πρακτικά ενδιαφέρουν την σύγχρονη επιστήμη. 3

10 Κεφάλαιο 2 Μη Γραμμική Μείωση Διάστασης 2.1 Γενικά Για πάρα πολλά χρόνια η έρευνα στον χώρο της μείωσης διαστάσεων είχε αρκεστεί στο να δώσει λύση στο πρόβλημα των δεδομένων που δημιουργούν γραμμικά πολύπτυχα, καθώς αυτό φαινόταν να ικανοποιεί τις ανάγκες των περισσοτέρων εφαρμογών. Η ραγδαία ανάπτυξη του διαδικτύου καθώς και η δημιουργία γιγαντιαίων βάσεων πληροφοριών σε μορφή κειμένου έφερε στο προσκήνιο την αδυναμία των προηγούμενων λύσεων να εφαρμοστούν αποδοτικά σε όλες τις περιπτώσεις και την ανάγκη για περαιτέρω ανάπτυξη λύσεων στην οικογένεια της μη γραμμικής μείωσης διαστατικότητας. Οι αλγόριθμοι μη γραμμικής μείωσης διαστάσεων χωρίζονται γενικά σε τρεις κατηγορίες τις σφαιρικές τεχνικές, τις τοπικές και στις προσεγγίσεις αυτές που επιχειρούν να συνδυάσουν γραμμικά μοντέλα ευθυγραμμίζοντάς τα σφαιρικά. Στην συνέχεια θα περιγραφούν ενδεικτικά κάποια χαρακτηριστικά παραδείγματα από τις δύο πρώτες κατηγορίες, οι οποίες είναι και οι κυριότερες. 2.2 Σφαιρικές Τεχνικές Isomap Ο Isomap είναι ένας εξαιρετικά σημαντικός αλγόριθμος που πρωτοπαρουσιάστηκε από τους Tenenbaum και Da Silva το 2000 [10] στο περιοδικό Science. Υπήρξε ρηξικέλευθος και μέχρι και σήμερα αποτελεί πρότυπο παραμένοντας ένας από τους state of the art αλγορίθμους του χώρου. 4

11 Multidimensional Scaling Πριν αναφερθεί κανείς στον Isomap καθώς και τις παραλλαγές του, είναι απαραίτητο να αναλυθεί ο γραμμικός αλγόριθμος MDS[?], στον οποίον και ο Isomap αλλά και άλλες πολλές προσεγγίσεις βασίζονται. Ο MDS είναι μια οικογένεια αλγορίθμων που λειτουργούν απεικονίζοντας δεδομένα σε χώρους Ευκλείδειους και χώρους μικρότερου αριθμού διαστάσεων. Η βασική λογική του προτύπου αυτού είναι η διατήρηση των αποστάσεων των στοιχείων που επεξεργάζεται, έτσι ώστε τα παραγόμενα δεδομένα χώρων χαμηλότερης της αρχικής διαστατικότητας να κρατούν τις ίδιες σχέσεις διάταξης μεταξύ τους. Η διατήρηση αυτή των αποστάσεων εξασφαλίζεται με ελαχιστοποίηση του τετραγωνικού λάθους μεταξύ των τιμών εισόδου και του αποτελέσματος η είσοδος αυτή είναι ένας πίνακας αποστάσεων ή διαφορών των δεδομένων. Εκτός από την εφαρμογή σε αριθμητικά δεδομένα, το πλαίσιο του MDS είναι κατάλληλο και για μη μετρικά διατεταγμένα δεδομένα καθώς και διαθέτει παραλλαγές και επεκτάσεις για την υποστήριξη αποστάσεων με βάρη, και γενικώς πολλών μορφών δεδομένων για τα οποία μπορεί να υπολογιστεί απόσταση ή ανομοιότητα. Η λογική του MDS περιγράφεται επιγραμματικά παρακάτω: 1. Είσοδος του πίνακα αποστάσεων και κεντρικοποίηση αυτού 2. Απεικόνιση των δεδομένων σε χώρο μικρότερου αριθμού διαστάσεων 3. Επεξεργασία του νέου σχήματος ώστε να ελαχιστοποιηθούν οι αποστάσεις μεταξύ αρχικών και νέων σημείων Isomap Πίσω και από τον Isomap μπορεί κανείς να διακρίνει την πρωταρχικής σημασίας λογική του MDS, όπως και σε ένα μεγάλο πλήθος άλλων λύσεων. Οι τυπικοί MDS αλγόριθμοι όμως προϋποθέτουν ότι τα σχήματα που παράγονται από τα δεδομένα παράγουν γραμμικά πολύπτυχα. Η καινοτομία λοιπόν του Isomap είναι η αντιμετώπιση αυτής της διαφορετικής φύσης. 5

12 Εντοπίζοντας τις συσχετίσεις των αρχικών σημείων δημιουργούνται μονοπάτια σε έναν γράφο επικάλυψης στα οποία η πληροφορία ενδιάμεσων σημείων και άλλων χωρικών συσχετίσεων διατηρείται. Αυτός ακριβώς ο γράφος επικάλυψης είναι που φροντίζει για την διατήρηση της μη γραμμικής διάταξης των σημείων στο χώρο. Οι αποστάσεις στον Isomap δεν είναι Ευκλείδειες όπως στις γραμμικές παραλλαγές, αλλά γεωδαιτικές, που εξασφαλίζουν ακριβώς ότι η απόσταση δύο απομακρυσμένων σημείων θα είναι η πραγματική και όχι πλασματικά μικρότερή της. Ένα παράδειγμα όπου θα συνέβαινε αυτό είναι στο ελβετικό ρολό (βλ. Ενότητα 6.1.1) όπου δύο σημεία που λόγω του τυλίγματος του σχήματος βρίσκονται κοντά, στην πραγματικότητα οι αποστάσεις τους στο δείγμα είναι μακρινές. Στο σχήμα 6.1 είναι εποπτικά τονισμένο αυτό, καθώς οι διαφορετικές τάξεις είναι χρωματισμένες διαφορετικά. Ειδικότερα, τα βήματα του Isomap περιγράφονται ικανοποιητικά ως εξής: 1. Προσδιορισμός για κάθε σημείο των γειτόνων αυτού και υπολογισμός του γράφου κ κοντινότερων γειτόνων για τον κάθε κόμβο-σημείο (knn αλγόριθμος που δημιουργεί τον γράφο επικάλυψης) 2. Σε αυτό το βήμα υπολογίζονται εκ νέου οι αποστάσεις με βάση το κόστος πρόσβασης μέσω των νέων μονοπατιών που παράγονται (Dijkstra ή άλλος αλγόριθμος συντομότερων μονοπατιών που παράγει την μήτρα αποστάσεων) 3. Οι νέες αποστάσεις τροφοδοτούν την κατάλληλη εκδοχή του MDS που δίνει ως αποτέλεσμα μία σχηματική απεικόνιση των αρχικών δεδομένων σε λιγότερες διαστάσεις Ο Isomap είναι ένας ιδιαίτερα αποδοτικός αλγόριθμος που καταφέρνει να δώσει λύση στο πρόβλημα πολύπτυχων μεγάλης διαστατικότητας που δεν συμπεριφέρονται γραμμικά, αλλά έχει τους περιορισμούς του. Ο προσδιορισμός του ορθού αριθμού γειτόνων, ειδικά στην περίπτωση μεγάλης καμπυλότητας είναι μία από τις βασικές δυσκολίες αυτής της προσέγγισης. Σε σχήματα διαφορετικής πυκνότητας και καμπυλότητας με αυτή τη μέθοδο μπορούν να ομαδοποιηθούν σημεία που δεν θα έπρεπε να είναι γειτονικά και τα αποτελέσματα να διαστρεβλωθούν αισθητά. Ένα βασικό χαρακτηριστικό του Isomap που συχνά αποτελεί μειονέκτημά του είναι πως σε περίπτωση ασύνδετου ή αραιού γράφου, υπολογίζονται οι συνεκτικές συνιστώσες αυτού και επιλέγεται μονάχα η μέγιστη συνιστώσα 6

13 για να πραγματοποιηθεί σε αυτήν η μείωση διάστασης (ο MDS αλγόριθμος). Με άλλα λόγια σε κάποιο σημείο του αλγορίθμου, τα αρχικά δεδομένα αντικαθίστανται με ένα υποσύνολο αυτών. Αυτό θα είναι ορατό και σχηματικά στα πειράματα στην αντίστοιχη ενότητα όταν η εποπτική απεικόνιση στις λιγότερες διαστάσεις αποτελείται από αισθητά λιγότερα σημεία από την αρχική. Όπως θα δούμε παρακάτω, ο αλγόριθμος που προτείνουμε δεν πάσχει από αυτήν την προβληματική συμπεριφορά. Παραλλαγές Στην προσπάθεια να διορθωθούν οι αδυναμίες του Isomap για συγκεκριμένα σχήματα, έχουν δημιουργηθεί κάποιοι παράγωγοι αυτού αλγόριθμοι. Από τους πιο γνωστούς είναι οι ακόλουθοι. C-Isomap Ο Conformal Isomap ή αλλιώς C-Isomap [19] αναπτύχθηκε στην κατεύθυνση βελτίωσης της συμπεριφοράς του αρχικού μοντέλου σε συγκεκριμένα καμπύλα πολύπτυχα. Συγκεκριμένα, ο C-Isomap λειτουργεί επηρεάζοντας την πυκνότητα των σημείων, μεγεθύνοντας τις περιοχές με πυκνή εμφάνιση δεδομένων και ελαχιστοποιώντας αυτές που είναι πιο αραιές. Εφαρμογή βρίσκει αυτή η προσέγγιση σε σχήματα όπως αυτό ενός ανθρώπινου προσώπου. L-Isomap O L-Isomap [19] παίρνει το όνομά του από τα σημεία - ορόσημα (Landmarks) που χρησιμοποιεί, αντικαθιστώντας τον MDS με τον LMDS (Landmark MDS) αλγόριθμο. Μια άλλη σημαντική αλλαγή του L-Isomap είναι η χρήση διαφορετικού αλγορίθμου για τον υπολογισμό των κ πλησιέστερων γειτόνων, με σκοπό την βελτίωση του υπολογιστικού κόστους. Επιπροσθέτως, χρησιμοποιώντας μονάχα τα σημεία που έχουν επιλεχθεί ως ορόσημα και υπολογίζοντας τις Ευκλείδειες αποστάσεις αυτών οι επιδόσεις του αλγορίθμου βελτιώνονται ακόμα περισσότερο, με κάποιο σχετικό κόστος στην ακρίβεια των αποτελεσμάτων Kernel Principal Components Analysis PCA Μέσα στους πιο καταξιωμένους και σημαντικούς αλγορίθμους για γραμμική μείωση διάστασης είναι και ο PCA[20]. Με στόχο την βελτιστοποίηση 7

14 της περιγραφόμενης διασποράς, η τεχνική αυτή επεξεργάζεται τον πίνακα συνδιασποράς των δεδομένων υπολογίζοντας τα ιδιοδιανύσματα αυτού. Στο αποτέλεσμα λαμβάνονται υπόψη τα d πρώτα και περισσότερο σημαντικά ιδιοδιανύσματα (principal components), τα οποία και αποτελούν τις διευθύνσεις προβολής των δεδομένων στη συνέχεια. Τα βήματα του PCA έχουν ως εξής: 1. Υπολογισμός του πίνακα συνδιασποράς 2. Ανάλυση του πίνακα συνδιασποράς για την παραγωγή των ιδιοτιμών και ιδιοδιανυσμάτων του 3. Μετασχηματισμός των πινάκων συνδιασποράς και ιδιοδιανυσμάτων για την δημιουργία του διαγωνίου πίνακα 4. Ταξινόμηση των ιδιοδιανυσμάτων και επιλογή των d πρώτων 5. Χρήση των νέων δεδομένων για τον υπολογισμό των νέων μεταβλητών Αυτή η προσέγγιση του PCA αποτελεί βάση για πολλούς αλγορίθμους στον χώρο της μείωσης διάστασης και τις συναφείς περιοχές και έχει πολλές εφαρμογές. Το βασικότερο πρόβλημα που προσπαθούν να λύσουν οι γραμμικές παραλλαγές της είναι αυτό της κλιμάκωσης, καθώς ο πίνακας συνδιασποράς έχει μέγεθος ανάλογο της διαστατικότητας των δεδομένων με αποτέλεσμα η επεξεργασία να απαιτεί πολλούς πόρους. KPCA O KPCA [21]είναι μια μετεξέλιξη του κλασσικού γραμμικού αλγορίθμου PCΑ που χρησιμοποιεί συνάρτηση πυρήνα, προσανατολισμένη σε χώρους υψηλής διαστατικότητας. Η συνάρτηση αυτή που αναλαμβάνει τον έργο της αντιστοίχισης των δεδομένων σε σημεία σε ευκλείδειο χώρο, μπορεί να διαθέτει πυρήνα γραμμικό, πολυωνυμικό, ακτινωτής βάσης (radial basis) κά. Οι συναρτήσεις πυρήνα εξοικονομούν πόρους υπολογίζοντας τα εσωτερικά γινόμενα των εικόνων των δεδομένων στον νέο χώρο, δίχως να χρησιμοποιούν και να υπολογίζουν τις πραγματικές εκεί διαστάσεις των σημείων. Αυτός ακριβώς ο συνδυασμός PCA τεχνικών με την μέθοδο πυρήνα επιτρέπει την κατασκευή μη γραμμικών απεικονίσεων. 8

15 Οι επιδόσεις και η ακρίβεια του KPCA εξαρτώνται σαφώς άμεσα από την ορθή επιλογή της συνάρτησης πυρήνα που ταιριάζει καλύτερα στα εκάστοτε δεδομένα. Ο KPCA έχει εφαρμοστεί επιτυχώς στην αναγνώριση φωνής και στην επεξεργασία εικόνας. 2.3 Τοπικές Τεχνικές Locally Linear Embedding Η ιδέα πίσω από τον LLE [22] είναι διαισθητικά κατανοητή και απλή: δεδομένης της πολυπλοκότητας της επεξεργασίας των μη γραμμικών σχημάτων εξετάζουμε αυτά τοπικά και εκμεταλλευόμαστε την γραμμικότητά τους σε τέτοια τμήματα Η βασική λοιπόν θεώρηση αυτής της λύσης είναι ότι ένα μη γραμμικό πολύπτυχο είναι δυνατόν να συμπεριφέρεται μη γραμμικά σε τοπικό επίπεδο. Σε αυτές τις τοπικές γειτονιές σημείων, κάθε ένα από αυτά είναι εφικτό να υπολογιστεί ως γραμμικός συνδυασμός των γειτόνων του. Η ανακατασκευή του σχήματος με βάση τις παραπάνω θεωρήσεις είναι πιθανό να παρουσιάσει λάθη, τα οποία ελέγχονται από μία συνάρτηση που λαμβάνει υπόψη τις τετραγωνικές αποστάσεις των αρχικών και τελικών σημείων μαζί με το βάρος του εκάστοτε υπό εξέταση σημείου, όπως αυτό προκύπτει από την ποσοτικοποίηση της συνεισφοράς αυτού στην αναπαράσταση μέσω της μεθόδου των ελαχίστων τετραγώνων. Ο αλγόριθμος LLE λειτουργεί με τον ακόλουθο τρόπο: 1. Εύρεση των κ κοντινότερων γειτόνων κάθε σημείου με χρήση ευκλείδειων αποστάσεων 2. Υπολογισμός του βάρους αυτό κάθε σημείου το οποίο θα ανακατασκευάσει με τον βέλτιστο τρόπο το σημείο αυτό από τους γείτονές τους 3. Προσδιορισμός των νέων σημείων στον χώρο μικρότερης διαστατικότητας τα οποία ανακατασκευάζονται καλύτερα με χρήση των παραπάνω βαρών Και ο LLE πάσχει από την δυσκολία επιλογής σωστών παραμέτρων - γειτόνων και αριθμού επιθυμητών διαστάσεων. Επιπλέον, ο LLE δεν δίνει καλά αποτελέσματα σε αραιά ή κλειστά πολύπτυχα και σε σχήματα τα οποία διαθέτουν πολλά outliers. Παρόλα αυτά λειτουργεί πολύ καλά σε πάρα πολλές 9

16 περιπτώσεις, αναπαριστώντας αποδοτικά τα σημεία και διατηρώντας ορθά τις γειτονιές των σημείων Local Tangent Space Alignment Η περιγραφή των πολυδιάστατων δεδομένων στην τεχνική LTSA [23] πραγματοποιείται με χρήση του τοπικού χώρου εφαπτομένων του κάθε σημείου αυτών. Η βάση αυτού του αλγορίθμου είναι το γεγονός ότι θεωρώντας το πολύπτυχο τοπικά γραμμικό υπάρχει γραμμικός τρόπος απεικόνισης ενός σημείου από έναν χώρο πολυδιάστατο στον τοπικό χώρο εφαπτομένων του, και επίσης υπάρχει μια τέτοια απεικόνιση από το αντίστοιχο πολύπτυχο χαμηλότερης διαστατικότητας στον ίδιο χώρο εφαπτομένων. Ο LTSA προσπαθεί να ευθυγραμμίσει αυτές τις δύο ακριβώς γραμμικές απεικονίσεις με τρόπο που να είναι δυνατή η κατασκευή του τοπικού χώρου εφαπτομένων του πολυπτύχου από την ολιγοδιάστατη προβολή του. Η επεξεργασία των δεδομένων ξεκινά με την εφαρμογή PCA στους κ γείτονες του κάθε σημείου, απεικονίζοντας έτσι τα σημεία από την γειτονιά αυτού του σημείου στον τοπικό χώρο εφαπτομένων. Στην συνέχεια συντίθεται η μήτρα ευθυγράμμισης, τα ιδιοδιανύσματα της οποίας αποτελούν και τη λύση στη συνάρτηση που προσπαθεί να ταυτίσει τις δύο απεικονίσεις Laplacian Eigenmaps Μια προσέγγιση κοντινή στην λογική του LLE, είναι αυτή των ιδιοαπεικονίσεων Laplace [24]. Η κεντρική ιδέα και εδώ είναι η διατήρηση των τοπικών ιδιοτήτων του πολυπτύχου, οι οποίες όμως εδώ ορίζονται στις ανά ζεύγη αποστάσεις γειτόνων. Στις αποστάσεις μεταξύ γειτονικών σημείων ανατίθενται βάρη τα οποία υπολογίζονται ώστε τα πλησιέστερα σημεία να συνεισφέρουν περισσότερο στην αναπαράσταση μέσω μίας συνάρτησης κόστους. Η χρήση των ιδιοτιμών και ιδιοδιανυσμάτων προκύπτει στην ελαχιστοποίηση αυτής της συνάρτησης κόστους μέσω φασματικής θεωρίας γραφημάτων. Ο αλγόριθμος ιδιοαπεικονίσεων Laplace έχει επιτυχή εφαρμογή στην συσταδοποίηση και την αναγνώριση προσώπων. 10

17 2.4 Περιορισμοί και Προβλήματα Πολυπλοκότητα Η επισκόπηση των χαρακτηριστικότερων αλγορίθμων μη γραμμικής μείωσης διαστατικότητας που έγινε παραπάνω, αλλά και οι εκτενέστερες μελέτες στη βιβλιογραφία καταδεικνύουν κάποια πολύ σημαντικά και κοινά προβλήματα στον χώρο αυτόν. Όλοι οι τοπικοί αλγόριθμοι, καθώς και όσοι αντιμετωπίζουν τα σημεία σε επίπεδο γειτονίας λειτουργούν ικανοποιητικά μονάχα με υψηλής πυκνότητας δεδομένα. Το μεγαλύτερο πλήθος των αλγορίθμων που υπάρχουν απαιτεί διακριτές αριθμητικές τιμές, με μόνο τον Isomap και τον αλγόριθμο Laplacian Eigenmaps να μπορούν να διαχειριστούν τιμές με μέτρο σύγκρισης την διαφορά, ανομοιότητα ή διάταξη. Όλοι οι αλγόριθμοι μη γραμμικής μείωσης διάστασης απαιτούν τον προσδιορισμό κατάλληλων τιμών ελεύθερων παραμέτρων, όπως είναι το πλήθος κ κοντινών γειτόνων σε κάποιους, ο αριθμός των διαστάσεων του χώρου-στόχου, και άλλες τιμές που επιδρούν αισθητά τόσο στην πολυπλοκότητα όσο και στην ακρίβεια των υπολογισμών. Στο χώρο της μείωσης διαστάσεων, λόγω της εγγενούς φύσης αυτού, είναι πάρα πολύ σημαντική η πολυπλοκότητα των εκάστοτε αλγορίθμων καθώς πολύ συχνά λόγω των μεγεθών και των διαστάσεων των δεδομένων οι απαιτήσεις σε πόρους πιθανώς να εκτοξευτούν στα ύψη κατά την κλιμάκωση. Η υπολογιστική πολυπλοκότητα ενός αλγορίθμου καθορίζεται πρωτίστως από το πλήθος των δεδομένων, το πλήθος των διαστάσεων του αρχικού χώρου, το πλήθος διαστάσεων του χώρου όπου επιθυμούμε να προβάλλουμε τα σημεία και, τέλος, από τις τιμές των διαφόρων ελεύθερων παραμέτρων που απαιτεί ο κάθε αλγόριθμος. Για παράδειγμα, σε κάποιον αλγόριθμο που απαιτεί εύρεση κ κοντινότερων γειτόνων, το πλήθος ακριβώς αυτό (κ) θα επηρεάσει άμεσα τόσο την απόδοση όσο και τις ανάγκες σε πόρους Κεντρική και Κατανεμημένη Αρχιτεκτονική Όλοι οι αλγόριθμοι που περιγράφηκαν παραπάνω είναι κεντρικοί, αφορούν δηλαδή μια συγκεντρωτική αρχιτεκτονική όπου δεδομένα βρίσκονται και όπου η επεξεργασία εκτελείται. Οι κεντρικοί αλγόριθμοι έχουν φυσικούς περιορισμούς μνήμης, χώρου και υπολογιστικής ισχύος, καθώς οφείλουν να 11

18 αρκούνται σε ό,τι είναι διαθέσιμο σε ένα και μόνον σύστημα. Οι εφαρμογές που λειτουργούν κατανεμημένα, αντίθετα, έχουν στην διάθεσή τους πολύ περισσότερους πόρους από συνδυασμό συστάδων υπολογιστών (clusters) ή περιβαλλόντων υπολογισμού πλέγματος (grid computing). Η ανάγκη για κατανεμημένες λύσεις όμως δεν είναι μονάχα απόρροια της ανάγκης για μεγαλύτερη υπολογιστική ισχύ οι ίδιες οι εφαρμογές όπως εξελίσσονται σήμερα υπαγορεύουν την μετάβαση σε τέτοια μοντέλα. Σε ακαδημαϊκό και ερευνητικό επίπεδο, καθώς και σε μεγάλα projects η χρήση clusters ή grid είναι πλέον συνήθης τακτική, με τεράστιες ποσότητες δεδομένων διάσπαρτες μέσα στο δίκτυο. Ιατρικά, τραπεζιτικά και εμπορικά δεδομένα βρίσκονται πάρα πολύ συχνότερα διασκορπισμένα σε διαφορετικές γεωγραφικά τοποθεσίες παρά κεντρικώς διαθέσιμα. Η υπερισχύουσα τάση της εποχής είναι ο ενοποιητικός συνδυασμός των επικοινωνιών και των υπολογισμών. Ο παγκόσμιος ιστός αποτελεί μία γιγαντιαίων διαστάσεων κατανεμημένη αποθήκη δεδομένων.επιπλέον, με την ραγδαία ανάπτυξη του ιστού έχει σηματοδοτηθεί η γέννηση μιας νέας γενιάς προγραμμάτων και συστημάτων όπου λειτουργούν εξ ορισμού μέσα στο διαδίκτυο, όπου κάθε τύπου πληροφορία ή επεξεργασία λαμβάνει χώρα σε μεμονωμένους κόμβους του δικτύου η κεντρική επεξεργασία είναι μία προσέγγιση που σιγά σιγά εγκαταλείπεται σε όλο και περισσότερους τομείς. Συμπερασματικά, λοιπόν, είναι καταφανές ότι βήματα προς την μελέτη και υλοποίηση κατανεμημένων αλγορίθμων μείωσης διαστάσεων είναι απαραίτητο να ληφθούν. Πράγματι, τα τελευταία χρόνια υπάρχει μεγάλη σχετική δραστηριότητα με αποτέλεσμα αρκετούς κατανεμημένους γραμμικούς αλγορίθμους. Στο μέτωπο της μη γραμμικής διαστατικότητας, όμως, η βιβλιογραφία είναι ανύπαρκτη. 2.5 Isodis Σε πρόσφατη εργασία του, ο Π. Αντωνίου πρότεινε το Isodis, ένα πλαίσιο μη γραμμικής μείωσης διάστασης κατάλληλο για κατανεμημένες εφαρμογές. Σε αντίθεση με έναν συγκεκριμένο αλγόριθμο, το πλαίσιο Isodis προτείνει μία λειτουργική αρχιτεκτονική για τη λύση του προβλήματος στην οποία οι επί μέρους αλγόριθμοι είναι ελεύθερο να αντικατασταθούν από έναν αριθμό εναλλακτικών αλγορίθμων ώστε να εξυπηρετήσουν με τον βέλτιστο τρόπο 12

19 τις ανάγκες της εκάστοτε εφαρμογής. Με τον τρόπο αυτό προτείνεται ένα ευέλικτο σύστημα, κατάλληλο για πολλές διαφορετικές εφαρμογές και δεκτικό σε αλλαγές και βελτιστοποιήσεις. Τα βήματα του Isodis είναι τα ακόλουθα: 1. Τυχαία δειγματοληψία σημείων ανά κόμβο. Η διατήρηση της κατανομής του σχήματος που προκύπτει από τα δεδομένα του κόμβου αυτού στο σχήμα των δειγμάτων είναι απαραίτητη. 2. Τα δείγματα αυτά αποστέλλονται σε κάποιον κόμβο συνάθροισης 3. Ο κάθε κόμβος περιγράφει το πολύπτυχο των δεδομένων που του αντιστοιχούν μέσω πίνακα που εκφράζει γράφο επικάλυψης κ κοντινότερων γειτόνων με βάρη στο μονοπάτι βασισμένα στις ευκλείδειες αποστάσεις των σημείων στην περίπτωση που επιλέγεται ο Isomap, είτε βάρη των γειτόνων που περιγράφουν το εκάστοτε σημείο σύμφωνα με την επιλογή αυτών κατά τον LLE. 4. Εκτέλεση αλγορίθμου γραμμικής μείωσης διάστασης στον πίνακα που προέκυψε από το παραπάνω βήμα. 5. Ο κάθε κόμβος συνάθροισης έχει αυτή τη στιγμή τα δείγματα που λήφθησαν από τους επί μέρους κόμβους απεικονισμένα σε χώρο λιγότερων διαστάσεων και μεταδίδει αυτήν την πληροφορία σε όλους τους επί μέρους κόμβους. 6. Σε κάθε κόμβο υπολογίζεται μέσω ελαχίστων τετραγώνων ένας γραμμικός τελεστής που μετασχηματίζει τα δείγματα που του ανήκουν στις απεικονίσεις τους που έλαβε από τον κόμβο συνάθροισης. 7. Ο τελεστής που υπολογίστηκε στο προηγούμενο βήμα, εφαρμόζεται τώρα σε όλα τα σημεία του κάθε κόμβου 2.6 Ανάγκη για Επέκταση Περιορισμοί Το βασικότερο πρόβλημα του πλαισίου Isodis όπως έχει προταθεί είναι ότι στην περίπτωση που η κατανομή των δεδομένων στους επί μέρους κόμβους δεν είναι ομοιόμορφη, τα αποτελέσματα ενός απομονωμένου κόμβου 13

20 Σχήμα 2.1: Κόμβοι και σύνολο δεδομένων. Τα χρωματιστά σημεία αποτελούν το δείγμα Σχήμα 2.2: Η διαδικασία της ευθυγράμμισης και συσχέτισης των επί μέρους πολύπτυχων 14

21 θα ήταν ασύνδετα πρακτικά με το σύνολο, καθώς η διαδικασία μετακίνησης, ευθυγράμμισης και κλιμάκωσης δεν θα ήταν δυνατόν να πραγματοποιηθεί επιτυχώς και δίχως σημαντικές απώλειες. Αυτή ακριβώς ήταν και η βασική αδυναμία του πλαισίου Isodis που έκρινε αναγκαία την εκ νέου προσέγγιση του προβλήματος Κατανεμημένη Φύση Εξίσου σημαντική υπόθεση υπήρξε η καλύτερη θεμελίωση της κατανεμημένης φύσης του αλγοριθμικού πλαισίου που προτείνεται. Στον Isodis παρατηρεί κανείς ότι απαιτούνται κόμβοι συνάθροισης (aggregator nodes) καθώς επίσης και ανταλλαγή αρκετής πληροφορίας πάνω από το δίκτυο. Οι κόμβοι συνάθροισης αποτελούν πρόβλημα καταρχάς επειδή αποτελούν περιορισμό στην φύση του δικτύου. Τα σύγχρονα συστήματα ομοτίμων δεν παρέχουν -και συχνά δεν δύνανται να παρέχουν- κόμβους ιεραρχικά ανώτερους και συγκεντρωτικούς. Μία τέτοια λύση θα βρισκόταν αντίθετη με την φιλοσοφία των σημερινών κατανεμημένων συστημάτων και θα παρέκκλινε από τις τάσεις της εποχής, όπως θα τις παρουσιάσουμε και στα επόμενα κεφάλαια. Η πληροφορία που διακινείται πάνω από το δίκτυο είναι απολύτως απαραίτητο να είναι η ελάχιστη δυνατή. Πρέπει να λάβουμε υπόψη τις σχετικές μελέτες ώστε να παρουσιάσουμε ένα κάποιο κατώφλι το οποίο θα μας εξασφαλίζει ότι το πλαίσιό μας δεν κάνει κατάχρηση των πόρων δικτύου. Η υπολογιστική ισχύς των επί μέρους κόμβων είναι ασφαλές να θεωρηθεί ικανοποιητική, πλέον στις ημέρες μας, οπότε είναι αναγκαίο να επικεντρωθούμε στον έλεγχο των μηνυμάτων που ανταλλάσσονται μεταξύ των κόμβων του συστήματός μας. 15

22 Κεφάλαιο 3 Συναρτήσεις Κατακερματισμού Η χρήση των hashes σε συστήματα με κατανεμημένη φύση είναι ευρύτατη και καταλυτική. Η αντιστοίχιση των δεδομένων με κάποια μοναδική ακολουθία χαρακτήρων βοηθά στην οικονομία πληροφορίας και στην ευελιξία τέτοιων εφαρμογών και συστημάτων. 3.1 Γενικά Αναλύοντας τις πρωταρχικές έννοιες, μία συνάρτηση τύπου hash ή αλλιώς συνάρτηση κατακερματισμού-καλώς ορισμένη με μαθηματικό τρόπο- λειτουργεί αντιστοιχίζοντας κάποιου τύπου δεδομένα σε έναν ακέραιο αριθμό που θα λειτουργήσει στη συνέχεια ως δείκτης για τα αρχικά δεδομένα. Προϊόν αυτού του συνταιριάσματος δεικτών και δεδομένων είναι ένας πίνακας hash (hash table) ή πίνακας κατακερματισμού ο οποίος περιλαμβάνει την πληροφορία του συσχετισμού κλειδιών με τιμές. Οι βασικές λειτουργίες μιας τέτοιες οντότητας είναι η εισαγωγή, η διαγραφή και η αναζήτηση. Το ενδεχόμενο να αποδοθεί σε περισσότερα από ένα κλειδιά ή ίδια τιμή hash ονομάζεται σύγκρουση και ο τρόπος διαχείρισης της εμφάνισης τέτοιων φαινομένων διαφέρει από μέθοδο σε μέθοδο. Οι πίνακες κατακερματισμού εξυπηρετούν πρώτα από όλα την αναζήτηση κλειδιών με χρήση μητρών δεικτών με βάση την είσοδο και την συνάρτηση hash που χρησιμοποιήθηκε εντοπίζεται η περιοχή όπου θα πρέπει να αναζητήσει κανείς τα επιθυμητά δεδομένα. Η συνάρτηση κατακερματισμού που καθιστά δυνατή την εύρεση αυτής της περιοχής διαφέρει από υλοποίηση σε υλοποίηση, καθώς εξαρτάται σε μεγάλο βαθμό από τη φύση των δεδομένων καθώς και από την επιθυμητή συμπεριφορά του αλγορίθμου, έτσι μπορεί συχνά να είναι μια modulo κωδικοποίηση, ενώ σε διαφορετικές προσεγγίσεις να 16

23 υπολογίζονται πιο περίπλοκες αποστάσεις και μέτρα. Οι κατανεμημένοι πίνακες κατακερματισμού (distributed hash tables ή DHTs) είναι μια εφαρμογή τις ιδέας των hash tables σε δικτυακές εφαρμογές όπου τα δεδομένα βρίσκονται διαμοιρασμένα σε πολυάριθμους κόμβους. Η συνάρτηση κατακερματισμού είναι και εδώ η βασική ιδέα, αλλά επιπλέον αυτής πολύ σημαντικός είναι ο ρόλος και του αλγορίθμου δρομολόγησης και εξερεύνησης των κόμβων κατά την αναζήτηση πληροφορίας. Οι DHTs θα αναλυθούν ενδελεχέστερα στο Κεφάλαιο 4 αυτού του εγγράφου. 3.2 Συναρτήσεις που διατηρούν την ομοιότητα Ερχόμενοι στο πλαίσιο μείωσης διάστασης το οποίο περιγράφεται σε αυτή την εργασία, η χρήση συναρτήσεων κατακερματισμού οφείλει να υπακούει σε κάποιους κανόνες. Καθώς οι επί μέρους κόμβοι του κατανεμημένου δικτύου θα επεξεργαστούν τα δεδομένα που διαθέτουν είναι ιδιαίτερα σημαντικό να διατηρείται η πληροφορία της απόστασης και της ομοιότητας των σχετικών δεδομένων. Αυτό διευκολύνει τόσο την ορθή κατανομή της πληροφορίας στους κόμβους επεξεργασίας, όσο και την σωστή συρραφή των επί μέρους αποτελεσμάτων αυτών για την σύσταση του τελικού αποτελέσματος. Οι συναρτήσεις που θα εξετάσουμε στη συνέχεια έχουν όλες την δυνατότητα με τον έναν ή τον άλλον τρόπο να λαμβάνουν υπόψη τις ομοιότητες των δεδομένων εισόδου ώστε να παράγουν δείκτες σε αυτά οι τιμές των οποίων εξασφαλίζουν σε κάποιον βαθμό ότι δύο κοντινές τιμές θα αντιστοιχούν σε ανάλογα παρόμοιες εισόδους LSH Το πλαίσιο LSH ορίζει μία οικογένεια από συναρτήσεις κατακερματισμού που με βάση διάφορες μετρικές για τον υπολογισμό της απόστασης (ανάλογα την φύση των δεδομένων), παράγει ευρετήριο που ακολουθεί τις μεταξύ των σημείων αποστάσεις. Παρέχει έναν αλγόριθμο εύρεσης κ πλησιέστερων γειτόνων (knns) με βάση αυτά τα hashes. Είναι σημαντικό να σημειωθεί ότι έχει συνδυαστεί επιτυχώς με το Chord (βλ. παρακάτω) σε αρκετές σχετικές εργασίες. [1, 2] Ο LSH είναι ένας πιθανοτικός (probabilistic) αλγόριθμος που υπολογίζει γρήγορα και αποδοτικά τα γειτονικά σημεία ενός σημείου-εισόδου σε έναν 17

24 χώρο πολλών διαστάσεων. Κάθε σημείο βρίσκεται σε πολλούς πίνακες κατακερματισμού ο κάθε πίνακας διαθέτει την δική του συνάρτηση από την οικογένεια και χρησιμοποιεί κάδους (buckets) καθώς συμβαίνουν πολλές συγκρούσεις. Η βασική ιδέα είναι ακριβώς ότι παρόμοια (κοντινά) σημεία αντιστοιχίζονται στον ίδιο κάδο με μεγάλη πιθανότητα. Η αναζήτηση γίνεται σε όλους τους πίνακες, υπολογίζοντας την απόσταση του σημείου του ερωτήματος προς όλα τα σημεία στον συγκεκριμένο κάδο. Η οικογένεια των LSH συναρτήσεων διαθέτει διάφορες παραλλαγές με βάση το μέτρο ομοιότητας που ταιριάζει καλύτερα στην φύση των εκάστοτε δεδομένων. Κάποιες από αυτές τις μετρικές είναι: Bit Sampling For Hamming Distance Min-Wise Independent Permutations Random Projection Stable Distributions Ορισμός Η οικογένεια LSH συναρτήσεων H με παραμέτρους (c,r,p 1,P 2 ): Εάν p q r τότε Pr H [h(p) = h(q)] P 1 Εάν p q cr τότε Pr H [h(p) = h(q)] P 2 Notation: ρ = log(1/p 1) log(1/p 2 ) < 1. Θεώρημα Κάθε (c,r,p 1,P 2 )-locality-sensitive hashing οδηγεί σε έναν αλγόριθμό για c-προσεγγιστική r-range αναζήτηση με (περίπου) n χρόνο αναζήτησης και n 1+ χώρο προεπεξεργασίας. 18

25 Προεπεξεργασία Σύνθετη συνάρτηση κατακερματισμού: g(p) =< h 1 (p),...,h k (p) > Προεπεξεργασία με παραμέτρους L,k: 1. Επιλογή στην τύχη L σύνθετων συναρτήσεων κατακερματισμού με k components η κάθε μία 2. Αντιστοίχιση (hash) κάθε p S σε κάδους g 1 (p),...,g L (p) Χώρος Προεπεξεργασίας: O (Ln) Αναζήτηση 1. Υπολογισμός g 1 (q),..., g L (q) 2. Μετάβαση στους αντίστοιχους κάδους και ρητός έλεγχος d(p, q)?cr για κάθε τους σημείο 3. Συνθήκες τερματισμού: (αʹ) Εύρεση ικανοποιητικού αντικειμένου (βʹ) Δοκιμάσαμε τουλάχιστον 3L αντικείμενα Χρόνος Αναζήτησης O (L) Ανάλυση Με στόχο να έχουμε πιθανότητα σφάλματος μικρότερη από δ θέτουμε k, L τέτοια ώστε P k 2 n 1 L (1/P 1 ) k log(1/δ) Επιλύοντας αυτούς τους περιορισμούς: k = log n log(1/p 2 ) log n log(1/p L = (1/P 1 ) 2) log(1/δ) = n log(1/p 1 ) log(1/p 2) log(1/δ) = n ρ log(1/δ) Ο αναμενόμενος αριθμός αντικειμένων που βρίσκονται έως cr μακριά που θα δοκιμασθεί είναι P2 k Ln L Για έναν πραγματικό r-γείτονα η πιθανότητα να ανατεθεί στον ίδιο κάδο με το q είναι τουλάχιστον 1 (1 (1/P 1 ) k ) L 1 (1/e) L (1/P 1 ) k 1 δ Χώρος επεξεργασίας O (Ln) n 1+ρ+o(1) Αναζήτηση O (L) n ρ+o(1) 19

26 3.2.2 simhash Ο simhash είναι ένας αλγόριθμος που πληροί τις παραπάνω προϋποθέσεις, και έχει συγκεκριμένα χρησιμοποιηθεί για τον εντοπισμό πολύ κοντινών διανυσμάτων [3]. Λειτουργεί προβάλοντας τα διανύσματα μεγάλης διαστατικότητας σε μικρά ingerprints. Η ομοιότητα δύο διανυσμάτων υπολογίζεται με την απόσταση Hamming. Αρχικώς ορισμένος ως ``sketch'' από τον Charikar [4], αφορά μία μέθοδο αντιστοίχισης n-διάστατων διανυσμάτων σε k-διάστατα διανύσματα bit (n >> k), διαλέγοντας k τυχαία διανύσματα r i στον δεδομένο χώρο διανυσμάτων και ορίζοντας k συναρτήσεις ενός bit ως εξής: 1. h i (v) = 1, εάν dot(r, v) 0 2. h i (v) = 0, εάν dot(r i, v) < Άλλες Τεχνικές & Συμπεράσματα Στην βιβλιογραφία, σε συστήματα -τμηματικώς- παρόμοια με αυτό που χτίζουμε έχουν χρησιμοποιηθεί διάφορες τεχνικές που συνήθως εμπίπτουν εντός του ορισμού των LSH συναρτήσεων, χωρίς απαραίτητα να τις επικαλούνται. Τεχνικές οι οποίες αξίζει να αναφερθούν, φερ'ειπείν είναι το ``Locality Perserving Mapping'' με χρήση Hilbert Space-Filling Curve [5], ή το ``Semantic Hashing'' που ταιριάζει καλύτερα σε έγγραφα κειμένου ή συλλογές αρχείων [6, 7]. Στην πρόταση της παρούσας εργασίας πρόκειται να χρησιμοποιηθεί η λύση των LSH συναρτήσεων, ως η πλέον δοκιμασμένη στην βιβλιογραφία. Ο σκοπός όμως της δημιουργίας ενός ευέλικτου πλαισίου είναι ακριβώς η δυνατότητα να προσαρμοστεί αυτό στις εκάστοτε ανάγκες της εφαρμογής και των δεδομένων, για τον λόγο αυτόν λοιπόν η λύση των LSH συναρτήσεων δεν είναι παρά μία πρόταση και μία απόδειξη της λειτουργικότητας του προτεινόμενου πλαισίου. 20

27 Κεφάλαιο 4 Δρομολόγηση μέσω Κατανεμημένων Πινάκων Κατακερματισμού 4.1 Εισαγωγή Οι κατανεμημένοι πίνακες κατακερματισμού (DHTs) είναι μία σύγχρονη μέθοδος δόμησης των δικτύων ομοτίμων (peer-to-peer ή p2p), που υπόσχεται ταχεία, αποδοτική και αξιόπιστη αναζήτηση μέσω ευρετηρίου ενός αντικειμένω ανάμεσα σε peers του δικτύου. Η λογική ενός DHT συστήματος είναι πολύ απλή: η βασική ιδέα είναι η υλοποίηση ενός πίνακα κατακερματισμού (hash table) που αντιστοιχίζει τιμές με κλειδιά σε κάποιον χώρο αναγνωριστικών, κατά μήκος ενός δικτύου. Η αντιστοίχιση αυτή γίνεται μέσω κάποιας ρουτίνας hash τυχαίας ή ειδικής, ανάλογα με τις ανάγκες κάθε πρωτοκόλλου. Στο κατανεμημένο κομμάτι τώρα, τα συστήματα που είναι μέλη του p2p δικτύου έχουν ανά πάσα στιγμή ένα τμήμα των δεδομένων και των κλειδιών/αναγνωριστικών καθώς και μερική γνώση για το πώς να εντοπίσουν κάποιο νέο ζητούμενο μέρος δεδομένων -αυτή η διαδικασία διαφοροποιείται αρκετά στους εκάστοτε αλγορίθμους DHT και αποτελεί το σημαντικό κομμάτι της δρομολόγησης. Ένα παράδειγμα αρχιτεκτονικής μπορεί κανείς να δει στο παρακάτω σχήμα: 21

28 Σχήμα 4.1: Δομή Πίνακα Κατακερματισμού Σχήμα 4.2: Ιεραρχεία δικτύου Napster 4.2 Ομότιμα Συστήματα 1ης και 2ης γενιάς Τα δίκτυα p2p πρώτης γενιάς υπήρξαν αδόμητα και βασίζονταν σε καταλυσμό ( looding) μηνυμάτων, ενώ αυτά της δεύτερης γενιάς είναι ως επί τω πλείστω ιεραρχικά δομημένα, με κεντρικούς εξυπηρετητές ή υπερ-κόμβους ανά περιοχή. Κάποια χαρακτηριστικά παραδείγματα τέτοιων συστημάτων είναι τα παρακάτω: Napster Το Napster υπήρξε ένα δίκτυο κεντρικά διαχειριζόμενο, καθώς ένας κεντρικός εξυπηρετητής κρατούσε και διαμοίραζε όλη την πληροφορία (βλ. 4.2). Η λογική αυτή είναι αρκετά απλοϊκή και το βασικό πρόβλημά της είναι το κεντρικό point of failure. 22

29 Σχήμα 4.3: Αδόμητο δίκτυο Gnutella Gnutella Η πρώτη έκδοση του gnutella βασίζεται στο message looding. Οι λειτουργίες του είναι οι ping και pong για ανεύρεση κόμβων στο δίκτυο, push για την διάθεση των δεδομένων των κόμβων στο δίκτυο και τέλος query και queryhit για την ανεύρεση δεδομένων μέσω lood. Στο 4.3 παρουσιάζεται ένα στιγμιότυπο gnutella δικτύου. Το Gnutella είναι ένας εντελώς αδόμητο σύστημα, τα μηνύματα κινούνταθ φέροντας ένα Time To Live (TTL) tag μέσα στο δίκτυο για την αποφυγή συμφόρισης, παρ'όλα αυτά το μεγαλύτερο πρόβλημα αυτού του τύπου p2p δικτύου είναι η πολύ μεγάλη συγκέντρωση μηνυμάτων. Κατά τα άλλα, τα gnutella δίκτυα έχουν σχετικά μικρούς χρόνους απόκρισης, μικρές απαιτήσεις μνήμης καθώς κάθε κόμβος γνωρίζει και ενημερώνει μόνο τους γείτονές του και αρκετά μεγάλη ανθεκτικότητα σε σφάλματα Kazaa, Limewire, Νέο Gnutella Άλλα μεταγενέστερα πρωτόκολλα p2p έχουν μια διαφορετική προσέγγιση, όντας δομημένα ιεραρχικά, σε σχηματισμούς που ουσιαστικά συνδύαζαν τις διο προαναφερθείσες λογικές. Τοπικώς οι peers είναι συνδεδεμένοι με κάποιον υπερ-κόμβο όπως περίπου στο napster, και οι ίδιοι οι υπερκόμβοι επικοινωνούν με τρόπο που θυμίζει τα πρώτα gnutella δίκτυα (4.4). Ως μέση λύση τα ιεραρχικά αυτά πρωτόκολλα προσφέρουν καλά αποτελέσματα, με πολύ μικρούς χρόνους απόκρισης, αισθητά μειωμένο πλήθος μηνυμάτων στο δίκτυο από το gnutella, μικρό και πάλι κόστος αποθήκευσης -στα φύλλα- και ενημέρωσης, αλλά λόγω της χαλαρότερα συνδεδεμένης δομής η ανθεκτικότητα στα σφάλματα είναι επίσης αισθητά μειωμένη. 23

30 Σχήμα 4.4: Νεώτερα Ιεραρχικά Μοντέλα 4.3 Ομότιμα Συστήματα 3ης γενιάς Τα συστήματα που αναπτύσσονται πλέον έχουν κατά κύριο λόγο μια νέα λογική: είναι δομημένα χωρίς την χρήση υπερ-κόμβων ή κάποιου κεντρικού εξυπηρετητή, χωρίς όμως να ακολουθούν την άναρχη κατανομή πληροφορίας των πρώτων gnutella δικτύων. Ο στόχος είναι η κατά το δυνατόν γρηγορότερη αναζήτηση με τη χρήση κάποιου κατανεμημένου ευρετηρίου. Η βασική ιδέα που διέπει όλες τις διαφορετικές υλοποιήσεις είναι η καταμέριση του γενικού ευρετηρίου ώστε κάθε κόμβος να διατηρεί ένα μόνο μικρό μέρος αυτού και η ανεύρεση των επιθυμητών δεδομένων από εκεί και πέρα να επιτυγχάνεται αποδοτικά μέσω κάποιας έξυπνης δρομολόγησης μέσω αυτού του ευρετηρίου. Κάποια από τα πλέον διαδεδομένα και χαρακτηριστικά πρωτόκολλα είναι τα ακόλουθα: Freenet Στο Freenet[28], κατόπιν της αντιστoίχισης των δεδομένων με κλειδιά, η πληροφορία δρομολόγησης/ευρετηρίου αυτών των κλειδιών διαχέεται στο δίκτυο και η οικονομία μηνυμάτων επιτυγχάνεται με caching αυτής κατά μήκος των μονοπατιών αναζήτησης. Κατά τα άλλα το freenet θυμίζει ιδιαίτερα το gnutella στην αδόμητη μορφή του, και είναι από τα πιο απλοϊκά αυτής της κατηγορίας. Κάθε κόμβος ενός δικτύου freenet κρατάει σε έναν πίνακα με πληροφορίες δρομολόγησης δηλαδή διευθύνσεις και κλειδιά άλλων κόμβων. Τα αιτήματα προωθούνται στο δίκτυο από κόμβο σε κόμβο και σε κάθε βήμα αποφασίζεται τοπικά από τον peer η επόμενη κίνηση. Μια απεικόνιση της δρομολόγησης αναζήτησης κλειδιού στο freenet απεικονίζεται στο σχήμα

31 Σχήμα 4.5: Αναζήτηση κλειδιού στο Freenet CAN Το CAN (Content Addressable Network)[29] είναι μια υλοποίηση της ιδέας δρομολόγησης μέσω DHTs που βασίζεται στην κατανομή της πληροφορίας και των κόμβων σε έναν κ-διάστατο χώρο. Τα κλειδιά που περιγράφουν τα δεδομένα αντιστοιχίζονται σε σημεία στον κ-διάστατο καρτεσιανό χώρο (τρισδιάστατος δακτύλιος (torus), Σχήμα 4.6), με το κ συνήθως να κυμαίνεται σε τιμές στο διάστημα Η κατανομή των κόμβων στον χώρο γίνεται κατά ζώνες, καθώς ο κάθε peer κρατάει ευρετήριο για τα δεδομένα που βρίσκονται εντός μίας ζώνης, και γνωρίζει επίσης τις διευθύνσεις των κόμβων που διαχειρίζονται γειτονικές με αυτόν ζώνες. Η δρομολόγηση λοιπόν γίνεται με διάσχιση των ζωνών αυτών. Το CAN απαιτεί ο κάθε peer να διατηρεί στην μνήμη του 2κ διευθύνσεις κόμβων και στη χειρότερη περίπτωση χρειάζεται O(κN1/κ) βήματα στην αναζήτηση κλειδιού. 25

32 Σχήμα 4.6: Τρισδιάστατος δακτύλιος, ο χώρος των αναγνωριστικών του CAN Chord Το Chord [25] είναι ένα ακόμα πρωτόκολλο δρομολόγησης βασισμένο στην ιδέα των κατανεμημένων πινάκων κατακερματισμού, φτιαγμένο από την ακαδημαϊκή κοινότητα και ιδανικό για p2p δίκτυα με συχνές εισόδους και εξόδους κόμβων. Η βασική ιδέα του Chord είναι αυτή του συνεπή κατακερματισμού (consistent hashing). Συνεπής Κατακερματισμός Τα αναγνωριστικά (IDs) ταξινομούνται σε έναν δακτύλιο mοdulo 2m (Σχήμα 4.7), το κλειδί k αντιστοιχίζεται στον πρώτο κόμβο που το ID του είναι ίσο ή έπεται στο δακτύλιο, αυτός ο κόμβος ονομάζεται successor(k). Κάθε κόμβος γνωρίζει μόνο τον successor του. Αυτή η λύση είναι ορθή, όμως το Chord για να αυξήσει την αποτελεσματικότητα του αλγορίθμου, εισάγει την έννοια του inger table: κάθε κόμβος διατηρεί έναν πίνακα με το πολύ m εγγραφές IDs άλλων κόμβων, όπου m ο αριθμός bits των IDs. Όταν ένας κόμβος δεν γνωρίζει τον successor ενός κλειδιού k, βρίσκει τον κόμβο που το ID του είναι πιο κοντά στο k από το δικό του, και έτσι διατρέχοντας τον δακτύλιο βρίσκεται το επιθυμητό στοιχείο σε O(logN) το πολύ βήματα. Ο κάθε κόμβος αποθηκεύει στη μνήμη του πληροφορίες για O(logN) κόμβους που έπονται αυτού στον δακτύλιο. Στο 26

33 Σχήμα 4.7: Δακτύλιος του Chord Σχήμα 4.7 μπορεί κανείς να δει τον δακτύλιο με τα αναγνωριστικά κόμβων και δεδομένων στο Chord Koorde Το KOORDE[26] είναι μια παραλλαγή του Chord που χρησιμοποιεί de Bruijn (Σχήμα 4.8) γράφους επιπλέον του δακτυλίου. Το Koorde διατηρεί την απλή και ταχεία λειτουργικότητα του Chord, χρησιμοποιεί όμως τον γράφο de Bruijn για την δρομολόγηση. Η διαφοροποίηση αυτή οδηγεί σε O(logN/logN) χείριστο αριθμό βημάτων στην αναζήτηση όταν ο βαθμός κάθε κόμβου (δηλ. το πόσους κόμβους κρατά στη μνήμη) είναι Ο(logN), και O(logN) βήματα όταν ο βαθμός είναι Ο(1). Στο Σχήμα 4.9 φαίνεται ένα παράδειγμα στιγμιότυπου δρομολόγησης μέσω Koorde Pastry Με μια αρκετά διαφορετική προσέγγιση, το Pastry [30] αναθέτει ανεξάρτητα τυχαία και ομοιόμορφα κατανεμημένα αναγνωριστικά στους κόμβους που θεωρούνται ότι συνδέονται κυκλικά, έτσι ώστε τα αριθμητικά κοντινά IDs να ανατίθενται σε γεωγραφικά diverse κόμβους. 27

34 Σχήμα 4.8: Γράφος de Brujin Σχήμα 4.9: Δρομολόγηση μέσω Koorde 28

35 Σχήμα 4.10: Φύλλα και δομή πίνακα Pastry Ο καθένας από τους κόμβους διατηρεί στην μνήμη του έναν πίνακα δρομολόγησης, μία ομάδα γειτόνων και μία ομάδα φύλλων του (Σχήμα 4.10). Στον πίνακα δρομολόγησης οι κόμβοι συσχετίζονται με βάση το πρόθεμα του ID τους, και αποθηκεύουν μόνο τους peers που πληρούν κάποιες προϋποθέσεις. Ο πίνακας γειτόνων υπολογίζεται με βάση κάποια μετρική κόστους επικοινωνίας, ένα χαρακτηριστικό που δίνει συγκριτικό πλεονέκτημα στο Pastry καθώς αυτό είναι πιο συνεπές με τις τοπολογικές διαφοροποιήσεις μεταξύ κόμβων. Φύλλα ενός κόμβου είναι οι κόμβοι αυτοί που είναι πλησιέστεροι με βάση το ID σε αυτόν προς κάθε κατεύθυνση στον δακτύλιο αναγνωριστικών. Η δρομολόγηση στο Pastry είναι pre ix-based, και ακολουθεί αριθμητικούς κανόνες που αφορούν τα προθέματα για να εντοπίσει τον κόμβο-στόχο. Είναι πιθανό να ξεκινήσει, έτσι, μια αναζήτηση ακόμα και για κάποιον κόμβο που δεν υπάρχει στο δίκτυο, καθώς σύμφωνα με τα pre ixes θα βρεθεί μονοπάτι που θα έπρεπε να οδηγεί σε αυτόν. Και στο Pastry ο βαθμός και ο χείριστος αριθμός βημάτων αναζήτησης είναι O(logN), όμως το Pastry εφαρμόζοντας μέτρα εκτίμησης του κόστους επικοινωνίας, μπορεί να καταφέρει να είναι πιο αποτελεσματικό από πιο τυφλά άλλα πρωτόκολλα. 29

36 Σχήμα 4.11: Ανταλλαγή μηνυμάτων στο Tapestry Tapestry Το Tapestry[31] είναι ακόμα ένα pre ix-based πρωτόκολλο υλοποίησης DHTs, που μοιάζει σε αρκετά σημεία με το Pastry. Και το Tapestry έχει τρόπους μέτρησης της κόστους επικοινωνίας και για αυτό λειτουργεί πιο έξυπνα όταν υπάρχει μεγάλη γεωγραφική διαφοροποίηση, επιπλέον όμως το Tapestry διαθέτει κάποιες μεθόδους εντοπισμού hotspot δεδομένων που ζητούνται συχνά και διατήρησής αυτών σε cache, και άλλες μικροδιαφορές και βελτιώσεις. Το βασικό μειονέκτημα του Tapestry είναι ότι είναι κάπως δυσκίνητο σε πολύ ασταθή και μεταλλασσόμενα δίκτυα. Η διαδρομή ενός μηνύματος στο tapestry περιγράφεται στο Σχήμα Συμπεράσματα Τα περισσότερα από τα παραπάνω πρωτόκολλα νέας γενικάς θα μπορούσαν να χρησιμοποιηθούν στην περίπτωσή μας. Τα Chord, Koorde και Pastry, Tapestry φαίνονται αρκετά ταιριαστά, λόγω της έξυπνης ταξινόμησης κόμβων και δρομολόγησης αντίστοιχα, που σχετίζονται με την τιμή του identi ier. 30

37 Το CAN παραπέμπει σε σχήματα που διαισθητικά ταιριάζουν στις ανάγκες μας, αλλά γενικά θεωρείται ότι έχει πολύ κακές επιδόσεις. Το Chord είναι ένα state of the art ακαδημαϊκό πρότυπο που θα χρησιμοποιήσουμε στις περιγραφεές από εδώ και πέρα, καθώς είναι αρκετά γενικό. Όμως θα μπορούσαμε αντίστοιχα να υλοποιήσουμε το πλαίσιο αυτό με οποιαδήποτε από τις σύγχρονες εναλλακτικές, με αντίστοιχα αποτελέσματα, καθώς δεν θα είναι η κεντρική λογική που θα διαφοροποιείται, αλλά οι επί μέρους επιδόσεις, που δεν μας ενδιαφέρουν σε αυτή τη φάση. 31

38 Κεφάλαιο 5 Αρχιτεκτονική Ο σκελετός του κατανεμημένου πλαισίου αποτελείται από την συνάρτηση κατακερματισμού που αντιστοιχίζει τα διανύσματα σε τιμές στον χώρο των δεικτών, τον αλγόριθμο του δικτύου επικάλυψης που φροντίζει για την δρομολόγηση της πληροφορίας και το Isodis πλαίσιο που παρέχει την λειτουργικότητα της επεξεργασίας και μείωσης διαστάσεων των δεδομένων. Οι συνδυασμοί των παραπάνω επί μέρους στοιχείων για να συνθέσουν μια ολοκληρωμένη λύση είναι πολλαπλοί, και παράγουν διάφορες αρχιτεκτονικές τις οποίες εξετάσαμε και μελετήσαμε. Η βιβλιογραφία στο θέμα αυτό είναι ποικίλη και επιτρέπει τον πειραματισμό με διαφορετικής φύσης εφαρμογές του πλαισίου. 5.1 Προσεγγίσεις Σε προηγούμενη εργασία σχετιζόμενη με αναζητήσεις με βάση ομοιότητα σε p2p βάσεις δεδομένων η πρόταση των Bhattacharya et al[8] υπήρξε ένας μηχανισμός ευρετηρίου και αναζήτησης που συνίστατο από τον συνδυασμό ενός πρωτοκόλλου δρομολόγησης που παρείχε την αναζήτηση και μιας συνάρτησης που διατηρεί την ομοιότητα. Η πρόταση αυτή συστάθηκε με τέτοιον τρόπο ώστε να είναι δυνατόν να λειτουργήσει με έναν αριθμό δομημένων δικτύων DHTs, και στο κομμάτι της απόδοσης hash επιλέχθηκε μία συνάρτηση βασιζόμενη στις αποστάσεις συνημιτόνων μεταξύ των διανυσμάτων εισόδου. Η βασική λογική είναι η εξής: όταν ένας κόμβος αναζητά μια συγκεκριμένη τιμή είναι εφικτό να υπολογίσει τους δείκτες αυτούς οι οποίοι είναι κοντινοί με το ζητούμενο και κατόπιν να αναζητήσει μέσω του επιλεγμένου δικτύου 32

39 επικάλυψης τους κόμβους που είναι υπεύθυνοι για τα αντίστοιχα τμήματα πληροφορίας. Η σχετικότητα των δεικτών στην παραπάνω υλοποίηση υπολογίζεται με βάση την απόσταση Hamming και είναι απαραίτητο να οριστεί και το έυρος μέσα στο οποίο ορίζονται τα πλησιέστερα αποτελέσματα. Μια άλλη αρχιτεκτονική συναφούς λογικής αποτέλεσε την κεντρική ιδέα του psearch [9]. Σε αυτήν την δομή τα διανύσματα που παράγονται από την εκτέλεση αλγορίθμων LSI (Latent Semantic Indexing) ανατίθενται σε ζευγάρια κλειδιών και τιμών του CAN, η κύρια εφαρμογή της οποίας είναι η ανάκτηση πληροφορίας από μεγάλες συλλογές κειμένων σε δίκτυα ομοτίμων. Οι συλλογές αυτές είναι ένα από τα χαρακτηριστικότερα παραδείγματα τύπου δεδομένων που πλήττονται από την επονομαζόμενη κατάρα της διαστατικότητας. Αυτό που παράγεται με τον παραπάνω τρόπο είναι ένα δίκτυο σημασιολογικής επικάλυψης, όπου δηλαδή τα δεδομένα είναι δομημένα με βάση την σημασιολογική αξία τους με τον αριθμό των βημάτων στο δίκτυο δρομολόγησης μεταξύ δύο στιγμιοτύπων να εξαρτάται από την σχετικότητά τους. Το διάνυσμα που δίνεται από το LSI είναι κατάλληλο για χρήση ως κλειδί σε έναν δακτύλιο CAN και η αναλογία που διατηρείται είναι αυτή της ομοιότητας μεταξύ κλειδιών του CAN και της ομοιότητας μεταξύ των εγγράφων που αυτά περιγράφουν. Ερχόμενοι σε προτάσεις πιο κοντινές στην δική μας, συναντάμε αυτή των Gupta et al [1] όπου χρησιμοποιούνται οι ίδιες περίπου συνιστώσες: τα δεδομένα και τα ερωτήματα αντιστοιχίζονται με βάση κάποια LSH συνάρτηση στον χώρο των αναγνωριστικών και το δίκτυο εξυπηρετείται από το Chord, το οποίο και παρέχει τις υπηρεσίες αναζήτησης, δρομολόγησης της πληροφορίας, κοκ. Η LSH συνάρτηση που έχει επιλεχθεί βασίζεται στο μέτρο ομοιότητας που ορίζεται από τις Min-wise Independent Permutations. 5.2 Αρχιτεκτονική του Συστήματος Το περιβάλλον στο οποίο προβλέπεται η λειτουργία του πλαισίου το οποίο θεμελιώνουμε χαρακτηρίζεται από οντότητες που ανήκουν σε δύο κατηγορίες: στον χώρο των δεδομένων και στον χώρο του δικτύου. Τα δεδομένα μας υπάρχουν με την μορφή σημείων στον χώρο των αρχικών διαστάσεων. Τα σημεία αυτά βρίσκονται διασκορπισμένα σε κόμβους δικτύου με τρόπο ομοιόμορφο, υπάρχει δηλαδή μία οριζόντια κατανομή. Οι θεωρήσεις που θα κάνουμε είναι πολύ εύκολο να αποδειχθεί ότι ισχύουν και 33

40 για περιβάλλοντα όπου τα δεδομένα βρίσκονται κατανεμημένα κατακόρυφα. Τα σημεία αντιστοιχίζονται σε σημεία στον χώρο των αναγνωριστικών μέσω μία συνάρτησης που διατηρεί την τοπικότητά τους. Οι κόμβοι του δικτύου που φιλοξενούν τμήματα του αρχικού πολυπτύχου δεδομένων διαθέτουν και αυτοί αναγνωριστικά, τα οποία παράγονται τυχαία. Η συσχέτιση των αναγνωριστικών των κόμβων με αυτά των δεδομένων, και κατά συνέπεια την δικτυακή δομή που επιτρέπει τις αναζητήσεις, παρέχεται μέσω του πρωτοκόλλου Chord. 5.3 Αλγόριθμος Αρχιτεκτονική του Αλγορίθμου Ακολουθώντας το καταξιωμένο μοντέλο του Isomap, η αρχιτεκτονική του αλγορίθμου μπορεί να περιγραφεί από τα κάτωθι βήματα. Σε κάθε βήμα μπορεί κανείς να δει και την αντιστοιχία του με τις διαδικασίες του Isomap. 1. Κάθε κόμβος δικτύου πραγματοποιεί μία αναζήτηση των k πλησιέστερων γειτόνων του (knns) για τα δεδομένα τα οποία του ανήκουν. Αυτές οι αναζητήσεις διευκολύνονται από το υπάρχον δίκτυο δρομολόγησης. Το βήμα αυτό παράγει τον γράφο γειτνίασης (neighbourhood graph) κατά τον Isomap. 2. Κάθε κόμβος δικτύου υπολογίζει τις γεωδαιτικές αποστάσεις από και προς τα σημεία του εκτελώντας μία κατανεμημένη παραλλαγή του αλγορίθμου συντομότερων μονοπατιών. Σαν αποτέλεσμα κάθε κόμβος δικτύου έχει στην διάθεσή του στο πέρας αυτού του βήματος τα συντομότερα μονοπάτια που ξεκινούν και τελειώνουν στα σημεία που του ανήκουν, ανακατασυεκάζοντας με αυτόν τον τρόπο την δική του γραμμή και στήλη αντίστοιχα από τον πίνακα αποστάσεων που θα παρήγαγε τυπικά ένας κεντρικός αλγόριθμος ελαχίστων μονοπατιών στον Isomap. 3. Κάθε κόμβος υπολογίζει την προβολή των σημείων του στον χώρο χαμηλότερης διαστατικότητας εφαρμόζοντας των MDS αλγόριθμο, με βάση μία παράλληλη/κατανεμημένη εκδοχή του SVD. Όπως είναι εμφανές τα βήματα του αλγορίθμου που ορίζουμε είναι πιστά ως προς τον δοκιμασμένο κεντρικό Isomap. Ο στόχος σε κάθε στάδιο είναι να πραγματοποιήσουμε τους ίδιους υπολογισμούς αλλά σε κατανεμημένη υποδομή. 34

41 5.3.2 Υποπροβλήματα Η λύση λοιπόν αυτή εισάγει κάποιες παραδοχές και προτάσεις που αξίζουν να εξετασθούν ξεχωριστά. Κατακερματισμός και Κοντινότεροι Γείτονες Η επιλογή της οικογένειας LSH ήταν η λύση την οποία καταδείκνυε όλη η βιβλιογραφία. Η πληθώρα διαφορετικών μετρικών και συναρτήσεων οι οποίες υπάγονται σε αυτήν την ομάδα δίνει μεγάλη ελευθερία επιλογών, ώστε η εκάστοτε υλοποίηση να σέβεται την φύση των δεδομένων και των αναγκών της προκείμενης εφαρμογής. Επιπροσθέτως οι συναρτήσεις LSH έχουν το σημαντικό πλεονέκτημα του να έχουν πλοιστάκις χρησιμοποιηθεί και δοκιμασθεί σε διάφορες εργασίες, συχνά αρκετά συναφείς με την παρούσα. Μία από τις πολύ σημαντικές ιδιότητες της οικογένειας αυτής είναι πως μπορεί με φυσικό τρόπο να πραγματοποιηθεί ο υπολογισμός των k πλησιέστερων γειτόνων σε δεδομένα που τους έχουν ανατεθεί αναγνωριστικά με χρήση συναρτήσεων LSH. Η εύρεση κατά προσέγγιση γειτόνων με εξασφάλιση επιδόσεων Συντομότερα Μονοπάτια Για την προσέγγιση του υποπροβλήματος του κατανεμημένου υπολογισμού των συντομότερων μονοπατιών μεταξύ των σημείων κάθε κόμβου, ώστε να κατασκευαστεί ο επιθυμητός πίνακας αποστάσεων, χρησιμοποιήσαμε αντί του απλού αλγορίθμου του Dijkstra που χρησιμοποιείται στον Isomap,την καταξιωμένη -και ελεγμένη από τον Dijkstra- εργασία του M. Chandy [11], στην οποία περιγράφονται ικανοποιητικά η διαδικασία και τα μηνύματα που απαιτούνται για τον ορθό υπολογισμό των μονοπατιών σε περιβάλλοντα κατανεμημένης επεξεργασίας. Ο αλγόριθμος αυτός λειτουργεί σε δύο φάσεις που εκκινούνται από κάποιον κόμβο του γράφου p 1 στην πρώτη φάση κάθε κόμβος του γράφου p i καταλήγει με το ελάχιστο μονοπάτι L i προς αυτόν, εάν αυτό υπάρχει και στην δεύτερη ενημερώνονται όλοι οι κόμβοι γράφου για τους οποίους δεν υπάρχει μονοπάτι για αυτό το γεγονός. Στην πρώτη φάση διακινούνται δύο τύποι μηνυμάτων: 1. Μυνήματα Μήκους (s, p) όπου p είναι ο αποστολέας του μηνύματος, και s το μήκος του συνολικού μέχρι εκεί μονοπατιού. Αυτά αποστέλ- 35

42 Σχήμα 5.1: Κόμβοι Δικτύου και Κόμβοι Γράφου - Συντομότερα Μονοπάτια 36

43 λονται από τους κόμβους στους επόμενούς τους στο μονοπάτι, ενημερώνοντάς τους έτσι για το μονοπάτι. 2. Μημύματα Επιβεβαίωσης, που επιστρέφονται στα μηνύματα μήκους εάν αυτά πρόκειται να ληφθούν υπ'όψην για τον υπολογισμό από τους κόμβους του γράφου που είναι προσπελάσιμοι μέσω του αποστολέα (παραλήπτη του μηνύματος μήκους). Επιπλέον, κάθε κόμβος του γράφου διατηρεί μία μεταβλητή d στην οποία διατηρεί το συντομότερο μονοπάτι που έχει λάβει μέχρι τώρα, με σκοπό να το συγκρίνει με αυτά που λαμβάνει στα μηνύματα μήκους και εάν αυτά προσφέρουν καλύτερη εναλλακτική να ενημερώσει το d, να μεταφέρει το νέο μήνυμα στους επόμενους αυτού κόμβους και να στείλει ack πίσω. Στην δεύτερη φάση ανταλλάσσονται μηνύματα ``over?'' και ``over-'' μεταξύ των κόμβων του γράφου για να επιβεβαιωθεί ο τερματισμός της φάσης Ι και να ενημερωθούν οι κόμβοι με μονοπάτι άπειρου μήκους. Με την παραπάνω απλή επέκταση του αλγορίθμου του Dijkstra με χρήση μηνυμάτων ο κάθε κόμβος του δικτύου μπορεί να εκκινήσει τον υπολογισμό των συντομότερων μονοπατιών από τα σημεία του (που θα είναι συμμετρικά προς τα μονοπάτια προς αυτά, σύμφωνα με τις θεωρήσεις που έχουμε κάνει στην προηγούμενη υποενότητα). Τα μηνύματα που πρόκειται να ανταλλαχθούν είναι συγκεκριμένα και στην περίπτωση των μονοπατιών μεταξύ σημείων εντός του ίδου κόμβου δικτύου είναι τετριμμένο το κόστος. Σε αυτήν την φάση εξέλιξης του πλαισίου μπορεί υιοθετηθεί μία απλοϊκή προσέγγιση σχετικά με τον συγχρονισμό αυτών των υπολογισμών μεταξύ των κόμβων δικτύων πως, δηλαδή, συμβαίνει ασύγχρονα και δεν λαμβάνονται μέτρα επιπλέον συγχρονισμού της για οικονομία στο δίκτυο. Κατανεμημένος MDS Το υποπρόβλημα της παράλληλης ή κατανεμημένης επεξεργασίας SVD που είναι απαραίτητο τμήμα του MDS αλγόριθμου μείωσης διαστατικότητας αποτελεί ένα τμήμα του πλαισίου το οποίο δεν πρόκειται να καλυφθεί από την παρούσα εργασία. Στα πειράματα που πραγματοποιήθηκαν, όπως ο αναγνώστης μπορεί να διαβάσει και στην αντίστοιχη ενότητα, εξετάσθηκε η ορθότητα του αλγορίθμου εξαιρουμένου του στελέχους που αφορά το παρόν πρόβλημα. 37

44 Το βασικότερο πρόβλημα στην κατανεμημένη εκδοχή του MDS είναι ο κατανεμημένος υπολογισμός ιδιοτιμών και ιδιοδιανυσμάτων του πίνακα αποστάσεων. Όλες οι προσεγγίσεις αριθμητικής ανάλυσης απαιτούν την επικοινωνία O (n 2 ) δεδομένων -όπου n η πληθυκότητα των δεδομένων), δηλαδή όλου του πίνακα, πράγμα που καθιστά ασύμφορή οποιαδήποτε απόπειρα κατανεμημένου υπολογισμού. Συνεπώς λύση στο πρόβλημά μας δίνουν προσεγγίσεις που αποτελούν εναλλακτικές του MDS και εκτελούνται αποδοτικά -αναφορικά με φόρτο δικτύου- κατανεμημένα. Τέτοιες είναι ο D-LMDS[16], DFastMap[17] και η FEDRA[18]. Στα πειράματα χρησιμοποιήθηκε ο κεντρικός MDS, ώστε να είναι εφικτός ο έλεγχος του Hash Isomap. 38

45 Κεφάλαιο 6 Πειράματα Στην υλοποίηση που πραγματοποιήσαμε για πειραματικούς λόγους, εξετάσθηκαν η ορθότητα και οι επιδόσεις του αλγορίθμου κάνοντας κάποιες θεωρήσεις σχετικά με την κατανεμημένη φύση του. Συγκεκριμένα, η υλοποίηση έγινε σε Matlab και αφορούσε τον σκελετό του Isomap με πραγματοποίηση της αναζήτησης για πλησιέστερους γειτόνους με χρήση των LSH συναρτήσεων. Η περεταίρω εξέταση και υλοποίηση των σταδίων που αφορούν το κομμάτι της κατά MDS μείωσης διαστάσεων σε κατανεμημένο περιβάλλον πρόκειται να πραγματοποιηθούν κατόπιν και εκτός της παρούσας εργασίας. Ομοίως, και καθώς η ισοδυναμία του κατανεμημένου αλγορίθμου με τον κεντρικό Dijkstra καλύφθηκε στην προηγούμενη ενότητα, δεν προσομοιώθηκε η κατανεμημένη αυτή του λειτουργικότητα. Οι πειραματικές δοκιμές που πραγματοποιήθηκαν, εξέτασαν την προσαρμοσμένη έκδοση του Isomap που περιγράφεται ως εξής: 1. Εύρεση των knn με χρήση LSH συναρτήσεων, το τμήμα το οποίο βρίσκεται υπό δοκιμασία. 2. Κεντρικός Dijkstra, εφάμιλλος του κατανεμημένου όπως των ορίσαμε παραπάνω. 3. Κεντρικός MDS. 6.1 Τεχνητά Δεδομένα Ακολουθεί η σχηματική απεικόνιση των δοκιμών που πραγματοποιήθηκαν πάνω σε διαδεδομένα σύνολα δεδομένων, κατάλληλα για πειραματισμό και 39

46 αξιολόγηση τεχνικών μείωσης διαστατικότητας. Για λόγους σύγκρισης παρατίθενται τα αποτελέσματα γνωστών αλγορίθμων, και κυρίως του Isomap. Είναι σημαντικό να σημειωθεί ότι τα πειράματα πραγματοποιήθηκαν κεντρικά, με στόχο να αξιολογηθεί η λειτουργικότητα της προσέγγισης του Isomap μέσω hashing Swiss Roll Το σχήμα του ελβετικού ρολού είναι από τα πλέον βασικά πολυδιάστατα πολύπτυχα στα οποία δοκιμάζονται οι αλγόριθμοι μη γραμμικής μείωσης διαστάσεων. Για αυτόν τον λόγο πραγματοποιήθηκαν πολλά πειράματα, με διαφορετικές παραμέτρους. Σε όσα πειράματα δεν αναφέρεται διαφορετικά, οι πίνακες κατακερματισμού ήταν 20, και το μέγεθος των αναγνωριστικών δείγματα, 10 γείτονες Σχήμα 6.1: Swiss Roll: Τα αρχικά τρισδιάστατα δεδομένα Σχήμα 6.2: Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Isomap Σχήμα 6.3: Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Landmark Isomap Σχήμα 6.4: Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Hash Isomap 40

47 5000 δείγματα, 8 γείτονες Σχήμα 6.5: Swiss Roll: Τα αρχικά τρισδιάστατα δεδομένα Σχήμα 6.6: Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Isomap Σχήμα 6.7: Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Landmark Isomap Σχήμα 6.8: Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Hash Isomap 41

48 5000 δείγματα, 12 γείτονες Σχήμα 6.9: Swiss Roll: Τα αρχικά τρισδιάστατα δεδομένα Σχήμα 6.10: Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Isomap Σχήμα 6.11: Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Landmark Isomap Σχήμα 6.12: Swiss Roll: Τα δεδομένα σε 2 διαστάσεις, Hash Isomap Συμπεράσματα από το Swiss Roll Ως πρώτη σειρά πειραμάτων, οι δοκιμές με το ελβετικό ρολό επιδεικνύουν ήδη την αποτελεσματική λειτουργικότητα του Hash Isomap. Σε όλες τις περιπτώσεις καταφέρνει να ξεδιπλώσει σωστά το πολύπτυχο στις 2 διαστάσεις, διατηρώντας σωστά και τις επί μέρους τμηματικές διαφορές που εμφανίζονται ως χρωματική διαφοροποίηση στα σχήματα. Ακόμα και στις πιο αραιές απεικονίσεις (λιγότεροι γείτονες) ο H-Isomap έχει πολύ καλά αποτελέσματα, εφάμιλλα των προτύπων του Isomap και Landmarks Isomap. 42

49 6.1.2 Helix Στην έλικα, άλλο ένα τυπικό σχήμα σε αυτήν την κατηγορία δοκιμών η παραλλαγή μας φαίνεται να πηγαίνει αισθητά καλά είναι η μόνη τεχνική ο οποία παράγει σωστά αποτελέσματα. Η προβολή του σχήματος της έλικας στις δύο διαστάσεις οφείλει να διατηρήσει την κυκλική δομή, αλλά και την διάκριση μεταξύ των διαφόρων τμημάτων, πράγμα που πραγματοποιεί άριστα ο H-Isomap (Σχήμα 6.16). O Isomap προβάλει λανθασμένα το σχήμα, διατηρώντας μετα βίας την δομή των επί μέρους τμημάτων (Σχήμα 6.14), και ο L-Isomap παρ'ότι έχει λίγο καλύτερα αποτελέσματα τελικώς δεν επιτυγχάνει(σχήμα 6.15). Σχήμα 6.13: Έλικα: Αρχικά τρισδιάστατα δεδομένα 43

50 Σχήμα 6.14: Έλικα: Τα δεδομένα σε 2 διαστάσεις, Isomap Σχήμα 6.15: Έλικα: Τα δεδομένα σε 2 διαστάσεις, Landmark Isomap 44

51 Σχήμα 6.16: Έλικα: Τα δεδομένα σε 2 διαστάσεις, Hash Isomap 45

52 D Clusters Άλλη μία από τις δομές που αναδεικνύουν τις δυνατότητες ενός αλγορίθμου είναι αυτή των τρισδιάσταων συστάδων. Από τις απεικονίσεις (Σχ. 6.18, 6.19, 6.20) σε τρεις και δύο διαστάσεις που ακολουθούν είναι καταφανές ότι ο προτεινόμενος H-Isomap έχει εξαιρετικά καλύτερα αποτελέσματα από τους άλλους δύο συγκεκριμένα είναι ο μόνος από τους τρεις που λειτουργεί σωστά και σε αυτήν την περίπτωση, διατηρώντας την διάκριση των συστάδων (Σχήμα 6.20). Σχήμα 6.17: 3D Clusters: Αρχικά τρισδιάστατα δεδομένα 46

53 Σχήμα 6.18: 3D Clusters: Τα δεδομένα σε 2 διαστάσεις, Isomap Σχήμα 6.19: 3D Clusters: Τα δεδομένα σε 2 διαστάσεις, Landmark Isomap 47

54 Σχήμα 6.20: 3D Clusters: Τα δεδομένα σε 2 διαστάσεις, Hash Isomap 48

55 6.2 Φυσικά Δεδομένα Faces Η βάση με εικόνες προσώπων ``Faces'' είναι αυτή που χρησιμοποιείται κατά κόρον για την επίδειξη τεχνικών μείωσης διάστασης, για αυτό και την χρησιμοποιήσαμε για πειράματα και σε αυτήν την εργασία. Η αρχική διαστατικότητα των δεδομένων ήταν 698 (Σχήμα 6.21), η προβολή έγινε σε 2 διαστάσεις και για σύγκριση τα πειράματα έγιναν με τους Isomap (Σχήμα 6.22), Landmark Isomap (Σχήμα 6.23) και την δική μας Hash based εκδοχή (Σχήμα 6.24), καθώς και με τον κλασσικό MDS (Σχήμα 6.25). Τα πειράματα έγιναν για να συγκρίνουμε τα αποτελέσματα του αλγορίθμου μας με αυτά των καταξιωμένων τεχνικών, ώστε να παράγουμε εποπτικά συγκρίσιμα αποτελέσματα. Σχήμα 6.21: Faces: Τα αρχικά δεδομένα, απεικονισμένα τεχνητά σε 3 διαστάσεις 49

56 Σχήμα 6.22: Faces: Τα δεδομένα προβεβλημένα σε 2 διαστάσεις, Isomap Σχήμα 6.23: Faces: Τα δεδομένα προβεβλημένα σε 2 διαστάσεις, Landmark Isomap 50