Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Σχετικά έγγραφα
R n R 2. x 2. x 1. x: συντεταγµένες του z

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Ζητήματα ηήμ με τα δεδομένα

Αναγνώριση Προτύπων. 27 Ιουνίου 2008 Ημερίδα για το ΔΠΜΣ - Ηλεκτρονική και Επεξεργασία της Πληροφορίας Τμήμα Φυσικής Πανεπιστήμιο Πάτρας


Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

7. ΕΠΕΞΕΡΓΑΣΊΑ ΣΗΜΆΤΩΝ

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών Γραμμικές και Μη-γραμμικές Μέθοδοι Αναγωγής Δεδομένων Μεγάλης Κλίμακα

Μηχανολογικό Σχέδιο με τη Βοήθεια Υπολογιστή. Αφφινικοί Μετασχηματισμοί Αναπαράσταση Γεωμετρικών Μορφών

HMY 795: Αναγνώριση Προτύπων

Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

HMY 795: Αναγνώριση Προτύπων

Ομαδοποίηση ΙΙ (Clustering)

HMY 795: Αναγνώριση Προτύπων

Πιο συγκεκριμένα, η χρήση του MATLAB προσφέρει τα ακόλουθα πλεονεκτήματα.

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟΔΟΙ ΓΙΑ ΠΡΟΒΛΗΜΑΤΑ ΜΗΧΑΝΙΚΗΣ ΕΦΑΡΜΟΓΕΣ ΜΕ ΧΡΗΣΗ MATLAB ΔΕΥΤΕΡΗ ΕΚΔΟΣΗ [ΒΕΛΤΙΩΜΕΝΗ ΚΑΙ ΕΠΑΥΞΗΜΕΝΗ]

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Ειδικές Επιστηµονικές Εργασίες

E [ -x ^2 z] = E[x z]

Πανεπιστήμιο Θεσσαλίας. Πολυτεχνική Σχολή ΘΕΜΑΤΙΚΗ : ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ

Μεθοδολογίες παρεµβολής σε DTM.

Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία. Πέτρος Ποτίκας CoReLab 4/5/2006

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

«Η χωρικοποίηση είναι η διαδικασία κατά την οποία, αφηρημένοι χώροι πληροφορίας απεικονίζονται στο φυσικό χώρο με τη βοήθεια χωρικών μεταφορών.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Διερεύνηση περιβαλλοντικών χρονοσειρών με στατιστικές μεθόδους και τεχνικές εξόρυξης δεδομένων

ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ

Συμπίεση Δεδομένων

ΣΧΕΔΙΑΣΗ ΜΗΧΑΝΟΛΟΓΙΚΩΝ ΚΑΤΑΣΚΕΥΩΝ ΜΕ Η/Υ (Computer Aided Design)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Α.Τ.Ε.Ι. ΜΑΚΕΔΟΝΙΑΣ Τμήμα πληροφορικής και επικοινωνιών. Συμπίεση ψηφιακών εικόνων με ανάλυση κύριων συνιστωσών και χρήση νευρωνικού δικτύου.

Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Ε.Α.Υ. Υπολογιστική Όραση. Κατάτμηση Εικόνας

Τμήμα Μηχανικών Η/Υ και Πληροφορικής

Επίλυση Προβλημάτων 1

27-Ιαν-2009 ΗΜΥ (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό

Ομαδοποίηση Ι (Clustering)

Διαχείριση Υδατικών Πόρων Πολυκριτηριακή ανάλυση

διανύσματα - Πίνακες - Struct Στατικό διάνυσμα Είσοδος Έξοδος δεδομένων Συναρτήσεις Χειρισμός σφαλμάτων ΤΕΤΑΡΤΗ ΔΙΑΛΕΞΗ

ΑΣΚΗΣΕΙΣ ΥΠΟΛΟΓΙΣΜΟΥ ΜΑΖΑΣ ΘΕΣΗΣ ΚΕΝΤΡΟΥ ΜΑΖΑΣ ΡΟΠΗΣ ΑΔΡΑΝΕΙΑΣ ΣΩΜΑΤΩΝ

Αναγνώριση Προτύπων Ι

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»

Αναγνώριση Προτύπων Ι

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Αναγωγή _ Εξαγωγή & Έλεγχος. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

HMY 799 1: Αναγνώριση Συστημάτων

Χρονοσειρές - Μάθημα 7. Μη-γραμμική ανάλυση χρονοσειρών

Εφαρμοσμένα Μαθηματικά ΙΙ

Συμπίεση Δεδομένων

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Γεωμετρικοί μετασχηματιμοί εικόνας

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ ΤΗΣ ΟΠΗΣ ΩΣ ΒΑΣΙΚΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟΥ ΤΟΥ ΣΧΗΜΑΤΟΣ

Χρονοσειρές - Μάθημα 9 Aνάλυση χρονοσειρών και δυναμικά συστήματα

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

Εθνικό Μετσόβιο Πολυτεχνείο Τομέας Υδατικών Πόρων και Περιβάλλοντος. Τεχνολογία Συστημάτων Υδατικών Πόρων

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΕΡΓΑΣΤΗΡΙΟ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΓΡΑΦΙΚΩΝ

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - 02/07/08) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ

Ανάλυση πινάκων συμ-μεταβλητοτήτων σε επιμέρους συνιστώσες

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Ανάλυση πινάκων συμ-μεταβλητοτήτων σε παραμετρικές συνιστώσες

Stochastic Signals Class Estimation Theory. Andreas Polydoros University of Athens Dept. of Physics Electronics Laboratory

Πα.Δα. Τμήμα Μηχανικών Πληροφορικής και Υπολογιστών ΓΡΑΦΙΚΕΣ ΠΑΡΑΣΤΑΣΕΙΣ

Ένα Κατανεμημένο Πλαίσιο Μη Γραμμικής Μείωσης Διαστάσεων

ΕΙΔΙΚΗ ΘΕΩΡΙΑ ΤΗΣ ΣΧΕΤΙΚΟΤΗΤΑΣ

ΔΙΕΡΕΥΝΗΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΤΗΣ ΑΠΟΡΡΟΗΣ ΤΩΝ ΟΜΒΡΙΩΝ ΣΕ ΚΡΙΣΙΜΕΣ ΓΙΑ ΤΗΝ ΑΣΦΑΛΕΙΑ ΠΕΡΙΟΧΕΣ ΤΩΝ ΟΔΙΚΩΝ ΧΑΡΑΞΕΩΝ

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Το μοντέλο Perceptron

Ψηφιακές Τηλεπικοινωνίες

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Εθνικό Μετσόβιο Πολυτεχνείο Τομέας Υδατικών Πόρων και Περιβάλλοντος. Διαχείριση Υδατικών Πόρων

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ραδιομετρική Ενίσχυση - Χωρική Επεξεργασία Δορυφορικών Εικόνων

Μια εισαγωγή στο φίλτρο Kalman

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

Εφαρμοσμένα Μαθηματικά ΙΙ

Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής

HMY 795: Αναγνώριση Προτύπων

Κεφάλαιο ΧΩΡΙΚΗ ΠΑΡΕΜΒΟΛΗ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Οπτική Μοντελοποίηση Ανθρώπινου Προσώπου με Εφαρμογές σε Αναγνώριση

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΔΙΑΜΕΡΙΣΜΟΣ ΜΗ_ΔΟΜΗΜΕΝΩΝ ΠΛΕΓΜΑΤΩΝ

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

Transcript:

Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1

Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα. 2

Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα. Τα δεδομένα στον πολυδιάστατο χώρο συχνά παρουσιάζουν κάποια συγκεκριμένη δομή. 3

Τεχνικές Μείωσης Διαστάσεων Τι είναι η μείωση διαστάσεων (Dimensionality Reduction DR); Μια μεθοδολογία που προσπαθεί να προβάλει ένα σύνολο από διανύσματα υψηλής διάστασης σε ένα χώρο χαμηλότερης διάστασης 4

Τεχνικές Μείωσης Διαστάσεων Τι είναι η μείωση διαστάσεων (Dimensionality Reduction DR); Μια μεθοδολογία που προσπαθεί να προβάλει ένα σύνολο από διανύσματα υψηλής διάστασης σε ένα χώρο χαμηλότερης διάστασης Τι μας παρέχει; Δίνει μια λύση στο πρόβλημα διαχείρισης δεδομένων πολλών διαστάσεων, αναζητώντας δομή χαμηλής διάστασης στα πολυδιάστατα δεδομένα 5

Τεχνικές Μείωσης Διαστάσεων Τι είναι η μείωση διαστάσεων (Dimensionality Reduction DR); Μια μεθοδολογία που προσπαθεί να προβάλει ένα σύνολο από διανύσματα υψηλής διάστασης σε ένα χώρο χαμηλότερης διάστασης Τι μας παρέχει; Δίνει μια λύση στο πρόβλημα διαχείρισης δεδομένων πολλών διαστάσεων, αναζητώντας δομή χαμηλής διάστασης στα πολυδιάστατα δεδομένα Γιατί είναι απαραίτητη; Οι αποστάσεις μεταξύ των δεδομένων στον ελαττωμένο χώρο υπολογίζονται πιο γρήγορα Το μέγεθος του συνόλου δεδομένων μειώνεται Αποκαλύπτεται η δομή των δεδομένων η οποία παραμένει κρυμμένη στον αρχικό πολυδιάστατο χώρο Βελτιώνεται η αποδοτικότητα των τεχνικών εξόρυξης δεδομένων 6

Κατηγοριοποίηση Τεχνικών Μείωσης Διαστάσεων Ανελαστικές Ελαστικές τεχνικές (Hard vs. Soft DR) Ο διαχωρισμός αυτός έχει να κάνει με τον λόγο του πλήθους των αρχικών διαστάσεων ως προς το πλήθος των τελικών. Οι «ανελαστικές» τεχνικές μείωσης διαστάσεων αναφέρονται σε προβλήματα που έχουν να κάνουν με δείγματα πολύ μεγάλης διαστατικότητας τα οποία πρέπει να αναπαρασταθούν σε χώρους πολύ μικρότερων διαστάσεων. Αντίθετα οι «ελαστικές» τεχνικές χρησιμεύουν για προβλήματα όπου οι αρχικές διαστάσεις των δειγμάτων με τις τελικές τους διαφέρουν κατά λίγο (μία τάξη μεγέθους). 7

Κατηγοριοποίηση Τεχνικών Μείωσης Διαστάσεων Ανελαστικές Ελαστικές τεχνικές (Hard vs. Soft DR) Ο διαχωρισμός αυτός έχει να κάνει με τον λόγο του πλήθους των αρχικών διαστάσεων ως προς το πλήθος των τελικών. Οι «ανελαστικές» τεχνικές μείωσης διαστάσεων αναφέρονται σε προβλήματα που έχουν να κάνουν με δείγματα πολύ μεγάλης διαστατικότητας τα οποία πρέπει να αναπαρασταθούν σε χώρους πολύ μικρότερων διαστάσεων. Αντίθετα οι «ελαστικές» τεχνικές χρησιμεύουν για προβλήματα όπου οι αρχικές διαστάσεις των δειγμάτων με τις τελικές τους διαφέρουν κατά λίγο (μία τάξη μεγέθους). Παραδοσιακά Παραγωγικά μοντέλα (Traditional vs. Generative model) Τα παραδοσιακά μοντέλα προσπαθούν να δημιουργήσουν τα δείγματα στον ελαττωμένο χώρο με βάση τις παρατηρήσεις στον αρχικό. Τα παραγωγικά μοντέλα προσπαθούν από τυχαίες μεταβλητές στον ελαττωμένο χώρο να αναδομήσουν τα δείγματα στον αρχικό χώρο. 8

Κατηγοριοποίηση Τεχνικών Μείωσης Διαστάσεων Συνεχή Διακριτά μοντέλα (Continuous vs. Discrete model) Στα συνεχή μοντέλα η μεταφορά των σημείων από τον αρχικό στον ελαττωμένο χώρο γίνεται με τη χρήση μιας παραμετροποιημένης συνάρτησης ανάμεσα στους δύο αυτούς χώρους. Τα νέα δείγματα τοποθετούνται στον ελαττωμένο χώρο χωρίς να χρειάζεται ο εξαρχής προσδιορισμός της συνάρτησης αυτής. Στα διακριτά μοντέλα τα νέα σημεία δεν είναι εύκολο να τοποθετηθούν στον ελαττωμένο χώρο και τεχνικές παρεμβολής (interpolation procedures) είναι απαραίτητες για το σκοπό αυτό. 9

Κατηγοριοποίηση Τεχνικών Μείωσης Διαστάσεων Συνεχή Διακριτά μοντέλα (Continuous vs. Discrete model) Στα συνεχή μοντέλα η μεταφορά των σημείων από τον αρχικό στον ελαττωμένο χώρο γίνεται με τη χρήση μιας παραμετροποιημένης συνάρτησης ανάμεσα στους δύο αυτούς χώρους. Τα νέα δείγματα τοποθετούνται στον ελαττωμένο χώρο χωρίς να χρειάζεται ο εξαρχής προσδιορισμός της συνάρτησης αυτής. Στα διακριτά μοντέλα τα νέα σημεία δεν είναι εύκολο να τοποθετηθούν στον ελαττωμένο χώρο και τεχνικές παρεμβολής (interpolation procedures) είναι απαραίτητες για το σκοπό αυτό. Υπονοούμενη Ρητή χαρτογράφηση (Implicit vs. Explicit mapping) Στη ρητή χαρτογράφηση υπάρχει άμεση ανάθεση κάθε αναπαράστασης στον ελαττωμένο χώρο με τα δείγματα. Είναι δύσκολη, όπως και στα διακριτά μοντέλα η τοποθέτηση νέων σημείων. Στην υπονοούμενη χαρτογράφηση δεν υπάρχει άμεση συσχέτιση ανάμεσα στις παραμέτρους που χρησιμοποιούνται για την ελάττωση των διαστάσεων και τις συντεταγμένες των σημείων στον αρχικό χώρο. 10

Κατηγοριοποίηση Τεχνικών Μείωσης Διαστάσεων Ενσωματωμένη Εξωτερική εκτίμηση της διαστατικότητας (Integrated vs. External estimation of the dimensionality) Οι περισσότερες μέθοδοι δεν έχουν ενσωματωμένο εκτιμητή του βέλτιστου αριθμού των διαστάσεων στις οποίες πρέπει να πέσει το σύστημά μας, ώστε να έχουμε την καλύτερη αναπαράσταση. Έτσι αυτή η δουλειά γίνεται συνήθως εξωτερικά από τον χρήστη. 11

Κατηγοριοποίηση Τεχνικών Μείωσης Διαστάσεων Ενσωματωμένη Εξωτερική εκτίμηση της διαστατικότητας (Integrated vs. External estimation of the dimensionality) Οι περισσότερες μέθοδοι δεν έχουν ενσωματωμένο εκτιμητή του βέλτιστου αριθμού των διαστάσεων στις οποίες πρέπει να πέσει το σύστημά μας, ώστε να έχουμε την καλύτερη αναπαράσταση. Έτσι αυτή η δουλειά γίνεται συνήθως εξωτερικά από τον χρήστη. Σταδιακή Αυτόνομη ενσωμάτωση (Layered vs. Standalone embeddings) Στις μεθόδους της σταδιακής ενσωμάτωσης η προσθήκη ή η αφαίρεση μιας διάστασης των δεδομένων δεν απαιτεί τον επαναπροσδιορισμό των συντεταγμένων στις υπόλοιπες χρησιμοποιούμενες διαστάσεις. Όλες οι μέθοδοι, οι οποίες προσεγγίζουν το πρόβλημα της μείωσης της διαστατικότητας με τη λύση ενός προβλήματος ιδιοτιμών ανήκουν σε αυτή την κατηγορία και καλούνται φασματικές μέθοδοι (spectral methods). Αντίθετα στην αυτόνομη ενσωμάτωση αν αλλάξει ο αριθμός των διαστάσεων πρέπει να υπολογιστούν εξαρχής οι συντεταγμένες. 12

Κατηγοριοποίηση Τεχνικών Μείωσης Διαστάσεων Γραμμικά μη Γραμμικά μοντέλα (Linear vs. Nonlinear model) Τα μη γραμμικά μοντέλα είναι πιο ισχυρά από τα αντίστοιχα γραμμικά, γιατί μπορούν να δώσουν καλύτερη αναπαράσταση της δομής που υπάρχει στον αρχικό χώρο. Για την υλοποίησή τους όμως είναι απαραίτητος ο υπολογισμός πολλών παραμέτρων, οι οποίες με τη σειρά τους για να υπολογιστούν προϋποθέτουν την ύπαρξη πολλών δεδομένων. 13

Κατηγοριοποίηση Τεχνικών Μείωσης Διαστάσεων Τεχνικές Μείωσης Διαστατικότητας Γραμμικές Μη γραμμικές Principal Component Analysis Multi-Dimensional Scaling Locally Linear Embedding ISOMAP 14

Γραμμικές τεχνικές μείωσης διαστάσεων Principal Component Analysis (PCA) Multidimensional Scaling (MDS) 15

Principal Component Analysis Η Ανάλυση Κύριων Συνιστωσών (Principal Component Analysis PCA) προσπαθεί να υπολογίσει τους άξονες εκείνους στους οποίους παρατηρείται η μέγιστη διασπορά των δεδομένων. 16

Principal Component Analysis Με μαθηματική διατύπωση: Βρες τα ιδιοδιανύσματα του διαγωνοποιημένου πίνακα συνδιασποράς επί των αρχικών συντεταγμένων. Αυτά αποτελούν τους άξονες του μετασχηματισμένου χώρου και οι ιδιοτιμές αποδίδουν τη διασπορά κατά μήκος των αξόνων. 17

Principal Component Analysis Αλγόριθμος: D Για τα δεδομένα { X, X, K, X n } R 1 2 18

Principal Component Analysis Αλγόριθμος: Για τα δεδομένα D { X, X, K, X n } R 1 2 Γίνεται υπολογισμός του πίνακα συνδιασποράς S = X T X 19

Principal Component Analysis Αλγόριθμος: Για τα δεδομένα D { X, X, K, X n } R 1 2 Γίνεται υπολογισμός του πίνακα συνδιασποράς Υπολογίζεται η μέση τιμή τους μ S = X T X 20

Principal Component Analysis Αλγόριθμος: Για τα δεδομένα D { X, X, K, X n } R 1 2 Γίνεται υπολογισμός του πίνακα συνδιασποράς Υπολογίζεται η μέση τιμή τους T X Υπολογίζονται οι ιδιοτιμές Ι i και τα ιδιοδιανύσματα e i μέσω της διαδικασίας ιδιοανάλυσης του S, I i e i μ = S e i S = X 21

Principal Component Analysis Αλγόριθμος: Για τα δεδομένα D { X, X, K, X n } R 1 2 Γίνεται υπολογισμός του πίνακα συνδιασποράς Υπολογίζεται η μέση τιμή τους T X Υπολογίζονται οι ιδιοτιμές Ι i και τα ιδιοδιανύσματα e i μέσω της διαδικασίας ιδιοανάλυσης του S, I i e Επιλέγονται τα d μεγαλύτερα ιδιοδιανύσματα και βάση αυτών υπολογίζονται οι νέες μεταβλητές, i i μ = S e i S T [ e, e, K e ] ( X μ) Y, = 1 2 d i = X 22

Principal Component Analysis Εφαρμογές: Βήμα προεπεξεργασίας που προηγείται της εφαρμογής αλγορίθμων εξόρυξης δεδομένων (όπως clustering) Οπτικοποίηση δεδομένων (Data Visualization) Μείωση θορύβου (Noise Reduction) 23

Γραμμικές τεχνικές μείωσης διαστάσεων Principal Component Analysis (PCA) Multidimensional Scaling (MDS) 24

Multidimensional Scaling Με την τεχνική αυτή απεικονίζονται τα δεδομένα σε ένα χώρο χαμηλών διαστάσεων με τέτοιο τρόπο ώστε οι γειτνιάσεις των δεδομένων να διατηρούνται με τον καλύτερο δυνατό τρόπο. X X j i D ij Y i d ij Y j 25

Multidimensional Scaling Αλγόριθμος: D { X, X, K, X n } R Αρχικά τα δεδομένα 1 2 απεικονίζονται σε χώρο k- διαστάσεων. 26

Multidimensional Scaling Αλγόριθμος: D { X, X, K, X n } R Αρχικά τα δεδομένα 1 2 απεικονίζονται σε χώρο k- διαστάσεων. Γίνεται ελαχιστοποίηση της συνάρτησης stress = ij ( D( X, X ) d( Y, Y ) ( D( Xi, X j ) ij i με τη μετακίνηση των σημείων στον ελαττωμένο χώρο. Συγκεκριμένα για κάθε σημείο ρυθμίζουμε τη θέση των υπολοίπων ώστε να ελαχιστοποιείται η συνάρτηση αυτή. j i 2 j 2 27

Γραμμικές τεχνικές μείωσης διαστάσεων Οι PCA και MDS είναι τεχνικές απλές στην υλοποίηση και αποδοτικές όταν ο αρχικός χώρος είναι γραμμικός ή σχεδόν γραμμικός. 28

Γραμμικές τεχνικές μείωσης διαστάσεων Οι PCA και MDS είναι τεχνικές απλές στην υλοποίηση και αποδοτικές όταν ο αρχικός χώρος είναι γραμμικός ή σχεδόν γραμμικός. Αποτυγχάνουν όμως να ανακαλύψουν μη γραμμικές δομές στα δεδομένα Swiss roll PCA MDS 29

Γραμμικές τεχνικές μείωσης διαστάσεων Locally Linear Embedding (LLE) ISOMAP 30

Locally Linear Embedding Ο LLE είναι ένας μη γραμμικός αλγόριθμος ενσωμάτωσης σε χώρο χαμηλών διαστάσεων, όπου διατηρεί τη γενική μη γραμμικότητα της υπερεπιφάνειας εκμεταλλευόμενος την τοπικά γραμμική δομή. 31

Locally Linear Embedding Ο LLE είναι ένας μη γραμμικός αλγόριθμος ενσωμάτωσης σε χώρο χαμηλών διαστάσεων, όπου διατηρεί τη γενική μη γραμμικότητα της υπερεπιφάνειας εκμεταλλευόμενος την τοπικά γραμμική δομή. Θεωρεί ότι μια υπερεπιφάνεια είναι κατά προσέγγιση «γραμμική» αν αναφερθούμε μεμονωμένα σε ένα μικρό τμήμα της. 32

Locally Linear Embedding Αλγόριθμος: 1.Εύρεση των k κοντινότερων γειτόνων κάθε σημείου X i, στον χώρο R D μέσω ευκλείδειων αποστάσεων. 33

Locally Linear Embedding Αλγόριθμος: 1.Εύρεση των k κοντινότερων γειτόνων κάθε σημείου X i, στον χώρο R D μέσω ευκλείδειων αποστάσεων. 2.Υπολογισμός των βαρών W ij που ανακατασκευάζουν κάθε σημείο X i καλύτερα από τους γείτονές του. X i j W ij X j 34

Locally Linear Embedding Αλγόριθμος: 1.Εύρεση των k κοντινότερων γειτόνων κάθε σημείου X i, στον χώρο R D μέσω ευκλείδειων αποστάσεων. 2.Υπολογισμός των βαρών W ij που ανακατασκευάζουν κάθε σημείο X i καλύτερα από τους γείτονές του. X W i ij j 3.Προσδιορισμόςj των σημείων Y i, στον ελαττωμένο R d χώρο, που ανακατασκευάζονται καλύτερα από τα βάρη W ij X Y i j W ij Y j 35

Locally Linear Embedding Χαρακτηριστικά των βαρών ανακατασκευής W ij : Ανεξάρτητα περιστροφής, κλιμάκωσης και μετασχηματισμού (λόγω της συνθήκης W ij j = 1 36

Locally Linear Embedding Χαρακτηριστικά των βαρών ανακατασκευής W ij : Ανεξάρτητα περιστροφής, κλιμάκωσης και μετασχηματισμού (λόγω της συνθήκης W ij j = 1 Τα βάρη που υπολογίζονται στις αρχικές διαστάσεις, ανακατασκευάζουν τα σημεία και στον ελαττωμένο χώρο ενσωμάτωσης k-διαστάσεων. 37

Locally Linear Embedding Χαρακτηριστικά των βαρών ανακατασκευής W ij : Ανεξάρτητα περιστροφής, κλιμάκωσης και μετασχηματισμού (λόγω της συνθήκης W ij j = 1 Τα βάρη που υπολογίζονται στις αρχικές διαστάσεις, ανακατασκευάζουν τα σημεία και στον ελαττωμένο χώρο ενσωμάτωσης k-διαστάσεων. Χαρακτηρίζουν τις εγγενείς γεωμετρικές ιδιότητες κάθε γειτονιάς σημείων. 38

Locally Linear Embedding Χαρακτηριστικά των βαρών ανακατασκευής W ij : Ανεξάρτητα περιστροφής, κλιμάκωσης και μετασχηματισμού (λόγω της συνθήκης W ij j Τα βάρη που υπολογίζονται στις αρχικές διαστάσεις, ανακατασκευάζουν τα σημεία και στον ελαττωμένο χώρο ενσωμάτωσης k-διαστάσεων. Χαρακτηρίζουν τις εγγενείς γεωμετρικές ιδιότητες κάθε γειτονιάς σημείων. Τα βέλτιστα βάρη υπολογίζονται μέσω της ελαχιστοποίησης του σφάλματος ανακατασκευής = 1 ε ( W) = Xi i r j W ij r X j 2 39

Locally Linear Embedding Συνθήκες W ij =0 αν το X j δεν είναι γείτονας του Χ i W ij = 1 j 40

Locally Linear Embedding Συνθήκες W ij =0 αν το X j δεν είναι γείτονας του Χ i W ij j = 1 Η ελαχιστοποίηση του ε(w) και οι περιορισμοί, συνθέτουν ένα πρόβλημα «ελαχίστων τετραγώνων». 41

Locally Linear Embedding Συνθήκες W ij =0 αν το X j δεν είναι γείτονας του Χ i W ij j = 1 Η ελαχιστοποίηση του ε(w) και οι περιορισμοί, συνθέτουν ένα πρόβλημα «ελαχίστων τετραγώνων». Οι συντεταγμένες στις d-διαστάσεις κάθε σημείου Y i υπολογίζονται ελαχιστοποιώντας τις αντίστοιχες συναρτήσεις κόστους για τα δεδομένα βάρη Φ ( W) = Υ Υ i r i W ij j r j 2 42

Locally Linear Embedding Περιορισμοί Y r = 0 (μέση τιμή) i i 1 r r T YY = 1 (διασπορά) N i 43

Locally Linear Embedding Περιορισμοί Y r = 0 (μέση τιμή) i i 1 r r T YY = 1 (διασπορά) N i Αναλύοντας τη συνάρτηση κόστους έχουμε r r Φ W = M Y Y όπου M = ( ) ( ) ij ij T ( I W ) ( I W ) i j 44

Locally Linear Embedding Περιορισμοί Y r = 0 (μέση τιμή) i i 1 r r T YY = 1 (διασπορά) N Αναλύοντας τη συνάρτηση κόστους έχουμε r r Φ W = M Y Y όπου i M ( ) ( ) = Το πρόβλημα ανάγεται σε πρόβλημα ιδιοτιμών του Μ ij Η επιλογή των μικρότερων ιδιοτιμών ελαχιστοποιεί τη συνάρτηση κόστους. Αγνοώντας το 1 ο ιδιοδιανύσματα επιλέγονται τα επόμενα d ij T ( I W ) ( I W ) i j 45

Locally Linear Embedding Πλεονεκτήματα Διατήρηση των τοπικών γειτνιάσεων Ικανότητα ανακάλυψης μη γραμμικών υπερεπιφανειών Μη επαναληπτικός αλγόριθμος 46

Locally Linear Embedding Πλεονεκτήματα Διατήρηση των τοπικών γειτνιάσεων Ικανότητα ανακάλυψης μη γραμμικών υπερεπιφανειών Μη επαναληπτικός αλγόριθμος Μειονεκτήματα Απαιτεί ομαλές, μη κλειστές, πυκνά δειγματοληπτημένες υπερεπιφάνειες Επιλογή γειτόνων Ευαίσθητο σε απομακρυσμένα σημεία (outliers) 47

Γραμμικές τεχνικές μείωσης διαστάσεων Locally Linear Embedding (LLE) ISOMAP 48

ISOMAP O ISOMAP υπολογίζει τον χώρο ενσωμάτωσης Rd, διατηρώντας τις γεωδαιτικές αποστάσεις μεταξύ των σημείων της υπερεπιφάνειας RD 49

ISOMAP O ISOMAP υπολογίζει τον χώρο ενσωμάτωσης Rd, διατηρώντας τις γεωδαιτικές αποστάσεις μεταξύ των σημείων της υπερεπιφάνειας RD Στον πίνακα γεωδαιτικών αποστάσεων, ο οποίος υπολογίζεται μεταξύ όλων των σημείων εφαρμόζεται ο κλασικός MDS αλγόριθμος 50

ISOMAP O ISOMAP υπολογίζει τον χώρο ενσωμάτωσης Rd, διατηρώντας τις γεωδαιτικές αποστάσεις μεταξύ των σημείων της υπερεπιφάνειας RD Στον πίνακα γεωδαιτικών αποστάσεων, ο οποίος υπολογίζεται μεταξύ όλων των σημείων εφαρμόζεται ο κλασικός MDS αλγόριθμος Διατηρεί την εγγενή γεωμετρία των δεδομένων 51

ISOMAP Γεωδαιτική απόσταση: Είναι το μήκος της μικρότερης καμπύλης που ενώνει δύο απομακρυσμένα σημεία μιας υπερεπιφάνειας Για γειτονικά σημεία, η γεωδαιτική τους απόσταση ταυτίζεται ικανοποιητικά με την ευκλείδεια απόστασή τους. 52

ISOMAP Γεωδαιτική απόσταση: Είναι το μήκος της μικρότερης καμπύλης που ενώνει δύο απομακρυσμένα σημεία μιας υπερεπιφάνειας Για γειτονικά σημεία, η γεωδαιτική τους απόσταση ταυτίζεται ικανοποιητικά με την ευκλείδεια απόστασή τους. Για απομακρυσμένα σημεία, ηαπόσταση προσδιορίζεται από μια ακολουθία μικρών βημάτων μεταξύ γειτονικών σημείων. Δημιουργείται από ένωση των ακμών μεταξύ των γειτονικών σημείων. 53

ISOMAP Αλγόριθμος: Προσδιορισμός των γειτόνων κάθε σημείου Ζ i ΌλατασημείαZ j εντός σφαίρας ακτίνας ε k κοντινότεροι γείτονες 54

ISOMAP Αλγόριθμος: Προσδιορισμός των γειτόνων κάθε σημείου Ζ i ΌλατασημείαZ j εντός σφαίρας ακτίνας ε k κοντινότεροι γείτονες Κατασκευή του γράφου γειτονίας G Κάθε σημείο ενώνεται με ευκλείδεια ακμή d x (i, j) με τα γειτονικά του σημεία Δημιουργία του πίνακα αποστάσεων D x ={d x (i, j)} 55

ISOMAP Αλγόριθμος: Προσδιορισμός των γειτόνων κάθε σημείου Ζ i ΌλατασημείαZ j εντός σφαίρας ακτίνας ε k κοντινότεροι γείτονες Κατασκευή του γράφου γειτονίας G Κάθε σημείο ενώνεται με ευκλείδεια ακμή d x (i, j) με τα γειτονικά του σημεία Δημιουργία του πίνακα αποστάσεων D x ={d x (i, j)} Υπολογισμός των αποστάσεων μεταξύ όλων των σημείων πάνω στον γράφο G και εφαρμογή του κλασικού MDS. Αλγόριθμος Dijkstra για τον υπολογισμό των d G (i, j) γεωδαιτικών αποστάσεων Υπολογισμός του πίνακα γεωδαιτικών αποστάσεων D G ={d G (i, j)} Εφαρμογή του κλασικού MDS στον πίνακα D G Με λύση του προβλήματος ιδιοτιμών που προκύπτει βρίσκεται η ενσωμάτωση των σημείων στον ελαττωμένο χώρο. 56

ISOMAP Πλεονεκτήματα: Μη γραμμικός, μη επαναληπτικός αλγόριθμος Υπολογιστική αποδοτικότητα 57

ISOMAP Πλεονεκτήματα: Μη γραμμικός, μη επαναληπτικός αλγόριθμος Υπολογιστική αποδοτικότητα Μειονεκτήματα: Μικρός αριθμός δειγμάτων οδηγεί σε ανακριβή υπολογισμό της γεωδαιτικής απόστασης Μεγάλη καμπυλότητα της υπερεπιφάνειας, απαιτεί μεγάλο αριθμό γειτόνων για τον εντοπισμό της 58

Παραδείγματα εφαρμογής τεχνικών μείωσης διαστάσεων 59

Παραδείγματα εφαρμογής τεχνικών μείωσης διαστάσεων 60

Παραδείγματα εφαρμογής τεχνικών μείωσης διαστάσεων 61

Παραδείγματα εφαρμογής τεχνικών μείωσης διαστάσεων 62

Παραδείγματα εφαρμογής τεχνικών μείωσης διαστάσεων 63

Παραδείγματα εφαρμογής τεχνικών μείωσης διαστάσεων 64

Παραδείγματα εφαρμογής τεχνικών μείωσης διαστάσεων 65

Παραδείγματα εφαρμογής τεχνικών μείωσης διαστάσεων 66

Εφαρμογής τεχνικών μείωσης διαστάσεων στο matlab http://www.math.umn.edu/~wittman/mani/ 67

Ευχαριστώ 68