Μέτρα της οργάνωσης και της ποιότητας για τον Self-Organizing Hidden Markov Model Map (SOHMMM)
Γενική περιγραφή του SOHMMM Ένα υβριδικό νευρωνικό δίκτυο, σύζευξη δύο πολύ επιτυχημένων μοντέλων: -Self-Organizing Maps (SOM) -Hidden Markov Models (HMM) Με μια αφαιρετική περιγραφή ένα SOM με κόμβους μαρκοβιανά μοντέλα. Εφαρμογές: Ό,τι και ένα SOM( οπτικοποίηση, αφαίρεση, μείωση διάστασης), χωρίς όμως τον περιορισμό τα δεδομένα να έχουν διανυσματική μορφή (πχ clustering DNA ή πρωτεϊνικών ακολουθιών)
Υλοποίηση Αποστάσεις μεταξύ HMMs πιθανοτικό μέτρο απόστασης D λ 0, λ =lim T 1 T [ log μ O T λ 0 log μ O T λ ] Όμοια με το SOM: για κάθε ακολουθία Ο του συνόλου δεδομένων -προσδιορίζουμε τον κόμβο νικητή λi( ΗΜΜ με τη μεγαλύτερη πιθανότητα εμφάνισης της συγκεκριμένης ακολουθίας) -ανανεώνουμε τις παραμέτρους του λi ώστε να μεγιστοποιήσουμε την πιθανότητα εμφάνισης της Ο από αυτό ανανέωση των παραμέτρων των HMM μέσω ενός online gradient descent αλγόριθμου
Παράδειγμα οπτικοποίησης SOHMMM
Μέτρα οργάνωσης Ένας μεγάλος αριθμός μέτρων οργάνωσης έχει αναπτυχθεί και χρησιμοποιηθεί για διάφορους αλγόριθμους ομαδοποίησης/χαρτογράφησης ώστε: να μπορούμε να παρακολουθούμε την εξέλιξη του εκάστοτε αλγόριθμου εφαρμογές: πχ early stopping να εκφράζεται με ποσοτικό τρόπο η ποιότητα μιας δοσμένης απεικόνισης προκειμένου να είναι δυνατή η σύγκριση με άλλες ή η απόφανση για το αν είναι ικανοποιητική ή όχι εφαρμογές: πχ εύρεση βέλτιστης παραμετροποίησης ενός νευρωνικού δικτύου
Στην εργασία αυτή Μελετήθηκε μια πλειάδα από ήδη υπάρχοντα μέτρα Επιλέχθηκαν εννέα από αυτά που τροποποιήθηκαν και προσαρμόστηκαν κατάλληλα ώστε να είναι δυνατή η χρήση τους για το SOHMMM Διερευνήθηκαν η επίδοση και η λειτουργικότητά τους μέσω προσομοιώσεων
Quantization Error Το σφάλμα κβαντισμού, προέρχεται από την θεωρία του κβαντισμού διανυσμάτων και περιγράφει το πόσο καλά περιγράφονται τα δεδομένα από τον κόμβο αναφοράς στον οποίο έχουν αντιστοιχηθεί. q e = 1 λ N M Ο. loglikelihood Ο all Ο
Topographic error Το τοπογραφικό σφάλμα, προερχόμενο από το SOM, περιγράφει την ομαλότητα της απεικόνισης. N t e = 1 N k=1 u Ο κ με u Ο k = 1, μη γειτονικά i, j 0, διαφορετικά i:1 st best matching unit j:2 nd best matching unit
C-measure Το μέτρο αυτό, αναπτύχθηκε από τους Goodhill και Sernowski, αυξάνεται για καλύτερες απεικονίσεις. N C = i=1 j i F i, j G M i,m j με, F i, j = D s λ i, λ j G M i, M j = p M i p M j
Demartines-Herault measure Το μέτρο αυτό αποτελεί μια συνάρτηση ενέργειας που αναμένουμε να μειώνεται για καλύτερες απεικονίσεις. N E = 1/2 i=1 j i F i, j G M i, M j 2 h G
Distortion measure Αποτελεί μια συνάρτηση ενέργειας. Προσεγγίζει καλύτερα από κάθε άλλο μέτρο τη συνάρτηση ενέργειας του SOM. P N E = i=1 j=1 h bi j m j. loglikelihood Ο i 2
Κριτήριο Calinski Harabasz HC = BGSS k 1 / WGSS n k
Topographic product Περιγράφει την ποιότητα της απεικόνισης, λαμβάνοντας την τιμή 0 για τέλεια απεικόνιση. Αποτελεί ένα από τα πιο δημοφιλή μέτρα οργάνωσης για το SOM. P = 1 N N 1 j=1 N N 1 k=1 log P 3 j,k P 3 j, k = l=1 k Q 1 j,l Q 2 j, l 1 2k Q 1 j, k = d V λ j, λ nk A j d V λ j, λ nk V j Q 2 j, k = d A j, n A k j d A j, n V k j
Εντροπία i A p i log p i όπου p i = 1 N Ο V p i Ο Δείγματα εισόδου που αλλάζουν κόμβο αναφοράς μεταξύ δύο επαναλήψεων N C e = 1 N k =1 p Ο κ με p Ο e k = 1, BMU Ο e k BMU Ο e 1 k 0, διαφορετικά
Προσομοιώσεις Μονότονη συμπεριφορά των μέτρων κατά τη διάρκεια της εκπαίδευσης Βέλτιστη επιλογή παραμέτρων αριθμός εποχών αριθμός κρυμμένων καταστάσεων των ΗΜΜ μέγεθος πλέγματος
Μονοτονία Οι προσομοιώσεις πραγματοποιήθηκαν για όλα τα μέτρα εκτός του τοπογραφικού γινομένου. ποιότητα της απεικόνισης από τοπογραφικής απόψεως (παραβιάσεις γειτονιάς, ομαλότητα απεικόνισης,κλπ). C- measure, Demartines-Herault, distortion measure, τοπογραφικό σφάλμα. Προτιμητέο το τοπογραφικό σφάλμα (καλή επίδοση και εξαιρετική απλότητα και ταχύτητας υπολογισμού). ύπαρξη συμπαγών συστάδων (κόμβων) και ανομοιότητα μεταξύ των συστάδων (κόμβων). σφάλμα κβαντισμού και Calinski- Harabasz. Πιο ταχύ στον υπολογισμό και με καλύτερη επίδοση το σφάλμα κβαντισμού, πάντως το Calinski Harabasz μετρά και την ανομοιότητα μεταξύ των κόμβων (between group sum of squares). αριθμός των ακολουθιών που αλλάζουν κόμβο σε κάθε εποχή εντροπία
Globins (560 protein sequences)
Globins διαγράμματα (α) C-measure (β) Calinski-Harabasz (γ) Demartines-Herault (δ)distortion measure
Globins διαγράμματα (2) (ε) Quantization error (ζ) topographic error (η) ακολουθίες που άλλαξαν κόμβο (θ)εντροπία ( σε λογαριθμική κλίμακα)
Επιλογή παραμέτρων αριθμός εποχών αριθμός κρυμμένων καταστάσεων των ΗΜΜ μέγεθος πλέγματος
Αριθμός εποχών Στις περισσότερες περιπτώσεις αύξηση του αριθμού εποχών εκπαίδευσης προκαλεί σε μικρότερο ή μεγαλύτερο βαθμό καλύτερη διάταξη του χάρτη. Σε κάποιες όμως περιπτώσεις, παρατηρείται υπερεκπαίδευση του χάρτη και χειροτέρευση της διάταξης. Αυτό που εν τέλει αναζητούμε είναι αν τα μέτρα οργάνωσης που αναπτύχθηκαν μπορούν να περιγράψουν αυτά τα φαινόμενα και να μας δώσουν μια ποσοτική πληροφορία περί αυτών.
Τεχνητό dataset (HMMs 10 καταστάσεων-3 συστάδες) α. 5 εποχές β.10 εποχές γ.20 εποχές Φαινόμενο overtraining
Εποχές 5 10 20 100 1000 σφάλμα κβαντισμού 3,30E+00 2,56E+00 3,24E+00 2,63E+00 2,62E+00 εντροπία 2,69E-33 6,19E-32 5,37E-32 2,26E-31 1,67E-31 τοπογραφικό σφάλμα 7,50E-02 1,00E-01 1,25E-01 2,00E-01 1,75E-01 παραμόρφωση 1,26E+01 1,01E+01 1,19E+01 1,05E+01 9,92E+00 C-measure 1,27E+07 2,01E+07 1,97E+07 2,21E+07 2,29E+07 Calinski- Harabasz Demartines- Herault 7,02E+04 1,24E+05 1,18E+05 1,30E+05 1,30E+05 4,81E+01 4,33E+01 4,60E+01 4,80E+01 4,91E+01 Συμπερασματικά: το σφάλμα κβαντισμού, η παραμόρφωση, το τοπογραφικό σφάλμα. και το μέτρο Demartines-Herault περιγράφουν σε γενικές γραμμές φαινόμενα overtraining ή ενδεικνύουν το βέλτιστο αριθμό εποχών εκπαίδευσης. Πάντως, η πληροφορία που συνάγουμε από πρέπει να μελετάται προσεκτικά, σε συνάρτηση και με άλλους παράγοντες (πχ οπτικοποίηση του SOHMMM)
Αριθμός καταστάσεων των HMMs #HMMs 1 3 5 11 22 σφάλμα κβαντισμο ύ 1,03E+01 2,44E+01 1,78E+01 6,28E+00 4,69E+00 εντροπία 3,73E-124 3,67E-119 1,35E-106 1,42E-94 1,31E-115 τοπογραφι κό σφάλμα παραμόρφ ωση 1,00E-01 3,67E-01 3,00E-01 6,00E-02 3,67E-01 3,88E+01 5,50E+01 6,45E+01 2,08E+01 1,91E+01 C-measure 3,85E+05 7,41E+05 1,41E+06 2,27E+06 2,60E+06 Calinski- Harabasz Demartine s-herault 1,62E+03 3,59E+03 7,23E+03 1,32E+04 1,74E+04 2,60E+01 1,99E+01 1,79E+01 1,52E+01 1,55E+01 Globins (30 protein sequences)
Αριθμός καταστάσεων των HMMs συμπερασματα πιο αξιόπιστο το σφάλμα κβαντισμού με το τοπογραφικό σφάλμα και την παραμόρφωση να ακολουθούν. Τα μέτρα C, Calinski-Harabasz και Demartines-Herault θα ήταν καλό να λαμβάνονται υπόψιν, σε συνάρτηση πάντως με κάποια άλλη πληροφορία.
Μέγεθος πλέγματος Πλέγμα 3x2 3x5 6x5 9x9 12x12 14x14 σφάλμα κβαντισμο ύ 1,60E+01 8,77E+00 2,31E+00 8,50E-01 4,78E-01 3,51E-01 εντροπία 2,01E-43 9,09E-39 2,88E-39 6,79E-39 8,49E-39 9,22E-39 τοπογραφι κό σφάλμα παραμόρφ ωση τοπογραφι κό γινόμενο 6,70E-03 3,40E-01 6,40E-01 6,07E-01 5,40E-01 6,20E-01 6,10E+01 4,17E+01 8,59E+00 4,17E+00 2,61E+00 2,26E+00-0,218-0,201-0,560-0,770-0,802-0,595 Τεχνητό dataset (150 ακολουθίες απο ΗΜΜ 1 κατάστασης, 3 συστάδες)
Μέγεθος πλέγματος συμπεράσματα Μπορούμε να χωρίσουμε ανάλογα με την επίδοσή τους τα μέτρα οργάνωσης σε τρεις κατηγορίες: σφάλμα κβαντισμού και παραμόρφωση, μειώνονται μονότονα με την αύξηση του μεγέθους του πλέγματος. τοπογραφικό σφάλμα και τοπογραφικό γινόμενο. Αυξομειώνονται παρουσιάζοντας, συνήθως, κάποιο ελάχιστο ή μέγιστο αντίστοιχα για κάποιο πλέγμα, που δείχνει και το βέλτιστο, σύμφωνα με το κριτήριο πλέγμα. εντροπία, δεν παρουσιάζει κάποια επιθυμητή συμπεριφορά. Προτείνουμε την χρήση των τεσσάρων μέτρων (εκτός εντροπίας) για την απόφαση του βέλτιστου μεγέθους για το πλέγμα, σε συνάρτηση πάντως με τις αναφερθείσες παρατηρήσεις. Τα συμπεράσματα πρέπει πάντοτε να λαμβάνονται υπόψιν και με τη βοήθεια κάποιας οπτικοποίησης.
Σύνοψη Στη διερεύνηση που έγινε θα μπορούσαμε να πραγματοποιήσουμε κάποια μελέτη σε σχέση και με τις υπόλοιπες παραμέτρους του SOHMMM ή να εμβαθύνουμε παραπάνω σε κάποια μέτρα ή επιμέρους λειτουργίες. Στόχος δεν ήταν η εξαντλητική παρουσίαση των δυνατοτήτων των μέτρων οργάνωσης, αλλά να καταδείξουμε ότι τα μέτρα αυτά είναι σε θέση να παρακολουθήσουν ικανοποιητικά τη διαδικασία εκπαίδευσης ενός SOHMMM καθώς και να χρησιμοποιηθούν σε ποικίλες λειτουργίες. Εν τέλει, κάποια μέτρα αποδείχθηκαν καταλληλότερα να περιγράψουν συγκεκριμένες παραμέτρους της διαδικασίας οργάνωσης σε σχέση με άλλα. Για αυτό τον λόγο, δεν θελήσαμε να προχωρήσουμε σε μια αυστηρή αξιολόγησή τους, αλλά με βάση την εκάστοτε μελέτη καταδείξαμε από ποια άποψη ένα μέτρο μπορούσε να είναι καλύτερο από ένα άλλο.
Ερωτήσεις