ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ 1 2 3 1
ΚΑΤΗΓΟΡΊΕΣ ΤΑΞΙΝΌΜΗΣΗΣ Κατευθυνόμενη ταξινόμηση (supervised classification) Μη-κατευθυνόμενη ταξινόμηση (unsupervised classification) Γραμμική: Μη-Γραμμική: Ιεραρχική: Επιμεριστική: Linear Discriminant Analysis Νευρωνικά δίκτυα κλπ. Agglomerative Divisive k-means SOM κλπ. Spectral Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines) κλπ. 2
9. ΜΈΘΟΔΟΙ ΤΑΞΙΝΌΜΗΣΗΣ 3 Μη-κατευθυνόμενη ταξινόμηση: clustering
ΜΗ-ΚΑΤΕΥΘΥΝΌΜΕΝΗ ΤΑΞΙΝΌΜΗΣΗ: ΣΥΣΤΑΔΟΠΟΊΗΣΗ (CLUSTERING) Ιεραρχική: οι νέες ομάδες ταξινόμησης βασίζονται σε προηγούμενες Agglomerative bottom-up Divisive top-down Επιμεριστική: όλες οι ομάδες ορίζονται ταυτόχρονα. Ορισμός του αριθμού ομάδων εκ των προτέρων Αυτόματος ορισμός αριθμού ομάδων (λίγες μέθοδοι) Μέρη συσταδοποίησης: Αντιπροσώπευση δεδομένων με χαρακτηριστικά Υπολογισμός απόστασης χαρακτηριστικών Ομαδοποίηση (ιεραρχική ή επιμεριστική) «Εγκυρότητα» ομάδων 4
(1) ΑΝΤΙΠΡΟΣΏΠΕΥΣΗ ΔΕΔΟΜΈΝΩΝ Μέσω χαρακτηριστικών ή επιλογής μιας υποομάδας δεδομένων Είδη χαρακτηριστικών: Ποσοτικά (quantitative), π.χ. αριθμητικές τιμές, διάρκεια Ποιοτικά (qualitative), π.χ. χρώμα, ένταση ήχου Πολύ σημαντικό μέρος της διαδικασίας, κυρίως για χρονοσειρές. Καλή επιλογή χαρακτηριστικών οδηγεί σε απλή και εύκολα κατανοητή ομαδοποίηση Κακή επιλογή χαρακτηριστικών μπορεί να οδηγήσει σε πολύπλοκη ομαδοποίηση που δεν αντιπροσωπεύει καλά τις φυσικές ομάδες των δεδομένων 5
(2) ΥΠΟΛΟΓΙΣΜΌΣ ΑΠΌΣΤΑΣΗΣ Υπολογισμός της ομοιότητας ή ανομοιότητας μεταξύ ζευγών δεδομένων μέσω μιας αριθμητικής απόστασης. (1) Aπόσταση Minkowski: D d 1/ p p i, j = xi, k x j, k k = 1 ( x x ) όπου xi και xj: ανύσματα χαρακτηριστικών ή δεδομένων διαστάσεων d. (2) Ευκλίδεια (Euclidean): η πιο δημοφιλής, ειδική περίπτωση της απόστασης Minkowski D d ( xi,x j ) = ( xi, k x j, k ) k = 1 2 6
(3) Απόσταση Manhattan: Minkowski για p=1 D d ( xi, x j ) = k = 1 x i, k x j, k - Μειονεκτήματα αποστάσεων Minkowski: (ι) η τάση του μεγαλύτερου (σε πλάτος) χαρακτηριστικού να υπερισχύει των άλλων (ιι) ο επηρεασμός τους από τις τιμές πλάτους, έτσι πρέπει τα χαρακτηριστικά να κανονικοποιούνται πρώτα - Ευκλίδεια απόσταση: πιο κατάλληλη όταν τα δεδομένα σχηματίζουν απομονωμένες ομάδες 7
(4) Τετραγωνισμένη Ευκλίδεια απόσταση: D d ( xi, x j ) = ( xi, k x j, k ) Χρησιμοποιείται κυρίως όταν θέλουμε να δίνεται προοδευτικά μεγαλύτερη βαρύτητα σε ομάδες που είναι πιο απομακρυσμένες. (5) Kullback-Leibler divergence: ομαδοποίηση τ.μ. Μεγάλη τιμή K-L σημαίνει ομοιότητα και ταξινόμηση στην ίδια ομάδα. k = 1 2 8
(6) Απόσταση Chebychev: όταν θέλουμε τα δεδομένα να θεωρούνται ανόμοια όταν διαφέρουν σε οποιαδήποτε διάσταση. DM ( xi, x j ) = max xi x j (7) Απόσταση Power: οι δύο περιπτώσεις του p έχουν διαφορετικές τιμές D d 1/ r p i, j = xi, k x j, k k = 1 ( x x ) p: βαρύτητα απόστασης μεταξύ των διαστάσεων r: βαρύτητα απόστασης μεταξύ δεδομένων 9
(8) Απόσταση Mahalanobis: DM 1 ( x, x ) = ( x x ) Σ ( x x ) T όπου Σ -1 : πίνακας συνδιασποράς i - Όταν Σ=Ι τότε έχουμε Ευκλίδεια απόσταση. j - Διαφέρει από την Ευκλίδεια απόσταση: (ι) λαμβάνει υπόψη τη συσχέτιση μεταξύ των δεδομένων, (ιι) δεν επηρεάζεται από το πλάτος των δεδομένων. i j i j 10
(3) ΟΜΑΔΟΠΟΊΗΣΗ: (Ι) ΙΕΡΑΡΧΙΚΉ Ιεραρχικό «δέντρο»: απεικόνιση ομαδοποίησης με δενδρόγραμμα. Όταν τα δεδομένα έχουν ψηλή διαστασιακότητα η απεικόνιση μέσω δενδρογράμματος δεν είναι η πιο κατάλληλη μέθοδος απεικόνισης και ομαδοποίησης. 11
ΑΛΓΌΡΙΘΜΟΙ AGGLOMERATIVE (1) Κοντινότεροι γείτονες (single-link, nearest neighbour): δημιουργώ ομάδες που έχουν τη μικρότερη απόσταση μεταξύ τους. Οι ομάδες τείνουν να είναι πιο επιμηκείς. (2) Μακρινότεροι γείτονες (complete-link, farthest neighbour): δημιουργώ ομάδες που έχουν τη μεγαλύτερη απόσταση μεταξύ τους. Οι ομάδες τείνουν να είναι πιο συμπαγείς. Για δεδομένα Χ={Χ 1, Χ Ν }, αριθμός ομάδων Μ, πίνακας αποστάσεων Δ με διαστάσεις ΜxΜ και στοιχεία d(.): (ι) Θεωρώ κάθε δεδομένο είναι μια ομάδα. Υπολογίζω την απόσταση Δ μεταξύ όλων των ομάδων, δηλ. d(χ ι,χ ξ ) για ι=ξ=1:ν (ιι) Βρίσκω τις ομάδες με τη μικρότερη (ή μεγαλύτερη ανάλογα με τη μέθοδο) απόσταση και τις συγχωνεύω έτσι ώστε να έχω μια μεγαλύτερη ομάδα. (ιιι) Αν ο αριθμός των ομάδων μετά τη συγχώνευση είναι 1, σταματώ. Αλλιώς, πάω πίσω στο (ιι). 12
Ο πίνακας αποστάσεων, Δ, όταν Μ=Ν υπολογίζεται απευθείας μέσω μιας μεθόδου υπολογισμού απόστασης Όταν Μ<Ν τότε ο πίνακας Δ υπολογίζεται: d is = a p d ps + a q d qs + bd όπου d pq : απόσταση μεταξύ ομάδων p και q, i: νέα ομάδα που δημιουργείται από τη συγχώνευση των ομάδων p και q, και s: μια ομάδα εκτός των p και q. Oι σταθερές a p, a q, b και g παίρνουν τιμές ανάλογα με την ιεραρχική μέθοδο επιλογής. pq + g d ps d qs 13
ΜΕΘΟΔΟΣ a p a q b g Κοντινότεροι γείτονες (Nearest neighbour (single-link)) Μακρινότεροι γείτονες (Farthest neighbour (complete-link)) 0.5 0.5 0-0.5 0.5 0.5 0 0.5 Simple average 0.5 0.5 0 0 Group (weighted) average n p /n i n q /n i 0 0 Median 0.5 0.5-0.25 0 Centroid n p /n i n q /n i -n q n p /n 2 i 0 Ward s error sum of squares (n s +n p )/(n s +n i ) (n s +n q )/(n s +n i ) -n s /(n s +n i ) 0 n j : αριθμός δεδομένων στην ομάδα j 14
Γενικές παρατηρήσεις: Είναι πιο εύκολο να ενωθούν ήδη υπάρχουσες ομάδες μεταξύ τους παρά να δημιουργηθούν νέες ομάδες μεγάλες αλυσίδες ενωμένων ομάδων, linking effect (πιο εμφανές για τη μέθοδο single-link) Μέθοδος single-link είναι πιο ευαίσθητη σε παρεκτρεπόμενες τιμές από τη μέθοδο complete-link Για συμπαγείς και ισομεγέθεις ομάδες Μέθοδος Ward Για συμπαγείς ομάδες με δεδομένα πολύ όμοια completelink Επειδή είναι σπάνιο να υπάρχουν πληροφορίες για το είδος των δεδομένων πριν την ομαδοποίηση, συνήθως χρησιμοποιούνται διάφορες μέθοδοι και η μέθοδος που καταλήγει σε λύση που ερμηνεύεται πιο καλά επιλέγεται. 15
(3) ΟΜΑΔΟΠΌΙΗΣΗ: (ΙΙ) ΕΠΙΜΕΡΙΣΤΙΚΉ Για δεδομένα με ψηλή διαστατικότητα είναι πιο κατάλληλη από ιεραρχικές μεθόδους καλύτερη απεικόνιση Όμως, πρόβλημα: ο αριθμός των ομάδων, ο οποίος είναι συνήθως άγνωστος, πρέπει να προσδιοριστεί από προηγουμένως. Ομαδοποίηση βασίζεται σε βελτιστοποίηση μιας συνάρτησης κριτηρίου (criterion function) συνήθως τρέχουμε τον αλγόριθμο περισσότερο από μια φορά και παίρνουμε το καλύτερο αποτέλεσμα. 16
Σύνηθες κριτήριο για μια ομαδοποίηση L των δεδομένων Χ: squared error e 2 K j ( X L) = n ( j), x c j= 1 i= 1 i j 2 όπου x i (j) : το i th δεδομένο που ανήκει στην ομάδα j, c j : κέντρο της ομάδας j, K: αριθμός ομάδων, n j : αριθμός δεδομένων. 17
ΑΛΓΌΡΙΘΜΟΣ K-MEANS Τυχαία αρχική ομαδοποίηση σε k ομάδες και τα δεδομένα ανακατατάσσονται στις ομάδες recursively ανάλογα με την ομοιότητα του δεδομένου με το κέντρο της ομάδας. Μέθοδος: (1)(ι) Επιλέγω k δεδομένα τα οποία αντιπροσωπεύουν τα κέντρα των k ομάδων (ιι) τοποθετώ το κάθε δεδομένο στην ομάδα με της οποίας το κέντρο είναι πιο κοντά Ή (1)(ι) διαχωρίζω τα δεδομένα τυχαία σε k ομάδες (ιι) υπολογίζω τα κέντρα των ομάδων (2) Υπολογίζω τα νέα κέντρα των ομάδων (3) Αν δε χρειάζεται να μετακινηθούν δεδομένα σε άλλες ομάδες ή αν η αλλάγη στο squared error < μικρής σταθεράς, σταματώ. Αλλιώς πάω στο (1)(ιι) 18
Εξαπλωμένη μέθοδος Προβλήματα: Ευαίσθητη στην επιλογή της αρχικής ομαδοποίησης. Κακή επιλογή μπορεί να οδηγήσει σε local minimum. Ένας τρόπος επίλυσης: εφαρμογή ιεραρχικής μεθόδου για ομαδοποίηση και χρησιμοποίηση του μέσου όρου των ομάδων ως αρχικά κέντρα. Προσδιορισμός του αριθμού ομάδων k προηγουμένως. 19
ΑΛΓΌΡΙΘΜΟΣ SPECTRAL CLUSTERING Ταξινόμηση σε k ομάδες βασιζόμενη στα ιδιοδιανύσματα των δεδομένων, είτε ταυτόχρονα είτε μία-μία. Για δεδομένα Χ={Χ 1,,Χ Ν }: Υπολογισμός πίνακα: A Σχηματισμός πίνακα: ij 2 xi x j exp =, i j 2 2σ 0, i = j n 1/ 2 1/ 2 L = D AD, όπου D = diag j= 1 Εύρεση k ιδιοδιανυσμάτων του L που αντιστοιχούν στις k μεγαλύτερες ιδιοτιμές, Ε={e 1,,e k } A ij 20
Σχηματισμός του πίνακα Ε με διαστάσεις Νxk, όπου κάθε στήλη αντιστοιχεί σε ένα από τα k ιδιοδιανύσματα. Κανονικοποίηση: Y ij = E / ij E j Κάθε γραμμή του Υ θεωρείται ένα σημείο σε k-dimensional χώρο. Ταξινόμηση Υ σε k ομάδες χρησιμοποιώντας μία μέθοδο ομαδοποίησης, π.χ. k-means. Ανάθεση του αρχικού δεδομένου X i στην ομάδα j μόνο αν το ιδιοδιάνυσμα i ανήκει στην ομάδα j. 2 ij 1/ 2 21
Πλεονεκτήματα: Απλή μέθοδος Πραγματοποίηση ομαδοποίησης σε μειωμένες διαστάσεις Προβολή δεδομένων στα ιδιοδιανύσματα δημιουργεί απομωνομένες ομάδες καλύτερη και πιο φυσική ομαδοποίηση Ευσταθής δεν επηρεάζεται από παρεκτρεπόμενες τιμές Μειονέκτημα: Επιλογή αριθμού ομάδων εκ των προτέρων 22
SELF-ORGANISING MAPS (SOMS) «Πλαισιωτά» νευρωνικά δίκτυα (ΝΔ) οι κυψέλες (νευρώνες) των οποίων αντιπροσωπεύουν διαφορετικές ομάδες δεδομένων. Τα ψηλής διαστατικότητας δεδομένα απεικονίζονται σε 2-d πλαίσιο μέσω του SOM Η απόσταση των κυψέλων στο πλαίσιο αντιπροσωπεύει την ομοιότητα μεταξύ των δεδομένων - : Βοηθά στην απεικόνιση Μείωση διαστατικότητας 23
Αποτελείται από: Ένα στρώμα νευρώνων Τα outputs είναι οργανωμένα σε πλαίσιο 2- ή 3-d Κάθε input, X=(x 1,,x n ), είναι ενωμένο με όλους τους νευρώνες output Κάθε νευρώνας j έχει weight vector, w i =(w i1,,w in ) 24
Οι αρχικές τιμές των weight vectors είναι είτε τυχαίες μικρές τιμές, είτε από τις τιμές των 2 μεγαλύτερων principal components Για κάθε δεδομένο εκπαίδευσης υπολογίζεται η Ευκλίδεια απόσταση μεταξύ του και των weight vectors του κάθε νευρώνα. Ο νευρώνας του οποίου το weight vector έχει τη μικρότερη απόσταση με τα δεδομένα best matching unit (BMU) 25
Προσαρμογή των weights του BMU και των νευρώνων που είναι γειτονικά στο BMU: w j [ D( t) w ( )] ( t + 1) = w ( t) + Θ( j, t) α( t) t j j όπου w j (t): weight του νευρώνα j σε χρόνο t α(t): συντελεστής εκμάθησης (motonically decreasing) D(t): δεδομένα εκπαίδευσης Θ(j,t): συνάρτηση «γειτονιάς» (neighbourhood function) εξαρτάται από την απόσταση μεταξύ του BMU και του νευρώνα j. Πιο απλή περίπτωση: Θ( j, t) 1, = 0, για νευρώνες εκτός ττη "γειτονιάς" για νευρώνες εντός ττη "γειτονιάς" 26
(4) ΕΓΚΥΡΌΤΗΤΑ ΟΜΆΔΩΝ Αναγκαία η εκτίμηση των ομάδων γιατί: Μέθοδοι συσταδοποίησης πάντοντε καταλήγουν σε μια ομαδοποίηση, ακόμα κι αν τα δεδομένα είναι θόρυβος και δεν υπάρχει καμιά φυσική ομαδοποίηση Διαφορετικές μεθόδοι πολύ πιθανόν να δώσουν διαφορετικές ομαδοποιήσεις Απαντήσεις σε δύο ερωτήματα: Πόσο καλά η συγκεκριμένη ομαδοποίηση αντιπροσωπεύει τις πραγματικές φυσικές ομάδες των δεδομένων Πώς προσδιορίζουμε το «σωστό» αριθμό ομάδων 27
Χρησιμοποίηση συντελεστών παραμόρφωσης: (1) Εσωτερικά (internal): πληροφορίες από το goodness-of-fit μεταξύ των δεδομένων και της συγκεκριμένης ομαδοποίησης (2) Εξωτερικά (external): πληροφορίες εκτός της διαδικασίας ομαδοποίησης. Συνήθως δεν υπάρχουν πληροφορίες εκ των προτέρων για την αληθινή δομή των δεδομένων, άρα σπάνια χρησιμοποιούνται. Ο προσδιορισμός του αριθμού των ομάδων γίνεται για τις ιεραρχικές μεθόδους 28
(Ι) ΤΙΜΉ ΣΥΓΧΏΝΕΥΣΗΣ Εξέταση της τιμής συγχώνευσης (ΤΣ, fusion level) έναντι του αριθμού ομάδων, j, για προσδιορισμό του επιπέδου στο οποίο να γίνει η «κοπή» του δέντρου Σε κάθε επίπεδο j αντιστοιχεί μια ΤΣ, α 0,α 1,...,α Ν-1, όπου 0,1,...,Ν-1 αντιστοιχούν σε ομαδοποίηση με Ν,Ν-1,...,1 ομάδες. Δηλ. α j είναι η τιμή της απόστασης, d, στο επίπεδο j για την οποία συγχωνεύτηκαν οι δύο ομάδες, i και m: α j = min i< m [ d ], ή α = max[ d ], i, m = 1,..., N j im j i< m ανάλογα με τη μέθοδο (single-link ή complete-link αντίστοιχα) 29 im
Υπολογισμός επιπέδου «κοπής»: α j +1 > μ α + ks α όπου α j+1 : ΤΣ στο επίπεδο j+1, μ α και σ α : μέσος όρος και διασπορά του α αντίστοιχα, k: σταθερά (standard deviate), j=1,...,ν-2 Το επίπεδο j στο οποίο η σχέση αυτή ισχύει είναι το επίπεδο «κοπής» Δηλαδή: ψάχνουμε το επίπεδο j μετά το οποίο οι τιμές του α δεν παρουσιάζουν μεγάλη αλλαγή. 30
α Ν-1 α Ν-2 α Ν-3 31
32
α=0.7444 33
(ΙΙ) ΆΛΛΕΣ ΤΙΜΈΣ Root mean squared standard deviation (RMSSTD) μικρές τιμές αντιστοιχούν σε ομοιογενείς ομάδες R-squared (RS) τιμές από [0,1], όπου 0 ενδυκνείει ομοιογενείς ομάδες Semipartial R-squared (SPR) δείχνει το πόσο αυξάνεται η ανομοιογένεια της ομάδας που δημιουργείται από συγχώνευση 2 ομάδων, δηλ. πρέπει να έχει μικρές τιμές Απόσταση μεταξύ ομάδων ανάλογα με τη μέθοδο: Single-link: η μικρότερη Ευκλίδεια απόσταση μεταξύ όλων των ζευγών των δεδομένων Complete-link: η τιμή sum-of-squares μεταξύ ζευγών ομάδων 34
ΕΠΌΜΕΝΟ ΜΆΘΗΜΑ: 35 Κατευθυνόμενη ταξινόμηση