Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/

Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν το σύγγραμμα «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» Αρχικές εκδόσεις από μέρος των διαφανειών ετοιμάστηκαν από τον Δρ. Α. Νανόπουλο. Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Introduction to Data Mining» των Tan, Steinbach, Kumar, και «Data Mining: Concepts and Techniques» των Jiawei Han, Micheline Kamber. 2

Θέματα που θα εξετάσουμε σήμερα Έλεγχος Εγκυρότητας και τάσης ομαδοποίησης Γενικά θέματα κλιμάκωσης Ποιός αλγόριθμος πρέπει να επιλέγεται 3

Εγκυρότητα ομαδοποίησης ης 1.5 1 0.5 0-0.5-1 -1.5-4 -3-2 -1 0 1 2 3 4 Πόσα clusters? 2 ή 3? 4

Εγκυρότητα ομαδοποίησης ης Πώς αξιολογείται η ποιότητα των συστάδων; ; Πολλές φορές το πόσο καλό είναι το αποτέλεσμα είναι υποκειμενικό clusters are in the eye of the beholder! Γιατί χρειάζεται η αξιολόγηση Για την αποφυγή έρευσης προτύπων σε θόρυβο. Για τη σύγκριση διαφορετικών αλγορίθμων. Για τη σύγκριση δύο συνόλων από συστάδες. Για τη σύγκριση γρ δύο συστάδων. Αποτίμηση αποτελέσματος ομαδοποίησης Εσωτερικά κριτήρια (καμία γνώση κλάσεων) Εξωτερικά κριτήρια (γνώση κλάσεων) Σχετικά κριτήρια 5

Εγκυρότητα αλγορίθμων τμηματοποίησης η ης Συμπάγεια (Συνοχή) Πόσο κοντά ή στενά συσχετισμένα είναι τα αντικείμενα μίας συστάδας SSE = i x C i ( x m i είναι το κέντρο της συστάδας i Απομόνωση m i ) 2 Πόσο μακρυά ή καλά διαχωρισμένες είναι οι συστάδες μεταξύ τους. 2 SSB = C i ( m m i ) i C i είναι το μέγεθος της συστάδας i m το κέντρο όλων των συστάδων 6

Αλληλεξάρτηση η η SSE και SSB m 1 m 1 2 3 4 m 2 5 K=1 cluster: SSE= (1 3) 2 SSB= 4 (3 3) Total + (2 3) 2 = 10 + 0 = 10 = 0 2 + (4 3) 2 + (5 3) 2 = 10 K=2 clusters: SSE= SSB= (1 1.5) 2 2 (3 1.5) + (2 1.5) 2 2 + (4 4.5) + 2 (4.5 3) 2 = 9 2 + (5 4.5) 2 = 1 Total = 1+ + 9 = 10 Αποδεικνύεται ότι πάντα το άθροισμα παραμένει σταθερό. Άρα η ελαχιστοποίηση του SSE σημαίνει μεγιστοποίηση του SSB. 7

Αλληλεξάρτηση η η SSE και SSB Απόδειξη: 0 8

Περισσότερα ρ για συνοχή-απομόνωση Η συνοχή μπορεί να υπολογιστεί αν πάρουμε την απόσταση των σημείων της συστάδας μεταξύ τους. cluster SSE = x C ( x i m i ) = 1 2c i x Ci y Ci ( x 2 ) 2 y Η απομόνωση μπορεί να υπολογιστεί αν πάρουμε την απόσταση μεταξύ των κέντρων των συστάδων. Για ισομεγέθεις συστάδες: ολικό SSB = 1 K K 2 c 2 i ( mi m) = ( mi mj) x C 2 K i 1 j 1 K i = = n 9

Έλεγχος σημαντικότητας η SSE και SSB Οι τιμές SSE και SSB ερμηνεύονται μόνο συγκριτικά. Παράγουμε έναν αριθμό συνόλων με αντικείμενα που ακολουθούν ομοιόμορφη μ κατανομή και έχουν τον ίδιο αριθμό αντικειμένων Ομαδοποιούμε μ κάθε τέτοιο σύνολο και υπολογίζουμε γζ τις τιμές SSE και SSB. Εξετάζουμε την κατανομή των τιμών SSE και SSB. Ελέγχουμε κατά πόσο μη αναμενόμενες είναι οι τιμές SSE και SSB που προέκυψαν από την υπό εξέταση ομαδοποίηση. 10

Παράδειγμα Παράγουμε 100 τυχαία σύνολα 150 σημείων στο ίδιο εύρος τιμών. SSE = 63.82 μ = 121.26, σ=7.43 Επίπεδο εμπιστοσύνης 90% 11

Συντελεστής σιλουέτας (αλγόριθμοι τμηματοποίησης) Συνδυασμός συμπάγειας και απομόνωσης Απόσταση ενός αντικειμένου από τα αντικείμενα της ομάδας του συγκριτικά με την απόσταση από τα αντικείμενα άλλων ομάδων α i = μέση απόσταση i-οστού αντικειμένου από τα αντικείμενα της ομάδας του b i = η ελάχιστη μέση απόσταση i-οστού αντικειμένου από αντικείμενα άλλης ομάδας S i = bi ai max{ a i, b Τιμή στο [-1,1], επιθυμητές τιμές > 0 i } 12

Παράδειγμα Εφαρμογή του K-means στα δεδομένα IRIS 1.5 1 0.5 0-0.5-1 -1.5-4 -3-2 -1 0 1 2 3 4 Η μέση τιμή του συντελεστή σιλουέτας είναι ένα μέτρο αξιολόγησης της συσταδοποίησης. Έμμεσα μπορεί να εκτιμηθεί και ο αριθμός των συστάδων! 13

Εγκυρότητα για ιεραρχικούς ρχ αλγορίθμους Συντελεστής CPCC (cophenetic correlation coefficient) μετράει κατά πόσο τα αντικείμενα ταιριάζουν στο (πλήρες) δενδρόγραμμα d(x,y): απόσταση x, y d c (x,y): απόσταση των ομάδων που περιείχαν τα x και y, όταν αυτά τοποθετήθηκαν για πρώτη φορά στην ίδια ομάδα, έπειτα από συγχώνευση των ομάδων τους Οι τιμές είναι στο διάστημα [-1,1]. Οι τιμές πλησιέστερα στο 1 υποδηλώνουν καλύτερη συσταδοποίηση 14

Παράδειγμα Παράγουμε 100 τυχαία σημεία βάσει δύο κανονικών κατανομών και εισάγουμε θόρυβο. Ιεραρχική συσταδοποίηση μονής (αριστερά) και πλήρους (δεξιά) σύνδεσης. CPCC = 0.78 CPCC = 0.88 15

Γενική μέθοδος εγκυρότητας μέσω συσχέτισης Δύο πίνακες Πίνακας Γειτνίασης (Ομοιότητας ή απόστασης) Πίνακας Εμφάνισης (Incidence) Μία γραμμή και μία στήλη για κάθε σημείο. Τιμή 1 σημαίνει ότι τα αντίστοιχα α σημεία βρίσκονται στην ση ίδια συστάδα. σ Τιμή 0 σημαίνει ότι τα αντίστοιχα σημεία βρίσκονται σε διαφορετικη συστάδα. Υπολογισμός συσχέτισης μεταξύ των δύο πινάκων. Καθώς οι πίνακες είναι συμμετρικοί, χρειάζεται ο υπολογισμός μόνο n(n-1) )/ 2 συνδυασμών. Υψηλή συσχέτιση σημαίνει ότι τα σημεία μιας συστάδας είναι κοντά το ένα στο άλλο. Δεν ενδύκνειται για συσταδοποίηση βάσει πυκνότητας ή συνέχειας. 16

Παράδειγμα Εφαρμογή του k-means means. y 1 0.9 0.8 0.7 0.6 0.5 05 0.4 0.3 0.2 01 0.1 0 0 0.2 0.4 0.6 0.8 1 x y 1 0.9 0.8 0.7 0.6 0.5 05 0.4 0.3 0.2 01 0.1 0 0 0.2 0.4 0.6 0.8 1 x Corr = 0.9235 Corr = 0.5810 17

Αποτίμηση η μέσω οπτικοποίησης ης Ταξινομούμε τα αντικείμενα ως προς την ομάδα που ανήκουν και αναπαριστούμε τις αποστάσεις τους σε έναν πίνακα 1 1 10 0.9 0.9 20 0.8 0.8 30 0.7 y 0.7 0.6 0.5 Points P 40 0.6 50 0.5 60 0.4 0.4 0.3 70 80 0.3 0.2 0.2 90 01 0.1 0.1 0 0 0.2 0.4 0.6 0.8 1 x 100 20 40 60 80 100Similarity 0 Points 18

Αποτίμηση η μέσω οπτικοποίησης ης Ταξινομούμε τα αντικείμενα ως προς την ομάδα που ανήκουν και αναπαριστούμε τις αποστάσεις τους σε έναν πίνακα 1.5 1 0.5 0-0.5-1 -1.5 15-4 -3-2 -1 0 1 2 3 4 19

Αποτίμηση η μέσω οπτικοποίησης ης Οι συστάδες σε τυχαία δεδομένα δεν είναι ξεκάθαρες 1 1 10 20 30 0.9 0.8 0.7 0.9 0.8 0.7 Points 40 06 0.6 50 0.5 60 0.4 y 06 0.6 0.5 0.4 70 0.3 0.3 80 02 0.2 02 0.2 90 100 20 40 60 80 100Similarity 0 Points 0.1 0.1 0 0 0.2 0.4 0.6 0.8 1 x DBSCAN 20

Αποτίμηση η μέσω οπτικοποίησης ης Οι συστάδες σε τυχαία δεδομένα δεν είναι ξεκάθαρες 10 0.9 1 1 0.9 20 30 0.8 0.7 0.8 0.7 Po oints 40 0.6 50 0.5 60 0.4 y 0.6 0.5 0.4 70 80 0.3 0.2 0.3 0.2 90 0.1 0.1 100 20 40 60 80 100Similarity 0 0 0 0.2 0.4 0.6 0.8 1 Points x K-means 21

Αποτίμηση η μέσω οπτικοποίησης ης Οι συστάδες σε τυχαία δεδομένα δεν είναι ξεκάθαρες 10 0.9 1 1 0.9 20 30 0.8 0.7 0.8 0.7 Po ints 40 0.6 50 05 0.5 60 0.4 y 0.6 05 0.5 0.4 70 80 0.3 0.2 0.3 0.2 90 01 0.1 01 0.1 100 20 40 60 80 100Similarity 0 Points 0 0 0.2 0.4 0.6 0.8 1 x Complete Link 22

Εγκυρότητα με εξωτερικά κριτήρια γνωρίζουμε εκ των προτέρων την κλάση στην οποία ανήκουν a: Το πλήθος των αντικειμένων που ανήκουν και στην ίδια ομάδα και στην ίδια κλάση. b: Το πλήθος των αντικειμένων που ανήκουν και στην ίδια ομάδα αλλά όχι στην ίδια κλάση. c: Το πλήθος των αντικειμένων που δεν ανήκουν στην ίδια ομάδα αλλά ανήκουν στην ίδια κλάση. Συντελεστής Jaccard a a + b + c πλησιέστερα στο 1 δηλώνουν Ο συντελεστής Jaccard παίρνει τιμές στο διάστημα [0,1]. Τιμές καλύτερη ομαδοποίηση. 23

Παράδειγμα Σύγκριση ιεραρχικών αλγορίθμων Jaccard = 0.58 Jaccard = 0.71 24

Τελευταίο σχόλιο πάνω στην εγκυρότητα The validation of clustering structures is the most difficult and frustrating part of cluster analysis. Without a strong effort in this direction, cluster analysis will remain a black art accessible only to those true believers who have experience and great courage. Algorithms for Clustering Data, Jain and Dubes 25

Πόσες συστάδες υπάρχουν; ; Μελετούμε τις γραφικές παραστάσεις του συντελεστή σιλουέτας ως προς τον αριθμό των συστάδων 1.5 1 05 0.5 0-0.5-1 -1.5-4 -3-2 -1 0 1 2 3 4 26

Πόσες συστάδες υπάρχουν; ; Επίσης μελετούμε τις γραφικές παραστάσεις του SSE ως προς τον αριθμό των συστάδων 6 4 2 10 9 8 7 6 0-2 -4 SSE 5 4 3 2 1-6 5 10 15 0 2 5 10 15 20 25 30 K 27

Τάση ομαδοποίησης ης 150 σημεία με τυχαία κατανομή Υπάρχουν clusters? 28

Έλεγχος βάσει MST Παράγουμε σημεία με τυχαία κατανομή Έστω η υπόθεση Η 0 ότι τα σύνολα δεδομένων προέρχονται από τον ίδιο πληθυσμό. 29

Βήματα ελέγχου Βρες την κυρτή (convex) περιοχή που περικλείει όλα τα σημεία του συνόλου δεδομένων δδ X. Δημιούργησε σύνολο δεδομένων Y με Y = X σημεία, που βρίσκονται εντός της κυρτής ρήςπεριοχής του βήματος 1. Βρες το MST του συνόλου X Y. T είναι ο αριθμός των ακμών του MST, των οποίων η μία τους κορυφή ανήκει στο X και η άλλη στο Y. Απόρριψε την υπόθεση H 0, αν ο αριθμός T είναι μικρός. Εναλλακτικά Απορρίπτουμε την Η 0 σε επίπεδο εμπιστοσύνης a αν Τ < z(a) 30

Παράδειγμα Υπάρχουν clusters? T= 73 από 299 Τ = -8.9 (για επίπεδο σημαντικότητας 95%, αρκεί Τ < 1.96) 31

Έλεγχος βάσει κοντινότερων γειτόνων Βρες την κυρτή (convex) περιοχή που περικλείει όλα τα σημεία του συνόλου δεδομένων X. Δημιούργησε το σύνολο δεδομένων Y με Y << X σημεία που βρίσκονται εντός της κυρτής περιοχής του βήματος 1. Πάρε ένα τυχαίο δείγμα S από σημεία του X, όπου S = Y. Θέτουμε ως X'=X-SX το σύνολο των σημείων που δεν επιλέχθηκαν στο δείγμα. Για κάθε σημείο y i στο Y βρίσκουμε την απόσταση u i από τον κοντινότερο γείτονα που ανήκει στο X. Ομοίως, για κάθε σημείο s i στο S βρίσκουμε την απόσταση w i από τον κοντινότερο γείτονα που ανήκει στο X. S Υπολόγισε το στατιστικό του Hopkins: u i i = 1 = S S i = 1 i = 1 Aπόρριψε ό την υπόθεση H 0, αν το H είναι περίπου 05 0.5. Υπάρχουν συστάδες όταν H > 0.5 H w i + u i 32

Παράδειγμα Υπάρχουν clusters? Δείγμα 50 σημείων. Η=0.77 33

Θέματα που πρέπει να προσεχθούν εκτός της πολυπλοκότητας απαιτήσεις σε μνήμη. αποδοτικός υπολογισμός πλησιέστερου κέντρου, γειτόνων ή σημείων μέσα σε δεδομένη απόσταση. όρια στην γειτονικότητα μείωση του αριθμού συγκρίσεων γρ ενός σημείου με κεντρικά σημεία δειγματοληψία τεχνικές διαίρει και βασίλευε περίληψη των δεδομένων παραλληλισμός 35

Τύπος συσταδοποίσης: Κριτήρια-παράγοντες επιλογής αλγορίθμου ιεραρχίες, πληρότητα, μοναδικότητα Τύπος συστάδων: Βάσει πρωτοτύπου-κεντρικού σημείου Βάσει γράφου Βάσει πυκνότητας Άλλα κριτήρια, όπως αποδοτικότητα σε συστάδες διαφορετικού μεγέθους, σχήματος, πυκνότητας, δυνατότητα υπολογισμού κεντρικού σημείου, συσταδοποίηση σε υποσύνολο χαρακτηριστικών 37

Κριτήρια-παράγοντες επιλογής αλγορίθμου θόρυβος και ανώμαλες-ακραίες ακραίες τιμές περιγραφή συστάδας ντετερμινιστική συπεριφορά ευαισθησία στη σειρά των δεδομένων αυτόματος υπολογισμός αριθμού συστάδων ύπαρξη αντικειμενικής συνάρτησης 38

Άσκηση η 1 Να αποδειχθεί ότι το παρακάτω άθροισμα είναι 0 39

Να αποδείξετε ότι Άσκηση η 2 cluster SSE = 1 2c ( ( x m = i) 2 ( x y ) 2 x C i i x Ci y Ci 40

Να αποδείξετε ότι Άσκηση η 3 ολικό SSB = x C i c i K 1 K n 2 2 ( mi m) = ( mi mj) 2K i= 1 j= 1 K 41