Συσταδοποίηση/ Ομαδοποίηση

Transcript

1 Συσταδοποίηση/ Ομαδοποίηση Lecture Notes for Chapter 8 Introduction to Data Mining by Tan, Steinbach, Kumar 1

2 Τι είναι η ανάλυση ομάδων/ομαδοποίηση (Συσταδοποίηση)? Εύρεση συνόλων από αντικείμενα έτσι ώστε τα αντικείμενα ενός συνόλου να είναι περισσότερο όμοια (ή να σχετίζονται) μεταξύ τους και διαφορετικά (να μην σχετίζονται) με τα αντικείμενα των άλλων συνόλων. Οι αποστάσεις εντός της ομάδας ελαχιστοποιούνται Intra-cluster Οι αποστάσεις μεταξύ των ομάδων μεγιστοποιούνται Inter-cluster

3 Εφαρμογές της ομαδοποίησης / συσταδοποίησης Κατανόηση Ομαδοποίηση/ Συσταδοποίηση σχετικών σελίδων για «φυλλομέτρηση», γονιδίων και πρωτεϊνών που έχουν παρόμοια λειτουργικότητα, ή μετοχών με παρόμοιες διακυμάνσεις Σύνοψη (Summarization) Μείωση του όγκου μεγάλων συνόλων δεδομένων Ομαδοποίηση/ συσταδοποίηση βροχοπτώσεων Discovered Clusters Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Συσταδοποίηση επιπέδου βροχής (precipitation) στην Αυστραλία! Industry Group Technology1-DOWN Technology-DOWN Financial-DOWN Oil-UP 3

4 Εφαρμογές της ομαδοποίησης / συσταδοποίησης Ομαδοποίηση/ συσταδοποίηση γονιδίων και πρωτεϊνών που έχουν την ίδια λειτουργία, χαρακτηριστικά ασθενειών μετοχών με παρόμοια διακύμανση τιμών, Ομαδοποίηση/ συσταδοποίηση weblog για εύρεση παρόμοιων προτύπων προσπέλασης, Ομαδοποίηση/ συσταδοποίηση σχετιζόμενων αρχείων για browsing, ομαδοποίηση/ συσταδοποίηση κειμένων κλπ πελάτες με παρόμοια συμπεριφορά

5 Τι ΔΕΝ είναι Συσταδοποίηση / ομαδοποίηση Ταξινόμηση με επίβλεψη (Supervised classification) Διαθέτουμε πληροφορία για την τάξη Απλός διαμερισμός (Simple segmentation) Διαχωρισμός των φοιτητών σε ομάδες αλφαβητικά Αποτελέσματα μίας ερώτησης σε βάση δεδομένων Η συσταδοποίηση/ ομαδοποίηση είναι το αποτέλεσμα ενός «εξωτερικού» προσδιορισμού Διαμέριση Γράφου (Graph partitioning) Υπάρχουν κάποια κοινά σημεία αλλά οι περιοχές δεν ταυτίζονται 5

6 Πότε μια συσταδοποίηση είναι καλή; Μια μέθοδος συσταδοποίησης είναι καλή αν παράγει συστάδες καλής ποιότητας Μεγάλη ομοιότητα εντός της συστάδας και Μικρή ομοιότητα ανάμεσα στις συστάδες Η ποιότητα εξαρτάται από τη Μέτρηση ομοιότητας και Μέθοδο υλοποίησης της συσταδοποίησης

7 Η έννοια της ομάδας/ συστάδας μπορεί να είναι «διφορούμενη» Πόσες συστάδες / ομάδες; Έξι; Δύο; Τέσσερις; 7

8 Γενικές Απαιτήσεις Αντιμετώπιση θορύβου και outliers συστάδα outliers Outlier (ακραίο σημείο) τιμές που είναι εξαιρέσεις ως προς τα συνηθισμένες ή αναμενόμενες τιμές

9 Τύποι ομαδοποίησης / συσταδοποίησης Η συσταδοποίηση/ομαδοποίηση είναι η δημιουργία ενός συνόλου από συστάδες / ομάδες Ιεραρχική vs διαμεριστική συσταδοποίηση/ ομαδοποίηση Διαμεριστική Συσταδοποίηση / Ομαδοποίηση (Partitional Clustering) Διαχωρισμός των αντικειμένων σε μη επικαλυπτόμενα (non overlaping) υποσύνολα (ομάδες) έτσι ώστε ένα αντικείμενο ανήκει αποκλειστικά σε ένα μόνο υποσύνολα Ιεραρχική Συσταδοποίηση /Ομαδοποίηση (Hierarchical clustering) Ένα εάν σύνολα από εμφωλισμένες (nested) συστάδες/ομάδες οργανώνονται σαν ένα ιεραρχικό δέντρο. Μια συστάδα / ομάδα επιτρέπεται να έχει υποσυστάδες/ υποομάδες οργανωμένες σε ιεραρχικό δέντρο. 9

10 Διαμεριστική Συσταδοποίηση/Ομαδοποίηση (Partitional Clustering) Αρχικά σημεία Μία διαμεριστική ομαδοποίηση 10

11 Ιεραρχική συσταδοποίηση/ ομαδοποίηση (Hierarchical Clustering) p1 p3 p4 p p1 p p3 p4 Δενδρογράμματα (Dendrogram) Φύλλα: απλά σημεία ή απλές συστάδες p1 p p3 p4 p1 p p3 p4 Ως ακολουθία διαχωριστικών Να «κόψουμε» δέντρο 11 το

12 Διαχωριστική vs Ιεραρχική Συσταδοποίηση p1 p3 p4 Διαχωριστική Συσταδοποίηση p p1 p3 p4 p Ιεραρχική Συσταδοποίηση p1 p p3 p4 Δένδρο-γράμμα (Dendrogram) 1

13 Άλλες διαφορές μεταξύ συσταδοποιήσεων/ομαδοποιήσεων Αποκλειστικές μη αποκλειστικές Σε μη αποκλειστικές συσταδοποιήσεις/ ομαδοποιήσεις τα αντικείμενα μπορούν να ανήκουν σε περισσότερες από μία ομάδες Μπορεί να αντιπροσωπεύουν πολλαπλές κατηγορίες ή «οριακά» (border) σημεία Ασαφή μη ασαφής ομαδοποίηση (Fuzzy versus non-fuzzy) Στην ασαφή συσταδοποίηση/ομαδοποίηση, ένα σημείο ανήκει σε κάθε συστάδα/ομάδα με κάποιο βαθμό συμμετοχής μεταξύ 0 και 1 Οι βαθμοί συμμετοχής (συνήθως) πρέπει να αθροίζονται στη μονάδα Η πιθανοτική (Probabilistic) συσταδοποίηση/ομαδοποίηση έχει παρόμοια χαρακτηριστικά Μερική - ολική Σε μερικές περιπτώσεις θέλουμε να ομαδοποιήσουμε/ συσταδοποιήσουμε μόνο κάποια από τα δεδομένα Ετερογενή Ομογενή (Heterogeneous versus homogeneous) Ομαδοποίηση από διαφορετικά μεγέθη, σχήματα και πυκνότητα 13

14 Τύποι συστάδων/ ομάδων Συστάδες/Ομάδες που είναι καλά διαχωρίσιμες (Well-separated clusters) Συστάδες/Ομάδες που βασίζονται σε κεντρικά πρότυπα (Center-based clusters) Γειτνιάζουσες/συνεχείς Συστάδες/ομάδες (Contiguous clusters) Συστάδες/Ομάδες βασιζόμενες στην πυκνότητα (Density-based clusters) Με βάση την ύπαρξη μια αντικειμενικής συνάρτησης (συνάρτηση κόστους/καταλληλότητας) (Described by an Objective Function) 14

15 Αλγόριθμοι Συσταδοποίησης Θα δούμε ανάμεσα σε άλλους τους: K-means και παραλλαγές Ιεραρχική Συσταδοποίηση Συσταδοποίηση με βάση την Πυκνότητα (DBSCAN)

16 Γενικές Απαιτήσεις Scalability στον αριθμό σημείων και διαστάσεων Να υποστηρίζει διαφορετικούς τύπους δεδομένων Να υποστηρίζει συστάδες με διαφορετικά σχήματα (συνήθως, «σφαίρες») Να είναι εύκολο να δώσουμε τιμές στις παραμέτρους εισόδου (αριθμό συστάδων, μέγεθος κλπ) Να μην εξαρτάται από τη σειρά επεξεργασίας των σημείων εισόδου Δυναμικά μεταβαλλόμενα δεδομένα Αλλαγή συστάδων με το πέρασμα του χρόνου

17 Καλά διαχωρίσιμες (Well-Separated) Καλά διαχωρίσιμες συστάδες/ομάδες: Μία συστάδα/ομάδα είναι ένα σύνολο από σημεία τέτοια ώστε ένα σημείο της να είναι πιο «κοντά» σε κάθε σημείο της από ότι σε ένα σημείο που δεν ανήκει στην συστάδαομάδα 3 καλά διαχωρίσιμες ομάδες Συχνά υπάρχει η έννοια του κατωφλιού (threshold) Όχι απαραίτητα κυκλικοί (οποιοδήποτε σχήμα) 17

18 Βασιζόμενα στην έννοια ενός κεντρικού σημείου Center-Based Βασισμένα στην έννοια του κέντρου Μία συστάδα/ομάδα είναι ένα σύνολο από αντικείμενα τέτοια ώστε ένα αντικείμενο της συστάδας/ομάδας είναι πιο «κοντά» στο «κέντρο» της συστάδας/ομάδας από ότι είναι από το κέντρο μίας άλλης Το κέντρο μιας συστάδας/ομάδας είναι συνήθως το κέντρο βάρους (centroid), η μέση τιμή όλων των σημείων που ανήκουν στην ομάδα, ή το medoid, το πιο «αντιπροσωπευτικό» σημείο μίας ομάδας (πχ όταν κατηγορικά γνωρίσματα) 4 center-based clusters 18

19 Γειτνιάζουσες/Εφαπτόμενες / συνεχείς Contiguity-Based Ομάδες / Συστάδες Γειτνιάζουσες/Εφαπτόμενες συστάδες/ομάδες (Κοντινότερος γείτονας ή μεταβατικά σημεία) (Nearest neighbor or Transitive) Μία ομάδα είναι ένα σύνολο σημείων έτσι ώστε ένα σημείο της ομάδας να είναι πιο «κοντά» σε ένα ή περισσότερα σημεία της ομάδας από οποιοδήποτε σημείο που δεν ανήκει στην ομάδα 8 γειτνιάζουσες/συνεχείς ομάδες /συστάδεις (contiguous clusters) Παρατηρούνται σε περιπτώσεις ομάδων /συστάδων με μη κανονικό σχήμα ή με αλληλοπλεκόμενα σχήματα ή όταν έχουμε γραφήματα και θέλουμε να βρούμε συνεκτικά υπογραφήματα Πρόβλημα με θόρυβο 19

20 Ομάδες / Συστάδες με βάση την Πυκνότητα (Density-Based) Με βάση την πυκνότητα (Density-based) Μία ομάδα είναι μία «πυκνή» περιοχή σημείων που διαχωρίζεται από περιοχές χαμηλής πυκνότητας από άλλες περιοχές υψηλής πυκνότητας. Χρησιμοποιείται όταν οι ομάδες είναι ακανόνιστες και «συμπλέκονται», και όταν υπάρχουν ακραίες τιμές και θόρυβος 6 ομάδες/ συστάδεις βασισμένες στην πυκνότητα (density-based clusters) 0

21 Εννοιολογικές συστάδες/ομάδες: Conceptual Clusters Κοινή ιδιότητα ή εννοιολογικές ομάδες Βρίσκει ομάδες οι οποίες μοιράζονται μία κοινή ιδιότητα ή αντιπροσωπεύουν μια συγκεκριμένη έννοια.. Αλληλοκαλυπτόμενοι κύκλοι (Overlapping Circles) 1

22 Ομάδες / Συστάδες βασισμένες σε αντικειμενική συνάρτηση: Objective Function Ομάδες ορισμένες με βάση αντικειμενική συνάρτηση Βρίσκει ομάδες οι οποίες ελαχιστοποιούν ή μεγιστοποιούν μία αντικειμενική συνάρτηση. Απαρίθμηση όλων των δυνατών τρόπων που μπορούν να χωριστούν τα σημεία σε ομάδες και εκτίμηση του πόσο καλή (`goodness ) είναι κάθε προτεινόμενη λύση χρησιμοποιώντας μία αντικειμενική συνάρτηση. (NP Hard) Μπορεί να έχει τοπικούς ή ολικούς αντικειμενικούς στόχους. Ιεραρχικές ομαδοποιήσεις έχουν κυρίως τοπικούς στόχους Διαμεριστικοί αλγόριθμοι έχουν συνήθως ολικούς Μία παραλλαγή της προσέγγισης της ολικής αντικειμενικής συνάρτησης είναι η προσαρμογή των δεδομένων σε ένα παραμετροποιημένο μοντέλο (parameterized model). Οι παράμετροι του μοντέλου καθορίζονται από τα δεδομένα. Μοντέλα μίξης υποθέτουν ότι τα δεδομένα προέρχονται από τι μίξη ( mixture ) στατιστικών κατανομών (statistical distributions).

23 Ο τύπος των δεδομένων είναι σημαντικός Το είδος μέτρησης της εγγύτητας ή της πυκνότητας Αυτή είναι μια παραγομένη μέτρηση αλλά είναι σημαντική για την ομαδοποίηση «αραιή» κατανομή δεδομένων (Sparseness) Τύπος χαρακτηριστικών Καθορίζει τον τύπο της ομοιότητας Διάσταση (Dimensionality) Θόρυβος και ακραίες τιμές (Noise and Outliers) Τύπος κατανομών (Type of Distribution) 3

24 Αλγόριθμοι Ομαδοποίησης (Clustering Algorithms) Κ-μέσων και οι παραλλαγές του (Kmeans) Ιεραρχική συσταδοποίηση/ ομαδοποίηση (Hierarchical clustering) Αλγόριθμοι με βάση την πυκνότητα (Density-based clustering) 4

25 K-means Διαμεριστική προσέγγιση Κάθε ομάδα συσχετίζεται με ένα βαρύκεντρο (centroid) (κεντρικό σημείο -center point) Κάθε σημείο καταχωρείται στην συστάδα/ομάδα με το πιο κοντινό centroid Ο αριθμός των ομάδων, K, πρέπει να καθοριστεί/ αποτελεί είσοδο στον αλγόριθμο Ο βασικός αλγόριθμος είναι απλός: 1: Επιλογή Κ σημείων ως τα αρχικά κεντρικά σημεία : Repeat 3: Ανάθεση όλων των αρχικών σημείων στο κοντινότερο τους από τα K κεντρικά σημεία 4: Επανα-υπολογισμός του κεντρικού σημείου κάθε συστάδας 5: Until τα κεντρικά σημεία να μην αλλάζουν 5

26 K-means: Βασικός Αλγόριθμος Παράδειγμα Έστω k =, και αρχικά επιλέγουμε το 3 και το 4

27 K-means: Βασικός Αλγόριθμος Παρατηρήσεις 1. Τα αρχικά κεντρικά σημεία συνήθως επιλέγονται τυχαία Οι συστάδες που παράγονται διαφέρουν από το ένα τρέξιμο του αλγορίθμου στο άλλο. Η εγγύτητα των σημείων υπολογίζεται με βάση κάποια απόσταση που εξαρτάται από το είδος των σημείων, στα παραδείγματα θα θεωρήσουμε την Ευκλείδεια απόσταση Επειδή η απόσταση υπολογίζεται συχνά o υπολογισμός της πρέπει να είναι σχετικά απλός 3. Το κεντρικό σημείο είναι (συνήθως) το μέσο (mean) των σημείων της συστάδας (το οποίο μπορεί να μην είναι ένα από τα δεδομένα εισόδου)

28 K-means Λεπτομέρειες Τα αρχικά κέντρα συχνά επιλέγονται τυχαία. Οι ομάδες που παράγονται μπορεί να διαφέρουν. Το κέντρο είναι συνήθως το μέσο των σημείων της ομάδας. Η εγγύτητα ( closeness ) συνήθως μετράται με την ευκλείδεια απόσταση, την ομοιότητα συνημίτονου (cosine similarity), τη συσχέτιση κτλ. Ο K-means θα συγκλίνει για τα πιο πάνω μέτρα ομοιότητας. Η μεγαλύτερη σύγκλιση επιτυγχάνεται στις πρώτες (λίγες) επαναλήψεις. Συνήθως η συνθήκη τερματισμού αντί για «μέχρι κανένα σημείο να μην αλλάζει ομάδα» σε «μέχρι πολύ λίγα σημεία να αλλάζουν ομάδες» Η πολυπλοκότητα (Complexity) είναι O( n * K * I * d ) n = αριθμός των σημείων, K = αριθμός των συστάδων/ομάδων, I = αριθμός επαναλήψεων, d = αριθμός χαρακτηριστικών 8

29 Αρχική κατάσταση, Κ = 3 συστάδες Αρχικά σημεία k 1, k, k 3 K-means: Βασικός Αλγόριθμος 9

30 K-means: Βασικός Αλγόριθμος Τα σημεία ανατίθενται στο πιο γειτονικό από τα 3 αρχικά σημεία 30

31 K-means: Βασικός Αλγόριθμος Επανα-υπολογισμός του κέντρου (κέντρου βάρους) κάθε σημείου 31

32 Νέα ανάθεση των σημείων Νέα κέντρα βάρους K-means: Βασικός Αλγόριθμος 3

33 K-means: Βασικός Αλγόριθμος Δεν αλλάζει τίποτα -> ΤΕΛΟΣ 33

34 K-means: Βασικός Αλγόριθμος Παρατηρήσεις Χώρος: αποθηκεύουμε μόνα τα κέντρα Η πολυπλοκότητα είναι O(I * n * K * d) n = αριθμός σημείων, K = αριθμός συστάδων, I = αριθμός επαναλήψεων, d = αριθμός γνωρισμάτων (διάσταση) 34

35 K-means: Βασικός Αλγόριθμος Παρατηρήσεις Για συνηθισμένα μέτρα ομοιότητας, ο αλγόριθμος συγκλίνει Η σύγκλιση συμβαίνει συνήθως τις αρχικές πρώτες επαναλήψεις Συχνά η τελική συνθήκη αλλάζει σε Until σχετικά λίγα σημεία να αλλάζουν συστάδα ή η απόσταση μεταξύ των νέων κεντρικών σημείων από τα παλιά να είναι μικρή 35

36 Δύο διαφορετικές ομαδοποιήσεις με τη χρήση του K-means Αρχικά σημεία y x y y Βέλτιστη ομαδοποίηση x Υπο-βέλτιστη ομαδοποίηση x 36

37 Εκτίμηση των ομάδων που παράγονται από τον K-means Το πιο κοινό μέσο είναι το άθροισμα των τετραγώνων των σφαλμάτων (Sum of Squared Error (SSE)) Για κάθε σημείο το «σφάλμα» είναι η απόσταση από το κοντινότερο «κέντρο» Για να υπολογίσουμε το SSE, τα υψώνουμε στο τετράγωνο και τα αθροίζουμε. SSE K i 1 x C i dist ( m, x) x είναι εάν σημείο στην ομάδα C i και m i είναι το αντίστοιχο αντιπροσωπευτικό σημείο για την ομάδα C i μπορεί να αποδειχθεί ότι το m i αντιστοιχεί στο κέντρο (μέσο) της ομάδας Εάν έχουμε ομάδες μπορούμε να επιλέξουμε αυτή με το μικρότερο SSE Ένας εύκολος τρόπος να μειώσουμε το SSE είναι να αυξήσουμε το K, των αριθμό των ομάδων μία «καλή» ομαδοποίηση με μικρότερο K μπορεί να έχει μικρότερο 37 SSE από μία «κακή» ομαδοποίηση με μεγαλύτερο K i

38 Σημαντική η επιλογή των αρχικών κέντρων 3 Iteration y x 38

39 Σημαντική η επιλογή των αρχικών κέντρων 3 Iteration 1 3 Iteration y y x x 3 Iteration 3 3 Iteration 4 3 Iteration y y y x x x 39

40 ΠΑΡΑΔΕΙΓΜΑ Σημαντική η επιλογή των αρχικών κέντρων Αρχικά σημεία y x y y x Βέλτιστη συσταδοποίηση Υπό-βέλτιστη συσταδοποίση x 40

41 ΠΑΡΑΔΕΙΓΜΑ Σημαντική η επιλογή των αρχικών κέντρων 3 Iteration y x 41

42 ΠΑΡΑΔΕΙΓΜΑ Σημαντική η επιλογή των αρχικών κέντρων 3 Iteration 1 3 Iteration 3 Iteration y y y x x x 3 Iteration 4 3 Iteration 5 3 Iteration y y y x x x 4

43 Προβλήματα με την επιλογή των αρχικών σημείων Εάν έχουμε K πραγματικές συστάδες/ομάδες τότε η πιθανότητα να επιλέξουμε ένα κέντρο για κάθε ένα από αυτά είναι πολύ μικρή. Μερικές φορές τα αρχικά κέντρα θα προσαρμοστούν με «σωστό» τρόπο και μερικές φορές όχι Δείτε το επόμενο παράδειγμα με πέντε ζεύγη από ομάδες 43

44 Παράδειγμα με 10 ομάδες 8 Iteration y x Ξεκινώντας με δύο κέντρα σε μία ομάδα για κάθε ζεύγος από ομάδες 44

45 Παράδειγμα με 10 ομάδες 8 Iteration 1 8 Iteration y 0 y x Iteration x Iteration y 0 y x Ξεκινώντας με δύο κέντρα σε μία ομάδα για κάθε ζεύγος από ομάδες x 45

46 Παράδειγμα με 10 ομάδες 8 Iteration y Ξεκινώντας με ορισμένα ζεύγη από ομάδες να έχουν τρία κέντρα και άλλα με μόνο ένα x 46

47 Παράδειγμα με 10 ομάδες 8 Iteration 1 8 Iteration y 0 y Iteration x Iteration x y 0 y x x Ξεκινώντας με ορισμένα ζεύγη από ομάδες να έχουν τρία κέντρα και άλλα με μόνο ένα 47

48 Λύσεις για το πρόβλημα της επιλογής των αρχικών κέντρων Πολλαπλές δοκιμές (Multiple runs) Βοηθάει, αλλά οι πιθανότητες δεν είναι με το μέρος μας Δειγματοληπτούμε και χρησιμοποιούμε ιεραρχική ομαδοποίηση για τον καθορισμό των αρχικών κέντρων Επιλογή περισσότερων από k αρχικά κέντρα και στη συνέχεια επιλέγουμε ανάμεσα σε αυτά τα αρχικά κέντρα Επιλέγουμε κέντρα «απομακρυσμένα» μεταξύ τους. Μετά-επεξεργασία (Postprocessing) Διχοτομικός (Bisecting) K-means Δεν είναι τόσο επιρρεπής σε προβλήματα αρχικοποίησης 48

49 Σταδιακή επιλογή Επιλογή του πρώτου σημείου τυχαία ή ως το μέσο όλων των σημείων Για καθένα από τα υπόλοιπα αρχικά σημεία επέλεξε αυτό που είναι πιο μακριά από τα μέχρι τώρα επιλεγμένα αρχικά σημεία Μπορεί να οδηγήσει στην επιλογή outliers Ο υπολογισμός του πιο απομακρυσμένου σημείου είναι δαπανηρός Συχνά εφαρμόζεται σε δείγματα 49

50 Χειρισμός «κενών» ομάδων (Empty Clusters) Ο βασικός αλγόριθμος K-means μπορεί να δημιουργήσει κενές ομάδες / συστάδεις Διάφορες στρατηγικές αντιμετώπισης Επέλεξε το σημείο που είναι πιο μακριά από όλα τα τωρινά κέντρα και άρα επιλογή του σημείου το οποίο συμβάλει το περισσότερο στο SSE Επέλεξε ένα σημείο από την ομάδα με το υψηλότερο SSE θα οδηγήσει σε «σπάσιμο» της άρα σε μείωση του λάθους Εάν υπάρχουν περισσότερες κενές ομάδες, τα πιο πάνω μπορούν να επαναληφθούν αρκετές φορές. 50

51 «Σταδιακή Ενημέρωση» των κέντρων αυξητικά (Incrementally) Στον βασικό αλγόριθμο K-means τα κέντρα ενημερώνονται αφού όλα τα σημεία αντιστοιχιστούν σε ένα κέντρο Μια εναλλακτική προσέγγιση είναι να ενημερώνονται τα κέντρα μετά από κάθε αντιστοίχιση (incremental approach) Κάθε αντιστοίχιση ενημερώνει κανένα ή δύο κέντρα Υπολογιστικά πιο απαιτητική Εισαγάγει μια εξάρτηση της σειράς με την οποία επεξεργάζονται τα δεδομένα Δεν εμφανίζει το πρόβλημα των κενών ομάδων Μπορεί να χρησιμοποιηθούν «βάρη» ( weights ) για την αλλαγή της επίδρασης (αν υπάρχει κάποια τυχαία αντικειμενική συνάρτηση) 51

52 Προ-επεξεργασία και μετα-επεξεργασία (Preprocessing - Post-processing) Προ-επεξεργασία (Pre-processing) Κανονικοποίηση των δεδομένων (Normalization) Εξάλειψη των ακραίων σημείων (Eliminate outliers) Μετα-επεξεργασία (Post-processing)- Split-Merge (διατηρώντας το ίδιο K) Εξάλειψη μικρών ομάδων τα οποία μπορεί να αποτελούν ακραία παραδείγματα (outliers) και ανακατανομή των σημείων της σε άλλες συστάδες (αυτό που οδηγεί στην μικρότερη αύξηση του SSE) Χωρισμός «χαλαρών» ( loose ) ομάδων, δηλαδή ομάδων με σχετικά υψηλό SSE Συνένωση (merge) ομάδων που είναι «κοντά» (τα κέντρα τους έχουν την μικρότερη απόσταση) και έχουν σχετικά χαμηλό SSE Μπορούν να χρησιμοποιηθούν αυτά τα βήματα κατά την διαδικασία της ομαδοποίησης ISODATA 5

53 Διχοτομικός (Bisecting) K-means Διχοτομικός (Bisecting) K-means Παραλλαγή του K-means που μπορεί να δημιουργήσει μια διαμοιραστική ή ιεραρχική ομαδοποίηση 1: Αρχικοποίηση της λίστας των συστάδων ώστε να περιέχει μια συστάδα που περιέχει όλα τα σημεία : Repeat 3: Επιλογή μιας συστάδας από τη λίστα των συστάδων 4: for i = 1 to number_of_trials do 5: διχοτόμησε την επιλεγμένη συστάδα χρησιμοποιώντας το βασικό k-means 6: Πρόσθεσε στη λίστα από τις δυο συστάδες που προέκυψαν από τη διχοτόμηση αυτήν με το μικρότερο SSE 5: Until η λίστα των συστάδων να έχει K συστάδες 53

54 Παράδειγμα για K-means με διχοτόμηση 54

55 Περιορισμοί του K-means Ο K-means έχει προβλήματα όταν οι ομάδες είναι διαφορετικού Μεγέθους Πυκνότητας Μη-σφαιρικού σχήματος K-means έχει προβλήματα όταν τα δεδομένα περιέχουν ακραίες τιμές (outliers). 55

56 Περιορισμοί του K-means: Διαφορετικά μεγέθη Αρχικά σημεία K-means (3 Ομάδες/ Clusters) Δεν μπορεί να βρει το μεγάλο κόκκινο, γιατί είναι πολύ μεγαλύτερος από τους άλλους 56

57 Περιορισμοί του K-means: Διαφορετικές πυκνότητες Αρχικά Σημεία K-means (3 Ομάδες /Clusters) Δεν μπορεί να διαχωρίσει τους δυο μικρούς γιατί είναι πολύ πυκνοί σε σχέση με τον ένα μεγάλο 57

58 Περιορισμοί του K-means: Μη σφαιρικά σχήματα Αρχικά Σημεία K-means ( συστάδεις /Clusters) Δεν μπορεί να βρει τις δύο συστάδες γιατί έχουν μη κυκλικά σχήματα 58

59 Αντιμετώπιση των περιορισμών του K-means Αρχικά Σημεία K-means Ομάδες / Clusters Μία λύση είναι η χρησιμοποίηση πολλών ομάδων. Βρίσκουμε μέρη των ομάδων, αλλά απαιτείται να τα ενώσουμε στη συνέχεια. 59

60 Αντιμετώπιση των περιορισμών του K- means Αρχικά σημεία K-means Ομάδες 60

61 Αντιμετώπιση των περιορισμών του K- means- Διαφορετικά μεγέθη Αρχικά σημεία K-means Ομάδες/ Clusters 61

62 K-means: Επιλογή αρχικών σημείων Αν υπάρχουν K «πραγματικές συστάδες» η πιθανότητα να επιλέξουμε ένα κέντρο από κάθε συστάδα είναι μικρή, συγκεκριμένα αν όλες οι συστάδες έχουν το ίδιο μέγεθος n, τότε: Για παράδειγμα, αν Κ = 10, η πιθανότητα είναι = 10!/1010 =

63 K-medoid Συνήθως συνεχή d-διάστατο χώρο Διαλέγει ένα αντιπροσωπευτικό σημείο από τα δεδομένα και ελαχιστοποιεί την απόσταση από αυτό Medoid: το πιο κεντρικό σημείο της συστάδας (αντί να χρησιμοποιεί το mean) Mειώνει την ευαισθησία σε outliers Μπορεί να εφαρμοστεί σε δεδομένα οποιουδήποτε τύπου (πχ και για κατηγορικά δεδομένα)

64 Ιεραρχική Συσταδοποίηση 64

65 Ιεραρχική ομαδοποίηση (Hierarchical Clustering) Δημιουργεί μία σειρά από εμφωλιασμένες (nested) ομάδες οργανωμένες σαν ένα ιεραρχικό δέντρο Μπορεί να απεικονισθεί ως ένα δεντρόγραμμα (dendrogram) Ένα διάγραμμα που μοιάζει με δέντρο που καταγράφει την ακολουθία των συγχωνεύσεων (merges) ή των διασπάσεων (splits)

66 Πλεονεκτήματα της Ιεραρχικής ομαδοποίησης Δεν χρειάζεται να υποθέσουμε την ύπαρξη συγκεκριμένου αριθμού από ομάδες Οποιοσδήποτε αριθμός από ομάδες μπορεί να επιτευχθεί «κόβοντας» το δεντρόγραμμα στο κατάλληλο επίπεδο (level) Μπορεί να αντιστοιχούν σε ταξινομίες (taxonomies) που έχουν φυσικό νόημα Για παράδειγμα στη βιολογική επιστήμη (ζωικό βασίλειο, φυτικό βασίλειο) 66

67 Ιεραρχική ομαδοποίηση Δύο είναι οι κύριοι τύποι της ιεραρχικής συσταδοποίησης / ομαδοποίησης Συσσωρευτικοί (Agglomerative): Ξεκινάνε με τα σημεία ας ξεχωριστές ομάδες / συστάδεις Σε κάθε βήμα, ενώνουν το πιο κοντινό ζεύγος από τις ομάδες μέχρι να μείνει μόνο μία ομάδα (ή k ομάδες) Διαιρετικοί (Divisive): Ξεκινάνε με μια συστάδα/ομάδα που περιέχει όλα τα σημεία Σε κάθε βήμα, διαχωρίζουν μία συστάδα/ομάδα μέχρι κάθε ομάδα να περιλαμβάνει ένα μόνο σημείο (ή να έχουν δημιουργηθεί k ομάδες) Οι κλασσικοί ιεραρχικοί αλγόριθμοι χρησιμοποιούν ένα πίνακα ομοιότητας ή απόστασης Συνενώνουν ή διαχωρίζουν μία συστάδα/ομάδα κάθε φορά 67

68 Συσσωρευτικοί Ιεραρχικοί αλγόριθμοι Η πιο δημοφιλής ιεραρχική τεχνική ομαδοποίησης Ο βασικός αλγόριθμος 1. Υπολόγισε τον πίνακα γειτνίασης/εγγύτητας (proximity matrix). Έστω ότι κάθε σημείο αποτελεί μια ομάδα 3. Επανέλαβε 4. Ένωσε (Merge) τις δύο πιο κοντινές ομάδες 5. Ενημέρωσε τον πίνακα εγγύτητας / γειτνίασης 6. Μέχρι να παραμείνει μόνο μία ομάδα Το κλειδί στην όλη διαδικασία είναι ο υπολογισμός της εγγύτητας/γειτνίασης δύο ομάδων Διαφορετικές προσεγγίσεις για τον ορισμό της απόστασης μεταξύ των ομάδων δημιουργούν διαφορετικούς αλγορίθμους 68

69 Συσσωρευτική Ιεραρχική Ομαδοποίηση Αρχική κατάσταση Ξεκινάμε με ομάδες από μεμονωμένα σημεία (κάθε σημείο είναι μια ομάδα) και έναν πίνακα γειτνίασης (proximity matrix) p1 p p3 p4 p5.. p1 p p3 p4 p5.... Πίνακας γειτνίασης Proximity Matrix... p1 p p3 p4 p9 p10 p11 p1 69

70 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ενδιάμεση κατάσταση Μετά από κάποια βήματα συνένωσης έχουμε ορισμένες ομάδες C1 C C1 C C3 C4 C5 C1 C3 C4 C3 C4 C5 Proximity Matrix C C5... p1 p p3 p4 p9 p10 p11 p1 70

71 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ενδιάμεση κατάσταση Θέλουμε να συνενώσουμε τις δύο πιο κοντινές ομάδες (C και C5) και να ανανεώσουμε τον πίνακα γειτνίασης. C1 C C1 C3 C4 C5 C3 C C3 C4 C4 C1 C5 Proximity Matrix C C p1 p p3 p4 p9 p10 p11 p1

72 Συσσωρευτική Ιεραρχική Ομαδοποίηση Μετά τη συνένωση (Merging) Η ερώτηση είναι μετά την συνένωση «Πώς ανανεώνουμε τον πίνακα γειτνίασης;» C1 C U C5 C3 C4 C1? C3 C4 C U C5 C3 C4?????? C1 Proximity Matrix C U C p1 p p3 p4 p9 p10 p11 p1

73 Συσσωρευτική Ιεραρχική Ομαδοποίηση Πώς ορίζουμε την ομοιότητα μεταξύ ομάδων (Inter- Cluster Similarity) p1 p p3 p4 p5... Ομοιότητα (Similarity)? p1 p p3 MIN MAX Μέση τιμή ομάδας (Group Average) Απόσταση μεταξύ κέντρων (Distance Between Centroids) Μέθοδοι οδηγούμενοι από μία αντικειμενική συνάρτηση (objective function) Η μέθοδος του Ward χρησιμοποιεί το τετραγωνικό σφάλμα (squared error) p4 p5... Proximity Matrix 73

74 Συσσωρευτική Ιεραρχική Ομαδοποίηση Πώς ορίζουμε την ομοιότητα μεταξύ ομάδων (Inter- Cluster Similarity) p1 p p3 p1 p p3 p4 p5... MIN MAX Μέση τιμή ομάδων (Group Average) Απόσταση μεταξύ κέντρων (Distance Between Centroids) Μέθοδοι οδηγούμενοι από μία αντικειμενική συνάρτηση (objective function) Η μέθοδος του Ward χρησιμοποιεί το τετραγωνικό σφάλμα (squared error) p4 p5... Proximity Matrix 74

75 Συσσωρευτική Ιεραρχική Συσταδοποίηση (ΣΙΣ)Ομαδοποίηση Ορισμός απόστασης μεταξύ ομάδων: ΜΙΝ MIN ή μοναδικής ακμής ή απλού συνδέσμου (single link) Η ομοιότητα μεταξύ δυο συστάδων βασίζεται στα δυο πιο όμοια (πιο γειτονικά) σημεία στις διαφορετικές συστάδες (με όρους γραφημάτων shortest edge) Καθορίζεται από ένα ζεύγος τιμών, δηλαδή μια ακμή (link) του γραφήματος γειτνίασης. Ονομάζεται και μέθοδος συσταδοποίησης κοντινότερου γείτονα 75

76 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ ομάδων: ΜΙΝ ή απλού συνδέσμου (Single Link) MIN ή μοναδικής ακμής ή απλού συνδέσμου (single link) Η ομοιότητα μεταξύ δυο συστάδων βασίζεται στα δυο πιο όμοια (πιο γειτονικά) σημεία στις διαφορετικές ομάδες (με όρους γραφημάτων shortest edge) Καθορίζεται από ένα ζεύγος τιμών, δηλαδή μια ακμή (link) του γραφήματος γειτνίασης. I1 I I3 I4 I5 I1 1,00 0,90 0,10 0,65 0,0 I 0,90 1,00 0,70 0,60 0,50 I3 0,10 0,70 1,00 0,40 0,30 I4 0,65 0,60 0,40 1,00 0,80 I5 0,0 0,50 0,30 0,80 1,00 Υπάρχει : ομοιότητα!!

77 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: ΜΙΝ Δεντρόγραμμα Φωλιασμένες Συστάδες Το δεντρόγραμμα (yάξονας) δίνει και τις αποστάσεις 77

78 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 4 (0.6, 0.19) 5 (0.08, 0.41) 6 (0.45, 0.30) 4 Πίνακας απόστασης (Ευκλείδεια) p1 p p3 p4 p5 p6 p p p p p p

79 1 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 1 4 (0.6, 0.19) 5 (0.08, 0.41) 5 6 (0.45, 0.30) Καθορίζεται μόνο από μια ακμή την μικρότερη p1 p p3 p4 p5 p6 p p p p p p

80 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 4 (0.6, 0.19) 5 (0.08, 0.41) 6 (0.45, 0.30) 4 p1 p p3 p4 p5 p6 p p p p p p

81 1 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 1 4 (0.6, 0.19) 5 (0.08, 0.41) (0.45, 0.30) Αρκεί να «βρω» μια ακμή 4 p1 p p3 p4 p5 p6 p p p p p p

82 Τα «δυνατά» σημεία του MIN Αρχικά σημεία Original Points Δύο σημεία Two Clusters Μπορεί να διαχειριστεί μη ελλειπτικά σχήματα (non-elliptical) 8

83 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: ΜΙΝ Τα Προτερήματα του MIN Αρχικά σημεία Δύο συστάδες Contiguity-based (συνεχόμενες συστάδες) Μπορεί να χειριστεί μη ελλειπτικά (non-elliptical) σχήματα 83

84 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: ΜΙΝ Μειονεκτήματα Αρχικά σημεία Δύο συστάδες Ευαίσθητο σε θόρυβο και outliers 84

85 Συσσωρευτική Ιεραρχική Ομαδοποίηση Πώς ορίζουμε την ομοιότητα μεταξύ ομάδων (Inter- Cluster Similarity) p1 p p3 p1 p p3 p4 p5... MIN p4 MAX p5 Μέση τιμή ομάδων (Group Average) Απόσταση μεταξύ κέντρων (Distance Between Centroids) Μέθοδοι οδηγούμενοι από μία αντικειμενική συνάρτηση (objective function) Η μέθοδος του Ward χρησιμοποιεί το τετραγωνικό σφάλμα (squared error)... Proximity Matrix 85

86 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: MAX MΑΧ ή πλήρους συνδεσιμότητας (complete linkage) - Αναζητά κλίκες Η ομοιότητα μεταξύ δυο συστάδων βασίζεται στα δυο λιγότερο όμοια (πιο μακρινά) σημεία στις διαφορετικές ομάδες (longest edge) Καθορίζεται από όλα τα ζεύγη τιμών στις δύο συστάδες. I1 I I3 I4 I5 I I I I I ομοιότητα 86

87 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 4 (0.6, 0.19) 5 (0.08, 0.41) 6 (0.45, 0.30) 4 p1 p p3 p4 p5 p6 p p p p p p

88 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 4 (0.6, 0.19) 5 (0.08, 0.41) 6 (0.45, 0.30) 4 p1 p p3 p4 p5 p6 p p p p p p

89 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 4 (0.6, 0.19) 5 (0.08, 0.41) 6 (0.45, 0.30) 4 p1 p p3 p4 p5 p6 p p p p p p

90 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 4 (0.6, 0.19) 5 (0.08, 0.41) 6 (0.45, 0.30) 4 p1 p p3 p4 p5 p6 p p p p p p

91 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: MAX Εμφωλισμένες ομάδες Nested Clusters Δεντρόγραμμα 91

92 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: MAX Πλεονεκτήματα Αρχικά Σημεία Δύο Ομάδες /Συστάδες λιγότερο ευαίσθητο στο θόρυβο και σε ακραίες τιμές (outliers) 9

93 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: MAX Μειονεκτήματα Αρχικά σημεία Δύο συστάδες Τείνει να διασπά μεγάλες συστάδες Οδηγεί συνήθως σε κυκλικά σχήματα «προτιμά» σφαιρικές ομάδες (globular clusters) 93

94 Συσσωρευτική Ιεραρχική Ομαδοποίηση Πώς ορίζουμε την ομοιότητα μεταξύ ομάδων (Inter- Cluster Similarity) p1 p p3 p1 p p3 p4 p5... MIN MAX Μέση τιμή ομάδων (Group Average) Απόσταση μεταξύ κέντρων (Distance Between Centroids) Μέθοδοι οδηγούμενοι από μία αντικειμενική συνάρτηση (objective function) Η μέθοδος του Ward χρησιμοποιεί το τετραγωνικό σφάλμα (squared error) p4 p5... Πίνακας Γειτνίασης Proximity Matrix 94

95 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ομοιότητα ομάδων: Μέση τιμή ομάδων (Group Average) Η εγγύτητα δύο ομάδων είναι η μέση τιμή της απόστασης μεταξύ όλων των ζεύγων ανα-δύο κοντινότητας (average of pairwise proximity) ανάμεσα στις δύο ομάδες. pi Cluster i p Cluster proximity(p,p j j proximity(cluster i,cluster j) Cluster Cluster Πρέπει να χρησιμοποιηθεί η μέση συνδετικότητα (connectivity) για κλιμάκωση μια και η ολική ομοιότητα ευνοεί τις μεγάλες ομάδες. ομοιότητα I1 I I3 I4 I5 I I I I I i i j j ) 95

96 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: Μέση τιμή Ομάδας Μια «ενδιάμεση» λύση μεταξύ απλού και πλήρους συνδέσμου (Μεταξύ MIN-MAX) Πλεονεκτήματα: μικρότερη ευαισθησία σε θόρυβο και σε ακραίες τιμές (outliers) Μειονεκτήματα: Ευνοεί κυκλικές ομάδες 96

97 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: Μέση τιμή Ομάδας Φωλιασμένες Συστάδες Δενδρόγραμμα Dendrogram 97

98 Συσσωρευτική Ιεραρχική Ομαδοποίηση Πώς ορίζουμε την ομοιότητα μεταξύ ομάδων (Inter- Cluster Similarity) p1 p1 p p3 p4 p5... p p3 MIN MAX Μέση τιμή ομάδων (Group Average) Απόσταση μεταξύ κέντρων (Distance Between Centroids) Μέθοδοι οδηγούμενοι από μία αντικειμενική συνάρτηση (objective function) Η μέθοδος του Ward χρησιμοποιεί το τετραγωνικό σφάλμα (squared error) p4 p5.. Πίνακας Γειτνίασης Πρόβλημα:. μη μονότονη αύξηση της απόστασης Δηλαδή, δυο συστάδες που συγχωνεύονται μπορεί να έχουν μικρότερη απόσταση από συστάδες που έχουν συγχωνευτεί σε προηγούμενα βήματα 98

99 Ομοιότητα ομάδων: Μέθοδο του Ward s Η ομοιότητα δύο ομάδων βασίζεται στην αύξηση του τετραγωνικού σφάλματος όταν ενώνονται οι δύο ομάδες Παρόμοια με την μέθοδο της μέσης τιμής εάν η απόσταση μεταξύ των σημείων ορισθεί ως το τετράγωνο της απόστασης Λιγότερο ευαίσθητη στον θόρυβο και στην παρουσία ακραίων τιμών Δείχνει προτίμηση σε σφαιρικές ομάδες Το ιεραρχικό ανάλογό του K-means Μπορεί να χρησιμοποιηθεί για την αρχικοποίηση 99 του K-means

100 100 Σύγκριση ιεραρχικών μεθόδων Group Average Ward s Method MIN MAX

101 Ιεραρχική Ομαδοποίηση: Απαιτήσεις σε χρόνο και χώρο O(N ) σε χώρο μια και χρησιμοποιεί τον πίνακα γειτνίασης (proximity matrix). N είναι το πλήθος των σημείων. O(N 3 ) σε χρόνο σε πολλές περιπτώσεις Ξεκινάμε με N ομάδες και μειώνουμε 1 κάθε φορά Έχουμε Ν βήματα και σε κάθε βήμα ο πίνακας γειτνίασης θα πρέπει να ανανεωθεί και να διερευνηθούν τα στοιχεία του (updated and searched), οπότε για γραμμική αναζήτηση O(N ) Η πολυπλοκότητα μπορεί να μειωθεί σε O(N log(n) ) για μερικές προσεγγίσεις (heap) 101

102 Ιεραρχική ομαδοποίηση: προβλήματα και περιορισμοί Από τι στιγμή που θα ενωθούν δύο ομάδες αυτό είναι οριστικό Καμία αντικειμενική συνάρτηση δεν ελαχιστοποιείται απευθείας Οι διάφορες προσεγγίσεις μπορεί να έχουν προβλήματα με ένα η περισσότερα από τα παρακάτω: Ευαισθησία σε θόρυβο και ακραίες τιμές Δυσκολία στον χειρισμό ομάδων με διαφορετικό μέγεθος και κοίλα σχήματα «Σπάνε» μεγάλες ομάδες 10

103 Δέντρο Ελάχιστης Ζεύξης-Διαμεριστικοί αλγόριθμοι Δημιουργία MST (Ελάχιστα σκελετικά δέντρα- Minimum Spanning Tree) Ξεκίνησε με ένα δέντρο που αποτελείται από ένα (οποιοδήποτε) σημείο και κατασκεύασε ένα ελάχιστο σκελετικό δέντρο Σε διαδοχικά βήματα αναζήτησε το πιο κοντινό ζεύγος σημείων (p, q) έτσι ώστε το ένα σημείο (p) να ανήκει στο τρέχον δέντρο και το άλλο (q) όχι Πρόσθεσε το q στο δέντρο και πρόσθεσε μία ακμή (edge) μεταξύ των p και q 103

104 MST Χρησιμοποίησε το MST για την δημιουργία ιεραρχικών ομάδων 104

105 DBSCAN (Density Based Spatial Clustering of Applications with Noise) 105

106 DBSCAN (Density Based Spatial Clustering of Applications with Noise) DBSCAN είναι ένας αλγόριθμος που βασίζεται στην πυκνότητα (density-based algorithm). Πυκνότητα (Density) = ο αριθμός των σημείων (MinPts) εντός μιας προκαθορισμένης ακτίνας (Eps) από αυτό (συμπεριλαμβανομένου του σημείου) Τα σημεία διαχωρίζονται: Ένα σημείο είναι ένα σημείο πυρήνα (core point) εάν η γειτονιά του (Eps) περιέχει περισσότερα από ένα προκαθορισμένο αριθμό από σημεία (MinPts) Αυτά είναι τα σημεία στο εσωτερικό της ομάδας (ομάδας πυκνών σημείων) Ένα οριακό σημείο (border point) έχει λιγότερα από ένα προκαθορισμένο αριθμό σημείων MinPts εντός της γειτονιάς του (Eps), αλλά είναι στη γειτονία ενός (τουλάχιστον) σημείου πυρήνα Ένα σημείο που είναι θόρυβος (noise point) είναι κάθε σημείο που δεν είναι σημείο πυρήνα ούτε είναι οριακό σημείο 106

107 DBSCAN: Core, Border, και Noise Points 107

108 Ο αλγόριθμος DBSCAN Απομάκρυνε τα σημεία που είναι θόρυβος Πραγματοποίηση συσταδοποίηση/ ομαδοποίηση στα σημεία που απομένουν 108

109 Ο αλγόριθμος DBSCAN 1: Χαρακτήρισε κάθε σημείο ως βασικό, οριακό ή θόρυβο : Διέγραψε τα σημεία θορύβου 3: Τοποθέτησε μια ακμή μεταξύ όλων των βασικών σημείων που είναι σε απόσταση έως Eps μεταξύ τους 4: Κάνε κάθε ομάδα συνδεδεμένων βασικών σημείων μια διαφορετική συστάδα 5: Ανάθεσε κάθε οριακό σημεία σε μία από τις συστάδες των συσχετιζόμενων του βασικών σημείων 109

110 DBSCAN: Core, Border και Noise Points Αρχικά σημεία Point types: core, border and noise Eps = 10, MinPts = 4 110

111 Περίπτωση «καλής» ομαδοποίησης με τον DBSCAN Βήμα 3 & 4 Αρχικά σημεία Ομάδες Ανθεκτικός στην ύπαρξη θορύβου Μπορεί να χειριστεί ομάδες με διαφορετικά μεγέθη και σχήματα 111

112 Περίπτωση «κακής» ομαδοποίησης από τον DBSCAN Αρχικά σημεία (MinPts=4, Eps=9.75). Διαφορετικές πυκνότητες Πολυδιάστατα δεδομέναδύσκολος ορισμός πυκνότητας και δαπανηρός υπολογισμός γειτόνων (MinPts=4, Eps=9.9) 11

113 DBSCAN: Πολυπλοκότητα Για m σημεία εισόδου: O (n x χρόνος εντοπισμού σημείων σε eps-γειτονιά) Ο(n ) Για μικρό αριθμό διαστάσεων, υπάρχουν δομές που υποστηρίζουν την πράξη σε Ο(n logn) O(n) χώρος (για κάθε σημείο κρατάμε μόνο ένα label σε μια συστάδα ανήκει και το είδος του (βασικό, οριακό, θόρυβος) 113

114 DBSCAN: Καθορισμός των ποσοτήτων EPS και MinPts Η ιδέα είναι ότι για τα σημεία μια ομάδας, ο k th κοντινότερος γείτονάς τους θα βρίσκεται περίπου στην ίδια απόσταση k-dist Γενικά (κατά μέσο όρο), για τα σημεία που ανήκουν στην ίδια ομάδα, η τιμή του k-dist θα είναι μικρή (αν το k δεν είναι μεγαλύτερο από το μέγεθος της συστάδας) Τα σημεία που είναι θόρυβος θα έχουν τον k th κοντινότερο γείτονά τους πιο μακριά Απεικονίζουμε γραφικά με αύξουσα σειρά τις αποστάσεις κάθε σημείου από τον k th κοντινότερο γείτονά του Υπολογίζουμε την k-dist για όλα τα σημεία, για κάποιο k Ταξινομούμε τις αποστάσεις με φθίνουσα διάταξη Περιμένουμε ξαφνική αλλαγή στο k-dist που αντιστοιχεί στο Eps Οπότε k = MinPts και Eps = k-dist Eps ~ 7 MinPts = 4 114

115 Εγκυρότητα Ομαδοποίησης Cluster validity 115

116 Εγκυρότητα της ομαδοποίησης (Cluster Validity) Για την ταξινόμηση έχουμε μια σειρά από μέτρα για να αξιολογήσουμε πόσο καλό είναι το μοντέλο μας Accuracy, precision, recall Για την ομαδοποίηση η ανάλογη ερώτηση είναι, πώς να αξιολογήσουμε πόσο «καλό» είναι το σύνολο των ομάδων που δημιουργήθηκαν; Αλλά οι ομάδες εξαρτώνται από την οπτική γωνία του χρήστη! Τότε γιατί θέλουμε να τα εκτιμήσουμε; Για να αποφύγουμε την εύρεση μοτίβων εκεί που υπάρχει μόνο θόρυβος Για να συγκρίνουμε αλγορίθμους ομαδοποίησης Για να συγκρίνουμε δύο σύνολα ομάδων Για να συγκρίνουμε δύο ομάδες 116

117 Συστάδες σε Τυχαία Δεδομένα Τυχαία Σημεία Random Points y y DBSCAN 3 ομάδες κοιτώντας την απόσταση του 4 ου γείτονα x x K-means Με ΜΑΧ Complete Link y 0.5 y x x 117

118 Μετρήσεις Εγκυρότητας Ομαδοποίησης Οι μετρήσεις για την εγκυρότητα ομαδοποίησης (το πόσο καλή) είναι ανήκουν σε μία από τις παρακάτω τρεις κατηγορίες: Με επίβλεψη (supervised) - Εξωτερικό Ευρετήριο (External Index): Υπάρχει εξωτερική πληροφορία (πληροφορία εκτός των δεδομένων), πχ ετικέτες για τις ομάδες Μετράμε πόσο οι περιγραφές των ομάδων ταιριάζουν με τις ετικέτες των κλάσεων. πχ Εντροπία Χωρίς επίβλεψη (unsupervised) Εσωτερικό Ευρετήριο (Internal Index): Εκτιμάμε το πόσο καλή είναι μια ομαδοποίηση χωρίς παροχή εξωτερικής πληροφορίας Συνεκτικότητα (cohesion) Διακριτότητα ή διαχωρισμός (separation) Συγκριτικοί -Σχετικό Ευρετήριο (Relative Index): Χρησιμοποιείται για τη σύγκριση δυο διαφορετικών ομαδοποιήσεων ή ομάδων - Συχνά για αυτό το σκοπό χρησιμοποιείται ένα εσωτερικό ή εξωτερικό ευρετήριο Εσωτερικό, πχ δυο k-means συσταδοποιήσεις με βάση το SSE Κριτήρια vs Eυρετήρια κριτήριο: η γενική στρατηγική και ευρετήριο η 118 αριθμητική μέτρηση που υλοποιεί το κριτήριο

119 Διαφορετικές όψεις της εγκυρότητας της ομαδοποίησης 1. Καθορισμός της τάσης για δημιουργία ομάδων (clustering tendency) ενός συνόλου από δεδομένα, δηλαδή, η δυνατότητα να ξεχωρίσουμε αν μη-τυχαίες δομές υπάρχουν πραγματικά στα δεδομένα.. Σύγκριση των αποτελεσμάτων της ομαδοποίησης με «εξωτερικά» αποτελέσματα, για παράδειγμα η ύπαρξη της πληροφορίας για την κατηγορία στην οποία ανήκουν τα δεδομένα, π.χ. Κάποια ετικέτας έχει δοθεί σε μια ομάδα. 3. Εκτίμηση των αποτελεσμάτων της ομαδοποίησης χωρίς την χρήση εξωτερικής πληροφορίας. - Χρήση μόνο των δεδομένων 4. Σύγκριση των αποτελεσμάτων που παράχθηκαν από δύο διαφορετικούς αλγορίθμους για να καθοριστεί ποιος είναι καλύτερος. 5. Καθορισμός του «σωστού» αριθμού των ομάδων. Σε σχέση με τα, 3, και 4, μπορούμε να κάνουμε την περεταίρω διάκριση εάν θέλουμε να εκτιμήσουμε ολόκληρη την ομαδοποίηση ή μόνο μεμονωμένες ομάδες. 119

120 Μέτρα για την εκτίμηση της εγκυρότητας της ομαδοποίησης Αριθμητικές μετρήσεις που χρησιμοποιούνται για την κρίση την εγκυρότητα της ομαδοποίησης, ταξινομούνται στους ακόλουθους τρεις τύπους. Εξωτερικοί δείκτες (External Index): Χρησιμοποιείται για να μετρήσει το κατά πόσο οι ετικέτες των ομάδων ταυτίζονται με τις ετικέτες για τις κατηγορίες που παρέχονται εξωτερικά. Εντροπία (Entropy) Εσωτερικοί δείκτες (Internal Index): Μετράνε το πόσο καλή είναι η ομαδοποίηση χωρίς τη χρήση εξωτερική πληροφορίας. Άθροισμα των τετραγώνων των σφαλμάτων (Sum of Squared Error (SSE)) Σχετικοί δείκτες (Relative Index): Χρησιμοποιείται για τη σύγκριση δύο διαφορετικών ομαδοποιήσεων ή ομάδων. Συνήθως ένα εξωτερικός ή εσωτερικός δείκτης χρησιμοποιείται για αυτή τη λειτουργία π.χ. SSE ή εντροπία Καμιά φορά αυτά αναφέρονται ως κριτήρια αντί για δείκτες Παρόλα αυτά, καμιά φορά κριτήριο είναι η γενική στρατηγική και δείκτης είναι η αριθμητική μέτρηση που προκύπτει. 10

121 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και Διαχωρισμός Δύο μέτρα: Ένα για να χαρακτηρίσουμε κάθε συστάδα ξεχωριστά (cohesion συσχέτιση: πόσο κοντά (όμοια) είναι τα σημεία κάθε ομάδας) Ένα για τις ομάδες μεταξύ τους (separation διαχωρισμός: πόσο μακριά (ανόμοιες) είναι δύο ομάδες Ορίζονται είτε Prototype-based: με βάση το «κεντρικό σημείο» κάθε ομάδας είτε Graph-based: με βάση τις ανά-δύο αποστάσεις των σημείων 11

122 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και Διαχωρισμός Ομαδοποίηση βασισμένη σε κεντρικά σημεία - Centroid-based clustering (πχ k-means) Συνοχή (cohesion) Διαχωρισμός (separation) n cohesion ( Ci) proximity( x, ci) x C Αν proximity = τετράγωνο της Ευκλείδειας, τότε ESS i separation( Ci, Cj) proximity( ci, cj) separation( Ci) proximity( ci, c) Όπου c το κέντρο όλων των σημείων 1

123 Χαρακτηρισμός Ποιότητας Ομαδοποίησης χωρίς Επίβλεψη: Συσχέτιση και Διαχωρισμός Ομαδοποίηση βασισμένη σε γραφήματα (ΣΙΣ) Η συνοχή μιας ομάδας (cluster cohesion) είναι το άθροισμα των βαρών (συνήθως απόσταση) μεταξύ όλων των συνδέσεων σε μια ομάδα. Ο διαχωρισμός (cluster separation) είναι το άθροισμα των βαρών (συνήθως απόσταση) μεταξύ κόμβων της ομάδας και των κόμβων εκτός ομάδας Συνοχή (cohesion) Διαχωρισμός (separation) n cohesion ( Ci) proximity( x, y) separation ( Ci, Cj) proximity( x, y) x C i y C i n x C i y C j 13

124 Χαρακτηρισμός Ποιότητας Ομαδοποίησης χωρίς Επίβλεψη: Συσχέτιση και Διαχωρισμός overall _ validity k i 1 w i validity( C i ) Όπου το βάρος (w i ) μπορεί να είναι πχ ανάλογο του μεγέθους της ομάδας / συστάδας ή η τετραγωνική ρίζα της συνεκτικότητας ή 1 14

125 Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Συνολική Συνοχή overall cohesion k i 1 w i cohesion( C i ) Άθροισμα συνεκτικότητας κάθε συστάδας Συνολικός Διαχωρισμός overall separation k i 1 w i separation( Ci) Άθροισμα διαχωρισμού των συστάδων Συνολικός Χαρακτηρισμός εγκυρότητας για τη Ομαδοποίηση/ συσταδοποίηση overall validity k i 1 seperation(ci) cohesion(ci) 15

126 Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Σχέση prototype και graph-based συνοχής και διαχωρισμού (για Ευκλείδειες αποστάσεις) Έστω Ευκλείδεια απόσταση, σχέση SSE με συνοχή (πόσο στενά σχετιζόμενα είναι τα αντικείμενα μιας συστάδας); cluster SSE dist ( c i, x) Total SSE K i 1 x C i x C i dist ( c, x) i Αποδεικνύεται ότι cluster SSE x C i dist ( x, ci) 1 m i x Ci y Ci dist( x, y ) Δηλαδή, είτε πάρουμε την απόσταση από το κέντρο είτε το μέσο όρο των ανά δύο αποστάσεων των σημείων είναι το ίδιο Σχέση διαμέτρου και ακτίνας 16

127 Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Σχέση δυο προσεγγίσεων διαχωρισμού (για Ευκλείδειες αποστάσεις) Έστω Ευκλείδεια απόσταση, σχέση SSB (group sum of squares) με διαχωρισμό (πόσο μακριά είναι οι συστάδες); cluster SSB ( ό ) SSB K i 1 m dist( c, c) i i i dist( c, c ) Το ολικό κέντρο (σημείο c στους τύπους) είναι το σημείο που προκύπτει αν πάρουμε το μέσο (mean) των κέντρων όλων των συστάδων Αποδεικνύεται ότι ό SSB x C i m i dist 1 K K K ( ci, c) dist( ci, cj) i 1 j 1 m K Ισομεγέθεις συστάδες m i m / K Δηλαδή, είτε πάρουμε την απόσταση των κέντρων κάθε συστάδας από το ολικό κέντρο είτε το μέσο όρο των ανά δύο αποστάσεων των κέντρων κάθε συστάδας είναι το ίδιο 17

128 Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Total-SSE + Total-SSB = σταθερά c 1 c c 5 K = 1 cluster: total SSE (1 3) ( 3) (4 3) (5 3) 10 total SSB 4 (3 3) 0 Total K = clusters: total SSE (1 1.5) total SSB (3 1.5) Total ( 1.5) (4 4.5) (4.5 3) 9 (5 4.5) 1 18

129 Αποδεικνύεται ότι Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Total SSB + Total SSE = σταθερά TSS K i 1 x C i ( x c) Ίσο με το τετράγωνο των αποστάσεων όλων των σημείων από το ολικό μέσο Ελαχιστοποίηση της SSE (συνεκτικότητας) => Μεγιστοποίηση του SSB (διαχωρισμού) 19

130 Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Μπορούν να χρησιμοποιηθούν για τη βελτίωση της συσταδοποίησης Πχ μια συστάδα με κακή συνεκτικότητα μπορεί να χρειαστεί να διασπαστεί Δυο συστάδες όχι καλά διαχωρισμένες μπορεί να συγχωνευτούν Το πόσο καλή είναι μια συσταδοποίηση Το ποσό καλή είναι μια συστάδα Το ποσό καλό είναι ένα σημείο σε μια συστάδα 130

131 Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Silhouette Coefficient (συντελεστής περιγράμματος) Για κάθε σημείο, i Υπολογισμός a = μέση απόσταση του i από τα σημεία της συστάδας Υπολογισμός b = μέση απόσταση του i aπό όλα τα σημεία κάθε άλλης συστάδας επιλογή του μικρότερου, δηλαδή μέση απόσταση από την κοντινότερη συστάδα s = 1 a/b if a < b, (or s = b/a - 1 if a b, not the usual case) Συνήθως μεταξύ του 0 και του 1 Όσο πιο κοντά στο 1, τόσο το καλύτερο a b Μπορεί να χρησιμοποιηθεί και για μια συστάδα ή συσταδοποίηση θεωρώντας μέσες τιμές για όλα τα σημεία τους ή συστάδες 131

132 Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Συντελεστής Περιγράμματος Silhouette Coefficient O συντελεστής περιγράμματος για σημεία στις 10 συστάδες Πόσο «κεντρικό» είναι ένα σημείο για μία συστάδα 13

133 Μέτρηση της εγκυρότητας της συσταδοποίησης με βάση την συσχέτιση (Correlation) Δύο πίνακες Πίνακας γειτνίασης (proximity matrix) ο πίνακας με την ομοιότητα των σημείων Πίνακας Σύμπτωσης Incidence Matrix Μία γραμμή και μία στήλη για κάθε σημείο Μία εγγραφή /θέση είναι 1 εάν το σχετικό ζεύγος σημείων ανήκουν στην ίδια συστάδα Μία εγγραφή / θέση είναι 0 εάν το σχετικό ζεύγος ανήκει σε διαφορετικές συστάδες Υπολογισμός της συσχέτισης μεταξύ των δύο πινάκων Μια και οι πίνακες είναι συμμετρικοί, μόνο η συσχέτιση μεταξύ n(n-1) / θέσεων χρειάζεται να υπολογιστούν. Υψηλή συσχέτιση δείχνει ότι τα σημεία τα οποία ανήκουν στην ίδια συστάδα είναι κοντά το ένα με το άλλο. Δεν είναι καλό μέτρο για ορισμένους αλγορίθμους που βασίζονται στην πυκνότητα και στην συνέχεια (contiguity) (εφαπτομενικά). 133

134 Χαρακτηρισμός εγγυρότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης Μέτρηση εγκυρότητας με βάση τη συσχέτιση Υπολογισμός correlation των δύο πινάκων όταν χρησιμοποιείται ο K-means στα παρακάτω σύνολα y x y x Corr = Corr =

135 Χαρακτηρισμός Εγγυρότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης - Οπτικοποίηση Αναδιατάσσουμε τα σημεία στον πίνακα έτσι ώστε τα σημεία που ανήκουν στην ίδια συστάδα να είναι γειτονικά Συγκεκριμένα, τα διατάσουμε με βάση τη συστάδα: Σημεία Συστάδας 1, Σημεία Συστάδας, Σημεία Συστάδας 3 135

136 Χαρακτηρισμός Εγκυρότητασ Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης - Οπτικοποίηση Ταξινόμηση του πίνακα συσχέτισης με βάση τις συστάδες και οπτική εκτίμησή του. Αναδιατάσσουμε τα σημεία στον πίνακα έτσι ώστε τα σημεία που ανήκουν στην ίδια συστάδα να είναι γειτονικά Συγκεκριμένα, τα διατάσουμε με βάση τη συστάδα: Σημεία Συστάδας 1, Σημεία Συστάδας, Σημεία Συστάδας 3 y Points x Points 0 Similarity Καλά διαχωρισμένες συστάδες Μήτρα οιμοιότητας ταξινομημενη με ετικέτες συστάδων Κ-μέσων. 136 Σημείωση s = 1 (d min_d)/(max_d min_d)

137 Μέτρηση εγκυρότητας με βάση τη συσχέτιση Πίνακας Γειτνίασης-Οπτικοποίηση Οι συστάδες από τυχαία δεδομένα δεν δημιουργούν συμπαγή μοτίβα Points y Points 0 Similarity x Κάποιες συστάδες ακόμα και σε τυχαία δεδομένα DBSCAN 137

138 Μέτρηση εγκυρότητας με βάση τη συσχέτιση Πίνακας Γειτνίασης-Οπτικοποίηση Οι συστάδες από τυχαία δεδομένα δεν δημιουργούν συμπαγή μοτίβα Points y Points Similarity x K-means 138

139 Μέτρηση εγκυρότητας με βάση τη συσχέτιση Πίνακας Γειτνίασης-Οπτικοποίηση Οι συστάδες από τυχαία δεδομένα δεν δημιουργούν συμπαγή μοτίβα Points Points Similarity y x Complete Link (Max) 139

140 Μέτρηση εγκυρότητας με βάση τη συσχέτιση Πίνακας Γειτνίασης-Οπτικοποίηση DBSCAN 140

141 Χαρακτηρισμός Εγκυρότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης Ειδικά για ιεραρχικούς αλγόριθμους Cophenetic distance: είναι η απόσταση (proximity) όταν ο αλγόριθμος τοποθετεί τα δυο σημεία στην ίδια συστάδα για πρώτη φορά Πχ συγχωνεύω τα σημεία του C1 με τα σημεία του C σε απόσταση 0.1, όλα τα σημεία του C1 απέχουν από το C 0.1 CoPhenetic Correlation Coefficient (CPCC) Χρησιμοποείται για επιλογή του είδους της ιεραρχικής συσταδοποίησης Κατασκευάζω τον πίνακα των cophenetic αποστάσεων Θεωρώ τη συνέλιξη του με τον αρχικό πίνακα αποστάσεων 141

Δείτε περισσότερα