Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Εξόρυξη Δεδομένων Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι 1

2 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση Σύνοψη

4 Βήματα Διαδικασίας Συσταδοποίησης

Τι είναι η Συσταδοποίηση; 5 Τι είναι η Συστάδα; Συστάδα είναι μια συλλογή από αντικείμενα δεδομένων τα οποία είναι: Όμοια (ή συσχετιζόμενα) μεταξύ τους μέσα στην ίδια ομάδα (συστάδα) Ανόμοια (ή μη-συσχετιζόμενα) με τα αντικείμενα σε άλλες ομάδες (συστάδες) Ανάλυση Συστάδων (ή συσταδοποίηση, ομαδοποίηση) Δεδομένου ενός συνόλου δεδομένων, να χωριστούν σε ένα σύνολο ομάδων (συστάδων) που είναι όσο το δυνατόν πιο όμοιες Η Ανάλυση Συστάδων είναι μέθοδος μη εποπτευόμενης μάθησης (δεν υπάρχουν προκαθορισμένες κλάσεις) Σε αντιδιαστολή με την κατηγοριοποίηση (εποπτευόμενη μάθηση) Τυπικοί τρόποι χρήσης / εφαρμογής της ανάλυσης συστάδων Ως αυτόνομο εργαλείο για μια προσέγγιση της κατανομής των δεδομένων, ή Ως προκαταρκτικό (ή ενδιάμεσο) βήμα για άλλους αλγόριθμους

6 Τι είναι συσταδοποίηση Εύρεση συστάδων (ομάδων) αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε συστάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων συστάδων Οι αποστάσεις μέσα στη συστάδα ελαχιστοποιούνται Οι αποστάσεις ανάμεσα στις συστάδες μεγιστοποιούνται 3-διάστατα σημεία, ευκλείδεια απόσταση

7 Τι είναι Καλή Συσταδοποίηση; Μια καλή μέθοδος συσταδοποίησης παράγει υψηλής ποιότητας συστάδες που πρέπει να έχουν Υψηλή ομοιότητα εντός των κλάσεων: Συνοχή μέσα στις συστάδες Χαμηλή ομοιότητα μεταξύ των κλάσεων: Διαφοροποίηση μεταξύ συστάδων Συνάρτηση ποιότητας Υπάρχει ξεχωριστή συνάρτηση "ποιότητας" που μετρά το «πόσο καλή» είναι μια συστάδα Είναι δύσκολο να οριστεί η έννοια του "αρκετά παρόμοια" ή "αρκετά καλή" Η απάντηση είναι συνήθως πολύ υποκειμενική Υπάρχουν πολλά μέτρα ομοιότητας και / ή συναρτήσεις για διαφορετικές εφαρμογές Τα μέτρα ομοιότητας είναι κρίσιμα για την ανάλυση συστάδων

Ανάλυση Συστάδων: Εφαρμογές 8 Ένα κομβικό ενδιάμεσο βήμα για άλλες εργασίες εξόρυξης δεδομένων Δημιουργία μιας συμπαγούς σύνοψης δεδομένων για κατηγοριοποίηση, ανακάλυψη προτύπων, δημιουργία και δοκιμή υποθέσεων κ.λπ. Ανίχνευση ακραίων τιμών: Ακραίες τιμές-αυτές που είναι πολύ μακριά από οποιαδήποτε συστάδα Σύνοψη δεδομένων, συμπίεση και μείωση Π.χ. Επεξεργασία εικόνας: Κβαντοποίηση διανύσματος (vector quantization) Συνεργατικό φιλτράρισμα, συστήματα συστάσεων ή διαχωρισμός πελατών Εύρεση παρόμοιων χρηστών ή προϊόντων Δυναμική ανίχνευση τάσεων Ομαδοποίηση δεδομένων ροής και ανίχνευση τάσεων και μοτίβων Ανάλυση δεδομένων πολυμέσων, ανάλυση βιολογικών δεδομένων και δεδομένων κοινωνικών δικτύων Π.χ. ομαδοποίηση εικόνων ή κλιπ βίντεο / ήχου, ακολουθίες γονιδίων / πρωτεϊνών κ.λπ.

Παράγοντες της Ανάλυσης Συστάδων Κριτήρια Διαχωρισμού Διαχωρισμός ενός επιπέδου ή ιεραρχικός: (συχνά, είναι προτιμητέος ο ιεραρχικός διαχωρισμός πολλαπλών επιπέδων, π.χ., ομαδοποίηση θεματικών όρων) Διαχωρισμός συστάδων Αποκλειστική (π.χ. ένας πελάτης ανήκει σε μία μόνο περιοχή) Μη- Αποκλειστική (π.χ. ένα έγγραφο μπορεί να ανήκει σε περισσότερες από μία κατηγορίες) Μέτρο ομοιότητας Με βάση την απόσταση (π.χ. Ευκλείδεια απόσταση) Με βάση την συνδεσιμότητα (π.χ., πυκνότητα ή γειτνίαση) Χώρος συσταδοποίησης Ο πλήρης χώρος (συχνά όταν είναι χαμηλής διάστασης) Υπο-χώροι (συχνά σε συσταδοποίηση υψηλής διάστασης) 9

Απαιτήσεις και Προκλήσεις Ποιότητα Ικανότητα αντιμετώπισης διαφορετικών τύπων χαρακτηριστικών: Αριθμητικά, κατηγορηματικά, κειμένου, πολυμέσα, δίκτυα και μείγμα πολλαπλών τύπων Ανακάλυψη συστάδων με αυθαίρετο σχήμα Ικανότητα αντιμετώπισης θορυβωδών δεδομένων Ευελιξία Ομαδοποίηση όλων των δεδομένων αντί μόνο δειγμάτων Υψηλή διάσταση (dimensionality) Σταδιακή συσταδοποίηση ή συσταδοποίηση ρευμάτων και μη ευαισθησία στην σειρά εισαγωγής Συσταδοποίηση βασισμένη σε περιορισμούς Προτιμήσεις ή περιορισμοί που δίδονται από τον χρήστη: γνωστικό πεδίο; ερωτήματα χρηστών Ερμηνεία και χρηστικότητα Οι συστάδες που δημιουργούνται πρέπει να έχουν σημασία και να είναι χρήσιμες 10

11 Είδη συσταδοποίησης Βασική διάκριση Διαχωριστική (partitional) Ιεραρχική (hierarchical) Διαχωριστική Συσταδοποίηση (Partitional Clustering) Ένας διαμερισμός των αντικειμένων σε μη επικαλυπτόμενα υποσύνολα (συστάδες) τέτοιος ώστε κάθε αντικείμενο να ανήκει σε ακριβώς ένα υποσύνολο Ιεραρχική Συσταδοποίηση (Hierarchical clustering Ένα σύνολο από εμφωλευμένες (nested) ομάδες Επιτρέπεται σε μια συστάδα να έχει υπο-συστάδες οργανωμένες σε ένα ιεραρχικό δέντρο

12 Διαχωριστική και Ιεραρχική Συσταδοποίηση Αρχικά Σημεία

13 Διαχωριστική και Ιεραρχική Συσταδοποίηση Διαχωριστική Συσταδοποίηση p1 p2 p3 p4 p1 p3 p4 p2 Ιεραρχική Συσταδοποίηση p1 p2 p3 p4 Παραδοσιακό Δένδρο-γράμμα (Dendrogram) Φύλλα: απλά σημεία ή απλές συστάδες Ως ακολουθία διαχωριστικών Να «κόψουμε» το δέντρο

Τύποι συστάδων: Καλώς Διαχωρισμένες Συστάδες Συστάδα: ένα σύνολο από σημεία τέτοια ώστε κάθε σημείο μιας συστάδας είναι κοντινότερο σε (ή πιο όμοιο με) όλα τα άλλα σημεία της συστάδας από ότι σε οποιοδήποτε άλλο σημείο που δεν ανήκει στη συστάδα. Συχνά υπάρχει η έννοια του κατωφλιού (threshold) Όχι απαραίτητα κυκλικές (οποιοδήποτε σχήμα) 3 καλώς-διαχωρισμένες συστάδες 14

Τύποι συστάδων: Συστάδες βασισμένες σε κέντρο ή πρότυπο Μια συστάδα είναι ένα σύνολο από αντικείμενα τέτοιο ώστε ένα αντικείμενο στην συστάδα είναι κοντινότερο σε (ή πιο όμοιο με) το «κέντρο» ή πρότυπο της συστάδας από ότι από το κέντρο οποιασδήποτε άλλης συστάδας. Το κέντρο της ομάδας είναι συχνά centroid, ο μέσος όρος των σημείων της συστάδας, ή medoid, το πιο «αντιπροσωπευτικό» σημείο της συστάδας (για κατηγορικά γνωρίσματα) 4 συστάδες βασισμένες σε κέντρο -Τείνουν να είναι κυκλικές 15

Τύποι συστάδων: Συνεχής Συστάδες Συνεχείς Συστάδες Κοντινότερος γείτονας ή βάσει γειτνίασης Συχνά σε περιπτώσεις συστάδων με μη κανονικό σχήμα ή με αλληλοπλεκόμενα σχήματα ή για γραφήματα με συνεκτικά υπογραφήματα Πρόβλημα με θόρυβο 8 συνεχείς συστάδες 16

Τύποι συστάδων: Συστάδες βασισμένες στην πυκνότητα Μια συστάδα είναι μια πυκνή περιοχή από σημεία την οποία χωρίζουν από άλλες περιοχές μεγάλης πυκνότητας περιοχές χαμηλής πυκνότητας Συχνά σε περιπτώσεις συστάδων με ακανόνιστο σχήμα ή με αλληλοπλεκόμενα σχήματα ή όταν υπάρχει θόρυβος ή ακραίες τιμές 6 συστάδες βασισμένες στην πυκνότητα 17

20 Γενικές Απαιτήσεις Αντιμετώπιση θορύβου και ακραίων τιμών συστάδα Ακραίες τιμές Ακραίες τιμές: τιμές που είναι εξαιρέσεις ως προς τις συνηθισμένες ή αναμενόμενες τιμές

Άλλες Διακρίσεις Μεταξύ Συστάδων Αποκλειστική Επικαλυπτόμενη Ένα σημείο ανήκει σε περισσότερες από μια συστάδες (πχ οριακά σημεία) Ασαφής συσταδοποίηση Ένα σημείο ανήκει σε κάθε συστάδα με κάποιο βάρος μεταξύ του 0 και του 1 Συχνά τα βάρη για κάθε σημείο έχουν άθροισμα 1 Πλήρης ή Μερική Ομαδοποίηση μόνο για κάποια από τα δεδομένα (αποκλεισμός θορύβου, ακραίων τιμών ή μη ενδιαφέρουσας πληροφορίας) Ομογενής ή Ετερογενής Συστάδες με πολύ διαφορετικά μεγέθη, σχήματα και πυκνότητα 21

23 Μέθοδοι Διαχωρισμού Βασικές έννοιες αλγορίθμων διαχωρισμού Η μέθοδος συσταδοποίησης Κ-Μέσων (K-Means) Αρχικοποίηση της συσταδοποίησης Κ-Μέσων Η μέθοδος συσταδοποίησης K-Medoids Οι μέθοδοι συσταδοποίησης K-Medians και K-Modes

24 Αλγόριθμοι Διαχωρισμού Μέθοδος Διαχωρισμού: Εύρεση των συστάδων στα δεδομένα με τη βελτίωση μιας συγκεκριμένης αντικειμενικής συνάρτησης και βελτιώνοντας επαναληπτικά την ποιότητα του διαχωρισμού Μέθοδος K-διαχωρισμού: Διαχωρισμός ενός συνόλου δεδομένων D από n αντικείμενα σε ένα σύνολο K συστάδων ώστε να βελτιστοποιείται μια αντικειμενική συνάρτηση (π.χ., ελαχιστοποίηση του αθροίσματος των τετραγώνων των αποστάσεων, όπου c k το κέντρο (centroid ή medoid) της συστάδας C k ) Μια τυπική αντικειμενική συνάρτηση: Sum of Squared Errors (SSE) K SSE( C) = x c k= 1 x i C k Διατύπωση προβλήματος: Δεδομένου του K, να βρεθεί μια διαμέριση σε K συστάδες που βελτιστοποιούν το επιλεγμένο κριτήριο κατάτμησης Καθολικό βέλτιστο: Χρειάζεται να απαριθμηθούν εξαντλητικά όλες οι κατατμήσεις Ευρετικές Μέθοδοι (άπληστοι αλγόριθμοι): K-Means, K-Medians, K-Medoids, etc. i k 2

Η Μέθοδος Συσταδοποίησης K-Μέσων Κ-Μέσων (K-Means) (MacQueen 67, Lloyd 57/ 82) Κάθε συστάδα αντιπροσωπεύεται από το κέντρο της συστάδας Δεδομένου του K (αριθμός συστάδων) ο αλγόριθμος K-Μέσων περιγράφεται ως εξής: Επιλογή K σημείων ως αρχικών κέντρων (centroids) Επανάληψη Δημιουργία K συστάδων με αντιστοίχιση του κάθε σημείου στο πιο κοντινό κέντρο Επανυπολογισμός του κέντρου για κάθε συστάδα Μέχρι να ικανοποιηθεί κάποιο κριτήριο σύγκλισης (π.χ. να μην αλλάζουν τα κέντρα) Μπορούν να χρησιμοποιηθούν διάφορα είδη μέτρων Απόσταση Manhattan (L 1 norm), Euclidean απόσταση (L 2 norm), Ομοιότητα συνημιτόνου 25

Παράδειγμα: Συσταδοποίηση K-Μέσων Αντιστοίχιση σημείων στις συστάδες Επανυπολογισμός των κέντρων των συστάδων Τυχαία επιλογή K = 2 σημείων (centroids) Νέα αντιστοίχιση σημείων Αλγόριθμος Συσταδοποίησης Κ-Μέσων 26 Επιλογή K σημείων ως αρχικών κέντρων των συστάδων Επανάληψη Δημιουργία K συστάδων με αντιστοίχιση του κάθε σημείου στο πιο κοντινό κέντρο Επανυπολογισμός του κέντρου για κάθε συστάδα Μέχρι να ικανοποιηθεί κάποιο κριτήριο σύγκλισης

27 Παρατηρήσεις για την K-Μέσων Αποδοτικότητα: O(tKn) όπου n: # αντικειμένων, K: # συστάδων, και t: # επαναλήψεων Η K-Μέσων συχνά τερματίζει σε τοπικό μέγιστο Οι αρχικές τιμές μπορεί να είναι σημαντικές για την εύρεση συστάδων υψηλής ποιότητας Χρειάζεται να οριστεί το K, ο αριθμός των κλάσεων, εκ των προτέρων Υπάρχουν τρόποι για τον αυτόματο προσδιορισμό του «καλύτερου» K Στην πράξη, δοκιμάζονται διάφορες τιμές και επιλέγετε η «καλύτερη» Ευαίσθητη σε θορυβώδη δεδομένα και ακραίες τιμές Παραλλαγές: Χρήση K-medians, K-medoids, κλπ. Η K-Μέσων εφαρμόζεται μόνο σε αντικείμενα σε συνεχή n-διάστατο χώρο Χρήση της K-modes για κατηγορικά δεδομένα Δεν είναι κατάλληλη για την ανακάλυψη συστάδων με μη κυρτά σχήματα Χρήση συσταδοποίησης με βάση την πυκνότητα, πυρήνας K-Μέσων, κλπ.

Παραλλαγές της Μεθόδου K-Μέσων Υπάρχουν διάφορες παραλλαγές της μεθόδου K-Μέσων, που διαφέρουν από διαφορετικές απόψεις Επιλογή καλύτερων αρχικών κεντρικών σημείων K-means++, Intelligent K-Means, Genetic K-Means Επιλογή διαφορετικών αντιπροσωπευτικών πρωτότυπων για τις συστάδες K-Medoids, K-Medians, K-Modes Εφαρμογή τεχνικών μετασχηματισμού χαρακτηριστικών Weighted K-Means, Kernel K-Means 28

29 Κακή Αρχική Επιλογή των Κ Σημείων Μπορεί να Οδηγήσει σε Κακή Συσταδοποίηση Άλλη τυχαία επιλογή Κ μέσων για τα ίδια σημεία δεδομένων Επανάληψη της K-Μέσων χρησιμοποιώντας άλλα τυχαία Κ αρχικά σημεία Δημιουργεί μια συσταδοποίηση κακής ποιότητας

Αρχικές Τιμές των K-Μέσων: Πρόβλημα και Λύση Διαφορετικές αρχικές τιμές μπορεί να δημιουργήσουν διαφορετικές συσταδοποιήσεις (μερικές πολύ μακριά από τις βέλτιστες) Η αρχική πρόταση (MacQueen 67): Επιλογή K τυχαίων μέσων Απαιτούνται πολλές επαναλήψεις με διαφορετικές αρχικές τιμές Υπάρχουν πολλές μέθοδοι που προτείνουν καλύτερες αρχικές τιμές των k μέσων K-Means++ (Arthur & Vassilvitskii 07): Ο πρώτος μέσος επιλέγεται τυχαία Ο επόμενος που επιλέγεται είναι αυτός που βρίσκεται πιο μακριά από αυτόν που έχει επιλεγεί (η επιλογή βασίζεται σε σταθμισμένη τιμή πιθανότητας) Η επιλογή συνεχίζεται μέχρι να επιλεγούν K μέσοι 30

31 Ακραίες Τιμές: Από τον K-Means στον K-Medoids Ο αλγόριθμος K-Μέσων είναι ευαίσθητος στις ακραίες τιμές! οπότε ένα αντικείμενο με εξαιρετικά μεγάλη τιμή μπορεί να παραμορφώσει ουσιαστικά την κατανομή των δεδομένων K-Medoids: Αντί για τη μέση τιμή (mean) του αντικειμένου στη συστάδα μπορεί να χρησιμοποιηθεί το medoids, το οποίο είναι το αντικείμενο που βρίσκεται πιο κεντρικά στην συστάδα Ο αλγόριθμος συσταδοποίησης K-Medoids: Επιλογή K σημείων ως αρχικών αντικείμενων (δηλ., ως αρχικών K medoids) Επανάληψη Αντιστοίχιση κάθε σημείου στη συστάδα με το πλησιέστερο medoid Τυχαία επιλογή ενός μη αντιπροσωπευτικού αντικειμένου o i Υπολογισμός συνολικού κόστους S για την εναλλαγή του medoid m με το o i Εάν S < 0, τότε εναλλαγή m με o i για σχηματισμό νέου συνόλου medoids Μέχρι να ικανοποιηθεί το κριτήριο σύγκλισης

PAM: Ένας Τυπικός K-Medoids Αλγόριθμος 32 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 K = 2 Τυχαία αρχική επιλογή K medoids Επανάληψη Αντικατάσταση αντικειμένου Ανταλλαγή medoid m με o i αν βελτιώνει την ποιότητα της συστάδας Μέχρι να ικανοποιηθεί κάποιο κριτήριο σύγκλισης Τυχαία επιλογή K αντικειμένων ως αρχικών medoids Ανταλλαγή O και O ramdom Αν βελτιώνεται η ποιότητα 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 0 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Αντιστοίχιση όλων των υπολοίπων σημείων στο πιο κοντινό medoids Υπολογισμός συνολικού κόστους ανταλλαγής 10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 Τυχαία επιλογή ενός μηmedoid αντικειμένου, O ramdom 0 1 2 3 4 5 6 7 8 9 10

33 Συσταδοποίηση K-Medoids Συσταδοποίηση K-Medoids: Βρίσκει αντιπροσωπευτικά αντικείμενα (medoids) στις συστάδες PAM (Partitioning Around Medoids) Αρχίζει από ένα αρχικό σύνολο medoids, και Επαναληπτικά αντικαθιστά ένα από τα medoids από ένα από τα μη- medoids αν βελτιώνεται το συνολικό άθροισμα των τετραγωνικών σφαλμάτων (SSE) της συσταδοποίησης που προκύπτει Η PAM λειτουργεί αποτελεσματικά για μικρά σύνολα δεδομένων, αλλά δεν είναι κατάλληλη για μεγάλα σύνολα δεδομένων (λόγω της υπολογιστικής της πολυπλοκότητας) Υπολογιστική πολυπλοκότητα: PAM: O(K(n K) 2 ) (αρκετά ακριβή!)

K-Medians: Χειρισμός Ακραίων Τιμών 34 Οι διάμεσοι (medians) είναι λιγότερο ευαίσθητοι στις ακραίες τιμές από τους μέσους Σκεφτείτε το διάμεσο μισθό έναντι του μέσου μισθού μιας μεγάλης επιχείρησης, όταν προσθέσετε μερικά κορυφαία στελέχη! K-Medians: Αντί για τη μέση τιμή του αντικειμένου στην κλάση ως σημείου αναφοράς, χρησιμοποιούνται οι διάμεσοι (L 1 -norm ως μέτρο απόστασης) Η συνάρτηση κριτήριο για τον αλγόριθμο K-Medians: Ο αλγόριθμος συσταδοποίησης K-Medians: Επιλογή K σημείων ως αρχικών αντικειμένων (ως αρχικών K διαμέσων) Επανάληψη Αντιστοίχιση του κάθε σημείου στον πιο κοντινό διάμεσο Επαναπροσδιορισμός του διάμεσου με τη χρήση της διάμεσης τιμής κάθε επιμέρους χαρακτηριστικού Μέχρι να ικανοποιηθεί κάποιο κριτήριο σύγκλισης K S = x med k= 1 x i C k ij kj

35 K-Modes: Συσταδοποίηση Κατηγορικών Δεδομένων Ο K-Μέσων δεν μπορεί να χειριστεί μη-αριθμητικά (κατηγορικά) δεδομένα Η αντιστοίχιση της κατηγορικής τιμής σε 1/0 δεν μπορεί να δημιουργήσει ποιοτικές συστάδες K-Modes: Μια επέκταση του K-Means με την αντικατάσταση των μέσων των κλάσεων με την Επικρατούσα Τιμή Επικρατούσα Τιμή (Mode): Η τιμή που εμφανίζεται πιο συχνά σε ένα σύνολο τιμών Μέτρο ανομοιότητας μεταξύ αντικειμένου X και του κέντρου της συστάδας Z Φ(x j, z j ) = 1 n jr /n l όπου x j = z j ; 1 όταν x j ǂ z j όπου z j η κατηγορική τιμή του χαρακτηριστικού j στο Z l, n l ο αριθμός των αντικειμένων στη συστάδα l, και n jr ο αριθμός των αντικειμένων με τιμή χαρακτηριστικού r Αυτό το μέτρο ανομοιότητας (συνάρτηση απόστασης) βασίζεται σε συχνότητα Ο αλγόριθμος εξακολουθεί να βασίζεται στην επαναληπτική αντιστοίχιση αντικειμένων της συστάδας και την επικαιροποίηση των centroid

37 Ιεραρχική Συσταδοποίηση: Βασικές Έννοιες Ιεραρχική Συσταδοποίηση Δημιουργεί ιεραρχία συστάδων (σχεδιασμένη ως δενδρόγραμμα) Δεν χρειάζεται να οριστεί ο αριθμός των συστάδων K Πιο ντετερμινιστική Δίνει το ίδιο αποτέλεσμα Όχι επαναληπτική βελτίωση Δύο κατηγορίες αλγορίθμων: Step 0 Step 1 Step 2 Step 3 Step 4 a b c d e a b d e c d e a b c d e Step 4 Step 3 Step 2 Step 1 Step 0 Συσσωρευτική (Agglomerative): Ξεκινά με τα σημεία ως ξεχωριστές συστάδες και επαναληπτικά συγχωνεύει τα πιο κοντινά ζεύγη συστάδων δημιουργώντας μια ιεραρχία από κάτω προς τα πάνω Συσσωρευτική (AGNES) Διαιρετική (Divisive): Ξεκινά με μια συστάδα με όλα τα σημεία και τη διασπά συνεχόμενα μέχρι να απομείνουν μεμονωμένες συστάδες ξεχωριστών σημείων δημιουργώντας μια ιεραρχία από πάνω προς τα κάτω Διαιρετική (DIANA)

38 Δενδρόγραμμα: Πως συντίθενται οι Συστάδες Δενδρόγραμμα (Dendrogram): Αποσυνθέτει ένα σύνολο δεδομένων σε ένα δέντρο από συστάδες με εμφωλευμένη διαίρεση σε πολλά επίπεδα Μια συστάδα δεδομένων δημιουργείται με το κόψιμο του δενδρογράμματος στο επιθυμητό επίπεδο, κατόπιν κάθε συνδεδεμένο στοιχείο σχηματίζει μια συστάδα Η Ιεραρχική συσταδοποίηση δημιουργεί ένα δενδρόγραμμα (μια ιεραρχία συστάδων)

39 Συσσωρευτικός Αλγόριθμος Συσταδοποίησης AGNES (AGglomerative NESting) (Kaufmann and Rousseeuw, 1990) Χρησιμοποιεί τη μέθοδο μονής ζεύξης και τον πίνακα ανομοιότητας Συνεχώς συγχωνεύει κόμβους που έχουν τη μικρότερη ανομοιογένεια Τελικά όλοι οι κόμβοι ανήκουν στην ίδια συστάδα 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Η Συσσωρευτική Συσταδοποίηση ποικίλει ανάλογα με τα μέτρα ομοιότητας μεταξύ των συστάδων Μονή ζεύξη (πλησιέστερος γείτονας) Μέση ζεύξη (μέσος όρος ομάδας) Πλήρης ζεύξη (διάμετρος) Centroid ζεύξη (ομοιότητα centroid)

Μονή και Πλήρης Ζεύξη Μονή ζεύξη (πλησιέστερος γείτονας) Η ομοιότητα μεταξύ δύο συστάδων είναι η ομοιότητα μεταξύ των πιο παρόμοιων μελών (πλησιέστερων γειτόνων) X X Βασισμένο στην τοπική ομοιότητα: Δίνει έμφαση στις κοντινές περιοχές αγνοώντας τη συνολική δομή της συστάδας Δυνατότητα συσταδοποίησης ομάδων αντικειμένων μη ελλειπτικού σχήματος Ευαίσθητη στο θόρυβο και τις ακραίες τιμές Πλήρης ζεύξη (διάμετρος) Η ομοιότητα μεταξύ δύο συστάδων είναι η ομοιότητα μεταξύ των πιο ανόμοιων μελών X X Συγχώνευση δύο συστάδων για το σχηματισμό μίας με τη μικρότερη διάμετρο Μη τοπική συμπεριφορά, δημιουργεί συστάδες συμπαγούς σχήματος 40

41 Μέση Ζεύξη και Ζεύξη Κέντρων Μέση Ζεύξη Η μέση απόσταση μεταξύ ενός στοιχείου σε μια συστάδα και ενός στοιχείου στην άλλη (δηλ., όλα τα ζεύγη σε δύο συστάδες) Ακριβή υπολογιστικά Ζεύξη Κέντρων (Centroid) Η απόσταση μεταξύ των κέντρων (centroids) δύο συστάδων Group Averaged Agglomerative Clustering (GAAC) Έστω δύο συστάδες C a και C b συγχωνεύονται στην C aub. Το νέο κέντρο είναι: c Το N a είναι η πληθικότητα της συστάδας C a, και c a το κέντρο της C a Το μέτρο ομοιότητας για την GAAC είναι ο μέσος όρος των αποστάσεων a b X X = C a : N a C b : N b X X N c N a a b b a + N c + N b

Διαιρετική Συσταδοποίηση DIANA (Divisive Analysis) (Kaufmann and Rousseeuw,1990) Υλοποιείται σε μερικά πακέτα στατιστικής ανάλυσης, π.χ. Splus Αντίστροφη σειρά από την AGNES: Τελικά κάθε κόμβος σχηματίζει μια συστάδα από μόνος του 10 9 8 7 6 5 4 3 2 10 9 8 7 6 5 4 3 2 10 9 8 7 6 5 4 3 2 42 1 0 0 1 2 3 4 5 6 7 8 9 10 1 0 0 1 2 3 4 5 6 7 8 9 10 1 0 0 1 2 3 4 5 6 7 8 9 10 Η Διαιρετική Συσταδοποίηση είναι μια προσέγγιση από πάνω προς τα κάτω Η διαδικασία ξεκινά από τη ρίζα με όλα τα σημεία ως μια συστάδα Αναδρομικά διαιρεί τις υψηλότερου επιπέδου συστάδες για να δημιουργήσει το δενδρόγραμμα Μπορεί να θεωρηθεί ως μια καθολική (global) προσέγγιση Πιο αποτελεσματική σε σύγκριση με τη συσσωρευτική συσταδοποίηση

43 Διαιρετική Συσταδοποίηση Επιλογή της συστάδας που θα διαχωριστεί Έλεγχος των αθροισμάτων των τετραγωνικών σφαλμάτων των συστάδων και επιλογή αυτής με τη μεγαλύτερη τιμή Κριτήριο διαίρεσης: Καθορισμός του τρόπου διαίρεσης Χρήση του κριτηρίου Ward για προσπάθεια μεγαλύτερης μείωσης της διαφοράς στο κριτήριο SSE ως αποτέλεσμα της διάσπασης Για τα κατηγορικά δεδομένα, μπορεί να χρησιμοποιηθεί ο δείκτης Gini Διαχείριση θορύβου Χρήση ενός κατωφλίου για τον καθορισμό του κριτήριου τερματισμού, ώστε να μη δημιουργηθούν πολύ μικρές συστάδες επειδή περιέχουν θόρυβο.

45 Μέθοδοι Βασισμένοι στην Πυκνότητα Συσταδοποίηση με βάση την πυκνότητα (ένα τοπικό κριτήριο συστάδων), όπως τα σημεία πυκνότητας Κύρια χαρακτηριστικά: Ανακάλυψη συστάδων αυθαίρετου σχήματος Χειρισμός θορύβου Μια σάρωση: εξετάζεται μόνο η τοπική περιοχή για την εύρεση της πυκνότητας Χρειάζονται παράμετροι πυκνότητας ως συνθήκη τερματισμού Διάφοροι ενδιαφέροντες αλγόριθμοι: DBSCAN: Ester, et al. (KDD 96) OPTICS: Ankerst, et al (SIGMOD 99) DENCLUE: Hinneburg & D. Keim (KDD 98) CLIQUE: Agrawal, et al. (SIGMOD 98)

46 DBSCAN DBSCAN: Density-Based Spatial Clustering of Applications with Noise Ανακαλύπτει συστάδες αυθαίρετου σχήματος Έννοια της συστάδας που βασίζεται στην πυκνότητα Μια συστάδα ορίζεται ως ένα μέγιστο σύνολο σημείων που συνδέονται με πυκνότητα Δύο παράμετροι: Eps(ε): Μέγιστη ακτίνα της γειτονιάς MinPts: Ελάχιστος αριθμός σημείων στην Eps-γειτονιά ενός σημείου Η Eps(ε)-γειτονιά ενός σημείου q: N Eps (q): {p ανήκει στο D dist(p, q) Eps} Όριο Πυρήνας q p MinPts = 5 Eps = 1 cm Ακραίο σημείο Outlier/θόρυβος: εκτός συστάδας Σημείο πυρήνας: πυκνή γειτνίαση Οριακό σημείο: στην συστάδα αλλά όχι με πυκνή γειτνίαση

DBSCAN: Density-Reachable and Density-Connected Άμεσα Προσβάσιμο μέσω Πυκνότητας: Ένα σημείο p είναι άμεσα προσβάσιμο μέσω πυκνότητας από ένα σημείο q, όσον αφορά τα Eps(ε), MinPts, αν p ανήκει στο N Eps (q) συνθήκη σημείου πυρήνα (core point) : N Eps (q) MinPts Προσβάσιμο μέσω Πυκνότητας: q p MinPts = 5 Eps = 1 cm p Ένα σημείο p είναι προσβάσιμο μέσω πυκνότητας από ένα σημείο q, όσον αφορά τα Eps(ε), MinPts, αν υπάρχει μια αλυσίδα σημείων p 1,, p n, p 1 = q, p n = p έτσι ώστε p i+1 είναι άμεσα προσβάσιμο μέσω πυκνότητας από το p i Συνδεδεμένο μέσω Πυκνότητας: p q p 2 q Ένα σημείο p είναι συνδεδεμένο μέσω πυκνότητας με ένα σημείο q, όσον αφορά τα Eps, MinPts, αν υπάρχει ένα σημείο o τέτοιο ώστε τόσο το p όσο και το q είναι προσβάσιμα μέσω πυκνότητας από το o, όσον αφορά τα Eps, MinPts o 47

48 Αλγόριθμος DBSCAN Αλγόριθμος Τυχαία επιλογή ενός σημείου p Ανάκτηση όλων των σημείων που είναι προσβάσιμα μέσω πυκνότητας από το p, όσον αφορά τα Eps και MinPts Αν το p είναι ένα σημείο πυρήνα, έχει σχηματιστεί συστάδα Εάν το p είναι ένα οριακό σημείο, κανένα σημείο δεν είναι προσβάσιμο μέσω πυκνότητας από το p, και η DBSCAN επισκέπτεται το επόμενο σημείο Η διαδικασία συνεχίζεται μέχρι να επεξεργαστούν όλα τα σημεία Όριο Πυρήνας Ακραίο σημείο Outlier/θόρυβος: εκτός συστάδας Σημείο πυρήνας: πυκνή γειτνίαση Οριακό σημείο: στην συστάδα αλλά όχι με πυκνή γειτνίαση

49 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση και Επικύρωση Σύνοψη

50 Αξιολόγηση και Επικύρωση Συσταδοποίησης Αξιολόγηση και Επικύρωση: Μετρώντας την Ποιότητα της Συσταδοποίησης Εξωτερικά Μέτρα για Επικύρωση της Συσταδοποίησης I: Μέτρα που βασίζονται σε αντιστοίχιση ΙΙ: Μέτρα που βασίζονται στην εντροπία ΙΙΙ: Μέτρα σύγκρισης κατά ζεύγη Εσωτερικά Μέτρα για Επικύρωση της Συσταδοποίησης Σταθερότητα της Συσταδοποίησης Τάση τη Συσταδοποίησης

Αξιολόγηση και Επικύρωση Συσταδοποίησης Αξιολόγηση της Συσταδοποίησης Αξιολόγηση του «πόσο καλή» είναι η συσταδοποίηση Σταθερότητα της Συσταδοποίησης Κατανόηση της ευαισθησίας της Συσταδοποίησης σε διάφορες παραμέτρους του αλγορίθμου, π.χ., # συστάδων Τάση της Συσταδοποίησης Αξιολόγηση της καταλληλότητας της Συσταδοποίησης, δηλαδή εάν τα δεδομένα έχουν οποιαδήποτε εγγενή δομή ομαδοποίησης 51

Μέτρηση της Ποιότητας της Συσταδοποίησης Αξιολόγηση Συσταδοποίησης: Αξιολόγηση του «πόσο καλή» είναι η συσταδοποίηση Στην πράξη, δεν υπάρχει κοινώς αναγνωρισμένο πλέον κατάλληλο μέτρο Εξωτερική: Εποπτευόμενη, χρησιμοποιεί κριτήρια που δεν είναι εγγενή στο σύνολο δεδομένων Συγκρίνει μια συσταδοποίηση με βάση προηγούμενη γνώση ή τη γνώση των ειδικών (συσταδοποίηση αναφοράς) με τη χρήση κάποιου μέτρου ποιότητας Εσωτερική: Μη επιτηρούμενη, κριτήρια που προέρχονται από τα ίδια τα δεδομένα Πόσο καλά διαχωρίζονται οι συστάδες και πόσο συμπαγείς είναι Σχετική: Άμεση σύγκριση διαφορετικών συστάδων, συνήθως εκείνων που λαμβάνονται μέσω διαφορετικών παραμέτρων για τον ίδιο αλγόριθμο 52

Ποιότητα Συστάδων: Εξωτερικές Μέθοδοι 53 T η συσταδοποίηση αναφοράς και Q(C, T) το μέτρο ποιότητας της συσταδοποίησης C Το Q(C, T) είναι καλό αν ικανοποιεί τα επόμενα τέσσερα βασικά κριτήρια Ομοιογένεια Το καθαρότερο, το καλύτερο Πληρότητα Τοποθέτηση αντικείμενων που ανήκουν στην ίδια κατηγορία της συσταδοποίησης αναφοράς στην ίσια συστάδα Δημιουργία συστάδας με υπόλοιπα καλύτερη από την τοποθέτηση ξένων Η τοποθέτηση ενός ετερογενούς αντικειμένου σε μια καθαρή συστάδα τιμωρείται περισσότερο από την τοποθέτησή του σε μια συστάδα με «υπόλοιπα» αντικείμενα Διατήρηση μικρών συστάδων Η διάσπαση μιας μικρής κατηγορίας σε κομμάτια είναι πιο επιβλαβής από τη διάσπαση μιας μεγάλης κατηγορίας σε κομμάτια

54 Συνηθισμένες Εξωτερικές Μέθοδοι Μέτρα που βασίζονται σε αντιστοίχιση Καθαρότητα, μέγιστη ταύτιση, μέτρηση F Μέτρα που βασίζονται στην εντροπία Υποθετική εντροπία Normalized mutual information (NMI) Διακύμανση πληροφορίας Μέτρα σύγκρισης ζευγών Τέσσερις δυνατότητες: True positive (TP), FN, FP, TN Συντελεστής Jaccard, στατιστική Rand, μέτρο Fowlkes-Mallow Μέτρα συσχέτισης Διακριτή στατική Huber, κανονικοποιημένη Διακριτή στατική Huber Συσταδοποίηση αναφοράς T 1 T 2 Cluster C 1 Cluster C 2

Σταθερότητα Συστάδων Η συσταδοποίηση που προκύπτει από διάφορα σύνολα δεδομένων δείγματα από την ίδια κατανομή δεδομένων με το D, πρέπει να είναι ίδια ή «σταθερή» Τυπική προσέγγιση: Εντοπισμός καλών τιμών για τις παραμέτρους του αλγορίθμου Παράδειγμα: Εντοπισμός καλής τιμής k, ο αριθμός των συστάδων Μια προσέγγιση bootstrapping για την εύρεση της καλύτερης τιμής του k (κρίνεται από τη σταθερότητα) Δημιουργία t δειγμάτων μεγέθους n με δειγματοληψία από D με αντικατάσταση Για κάθε δείγμα Di, εκτελείται ο ίδιος αλγόριθμος συσταδοποίησης με τιμές k από 2 έως k max Σύγκριση της απόστασης μεταξύ όλων των ζευγών συστάδων C k (D i ) και C k (D j ) μέσω κάποιας συνάρτησης απόστασης Υπολογισμός της αναμενόμενης απόσταση ζευγών για κάθε τιμή του k Η τιμή k* που παρουσιάζει τη μικρότερη απόκλιση μεταξύ των συσταδοποιήσεων είναι η καλύτερη επιλογή για k, (παρουσιάζει την μεγαλύτερη σταθερότητα) 55

56 Άλλες Μέθοδοι για τον Προσδιορισμό του K Εμπειρική Μέθοδος k n/2 Μέθοδος αγκώνα: Χρήση του σημείου καμπής στην καμπύλη του αθροίσματος της διακύμανσης εντός των συστάδων σε σχέση με τον # των συστάδων Διασταυρωμένη μέθοδος επικύρωσης # συστάδων: για ένα σύνολο από n σημεία (π.χ., n = 200, k = 10) Διαχωρισμός ενός συνόλου δεδομένων σε m μέρη Χρήση m-1 μερών για τη δημιουργία ενός μοντέλου ομαδοποίησης Χρήση του υπόλοιπου τμήματος για τον έλεγχο της ποιότητας της συσταδοποίησης Π.χ., για κάθε σημείο του συνόλου ελέγχου, εντοπισμός του πλησιέστερου κέντρου και χρήση του αθροίσματος της τετραγωνικής απόστασης μεταξύ όλων των σημείων στο σύνολο ελέγχου και των πλησιέστερων κέντρων για τη μέτρηση του πόσο καλά το μοντέλο ταιριάζει με το σύνολο ελέγχου Για κάθε k > 0, επανάληψη m φορές, σύγκριση του συνολικού μέτρου ποιότητας σε όσο αφορά τα διαφορετικά k, και εύρεση του # των συστάδων που ταιριάζουν καλύτερα στα δεδομένα

57 Τάση Συστάδων (Ενδογενής Δομή) Αξιολόγηση της καταλληλότητας της συσταδοποίησης Αν τα δεδομένα έχουν οποιαδήποτε εγγενή δομή συστάδων Προσδιορισμός της τάσης συσταδοποίησης Ένα δύσκολο έργο επειδή υπάρχουν πολλοί διαφορετικοί ορισμοί των συστάδων Π.χ., διαχωρισμού, ιεραρχική, με βάση την πυκνότητα, βασισμένη σε γραφήματα κλπ. Παρ όλα αυτά, υπάρχουν μερικές μέθοδοι αξιολόγησης της συσταδοποίησης Χωρικό ιστόγραμμα: Συγκρίνει το ιστόγραμμα των δεδομένων με αυτό που παράγεται από τυχαία δείγματα Κατανομή απόστασης: Συγκρίνει την απόσταση των σημείων των δεδομένων ανά ζεύγη με αυτά από τα τυχαία παραγόμενα δείγματα

59 Σύνοψη Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση Συσταδοποίησης