Αποθήκες και Εξόρυξη Δεδομένων

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 3 Ο Εργαστήριο WEKA (CLUSTERING) Στουγιάννου Ελευθερία estoug@unipi.gr

2 -2- Συσταδοποίηση (Clustering) Συσταδοποίηση / Ομαδοποίηση Ιεραρχικοί (πχ. COBWEB), διαμεριστικοί (πχ. K-MEANS), με βάση τη πυκνότητα (πχ. DBSCAN). Διαχωρισμός των δεδομένων σε ομάδες/συστάδες, έτσι ώστε για κάθε εγγραφή που περιλαμβάνει μία συστάδα, η ομοιότητα της με οποιασδήποτε εγγραφή από την ίδια συστάδα να είναι μεγαλύτερη από την ομοιότητα της με οποιασδήποτε εγγραφή από άλλες συστάδες. Μη εποπτευόμενη μάθηση. Δε γνωρίζουμε την κλάση στην οποία ανήκουν τα δεδομένα εκπαίδευσης. Μας δίνεται ένα σύνολο μετρήσεων, παρατηρήσεων κλπ., με στόχο, να ανακαλύψουμε κλάσεις ή ομάδες μέσα στα δεδομένα.

3 -3- Τακτικές Συσταδοποίησης Μια συσταδοποίηση είναι ένα σύνολο από συστάδες. Διαχωριστική Συσταδοποίηση (Partitional Clustering) Ένας διαμερισμός των αντικειμένων σε μη επικαλυπτόμενα non-overlapping υποσύνολα (συστάδες) τέτοιος ώστε, κάθε αντικείμενο να ανήκει σε ένα ακριβώς υποσύνολο. Ιεραρχική Συσταδοποίηση (Hierarchical Clustering) - Ένα σύνολο από εμφωλευμένες (nested) ομάδες. - Επιτρέπουμε σε μια συστάδα να έχει υποσυστάδες οργανωμένες σε ένα ιεραρχικό δέντρο.

4 -4- WEKA CLUSTERING DATA Το WEKA περιέχει αλγόριθμους συσταδοποίησης για εύρεση ομάδων όμοιων εγγραφών στο σύνολο των δεδομένων. Κάποια παραδείγματα είναι: k-means, EM, Cobweb, X-means, FarthestFirst. Οι συστάδες μπορούν να οπτικοποιηθούν και να συγκριθούν με τις πραγματικές συστάδες (εάν δίνονται). Γίνεται εκτίμηση βασιζόμενη στη log-likelihood, εάν το clustering scheme παράγει κατανομή πιθανότητας.

5 -5- WEKA Explorer: Clustering (1/3) Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση (εύρεση ομάδων όμοιων δεδομένων). Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση και με το κουμπί start να αρχίσει η εκτέλεση του αλγορίθμου.

6 -6- WEKA Explorer: Clustering (2/3) Οι αλγόριθμοι συσταδοποίησης που έχουν υλοποιηθεί είναι οι: Cobweb (ιεραρχική συσταδοποίηση) DBScan (Συσταδοποίηση με βάση την Πυκνότητα) EM Farthest First OPTICS SimpleKmeans (K-means) Xmeans

7 -7- WEKA Explorer: Clustering (3/3) ΔΙΑΦ.5: Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση (εύρεση ομάδων όμοιων δεδομένων). ΔΙΑΦ.5: Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση και με το κουμπί start να αρχίσει η εκτέλεση του αλγορίθμου. Οι τιμές των παραμέτρων κάθε αλγορίθμου συσταδοποίησης (όπως, ο αριθμός των clusters στον kmeans, το eps και το MinPts στον DBScan) μπορούν να τροποποιηθούν από μία καρτέλα που εμφανίζεται με διπλό κλικ πάνω στο όνομα του αλγορίθμου όταν αυτός έχει επιλεγεί (βλ.διαφ.14). Με δεξί κλικ πάνω στο όνομα του αλγορίθμου που έχει ήδη εκτελεστεί στα δεδομένα (από το result list) εμφανίζεται ένα μενού με την βοήθεια του οποίου μπορεί να εμφανιστεί η γραφική αναπαράσταση των δεδομένων, με βάση τις ομάδες που έχουν προκύψει από το clustering (βλ. Διαφ.15).

8 -8- WEKA Explorer: Cluster Mode (1/5) Επιλογές: Use training set (default): Μετά τη δημιουργία των clusters, το Weka ταξινομεί τα δεδομένα εκπαίδευσης σε clusters σύμφωνα με την αναπαράσταση του cluster και υπολογίζει το ποσοστό των δεδομένων που ανήκει σε κάθε cluster. Με την επιλογή αυτή, το μοντέλο δημιουργείται με κριτήριο τη βέλτιστη εκτίμηση της μεταβλητής εξόδου σε σχέση με το σύνολο των εγγραφών των δεδομένων εισόδου. Supplied test set: Ο classifier αποτιμάται στο πόσο καλά προβλέπει την class (δημιουργία συστάδας) από το set των instances που φορτώθηκαν από το αρχείο. Το Weka μπορεί να αξιολογήσει τα clusters σε διαφορετικά δεδομένα ελέγχου, όταν η αναπαράσταση του cluster είναι πιθανοκεντρική (prοpabilistic, πχ. ΕΜ) Percentage split: Με την επιλογή αυτή ο χρήστης καθορίζει το ποσοστό (επί τοις εκατό) των δεδομένων εισόδου που θα χρησιμοποιηθούν για τη δημιουργία του μοντέλου (training set), ενώ από τις υπόλοιπες εγγραφές θα υπολογιστεί το σφάλμα εκτίμησης του μοντέλου (test set). Classes to clusters evaluation: Αρχικά, αγνοείται το class attribute και έπειτα, δημιουργούνται τα clusters. Έπειτα, κατά τη διάρκεια του testing, εκχωρούνται κλάσεις στα clusters βασιζόμενες στις πιο συχνές τιμές που παίρνουν τα class attributes μέσα στο κάθε cluster. Κατόπιν, υπολογίζεται το λάθος ταξινόμησης, βασιζόμενο σε αυτήν την εκχώρηση Με την επιλογή αυτή γίνεται αξιολόγηση στο κατά πόσο τα επιλεγμένα clusters ταιριάζουν με την προσδιορισμένη κλάση των δεδομένων. Το drop-down box που υπάρχει κάτω από αυτή την επιλογή, επιλέγει την κλάση.

9 -9- WEKA Explorer: Cluster Mode (2/5) ΠΧ. Cobweb: Δημιουργεί ιεραρχικό clustering, όπου τα clusters περιγράφονται ως πιθανοκεντρικά (propabilistic), δηλ. χρησιμοποιεί αποστάσεις για να υπολογίζει την πιθανότητα μια εγγραφή να βρίσκεται σε μία συγκεκριμένη συστάδα. Π.χ. weather data (weather.arff) Scheme: weka.clusterers.cobweb - A 1.0 -C Relation: weather Instances: 14 Attributes: 5 outlook temperature humidity windy Ignored: play Test mode: evaluate on training data === Clustering model (full training set) === Number of merges: 2 Number of splits: 1 Number of clusters: 6 node 0 [14] node 1 [8] leaf 2 [2] node 1 [8] leaf 3 [3] node 1 [8] leaf 4 [3] node 0 [14] leaf 5 [6] Το class attribute (play) αγνοείται (χρησιμοποιώντας το ignore attributes panel) για να μας επιτραπεί αργότερα να επιλέξουμε το «classes to clusters evaluation». Κάνοντας το αυτό αυτόματα (μέσω του "Classes to clusters") δεν έχει μεγάλη σημασία για το ιεραρχικό clustering, εξαιτίας του μεγάλου αριθμού των clusters. Μερικές φορές, χρειάζεται να αξιολογούμε ξεχωριστά τα clusters στο ιεραρχικό clustering. === Evaluation on training set === Number of merges: 2 Number of splits: 1 Number of clusters: 6 node 0 [14] node 1 [8] leaf 2 [2] node 1 [8] leaf 3 [3] node 1 [8] leaf 4 [3] node 0 [14] leaf 5 [6] Clustered Instances 2 2 ( 14%) 3 3 ( 21%) 4 3 ( 21%) 5 6 ( 43%)

10 -10- WEKA Explorer: Cluster Mode (3/5) -A 1.0 -C στο command line ορίζει τις παραμέτρους του Cobweb, Acuity (ελάχιστη διακύμανση ενός cluster attribute, παράμετρος οξύτητας. Η default τιμή είναι 0.1) και Cutoff (ελάχιστο μέγεθος ωφέλειας τάξης, αποκοπή, συνολική ποιότητα διαχωρισμού των υποδειγμάτων σε ομάδες category utility. Η default τιμή είναι 0.002). Οι τιμές τους δίνονται από το παράθυρο που εμφανίζεται με κλικ πάνω στο όνομα του αλγορίθμου, δίπλα στο κουμπί Choose. node N ή leaf N αναπαριστά ένα subcluster, του οποίου ο γονέας (parent cluster) είναι το N. Η δομή που παρουσιάζει το clustering tree φαίνεται σαν ένα «οριζόντιο δέντρο», όπου subclusters ευθυγραμμίζονται στην ίδια στήλη. Για παράδειγμα, το cluster 1 (αναφέρεται στο node 1) έχει τρία subclusters: 2 (leaf 2), 3 (leaf 3) και 4 (leaf 4). Το root cluster είναι το 0. Κάθε γραμμή με node 0 ορίζει ένα subcluster της ρίζας (root). Ο αριθμός μέσα στα άγκιστρα μετά το node N αναπαριστά τον αριθμό των instances στο γονέα cluster (parent cluster) N. Τα Clusters με [1] στο τέλος της γραμμής είναι instances. Στο παράδειγμα, το cluster 1 έχει 8 instances και τα subclusters 2, 3 και 4 έχουν 2, 3 και 3 instances αντίστοιχα. Για να δείτε το clustering tree κάντε δεξί κλικ στην τελευταία γραμμή στο παράθυρο result list και έπειτα επιλέξτε Visualize tree.

11 -11- WEKA Explorer: Cluster Mode (4/5) Για την αξιολόγηση του Cobweb clustering χρησιμοποιείται η προσέγγιση classes to clusters. Χρειάζεται να γνωρίζουμε τις τιμές της κλάσης του κάθε instance, που ανήκουν στα clusters. Αυτή η πληροφορία παρέχεται από το Weka με τον ακόλουθο τρόπο: Αφού τελειώσει το Weka (και έχει επιλεχθεί το class attribute ignored), κάνουμε δεξί κλικ στην τελευταία γραμμή του παραθύρου «result list». Έπειτα, επιλέγουμε Visualize cluster assignments το οποίο ανοίγει το «Weka Clusterer Visualize» παράθυρο. Εδώ, μπορείτε να δείτε τα clusters, για παράδειγμα, βάζοντας Instance_number στο X και Cluster στο Y. Κάνοντας κλικ στο Save και επιλέγοντας ένα όνομα αρχείου (*.arff) το Weka σώζει τα cluster assignments σε ένα ARFF αρχείο. Έτσι, το αποτέλεσμα του Cobweb clustering είναι το Instance_number outlook temperature humidity windy play Cluster 0,sunny,85,85,FALSE,no,cluster3 1,sunny,80,90,TRUE,no,cluster5 2,overcast,83,86,FALSE,yes,cluster2 3,rainy,70,96,FALSE,yes,cluster4 4,rainy,68,80,FALSE,yes,cluster4 5,rainy,65,70,TRUE,no,cluster5 6,overcast,64,65,TRUE,yes,cluster5 7,sunny,72,95,FALSE,no,cluster3 8,sunny,69,70,FALSE,yes,cluster3 9,rainy,75,80,FALSE,yes,cluster4 10,sunny,75,70,TRUE,yes,cluster5 11,overcast,72,90,TRUE,yes,cluster5 12,overcast,81,75,FALSE,yes,cluster2 13,rainy,71,91,TRUE,no,cluster5

12 -12- WEKA Explorer: Cluster Mode (5/5) Για την αναπαράσταση και εκχώρηση των clusters, το Weka προσθέτει ένα νέο attribute, το Cluster και στο τέλος κάθε γραμμής δεδομένων συμπληρώνεται η αντίστοιχη τιμή. Στο αρχείο, φαίνονται Όλα τα attributes συμπεριλαμβανομένων και των αγνοούμενων (στο παράδειγμά μας, το play). Επίσης, ΜΟΝΟ τα leaf clusters φαίνονται. Υπολογισμός clusters error σύμφωνα με τις classes : Π.Χ. cluster 3 => Η κατανομή της κλάσης είναι {no, no, yes}=> Η τιμή της κλάσης που είναι σε πλειοψηφία => no, και άρα το λάθος είναι => 1/3. Υπολογισμός σφάλματος όχι μόνο για τα leaf clusters: Βλέπουμε τη δομή του clustering (π.χ. μέσω του Visualize tree) και καθορίζουμε πως τα leaf clusters συνδυάζονται σε άλλα clusters υψηλότερου επιπέδου στην ιεραρχία. Για παράδειγμα, στο υψηλότερο επίπεδο έχουμε δύο clusters - το 1 και το 5. Μπορούμε να πάρουμε την κατανομή της κλάσης του cluster 5 απευθείας από τα δεδομένα (επειδή το 5 είναι φύλλο) - 3 yes και 3 no. Ενώ, για το cluster 1 χρειαζόμαστε την κατανομή του κάθε subcluster του 2, 3 και 4. Αθροίζοντας τις τιμές της κλάσης, έχουμε 6 yes και 2 no. Τελικά, η πλειοψηφία στο cluster 1 είναι yes και στο cluster 5 είναι no (θα μπορούσε να είναι και yes) και άρα το σφάλμα (και στα δύο clusters) είναι 5/14. Weka => instances σε κάθε cluster. Οπτικοποίηση του clustering tree => κλικ σε κάθε κόμβο => instances που αντιστοιχούν σε κάθε cluster (π.χ. μέσα στα φύλλα κάθε υποδέντρου). Παρόλα αυτά, αν αγνοήσουμε ένα attribute (όπως κάναμε στο παράδειγμά μας, με το "play") αυτό το attribute δεν θα φαίνεται στο visualization.

13 -13- Συσταδοποίηση (1/3): Επιλογή Clusterer Πληροφορίες σχετικά με τα αποτελέσματα του clustering στα δεδομένα.

14 -14- Συσταδοποίηση (2/3): Καθορισμός Παραμέτρων Αλγορίθμου Οι τιμές των παραμέτρων κάθε αλγορίθμου συσταδοποίησης (όπως, ο αριθμός των clusters στον kmeans, το eps (μέγιστη ακτίνα γειτονιάς) και το MinPts (ελάχιστος αριθμός σημείων σε μια eps-γειτονιά ενός σημείου στον DBScan) μπορούν να τροποποιηθούν από μία καρτέλα που εμφανίζεται με διπλό κλικ πάνω στο όνομα του αλγορίθμου όταν αυτός έχει επιλεγεί.

15 -15- Συσταδοποίηση (3/3): Οπτικοποίηση αποτελέσματος Με δεξί κλικ πάνω στο όνομα του αλγορίθμου που έχει ήδη εκτελεστεί στα δεδομένα (από το result list) εμφανίζεται ένα μενού με την βοήθεια του οποίου μπορεί να εμφανιστεί η γραφική αναπαράσταση των δεδομένων, με βάση τις ομάδες που έχουν προκύψει από το clustering.

16 -16- Αλγόριθμος βασισμένος σε διαχωρισμούς: K-Means (1/2) Ένας από τους πιο γνωστούς αλγόριθμους ομαδοποίησης αυτής της κατηγορίας είναι ο αλγόριθμος των Κ-μέσων (K-means). Ο αριθμός Κ, των ομάδων (clusters), καθορίζεται πριν την εκτέλεση του αλγορίθμου. Ο αλγόριθμος ξεκινά διαλέγοντας K τυχαία σημεία από τα δεδομένα ως τα κέντρα των ομάδων. Έπειτα, αναθέτει κάθε σημείο στην ομάδα της οποίας το κέντρο είναι πιο κοντά (μικρότερη απόσταση) σε αυτό το σημείο. Στη συνέχεια, υπολογίζει για κάθε ομάδα το μέσο όρο όλων των σημείων της (μέσο διάνυσμα) και ορίζει αυτό ως νέο κέντρο της. Τα δύο τελευταία βήματα επαναλαμβάνονται για ένα προκαθορισμένο αριθμό βημάτων ή μέχρι να μην υπάρχει αλλαγή στο διαχωρισμό των σημείων σε ομάδες.

17 -17- Αλγόριθμος βασισμένος σε διαχωρισμούς: K-Means (2/2) Ο αλγόριθμος K-Means σε ψευδογλώσσα:

18 -18- WEKA Clustering: Παράδειγμα 1 K-Means Επιλέξτε και φορτώστε το αρχείο weather.nominal.arff. Επιλέξτε και τρεξτε τον SimpleKMeans αλγόριθμο. Πειραματιστείτε με τις παραμέτρους του αλγορίθμου. Οπτικοποιείστε και δείτε τα αποτελέσματα του αλγορίθμου. Ερμηνεύστε τα αποτελέσματα του αλγορίθμου. Δοκιμάστε άλλους αλγόριθμους συσταδοποίησης. Επαναλάβετε την ίδια διαδικασία με το αρχείο weather.arff (numeric attributes).

19 -19- WEKA Clustering: Παράδειγμα 1 - K-Means Μερικές εφαρμογές του K-means επιτρέπουν ΜΟΝΟ αριθμητικές τιμές στα attributes. Σε αυτή την περίπτωση, είναι απαραίτητο να μετατραπεί το data set σε ένα standard spreadsheet format και να μετατραπούν τα κατηγορικά attributes σε δυαδικά. Ίσως είναι επίσης, απαραίτητο να κανονικοποιήσει τις τιμές των attributes, τα οποία υπολογίζονται σε διαφορετικές κλίμακες (πχ, "age" και "income"). Ενώ, το WEKA παρέχει Φίλτρα για όλες αυτές τις εργασίες προ-επεξεργασίας, δεν είναι απαραίτητες στο clustering στο WEKA. Αυτό, γιατί ο αλγόριθμος SimpleKMeans στο WEKA αυτόματα χειρίζεται ένα συνδυασμό από κατηγορικά και αριθμητικά δεδομένα (attributes). Επιπλέον, ο αλγόριθμος αυτόματα κανονικοποιεί τα αριθμητικά attributes όταν κάνει υπολογισμούς αποστάσεων. Ο αλγόριθμος SimpleKMeans στο WEKA χρησιμοποιεί την Ευκλείδεια απόσταση ως μέτρο υπολογισμού των αποστάσεων μεταξύ των instances και των clusters. Η τιμή seed χρησιμοποιείται για τη δημιουργία ενός τυχαίου αριθμού, ο οποίος χρησιμοποιείται, διαδοχικά, για να κάνει την αρχική ανάθεση των instances στα clusters (αρχικά σημεία στο γράφο που χτίζονται γύρω από αυτά τα clusters). Γενικά, ο K-means είναι αρκετά ευαίσθητος στον αριθμό των clusters που αρχικά ανατίθενται. Έτσι, είναι συχνά απαραίτητο να δοκιμάζουνε διαφορετικές τιμές και να αξιολογούμε τα αποτελέσματα.

20 -20- WEKA Clustering:Οπτικοποίηση Αποτελεσμάτων Παραδείγματος (1/2) Result List=> View in separate window Στο «cluster output» παρουσιάζεται το κέντρο (centroid) του κάθε cluster, καθώς επίσης και στατιστικά πάνω στον αριθμό και το ποσοστό των εγγραφών (instances) που εκχωρούνται σε διαφορετικά clusters. Τα κέντρα των Clusters είναι τα μεσοδιανύσματατα (mean vectors) για κάθε cluster (έτσι ώστε, κάθε διάσταση (dimension value) στο κέντρο να αναπαριστά την μέση τιμή για αυτή τη διάσταση στο cluster). Τα κέντρα (centroids) χρησιμοποιούνται έτσι, για να χαρακτηρίζουν μονοσήμαντα τα clusters. Result List=> Visualize cluster assignments (Π.Χ. Bank.arff) Ένας άλλος τρόπος για την κατανόηση των χαρακτηριστικών (characteristics) του κάθε cluster είναι μέσω της οπτικοποίησης (visualization). Μπορείτε να επιλέξετε τον αριθμό του cluster (cluster number) και οποιοδήποτε από τα attributes για να «εκχωρήσετε» σε κάθε μία από τις τρεις διαφορετικές, διαθέσιμες διαστάσεις (x-axis, y-axis, και color). Διαφορετικοί συνδυασμοί επιλογών έχουν ως αποτέλεσμα διαφορετικές σχέσεις μέσα σε ένα cluster.

21 -21- WEKA Clustering:Οπτικοποίηση Αποτελεσμάτων Παραδείγματος (2/2) Σε αυτό το παράδειγμα, έχουμε επιλέξει cluster number στον άξονα-χ, το instance number (που εκχωρείται από το WEKA) στον άξονα-y, και το γνώρισμα "sex" στον άξονα διάστασης του χρώματος (color dimension). Αυτό έχει ως αποτέλεσμα, την οπτικοποίηση της κατανομής των αρσενικών (males) και θηλυκών (females) σε κάθε cluster. Τελικά, μπορούμε να σώσουμε τα αποτελέσματα (resulting data set), που περιλαμβάνουν την κάθε εγγραφή (instance) μαζί με το cluster στο οποίο έχουν εκχωρηθεί. Έτσι, στην αρχή σε κάθε data set προστίθενται το "instance number" attribute (α/α), και στο τέλος κάθε data set προστίθενται το γνώρισμα "Cluster". Έτσι, στα δεδομένα του κάθε instance, έχει προστεθεί στο τέλος η τιμή του cluster που του έχει ανατεθεί. Δείτε το παράδειγμα στην επόμενη διαφάνεια.

22 -22- WEKA Clustering: Αποθήκευση Αποτελεσμάτων Παραδείγματος

23 -23- Συσταδοποίηση K-Means Το αρχικό σύνολο συστάδων επιλέγεται τυχαία. Επαναληπτικά, τα στοιχεία μετακινούνται μεταξύ συνόλων συστάδων μέχρι να φτάσουν στο επιθυμητό σύνολο. Επιτυγχάνεται υψηλός βαθμός ομοιότητας μεταξύ των στοιχείων μίας συστάδας. Δεδομένης μίας συστάδας Ki={ti1,ti2,,tim}, ο μέσος της συστάδας είναι: mi = (1/m)(ti1 + + tim). Ο μέσος της συστάδας ταυτίζεται με το κέντρο βάρους.

24 -24- WEKA Clustering: K-Means Παράδειγμα 2 (1/2) Εφαρμόζοντας τον K-Means στο WEKA. Ρύθμιση Παραμέτρων, όπως φαίνεται παρακάτω.

25 -25- WEKA Clustering: K-Means Παράδειγμα 2 (2/2) Αποτελέσματα Αλγορίθμου K-Means. === Run information === Scheme: weka.clusterers.simplekmeans -N 2 -S 10 Relation: iris-weka.filters.unsupervised.attribute.remove-r1-2,5 Instances: 150 Attributes: 2 petallength petalwidth Test mode: evaluate on training data === Model and evaluation on training set === kmeans ====== Number of iterations: 6 Within cluster sum of squared errors: Cluster centroids: Cluster 0 Mean/Mode: Std Devs: Cluster 1 Mean/Mode: Std Devs: Clustered Instances ( 67%) 1 50 ( 33%)

26 -26- Αλγόριθμος Ιεραρχικής Ομαδοποίησης: Cobweb (1/2) Οι αλγόριθμοι ιεραρχικής ομαδοποίησης συνδυάζουν ομάδες σε μεγαλύτερες ομάδες ή διαιρούν μεγάλες ομάδες σε μικρότερες. Το αποτέλεσμα των αλγορίθμων αυτών είναι μια ιεραρχία από διαφορετικές ομαδοποιήσεις των δεδομένων στο ένα άκρο της οποίας βρίσκεται μια μόνο ομάδα με όλα τα δεδομένα, και στο άλλο τόσες ομάδες όσες και ο αριθμός των δεδομένων. Με βάση την κατεύθυνση ανάπτυξης της ιεραρχίας που ακολουθούν, οι ιεραρχικοί αλγόριθμοι ομαδοποίησης χωρίζονται στους αλγορίθμους συγχώνευσης (agglomerative) και στους αλγορίθμους διαίρεσης (divisive). Οι αλγόριθμοι συγχώνευσης είναι οι πιο σημαντικοί και διαδεδομένοι από τους δύο. Βασίζονται σε μετρικές απόστασης ανάμεσα σε ομάδες. Δεδομένης μιας αρχικής ομαδοποίησης (για παράδειγμα, κάθε σημείο αποτελεί μια ομάδα), οι αλγόριθμοι αυτοί βρίσκουν τις δύο πιο κοντινές ομάδες και τις συγχωνεύουν με μία. Η διαδικασία συνεχίζεται μέχρις ότου προκύψει μία μόνο ομάδα.

27 -27- Αλγόριθμος Ιεραρχικής Ομαδοποίησης: Cobweb (2/2) Ο αλγόριθμος ιεραρχικής ομαδοποίησης σε ψευδογλώσσα: Οι ιεραρχίες που προκύπτουν από τους αλγορίθμους ιεραρχικής ομαδοποίησης μπορεί να απεικονιστούν με έναν πρακτικό και εύκολο τρόπο μέσω ενός γραφήματος δενδρικής μορφής, το οποίο ονομάζεται δενδρόγραμμα.

28 -28- WEKA Clustering: Cobweb Παράδειγμα (1/7) Επιλέγουμε την καρτέλα Preprocess και επιλέγουμε να ανοίξουμε και να φορτώσουμε το αρχείο iris.arff, που βρίσκεται στο: C:\Program Files\ Weka-3.6\data. Έπειτα, επιλέγουμε Clusterer, τον Cobweb, από την Καρτέλα Cluster.

29 -29- WEKA Clustering: Cobweb Παράδειγμα (2/7)

30 -30- WEKA Clustering: Cobweb Παράδειγμα (3/7) Κλικ εδώ

35 -35- Αλγόριθμος DBSAN (1/4) DBSCAN Density Based Spatial Clustering για Εφαρμογές με Θόρυβο. Outliers δεν θα επηρεάσουν τη δημιουργία του cluster. Είσοδος: MinPts ελάχιστος αριθμός σημείων στο cluster. Eps για κάθε σημείο στο cluster θα πρέπει να υπάρχει ένα άλλο σημείο με λιγότερη από αυτή την απόσταση - ακτίνα.

36 -36- Αλγόριθμος DBSAN (2/4) Κατάλληλος για ομάδες που έχουν υψηλή πυκνότητα σημείων, οι οποίες μπορεί να είναι διαχωρισμένες από άλλα σημεία (θόρυβος) χαμηλότερης πυκνότητας. Προϋποθέτει ότι η πυκνότητα των ομάδων είναι παρόμοια, χωρίς μεγάλες διακυμάνσεις. Πυκνότητα = #σημείων σε ακτίνα Eps. Κεντρικό σημείο: έχει πυκνότητα μεγαλύτερη ή ίση από μία τιμή MinPts (ανήκουν στο εσωτερικό των ομάδων). Συνοριακό σημείο: έχει πυκνότητα μικρότερη από MinPts, αλλά απέχει από ένα κεντρικό σημείο απόσταση μικρότερη ή ίση από Eps (βρίσκονται στα όρια των ομάδων). Θορυβώδες σημείο: κάθε άλλο σημείο (ανήκουν στις περιοχές χαμηλής πυκνότητας).

37 -37- Αλγόριθμος DBSAN (3/4) Χαρακτήρισε κάθε σημείο ως κεντρικό, συνοριακό ή θόρυβο. Αγνόησε όλα τα σημεία θορύβου. Δημιούργησε ένα γράφο με μια κορυφή για κάθε σημείο. Τοποθέτησε μια ακμή μεταξύ όλων των κεντρικών σημείων που είναι σε απόσταση έως Eps μεταξύ τους. Θέσε κάθε ομάδα συνδεδεμένων βασικών σημείων ως μια διαφορετική συστάδα. Ανάθεσε κάθε συνοριακό σημείο σε μία από τις συστάδες των συσχετιζόμενων των βασικών σημείων. Για κάθε σημείο, βρίσκουμε το k πλησιέστερο προς αυτό, καθώς και τη μεταξύ τους απόσταση. Ταξινομούμε τα σημεία ως προς την απόστασή τους από το k-οστό πλησιέστερο τους. Καθορίζουμε τις τιμές των Eps και MinPts, έτσι ώστε να διαχωρίζονται τα σημεία που ανήκουν σε ομάδες από τα θορυβώδη σημεία.

38 -38- Αλγόριθμος DBSAN (4/4)

39 -39- Σύγκριση DBSCAN με K-MEANS (1/2) Και οι 2 τοποθετούν ένα σημείο σε μία μοναδική ομάδα. Αλλά, ο dbscan μπορεί να μην ομαδοποιήσει όλα τα σημεία. Ο k-means χρησιμοποιεί την έννοια του κέντρου της ομάδας, ενώ ο dbscan της πυκνότητας. Ο dbscan χειρίζεται σωστά ομάδες με διαφορετικό σχήμα και μέγεθος, σε αντίθεση με τον k-means. Και οι 2 αλγόριθμοι δεν μπορούν να χειριστούν ομάδες με διαφορετική πυκνότητα. Ο k-means απαιτεί να μπορεί να οριστεί το κέντρο της ομάδας, ενώ ο dbscan απαιτεί να έχει νόημα η έννοια της πυκνότητας. Ο k-means έχει καλή απόδοση σε αραιά, πολυδιάστατα δεδομένα (πχ., κείμενα). Ο dbscan δεν έχει καλή απόδοση σε αυτήν την περίπτωση. Και οι 2 μπορούν (με επεκτάσεις) να χειριστούν δεδομένα άλλων τύπων εκτός από αριθμητικά.

40 -40- Σύγκριση DBSCAN με K-MEANS (2/2) Και οι 2 λαμβάνουν υπ όψιν όλα τα χαρακτηριστικά, δηλ. δεν δημιουργούν ομάδες βάσει μόνο κάποιων χαρακτηριστικών. Ο dbscan συνενώνει ομάδες που εφάπτονται ή επικαλύπτονται, σε αντίθεση με τον k-means. Η πολυπλοκότητα του k-means είναι μικρότερη από αυτή του dbscan. Ο k-means παράγει διαφορετικές συστάδες για τα ίδια δεδομένα, σε αντίθεση με τον dbscan. Ο dbscan δεν απαιτεί τον εκ των προτέρων ορισμό του αριθμού των ομάδων, όπως κάνει ο k-means. Απαιτεί όμως, τον ορισμό παραμέτρων όπως MinPts/Eps.

41 -41- WEKA Clustering: DBSCAN Παράδειγμα (1/8) Από την καρτέλα Preprocess που ανοίξαμε το αρχείο iris.arff, αφαιρούμε το attribute class. Non-class attributes Dataset s statistics

42 -42- WEKA Clustering: DBSCAN Παράδειγμα (2/8) Επιλέξτε τον αλγόριθμο Clustering, DBSAN.

43 -43- WEKA Clustering: DBSCAN Παράδειγμα (3/8) Ρύθμιση Παραμέτρων:

44 -44- WEKA Clustering: DBSCAN Παράδειγμα (4/8) Τρέξτε τον Αλγόριθμο.

45 -45- WEKA Clustering: DBSCAN Παράδειγμα (5/8) Αποτελέσματα DBSCAN === Run information === Scheme: weka.clusterers.dbscan -E 0.9 -M 6 -I weka.clusterers.foropticsanddbscan.databases.sequentialdatabase -D weka.clusterers.foropticsanddbscan.dataobjects.euclidiandataobject Relation: iris-weka.filters.unsupervised.attribute.remove-r5 Instances: 150 Attributes: 4 sepallength sepalwidth petallength petalwidth Test mode: evaluate on training data === Model and evaluation on training set === DBScan clustering results ======================================================================================== Clustered DataObjects: 150 Number of attributes: 4 Epsilon: 0.9; minpoints: 6 Index: weka.clusterers.foropticsanddbscan.databases.sequentialdatabase Distance-type: weka.clusterers.foropticsanddbscan.dataobjects.euclidiandataobject Number of generated clusters: 1 Elapsed time:.06 ( 0.) 5.1,3.5,1.4,0.2 --> 0 ( 1.) 4.9,3,1.4,0.2 --> 0 ( 2.) 4.7,3.2,1.3,0.2 --> 0 ( 3.) 4.6,3.1,1.5,0.2 --> 0 ( 4.) 5,3.6,1.4,0.2 --> 0 (146.) 6.3,2.5,5,1.9 --> 0 (147.) 6.5,3,5.2,2 --> 0 (148.) 6.2,3.4,5.4,2.3 --> 0 (149.) 5.9,3,5.1,1.8 --> 0 Clustered Instances (100%)

46 -46- WEKA Clustering: DBSCAN Παράδειγμα (6/8) Απλοποιώντας τα δεδομένα ελέγχου.

47 -47- WEKA Clustering: DBSCAN Παράδειγμα (7/8) Απλοποιώντας τα δεδομένα ελέγχου => Αφαιρέστε επιπλέον, τα attributes: sepallength, sepalwidth. Έπειτα, επιλέξτε Clusterer, τον DBSAN και δώστε τις κατάλληλες παραμέτρους, όπως φαίνεται παρακάτω.

48 -48- WEKA Clustering: DBSCAN Παράδειγμα (8/8) Αποτελέσματα DBSCAN === Run information === Scheme: weka.clusterers.dbscan -E 0.3 -M 50 -I weka.clusterers.foropticsanddbscan.databases.sequentialdatabase -D weka.clusterers.foropticsanddbscan.dataobjects.euclidiandataobject Relation: iris-weka.filters.unsupervised.attribute.remove-r1-2,5 Instances: 150 Attributes: 2 petallength petalwidth Test mode: evaluate on training data === Model and evaluation on training set === DBScan clustering results ======================================================================================== Clustered DataObjects: 150 Number of attributes: 2 Epsilon: 0.3; minpoints: 50 Index: weka.clusterers.foropticsanddbscan.databases.sequentialdatabase Distance-type: weka.clusterers.foropticsanddbscan.dataobjects.euclidiandataobject Number of generated clusters: 2 Elapsed time:.03 ( 0.) 1.4,0.2 --> 0 ( 1.) 1.4,0.2 --> 0 ( 2.) 1.3,0.2 --> 0 ( 3.) 1.5,0.2 --> 0 (146.) 5,1.9 --> 1 (147.) 5.2,2 --> 1 (148.) 5.4,2.3 --> 1 (149.) 5.1,1.8 --> 1 Clustered Instances 0 50 ( 33%) ( 67%)