ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Ηλίας Κ. Σάββας Εξόρυξη Δεδομένων Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, Μετατροπή δεδομένων σε ΠΛΗΡΟΦΟΡΙΑ, Πολλά δεδομένα αποθηκευμένα (Τα αποθηκευμένα δεδομένα σχεδόν κάθε 3 χρόνια διπλασιάζονται), Πληροφορία μη επεξεργασμένη, Πολλαπλά οφέλη από την κατηγοριοποίησή τους. Ανάλυση Δεδομένων Η ανάλυση δεδομένων αποτελεί την βάση σε πολλές εφαρμογές: Πληροφορική, Ανάλυση προτύπων, Λήψη αποφάσεων, Μηχανική εκμάθηση, Εξόρυξη δεδομένων, Ανάκτηση κειμένων, Μηχανική, Οικονομία, Βιολογία, Φαρμακευτική, 3
Ανάλυση Δεδομένων H εξαντλητική ανάλυση και επεξεργασία μεγάλου όγκου δεδομένων είναι ΑΔΥΝΑΤΗ ΚΛΕΙΔΙ: ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ (data clustering) 4 Τεχνικές Εξόρυξης Δεδομένων Κλασικές: Στατιστική, Γειτονιά, Ομαδοποίηση. Άλλες (μελλοντικές?) Δένδρα αποφάσεων, Νευρωνικά δίκτυα,... 5 Ομαδοποίηση Δεδομένων Διαχωρισμός ενός συνόλου δεδομένων σε διαφορετικές μη αλληλεπικαλυπτόμενες ομάδες δεδομένων όπου τα μέλη της κάθε ομάδας είναι περισσότερο «ομοειδή» από μέλη που ανήκουν σε διαφορετικές ομάδες. Ομοειδή δεδομένα: Σε σχέση με κάποιο μέτρο ομοιότητας (αρκετά δύσκολο να εντοπισθεί σωστά) Ακατέργαστα Δεδομένα Αλγόριθμοι Ομαδοποίησης Ομαδοποιημένα Δεδομένα
Ομαδοποίηση Δεδομένων 5 5 5 7 7 7 7 Y-Axis Y-Axis 3 4 3 4 3 3 4 4 -Axis -Axis 7 Ορισμοί Ένας ορισμός Ομάδας (Cluster) είναι ότι είναι μια συλλογή από όμοια αντικείμενα που έχουν μαζευτεί ή συγκεντρωθεί μαζί. Ο Everitt δίνει μεταξύ άλλων τους εξής ορισμούς της Ομάδας: Ομάδα είναι το σύνολο των οντοτήτων που είναι όμοιες, και οντότητες από διαφορετικά σύνολα δεν είναι όμοιες, Ομάδα είναι μια συσσωμάτωση σημείων του πεδίου αναφοράς τέτοια ώστε η απόσταση κάθε δυο σημείων της Ομάδας να είναι μικρότερη από την απόσταση μεταξύ κάθε σημείου της Ομάδας και οποιουδήποτε άλλου σημείου, Οι ομάδες μπορούν να περιγραφούν ως συνδεδεμένες περιοχές ενός πολυδιάστατου χώρου, που περιέχουν σχετικά υψηλή πυκνότητα σημείων και που είναι χωρισμένες μεταξύ τους με περιοχές, η πυκνότητα των οποίων είναι σχετικά μικρότερη. 8 Αλγόριθμοι Ομαδοποίησης Επιλογή χαρακτηριστικών (ιδιοτήτων), Αναπαράσταση δεδομένων (μπορεί να περιλαμβάνει νέα χαρακτηριστικά ή να απαλείφει κάποια ή να ομαλοποιεί κάποια άλλα), Ορισμός του μέτρου ομοιότητας (similarity), Ομαδοποίηση (εφαρμογή μεθόδου). 9
Αλγόριθμοι Ομαδοποίησης Οι αλγόριθμοι ομαδοποίησης προσπαθούν να ανακαλύψουν φυσικές ομάδες αντικειμένων (δεδομένων) βασισμένες στις ιδιότητες των αντικειμένων και σε κάποιο μέτρο ομοιότητας. Επιπλέον βρίσκουν και το κεντροειδές (centroid) της κάθε ομάδας δεδομένων. Για να προσδιορισθεί το κατά πόσο ένα αντικείμενο ανήκει σε μία ομάδα πρέπει να υπολογισθεί η απόστασή του από το κεντροειδές της ομάδας. Ανάλυση Δεδομένων Κάθε αντικείμενο (δεδομένο) χαρακτηρίζεται από τις ιδιότητές του, Θηλαστικό ή όχι, αριθμός άκρων, Ταχύτητα CPU, Χωρητικότητα μνήμης, Λειτουργικό Σύστημα, Φύλλο, Είδος εργασίας, Ηλικιακή ομάδα, Τα δεδομένα μπορούν να αναπαρασταθούν σαν σημεία ενός Ν διάστατου χώρου, Το σύνολο των ιδιοτήτων Διάσταση του χώρου. Ανάλυση Δεδομένων Ανομοιότητα σημείων: Απόσταση σημείων. Στον Ευκλείδειο χώρο διαστάσεων: c b a ( a b ) c = a + b c = + Π Υ Θ Α Γ Ο Ρ Α Σ
ΓραφικήΑναπαράστασηΔεδομένων(3 d) Τρίτη ιδιότητα, x3 Δεύτερη ιδιότητα, x Q x(p) P x3(p) (x(q)-x(p)) x(p) x(q) Πρώτη ιδιότητα, x 3 Απόσταση Σημείων, Κεντροειδές Η πιο συνηθισμένη απόσταση δύο σημείων i, j λαμβάνεται από την Ευκλείδεια μετρική (3-d χώρος): d ( i, j) = ( xi x j ) + ( yi y j ) + ( zi z j ) Το κεντροειδές υπολογίζεται έτσι ώστε η κάθε του ιδιότητα (χαρακτηριστικό) να είναι η μέση τιμή των αντίστοιχων ιδιοτήτων των σημείων που ανήκουν στην ομάδα. 4 Μέτρηση Απόστασης (μη Ευκλείδειες μετρικές) Απόσταση κατά Minkowski: q q q d ( i, j) = q ( x x + x x +... + x x ) p p i j i j i j όπου i = (x i, x i,, x ip ) και j = (x j, x j,, x jp ) είναι δύο p-διάστατα αντικείμενα, και q θετικός ακέραιος (για q= Ευκλείδεια μετρική) Για q= απόσταση Manhattan: d( i, j) = x x + x x +... + x x i j i j ip jp 5
Η Κατάρα της Διάστασης Στα πολυδιάστατα αντικείμενα είναι δυνατόν το χαρακτηριστικό μίας διάστασης να υπερισχύει όλων των άλλων και να οδηγεί σε «κακές» ομάδες. Παράδειγμα: Ιδιότητες υπολογιστή Ταχύτητα CPU (,., 3, 4, 4,, ) Μνήμη (, 8,,, 5, ) Λειτουργικό σύστημα (=Linux, =Windows) Ενώ δύο υπολογιστές με μνήμη 8 και διαφέρουν σ αυτό το χαρακτηριστικό 4 μονάδες εάν είχαν διαφορετικά Λ.Σ. θα διέφεραν. Το Λ.Σ. όμως είναι πιο σημαντικό!!!! Η Κατάρα της Διάστασης Επομένως είναι απαραίτητη η χρήση και άλλων τρόπων υπολογισμού αποστάσεων ή ΔΙΑΦΟΡΟΠΟΙΗΣΗ των χαρακτηριστικών (ιδιοτήτων) ήκαι ΟΜΑΛΟΠΟΙΗΣΗ. Τέσσερεις βασικές κατηγορίες: Interval scaled, Ratio scaled, ΟνομαστικόήΜηταξινομήσιμο(nominal), Ταξινομήσιμο (ordinal). 7 Το Κριτήριο Του Τετραγωνικού Λάθους Η πιο ευρέως διαδεδομένη στρατηγική διαμεριστικής ομαδοποίησης βασίζεται στο κριτήριο του τετραγωνικού λάθους (Square error criterion). Ο γενικός στόχος είναι η απόκτηση εκείνης της διαμέρισης όπου, για έναν σταθερόαριθμόομάδων, να ελαχιστοποιεί το τετραγωνικό λάθος. Αποσκοπεί στο να δημιουργήσει τις k ομάδες όσο το δυνατόν περισσότερο συμπαγείς και ξεχωριστές. E = k N i i= j= x c ij το j σημείο του i cluster, N i πλήθος σημείων του i cluster, c i κεντροειδές του i cluster, Το Ε υποδηλώνει το πόσο μακριά είναι διεσπαρμένα τα σημεία σε σχέση με τα κέντρα των ομάδων που ανήκουν, Το ζητούμενο είναι η ελαχιστοποίηση του Ε. ij i 5//9
ΟΜΑΛΟΠΟΙΗΣΗ (NORMALIZATION) Μετατόπιση στη δεκαδική κλίμακα(decimal scaling): v' ( i) = v( i) n Ομαλοποίηση μεγίστουελαχίστου(min-max normalization): Ομαλοποίηση με τυπική απόκλιση(standard deviation normalization): v( i) min( v) v'( i) = max( v) min( v) v( i) mean( v) v'( i) = sd( v) 5//9 Κατηγοριοποίηση Δεδομένων Interval scaled Αν για ένα χαρακτηριστικό, η διαφορά μεταξύ δυο τιμών έχει νόημα ενώ ο λόγος τους δεν έχει, τότε το χαρακτηριστικό αυτό ανήκει στην κατηγορία αυτή. Ένα τυπικό παράδειγμα είναι το μέγεθος της RAM ενός HY. Αν παραδείγματος χάριν ένας ΗΥ έχει 8 GB και ένας άλλος GB Τότε έχει νόημα να πούμε ότι δεύτερος έχει 8 GB περισσότερα από τον πρώτο. Από την άλλη μεριά όμως δεν έχει νόημα να πούμε ότι ο δεύτερος έχει διπλάσια μνήμη από τον πρώτο.
Ratio scaled Αν ο λόγος μεταξύ δυο τιμών ενός χαρακτηριστικού έχει νόημα τότε το χαρακτηριστικό ανήκει στην κατηγορία αυτή. Ένα παράδειγμα είναι το βάρος ενός ανθρώπου, αφού έχει νόημα να πούμε πως ένα άτομο που ζυγίζει κιλά είναι δυο φορές βαρύτερο από ένα άτομο που ζυγίζει 5 κιλά. Θα πρέπει να σημειωθεί ένα ratio scaled χαρακτηριστικό περιλαμβάνει όλες τις ιδιότητες ενός interval scaled. Ονομαστικό ή Μη ταξινομήσιμο (nominal) Οι τιμές των χαρακτηριστικών της κλίμακας αυτής χαρακτηρίζουν κωδικοποιημένες καταστάσεις. Παράδειγμα: Ένα χαρακτηριστικό που αντιστοιχεί στο φύλο ενός ανθρώπου. Οι πιθανές τιμές του χαρακτηριστικού αυτού είναι δύο: αρσενικό και θηλυκό. Θα μπορούσαμε δηλαδή να κωδικοποιήσουμε την τιμή αρσενικό με τον αριθμό και την τιμή θηλυκό στο. Είναι φανερό ότι οποιαδήποτε ποσοτική σύγκριση μεταξύ των τιμών ενός nominal χαρακτηριστικού δεν έχει κανένα νόημα. Επίσης είναι εντελώς προφανές η διάταξη των τιμών τέτοιου είδους χαρακτηριστικών δεν έχει απολύτως καμία σημασία. 3 Ταξινομήσιμο (ordinal) Στην κατηγορία αυτή ανήκουν χαρακτηριστικά των οποίων η διάταξη των τιμών τους έχει νόημα. Παράδειγμα: Μια μεταβλητή που χαρακτηρίζει την επίδοση ενός μαθητή σε κάποιο μάθημα. Οι πιθανές τιμές του χαρακτηριστικού αυτού είναι 4, 3,, και αντιστοιχούν στις βαθμολογίες «άριστα», «πολύ καλά», «καλά» και «όχι καλά». Προφανώς αυτές οι τιμές μπορούν να διαταχθούν σε μια σειρά, όπως παραπάνω, η οποία να έχει νόημα. Ωστόσο η διαφορά μεταξύ δυο τέτοιων τιμών δεν έχει καμιά ποσοτική σημασία, αφού μια τέτοια σύγκριση δεν έχει νόημα. 4
Επιλογή Αλγόριθμου Σε σχέση με: Τρόπο που σχηματίζονται οι ομάδες, Την δομή που έχουν τα προς επεξεργασία δεδομένα, Την ευαισθησία στις μεταβολές των δεδομένων, Το μέτρο σύγκρισης των δεδομένων, Την αξιοποίηση σε κάποια εκ των προτέρω γνώση επάνω στα δεδομένα, Κατηγορίες αλγόριθμων: Exclusive Non exclusive, Supervised Non Supervised. 5 Ομαδοποίηση Κοντινότερου Γείτονα Έχει παρατηρηθεί ότι σε μία ομάδα τα δεδομένα είναι συνήθως κοντά μεταξύ τους, Επαναληπτική μέθοδος η οποία τοποθετεί το κάθε σημείο δεδομένο στην ομάδα που είναι πιο κοντά της. Ο πιο γνωστός αλγόριθμος: K-mean clustering O αλγόριθμος k-means clustering Το πιο σημαντικό σημείο είναι το k!!! Δηλαδή, σε πόσες ομάδες πρέπει να διαχωριστεί το σύνολο των σημείων για την καλύτερη διαχείριση των δεδομένων.. Επιλογή του k. Επιλογή k σημείων (τυχαίων?) σαν κεντροειδή 3. Εύρεσητωναποστάσεωνόλωντων σημείων από όλα τα κεντροειδή, 4. Υπολογισμός των νέων k κεντροειδών, 5. Επανάληψη με το βήμα <> μέχρι να μην γίνει καμία άλλη μετακίνηση σημείων. 7
K-means clustering Παράδειγμα 9 8 7 5 4 3 3 4 5 7 8 9 9 8 7 5 4 3 3 4 5 7 8 9 9 8 7 5 4 3 3 4 5 7 8 9 9 8 7 5 4 3 3 4 5 7 8 9 K-means clustering Αρχικοποίηση: επιλογή σημείων για κεντροειδή Βήμα : Επαναπροσδιορισμός κεντροειδών και ομάδων Βήμα (τελικό): Επαναπροσδιορισμός Κεντροειδών και ομάδων 9 K-means clustering Κεντροειδή (centroids) 3
Παράδειγμα k Means Ζητείται να ομαδοποιηθούν τα στοιχεία αυτά σε δύο clusters Γίνεται τυχαία επιλογή των σημείων που θα αποτελέσουν τα αρχικά κέντρα των clusters. 5//9 Παράδειγμα k Means επιλέγουμε την ομάδα στην οποία ανήκει το κάθε στοιχείο, με μοναδικό κριτήριο από ποιο κέντρο έχει την μικρότερη απόσταση Cluster A(,) B(,) C(4,3) D(5,4) Group Group 5//9 Παράδειγμα k Means υπολογίζουμε τις καινούριες συντεταγμένες των κέντρων των clusters βάση των νέων δεδομένων C=(,) C=(+4+5)/3),(+3+4)/3) =(/3,8/3) 5//9
Παράδειγμα k Means Υπολογίζουμε τις αποστάσεις όλων των σημείων από τα νέα κέντρα και επιλέγουμε την ομάδα στην οποία ανήκει το κάθε στοιχείο, με κριτήριο το κέντρο από το οποίο έχει τη μικρότερη απόσταση Cluster A(,) B(,) C(4,3) D(5,4) Group Group 5//9 Παράδειγμα k Means υπολογίζουμε τις καινούριες συντεταγμένες των κέντρων των clusters βάσει των νέων δεδομένων C=((+)/),((+)/)=(.5,) C=((4+5)/),((3+4)/)=(4.5,3.5 ) 5//9 Παράδειγμα k Means Υπολογίζουμε τις αποστάσεις όλων των σημείων από τα νέα κέντρα και επιλέγουμε την ομάδα στην οποία ανήκει το κάθε στοιχείο Cluster A(,) B(,) C(4,3) D(5,4) Group Group 5//9
Παράδειγμα k Means Παρατηρούμε ότι κανένα στοιχείο δεν άλλαξε Group Άρα ο αλγόριθμος τερματίζει Τα τελικά αποτελέσματα έχουν ως εξής: Στοιχείο A(,) B(,) C(4,3) D(5,4) Clustering result Group Group Group Group 5//9 K-means: Πλεονεκτήματα / Μειονεκτήματα Πλεονεκτήματα: Σχετικά γρήγορος. Πολυπλοκότητα: O(tkn), όπου n είναι # δεδομένων, k είναι # ομάδων, και t είναι # επαναλήψεων. Συνήθως k, t << n. Συνήθως βρίσκει τοπικά βέλτιστα. Ολικά βέλτιστα βρίσκονται με χρήση ευρεστικών μεθόδων όπως simulating annealing ή genetic algorithms. Μειονεκτήματα: Πρέπει το k είναι γνωστό, Τι γίνεται στην περίπτωση κατηγοριοποιημένων δεδομένων? 38 Agglomerative Αλγόριθμος Ομαδοποίησης (Ιεραρχικός) Δεδομένων ενός συνόλου Ν σημείων και του αντίστοιχου πίνακα ΝxN αποστάσεων:. Αρχικά δημιουργία Ν ομάδων (όσα και τα σημεία),. Εύρεση του πιο κοντινού ζευγαριού ομάδων και ενοποίησή τους σε μία νέα ομάδα ο # των ομάδων τώρα είναι Ν, 3. Υπολογισμός των αποστάσεων μεταξύ της νέας ομάδας με όλων τις ήδη υπάρχουσες ομάδες, 4. Επανάληψη των βημάτων <> και <3> μέχρι να υπάρχει πλέον μία ομάδα (Ν αντικειμένων). Αυτή η μέθοδος δεν απαιτεί να είναι γνωστός εκ των προτέρω οαριθμόςτωνομάδωνk. Ηδιαδικασίαμπορείναδιακοπεί στο k βήμα ώστε να δημιουργηθούν k ομάδες. 39
Agglomerative Clustering Πλεονεκτήματα: Δεν απαιτείται να είναι γνωστό το k. Μειονεκτήματα: Δεν απαιτείται να είναι γνωστό το k αλλά χρειάζεται κάποιο κριτήριο τερματισμού, Πολυπλοκότητα O(N ), Δεν μπορεί να αναιρέσει κάποια ομάδα που έχει ήδη δημιουργηθεί. 4 Agglomerative Clustering, Παράδειγμα 4 Agglomerative Clustering, Παράδειγμα 4
K-means clustering Κεντροειδή (centroids) 43 Σύγκριση Αλγορίθμων K-Means Κεντροειδή. 47. 5,33 3. 9,8 4. 8, 5. 97 # σημείων ανά ομάδα.. 3. 7 4. 5 5. Agglomerative Κεντροειδή. 49,75. 58,5 3. 9,5 4. 83,75 5. 97 # σημείων ανά ομάδα. 3. 4 3. 7 4. 5 5. 44 ΥΛΟΠΟΙΗΣΗ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ K MEANS ΣΕ ΒΙΟΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ (Α ΕΦΑΡΜΟΓΗ) Διαθέτουμε ένα δείγμα ζώων προς ομαδοποίηση με τα εξής χαρακτηριστικά (features) για το κάθε ζώο: Θηλαστικό (, ) = ναι, είναι θηλαστικό = όχι, δεν είναι θηλαστικό Πετάει (, ) =ναι, πετάει = όχι, δεν πετάει Αριθμός ποδιών (,, 4) 5//9
ΔΕΔΟΜΕΝΑ. Σκύλος (,, 4). Γάτα (,, 4) 3. Γεράκι (,, ) 4. Αετός (,, ) 5. Φίδι (,, ). Σαύρα (,, 4) 7. Λιοντάρι (,, 4) 8. Κροκόδειλος (,, 4) 9. Περιστέρι (,, ). Χελώνα (,, 4). Τίγρης (,, 4). Λύκος (,, 4) 3. Χελιδόνι (,, ) 4. Παπαγάλος (,, ) 5. Αλιγάτορας (,, 4). Ιγκουάνα (,, 4) 7. Σκίουρος (,, 4) 8. Καναρίνι (,, ) 9. Ελάφι (,, 4). Κουκουβάγια (,, ). Χαμαιλέων (,, 4) 5//9 ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΔΟΠΟΙΗΣΗΣ Για K=: Cluster==>, Centroid =.54. 4. Aktina:.54 Points:( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) Cluster==>, Centroid =..88.75 Aktina:.9 Points:( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 5//9 ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΔΟΠΟΙΗΣΗΣ Για K=3: Cluster==>, Centroid =.. 4. Aktina:. Points:( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) Cluster==>, Centroid =.. 4. Aktina:. Points:( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) Cluster==>, Centroid =..88.75 Aktina:.9 Points:( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 5//9
ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΔΟΠΟΙΗΣΗΣ Για K=4: Cluster==>, Centroid =.. 4. Aktina:. Points:( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) Cluster==>, Centroid =... Aktina:. Points:( ) Cluster==>, Centroid =... Aktina:. Points:( ) ( ) ( ) ( ) ( ) ( ) ( ) Cluster==>3, Centroid =.. 4. Aktina:. Points:( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) 5//9 Β ΕΦΑΡΜΟΓΗ Στο ίδιο σύνολο δεδομένων προσθέτουμε δύο ακόμη χαρακτηριστικά στα ήδη τρία υπάρχοντα. Θηλαστικό (, ) = ναι, είναι θηλαστικό = όχι, δεν είναι θηλαστικό Πετάει (, ) =ναι, πετάει = όχι, δεν πετάει Αριθμός ποδιών (,, 4) Θερμόαιμο-ψυχρόαιμο (, ) = θερμόαιμο = ψυχρόαιμο Σαρκοφάγο-φυτοφάγο (, ) = σαρκοφάγο = φυτοφάγο 5//9 ΔΕΔΟΜΕΝΑ. Σκύλος (,, 4,, ). Γάτα (,, 4,, ) 3. Γεράκι (,,,, ) 4. Αετός (,,,, ) 5. Φίδι (,,,, ). Σαύρα (,, 4,, ) 7. Λιοντάρι (,, 4,, ) 8. Κροκόδειλος (,, 4,, ) 9. Περιστέρι (,,,, ). Χελώνα (,, 4,, ). Τίγρης (,, 4,, ). Λύκος (,, 4,, ) 3. Χελιδόνι (,,,, ) 4. Παπαγάλος (,,,, ) 5. Αλιγάτορας (,, 4,, ). Ιγκουάνα (,, 4,, ) 7. Σκίουρος (,, 4,, ) 8. Καναρίνι (,,,, ) 9. Ελάφι (,, 4,, ). Κουκουβάγια (,,,, ). Χαμαιλέων (,, 4,, ) 5//9
ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΔΟΠΟΙΗΣΗΣ Για K=3: Cluster==>, Centroid =.. 4...7 Aktina:.7 Points:( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) Cluster==>, Centroid =..88.75.88.3 Aktina:.8 Points:( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) Cluster==>, Centroid =.. 4...7 Aktina:.7 Points:( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) ( 4 ) 5//9 ΟΜΑΛΟΠΟΙΗΣΗ Ομαλοποιούμε τις μεταβλητές κάθε δείγματος, που αντιστοιχούν στον αριθμό των ποδιών, μεταφέροντας στους στο πεδίο τιμών [,], χρησιμοποιώντας τη μέθοδο ελαχίστου-μεγίστου (min-max normalization): (x x min )/(x max x min ) 5//9 ΔΕΔΟΜΕΝΑ. Σκύλος (,,.,, ). Γάτα (,,.,, ) 3. Γεράκι (,,.5,, ) 4. Αετός (,,.5,, ) 5. Φίδι (,,.,, ). Σαύρα (,,.,, ) 7. Λιοντάρι (,,.,, ) 8. Κροκόδειλος (,,.,, ) 9. Περιστέρι (,,.5,, ). Χελώνα (,,.,, ). Τίγρης (,,.,, ). Λύκος (,,.,, ) 3. Χελιδόνι (,,.5,, ) 4. Παπαγάλος (,,.5,, ) 5. Αλιγάτορας (,,.,, ). Ιγκουάνα (,,.,, ) 7. Σκίουρος (,,.,, ) 8. Καναρίνι (,,.,, ) 9. Ελάφι (,,.,, ). Κουκουβάγια (,,.5,, ). Χαμαιλέων (,,.,, ) 5//9
ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΛΟΠΟΙΗΣΗΣ Για k=4: Cluster==>, Centroid =..... Aktina:. Points:(..... ) (..... ) (..... ) (..... ) (..... ) Cluster==>, Centroid =.....57 Aktina:.57 Points:(...5.. ) (...5.. ) (...5.. ) (...5.. ) (...5.. ) (...5.. ) (...5.. ) Cluster==>, Centroid =...8..7 Aktina:.9 Points:(..... ) (..... ) (..... ) (..... ) (..... ) (..... ) (..... ) Cluster==>3, Centroid =..... Aktina:. Points:(..... ) (..... ) 5//9 ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΛΟΠΟΙΗΣΗΣ Για k=: Cluster==>, Centroid =..... Aktina:. Points:(..... ) (..... ) (..... ) (..... ) (..... ) Cluster==>, Centroid =...5.. Aktina:. Points:(...5.. ) (...5.. ) (...5.. ) (...5.. ) Cluster==>, Centroid =...8.. Aktina:.8 Points:(..... ) (..... ) (..... ) (..... ) (..... ) 5//9 ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΛΟΠΟΙΗΣΗΣ Για k=: Cluster==>3, Centroid =..... Aktina:. Points:(..... ) (..... ) Cluster==>4, Centroid =...5.. Aktina:. Points:(...5.. ) (...5.. ) (...5.. ) Cluster==>5, Centroid =..... Aktina:. Points:(..... ) (..... ) 5//9
Βιβλιογραφία. V. Faber, Clustering and the Continuous k-means Algorithm, Los Alamos Science, vol., pp. 38-44, 994.. A. K. Jain, and R. C. Dubes, Algorithms for Clustering Data, Prentice Hall, 988. 3. B. Κωστίου, Αλγόριθμοι Κατηγοριοποίησης Βιολογικών Δεδομένων, Πτυχιακή Εργασία, ΤΕΙ Λάρισας, Τμήμα Τεχν. Πληρ. & Τηλεπ., 9. Άσκηση Αλγοριθμικήανάπτυξηκαιυλοποίησητωνδύο αλγορίθμων (k-means & agglomerative) σε κάποια γλώσσα προγραμματισμού. Είσοδος Ν=3 δεδομένων (ΠΡΟΣΟΧΗ: πρέπει να είναι διαφορετικά) στο διάστημα [,] και δημιουργία: 3 ομάδων, 4 ομάδων, 5 ομάδων. Σύγκριση των δύο μεθόδων: Σε σχέση με το χρόνο εκτέλεσης, Σε σχέση με τα περιεχόμενα σημεία στις k-ομάδες καθώς επίσης και των αντίστοιχων κεντροειδών. 59