Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Ζητήματα ηήμ με τα δεδομένα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Ομαδοποίηση Ι (Clustering)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Ομαδοποίηση ΙΙ (Clustering)

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΘΕΜΑ 1: Αλγόριθμος Ford-Fulkerson

Approximation Algorithms for the k-median problem

11 Ανάλυση Συστάδων

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

Ανάλυση κατά Συστάδες. Cluster analysis

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

ιαµέριση - Partitioning

Συσταδοποίηση/ Ομαδοποίηση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΚΑΤΑΝΑΛΩΤΩΝ ΜΕ ΣΚΟΠΟ ΤΗΝ ΤΙΜΟΛΟΓΗΣΗ

2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τμήμα Πληροφορικής και Επικοινωνιών

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Καβάλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Βιομηχανικής Πληροφορικής

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Θεωρία Πληροφορίας. Διάλεξη 12:Κωδικοποίηση Καναλιού με Κώδικες Turbo. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Επαναληπτικές μέθοδοι

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. Κοινωνικά Πειράματα. Καθηγητής Α. Καρασαββόγλου Επίκουρος Καθηγητής Π. Δελιάς

Αριθμητικές Μέθοδοι σε Προγραμματιστικό Περιβάλλον

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

Κεφάλαιο 8. Ομαδοποίηση δεδομένων

Σχήμα 8.46: Δίκτυο αεραγωγών παραδείγματος.

Μεθοδολογία Επιστημονικής Έρευνας

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Δυναμικός Προγραμματισμός

Επιλογή Δείγματος. Απόστολος Βανταράκης Αναπλ. Καθηγητής Ιατρικής

Κεφάλαιο 6: Συσταδοποίηση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Efficient and Effective Clustering Methods for Spatial Data Mining (Αποδοτικές και αποτελεσματικές μέθοδοι ομαδοποίησης για εξόρυξη χωρικών δεδομένων)

Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH

Μάρκετινγκ Υπηρεσιών Τουρισμού Διάλεξη 7η ( ) Τιμολόγηση Υπηρεσιών

Μεθοδολογία Έρευνας Διάλεξη 6 η : Μέθοδοι Δειγματοληψίας

Εισαγωγή στη Διαδικασία Ιεραρχικής Ανάλυσης. Ρόκου Έλενα Μεταδιδακτορική Ερευνήτρια ΕΜΠ Κηρυττόπουλος Κωνσταντίνος Επ.

ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Ι

Η δειγματοληψία Ι. (Από Saunders, Lewis & Thornhill 2009)

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Τεχνητή Νοημοσύνη. 4η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 7. Κοινωνικά πειράματα 7-1

Σχήμα 8.49: Δίκτυο αεραγωγών παραδείγματος.

Αναγνώριση Προτύπων Ι

Ευφυής Προγραμματισμός

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA

κυρτών και σύνθετων σωμάτων

Κεφάλαιο 5. Ανάλυση αλγορίθμων

Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Προσομοίωση Μοντέλων Επιχειρησιακών Διαδικασιών

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

Transcript:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/

Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν το σύγγραμμα «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» Αρχικές εκδόσεις από μέρος των διαφανειών ετοιμάστηκαν από τον Δρ. Α. Νανόπουλο. Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Introduction to Data Mining» των Tan, Steinbach, Kumar, και «Data Mining: Concepts and Techniques» των Jiawei Han, Micheline Kamber. 2

Τί είναι ομαδοποίηση η ανάλυση συστάδων Συστάδα: συλλογή από αντικείμενα που είναι όμοια ή σχετίζονται με κάποιο τρόπο με τα υπόλοιπα αντικείμενα της ομάδας. και που δεν είναι τόσο) όμοια ή δεν σχετίζονται με τα αντικείμενα άλλων ομάδων. Ανάλυση συστάδων Ομαδοποίηση αντικειμένων σε συστάδες. Η ομαδοποίηση μπορεί να θεωρηθεί ως μη επιβλεπόμενη κατηγοριοποίηση: δεν υπάρχουν προκαθορισμένες κατηγορίες. Tυπικές εφαρμογές Ως αυτόνομο εργαλείο ανάλυσης και κατανόησης δεδομένων. Ως προεπεξεργασία δεδομένων. 3

Παραδείγματα εφαρμογών Χρήση γης: Εντοπισμός περιοχών με παρόμοια χρήση γης σε μία βάση δεδομένων με φωτογραφίες από δορυφόρους. Χωροταξικά σχέδια: Εντοπισμός ομάδων κτιρίων σύμφωνα με τον τύπο κατοικίας, αξία, γεωγραφική περιοχή, κλπ. Σεισμογραφικές μελέτες: Ομαδοποίηση βάσει επικέντρων και άλλων χαρακτηριστικών των σεισμών. Ανάλυση προτύπων επεξεργασία ξργ εικόνας. Δεδομένα παγκοσμίου ιστού: ομαδοποίηση ιστοσελίδων, ομαδοποίηση συμπεριφορών χρήσης. Marketing: Βοήθεια στην ανακάλυψη ομάδων πελατών για στοχευμένη διαφήμιση/marketing. 4

Πότε η ομαδοποίηση η είναι καλή; Μία καλή μέθοδος ομαδοποίησης παράγει συστάδες Με μεγάλη ομοιότητα μεταξύ των αντικειμένων στην ίδια συστάδασ Και μικρή ομοιότητα μεταξύ των αντικειμένων σε διαφορετικές συστάδες. Η ποιότητα εξαρτάται από Τη μέθοδο υλοποίησης της τεχνικής ομαδοποίησης. Το μέτρο ομοιότητας που χρησιμοποιείται. Επίσης εξαρτάται από το πόσο μπορεί να ανακαλύψει κρυφά πρότυπα στα δεδομένα. 5

Έννοια συστάδας Αλλά η έννοια της συστάδας δεν είναι πάντοτε αντικειμενική How man clusters? Si Clusters Two Clusters Four Clusters 6

Διαχωρισμοί μεταξύ ομαδοποιήσεων Ιεραρχική vs Διαχωριστική Partitional) ομαδοποίηση Η ιεραρχική ομαδοποίηση παράγει εμφωλιασμένες συστάδες που ανήκουν σε μια ιεραρχία Η διαχωριστική παράγει μη επικαλυπτόμενες συστάδες Αποκλειστική vs μη-αποκλειστική vs ασαφής Πλήρης vs μερική 7

Τύποι Συστάδων: Καλά διαχωρισμένες Καλά διαχωρισμένες Well-Separated) συστάδες: Οι συστάδες είναι σύνολα σημείων όπου κάθε σημείο είναι πιο κοντά σε κάθε άλλο σημείο της ίδιας συστάδας παρά σε κάποιο σημείο άλλης συστάδας. 3 καλά διαχωρισμένες συστάδες 8

Τύποι Συστάδων: Βασισμένες στο κέντρο Η συστάδα περιέχει τα αντικείμενα που είναι κοντύτερα στο δικό της «κέντρο». Centroid vs medoid 9

Άλλοι Τύποι Συστάδων Βάσει γειτνίασης Κάθε σημείο της συστάδας είναι πιο κοντά σε τουλάχιστον ένα άλλο σημείο της συστάδας παρά σε κάθε σημείο εκτός συστάδας. Οι αντίστοιχες τεχνικές βασίζονται κυρίως σε θεωρίες γράφων. Παράδειγμα με 8 συστάδες Βάσει πυκνότητας Πιο γενικά, βάσει κοινών ιδιοτήτων 10

Γενικές Απαιτήσεις στην ΕΔ Κλιμάκωση Δυνατότητα χειρισμού διαφορετικών τύπων δεδομένων Ανακάλυψη συστάδων με οποιοδήποτε σχήμα. Ελάχιστη ή μηδαμινή απαίτηση γνώσης πεδίου domain knowledge) Ικανότητα χειρισμού θορύβου και ανωμαλιών Όχι εξάρτηση από την σειρά των δεδομένων Χειρισμός πολλών διαστάσεων Εισαγωγή περιορισμών Ευχρηστία και εύκολη κατανόηση/επεξήγηση η/ η 11

Μέτρα ομοιότητας/απόστασης: επανάληψη ρ μ η ς/ ης ηψη Ιδιότητες μέτρων ομοιότητας Ιδιότητες μέτρων ομοιότητας Ανακλαστική Συμμετρική ) ) 1 ), s s s = = Συμμετρική ΑΠΟΣΤΑΣΗ=ΜΟΝΟΤΟΝΑ_ΦΘΗΝΟΥΣΑΟΜΟΙΟΤΗ ΤΑ) ), ), s s = ΤΑ) Ιδιότητες μετρικού απόστασης Θετικότητα Ανακλαστικη 0 ), 0 ), d d = = Συμμετρικη Τριγωνική ανισότητα ), ), ), ), ), z d z d d d d + = 12

Τί θα εξετάσουμε 4 βασικές κατηγορίες αλγορίθμων ομαδοποίησης Αλγ. τμηματοποίησης Ιεραρχικοί ρχ αλγόριθμοι Αλγ. βασισμένοι στην πυκνότητα Αλγ. βασισμένοι στην θεωρία γράφων Κλιμάκωση Έλεγχος Εγκυρότητας και τάσης ομαδοποίησης 13

Αλγόριθμοι Τμηματοποίησης Partitioning Algorithms) Μεθοδολογία: Δημιουργία τμηματοποίησης μίας ΒΔ D με n αντικείμενα σε ένα σύνολο k συστάδων. Δεδομένου του k, πρέπει να βρεθεί η τμηματοποίηση η η που βελτιστοποιεί το κριτήριο τμηματοποίησης. Βέλτιστη λύση: πρέπει να εξεταστούν όλες οι περιπτώσεις. Ευρετικές μέθοδοι: k-means, k-medoids, k-nn k-means MacQueen 67): Κάθε συστάδα αντιπροσωπεύεται από το κέντρο της. k-medoids or PAM Partition around medoids) Kaufman & Rousseeuw 87): Κάθε συστάδα αντιπροσωπεύεται από ένα αντικείμενό της. 14

Συνολικός αριθμός ομαδοποιήσεων Sn,k): αριθμός ομαδοποιήσεων n σημείων σε k ομάδες Sn-1,k-1) περιπτώσεις για k-1 ομάδες με n-1 σημεία. Το n-οστό σημείο δημιουργεί νέα ομάδα που συνδυάζεται με κάθε μία από τις Sn-1,k-1) ώστε να προκύψουν k ομάδες με n σημεία. Προκύπτουν συνολικά Sn-1,k-1) περιπτώσεις. Sn-1,k) περιπτώσεις για k ομάδες με n-1 σημεία. Το n- οστό σημείο εντάσσεται σε κάθε μία από τις ομάδες ώστε να προκύψουν k ομάδες με n σημεία. Προκύπτουν συνολικά k*sn-1,k) περιπτώσεις. 15

Συνολικός αριθμός ομαδοποιήσεων Παράδειγμα: ABCDσημεία A,B,C,D σημεία. S4,3) =? A,B) C) A,C) B) A,B) C) D) A,C) B) D) A)B,C) ) A) B,C) D) S3,2) = 3 S3,2) περιπτώσεις A) B) C) S3,3) = 1 A,D) B) C) A) B, D) C) A) B) C, D) 3*S3,3) περιπτώσεις 16

Συνολικός αριθμός ομαδοποιήσεων ς ρ μ ς μ ή n k k n S n n S n S k n ks k n S k n S > + = 0 ) 1 ) 1 1) ) 1, 1) 1, ), n k k n S n n S n S > = = =, 0 ), 1, ), 1,,1) k=4 n k k i k k k n S = 1 1)! 1 ), i i k = 1 )! ), 17

K-means 1. Διάλεξε k τυχαία κέντρα. Τα κέντρα μπορεί να μην αντιστοιχούν σε ένα από τα δεδομένα αντικείμενα.) 2. Ανάθεσε κάθε αντικείμενο στο πλησιέστερο προς αυτό κέντρο. 3. Για κάθε μία από τις k ομάδες, υπολόγισε το νέο κέντρο. 4. Αν όλα τα νέα κέντρα συμπίπτουν με τα προηγούμενα δηλαδή, δεν υπήρξε μεταβολή), τότε τερμάτισε γιατί ο αλγόριθμος έχει συγκλίνει. Αλλιώς, επανάλαβε το βήμα 2. 18

παράδειγμα K-means, βήμα 1 Y k 1 Διάλεξε τα αρχικά 3 κέντρα των συστάδων τυχαία) k 2 k 3 X 19

παράδειγμα K-means, βήμα 2 Y k 1 Ανάθεσε κάθε σημείο στο κοντυνότερο κέντρο k 2 k 3 X 20

παράδειγμα K-means, βήμα 3 Y k 1 k 1 Μετακίνησε κάθε κέντρο στο μέσο της συστάδας. k 2 k 3 k 2 k 3 X 21

παράδειγμα K-means, βήμα 4 Αναθεώρησε την ανάθεση των σημείων για τα οποία υπάρχει κοντινότερο κέντρο Ε: Ποια είναι αυτά τα σημεία; Y k 1 k 3 k 2 X 22

παράδειγμα K-means, βήμα 4α Y 3 σημεία ανατίθενται διαφορετικά k 3 k 2 k 1 X 23

παράδειγμα K-means, βήμα 4ββ Y Επαναυπολογισμός μέσων k 3 k 2 k 1 X 24

παράδειγμα K-means, βήμα 5 Y k 1 Τα κέντρα των συστάδων μετακινούνται στο μέσο τους k 2 k 3 X 25

Σύγκλιση σε τοπικά ελάχιστα SSE = 4 SSE = 16 Επανάληψη με άλλα αρχικά κέντρα 26

Ευαισθησία σε θόρυβο/outliers / 27

Εναλλακτικές συνθήκες τερματισμού μ Μετά από συγκεκριμένο αριθμό επαναλήψεων. Το άθροισμα των μεταβολών των κέντρων είναι κάτω άωαπό ένα κατώφλι. αώφ 28

Πρόβλημα αρχικής επιλογής κέντρων Αν υπάρχουν K συστάδες πραγματικά με n σημεία η κάθε μία,, η πιθανότητα επιλογής ενός κέντρου σε κάθε μία συστάδα είναι μικρή: Για K = 10, τότε Ρ = 10!/10 10 = 0.00036 Κάποιες φορές τα κέντρα θα αυτορυθμιστούν σωστά, και κάποιες φορές όχι. 29

Σημασία αρχικής επιλογής κέντρων 3 Iteration 12 34 56 2.5 2 1.5 1 0.5 0-2 -1.5 15-1 -0.5 05 0 05 0.5 1 15 1.5 2 30

Σημασία αρχικής επιλογής κέντρων 3 Iteration 1 3 Iteration 2 3 Iteration 3 2.5 2.5 2.5 2 2 2 1.5 1.5 1.5 1 1 1 0.5 0.5 0.5 0 0 0-2 -1.5-1 -0.5 0 0.5 1 1.5 2-2 -1.5-1 -0.5 0 0.5 1 1.5 2-2 -1.5-1 -0.5 0 0.5 1 1.5 2 3 Iteration 4 3 Iteration 5 3 Iteration 6 2.5 2.5 2.5 2 2 2 1.5 1.5 1.5 1 1 1 0.5 0.5 0.5 0 0 0-2 -1.5-1 -0.5 0 0.5 1 1.5 2-2 -1.5-1 -0.5 0 0.5 1 1.5 2-2 -1.5-1 -0.5 0 0.5 1 1.5 2 31

Σημασία αρχικής επιλογής κέντρων 3 Iteration 12 34 5 2.5 2 1.5 1 0.5 0-2 -1.5 15-1 -0.5 05 0 05 0.5 1 15 1.5 2 32

Σημασία αρχικής επιλογής κέντρων 3 Iteration 1 3 Iteration 2 2.5 2.5 2 2 1.5 1.5 1 1 0.5 0.5 0 0-2 -1.5-1 -0.5 0 0.5 1 1.5 2-2 -1.5-1 -0.5 0 0.5 1 1.5 2 3 Iteration 3 3 Iteration 4 3 Iteration 5 2.5 2.5 2.5 2 2 2 1.5 1.5 1.5 1 1 1 0.5 0.5 0.5 0 0 0-2 -1.5-1 -0.5 0 0.5 1 1.5 2-2 -1.5-1 -0.5 0 0.5 1 1.5 2-2 -1.5-1 -0.5 0 0.5 1 1.5 2 33

Λύσεις Πολλαπλές επαναλήψεις. Δειγματοληψία και εφαρμογή ιεραρχικής ομαδοποίησης. Επιλογή περισσότερων αρχικών σημείων και κατόπιν επιλογής των πιο απομακρυσμένων. Εκ των υστέρων επεξεργασία Διχοτομικός Bisecting) K-means 34

Bisecting K-means - Παράδειγμα 35

Μη σφαιρικά σχήματα K-means 2 Clusters) Original Points K-means 10 Clusters) 36

Χαρακτηριστικά K-means Πλεονεκτήματα Απλός Γρήγορος Ond)) Μειονεκτήματα Επιλογή k Τοπικά ελάχιστα Ευαισθησία σε θόρυβο, outliers Χαμηλή αποτελεσματικότητα όταν οι πραγματικές συστάδες είναι διαφορετικού μεγέθους, πυκνότητας, ή δεν έχουν σφαιρικό σχήμα. Χρειάζονται αυξημένο k 37

Παραλλαγές K-means K-medians αντί για μέσες τιμές, χρησιμοποιούνται οι ενδιάμεσες Mean των 1, 3, 5, 7, 9: 5 Mean των 1, 3, 5, 7, 1009: Median των 1, 3, 5, 7, 1009: 205 Προτέρημα των Median τιμών: δεν επηρεάζονται από ακραίες τιμές Δειγματοληψία Δ λ ί για μεγάλες ΒΔ) 5 38