Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ομαδοποίηση ΙΙ (Clustering)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Αποθήκες εδομένων και Εξόρυξη εδομένων:

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Συσταδοποίηση/ Ομαδοποίηση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Ζητήματα ηήμ με τα δεδομένα

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Οικονομετρία Ι. Ενότητα 5: Ανάλυση της Διακύμανσης. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Κεφάλαιο 6: Συσταδοποίηση

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:

ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΤΗΣ ΜΕΘΟΔΟΥ SIMPLEX

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

Ανάλυση κατά Συστάδες. Cluster analysis

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Ουρά Προτεραιότητας: Heap

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ)

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 4ο

Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΟΙΚΟΝΟΜΕΤΡΙΑ Ι ΦΥΛΛΑΔΙΟ

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

Στατιστική Επιχειρήσεων Ι

Ομαδοποίηση Ι (Clustering)

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE)

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas

Οι παρατηρήσεις του δείγματος, μεγέθους n = 40, δίνονται ομαδοποιημένες κατά συνέπεια ο δειγματικός μέσος υπολογίζεται από τον τύπο:

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ ΣΤΙΣ ΣΥΝΑΡΤΗΣΕΙΣ

Συμπίεση Δεδομένων

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

Εισόδημα Κατανάλωση

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Προσαρμογή καμπύλης με τη μέθοδο των ελαχίστων τετραγώνων

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Γραμμικός Προγραμματισμός Μέθοδος Simplex

Χ. Εμμανουηλίδης, 1

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Γραφο-θεωρητικές µέθοδοι συσταδοποίησης και ο αλγόριθµος Jarvis-Patrick σε βάσεις δεδοµένων Oracle

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία. Πέτρος Ποτίκας CoReLab 4/5/2006

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

9. Παλινδρόμηση και Συσχέτιση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Στατιστική, Άσκηση 2. (Κανονική κατανομή)

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Εισαγωγή στους Αλγόριθμους. Παύλος Εφραιμίδης, Λέκτορας

Τμήμα Μηχανικών Πληροφορικής ΤΕ Η μέθοδος Simplex. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 19/01/2017

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ

Transcript:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/

Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν το σύγγραμμα «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» Αρχικές εκδόσεις από μέρος των διαφανειών ετοιμάστηκαν από τον Δρ. Α. Νανόπουλο. Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Introduction to Data Mining» των Tan, Steinbach, Kumar, και «Data Mining: Concepts and Techniques» των Jiawei Han, Micheline Kamber. 2

Θέματα που θα εξετάσουμε σήμερα Έλεγχος Εγκυρότητας και τάσης ομαδοποίησης Γενικά θέματα κλιμάκωσης Ποιός αλγόριθμος πρέπει να επιλέγεται 3

Εγκυρότητα ομαδοποίησης ης 1.5 1 0.5 0-0.5-1 -1.5-4 -3-2 -1 0 1 2 3 4 Πόσα clusters? 2 ή 3? 4

Εγκυρότητα ομαδοποίησης ης Πώς αξιολογείται η ποιότητα των συστάδων; ; Πολλές φορές το πόσο καλό είναι το αποτέλεσμα είναι υποκειμενικό clusters are in the eye of the beholder! Γιατί χρειάζεται η αξιολόγηση Για την αποφυγή έρευσης προτύπων σε θόρυβο. Για τη σύγκριση διαφορετικών αλγορίθμων. Για τη σύγκριση δύο συνόλων από συστάδες. Για τη σύγκριση γρ δύο συστάδων. Αποτίμηση αποτελέσματος ομαδοποίησης Εσωτερικά κριτήρια (καμία γνώση κλάσεων) Εξωτερικά κριτήρια (γνώση κλάσεων) Σχετικά κριτήρια 5

Εγκυρότητα αλγορίθμων τμηματοποίησης η ης Συμπάγεια (Συνοχή) Πόσο κοντά ή στενά συσχετισμένα είναι τα αντικείμενα μίας συστάδας SSE = i x C i ( x m i είναι το κέντρο της συστάδας i Απομόνωση m i ) 2 Πόσο μακρυά ή καλά διαχωρισμένες είναι οι συστάδες μεταξύ τους. 2 SSB = C i ( m m i ) i C i είναι το μέγεθος της συστάδας i m το κέντρο όλων των συστάδων 6

Αλληλεξάρτηση η η SSE και SSB m 1 m 1 2 3 4 m 2 5 K=1 cluster: SSE= (1 3) 2 SSB= 4 (3 3) Total + (2 3) 2 = 10 + 0 = 10 = 0 2 + (4 3) 2 + (5 3) 2 = 10 K=2 clusters: SSE= SSB= (1 1.5) 2 2 (3 1.5) + (2 1.5) 2 2 + (4 4.5) + 2 (4.5 3) 2 = 9 2 + (5 4.5) 2 = 1 Total = 1+ + 9 = 10 Αποδεικνύεται ότι πάντα το άθροισμα παραμένει σταθερό. Άρα η ελαχιστοποίηση του SSE σημαίνει μεγιστοποίηση του SSB. 7

Αλληλεξάρτηση η η SSE και SSB Απόδειξη: 0 8

Περισσότερα ρ για συνοχή-απομόνωση Η συνοχή μπορεί να υπολογιστεί αν πάρουμε την απόσταση των σημείων της συστάδας μεταξύ τους. cluster SSE = x C ( x i m i ) = 1 2c i x Ci y Ci ( x 2 ) 2 y Η απομόνωση μπορεί να υπολογιστεί αν πάρουμε την απόσταση μεταξύ των κέντρων των συστάδων. Για ισομεγέθεις συστάδες: ολικό SSB = 1 K K 2 c 2 i ( mi m) = ( mi mj) x C 2 K i 1 j 1 K i = = n 9

Έλεγχος σημαντικότητας η SSE και SSB Οι τιμές SSE και SSB ερμηνεύονται μόνο συγκριτικά. Παράγουμε έναν αριθμό συνόλων με αντικείμενα που ακολουθούν ομοιόμορφη μ κατανομή και έχουν τον ίδιο αριθμό αντικειμένων Ομαδοποιούμε μ κάθε τέτοιο σύνολο και υπολογίζουμε γζ τις τιμές SSE και SSB. Εξετάζουμε την κατανομή των τιμών SSE και SSB. Ελέγχουμε κατά πόσο μη αναμενόμενες είναι οι τιμές SSE και SSB που προέκυψαν από την υπό εξέταση ομαδοποίηση. 10

Παράδειγμα Παράγουμε 100 τυχαία σύνολα 150 σημείων στο ίδιο εύρος τιμών. SSE = 63.82 μ = 121.26, σ=7.43 Επίπεδο εμπιστοσύνης 90% 11

Συντελεστής σιλουέτας (αλγόριθμοι τμηματοποίησης) Συνδυασμός συμπάγειας και απομόνωσης Απόσταση ενός αντικειμένου από τα αντικείμενα της ομάδας του συγκριτικά με την απόσταση από τα αντικείμενα άλλων ομάδων α i = μέση απόσταση i-οστού αντικειμένου από τα αντικείμενα της ομάδας του b i = η ελάχιστη μέση απόσταση i-οστού αντικειμένου από αντικείμενα άλλης ομάδας S i = bi ai max{ a i, b Τιμή στο [-1,1], επιθυμητές τιμές > 0 i } 12

Παράδειγμα Εφαρμογή του K-means στα δεδομένα IRIS 1.5 1 0.5 0-0.5-1 -1.5-4 -3-2 -1 0 1 2 3 4 Η μέση τιμή του συντελεστή σιλουέτας είναι ένα μέτρο αξιολόγησης της συσταδοποίησης. Έμμεσα μπορεί να εκτιμηθεί και ο αριθμός των συστάδων! 13

Εγκυρότητα για ιεραρχικούς ρχ αλγορίθμους Συντελεστής CPCC (cophenetic correlation coefficient) μετράει κατά πόσο τα αντικείμενα ταιριάζουν στο (πλήρες) δενδρόγραμμα d(x,y): απόσταση x, y d c (x,y): απόσταση των ομάδων που περιείχαν τα x και y, όταν αυτά τοποθετήθηκαν για πρώτη φορά στην ίδια ομάδα, έπειτα από συγχώνευση των ομάδων τους Οι τιμές είναι στο διάστημα [-1,1]. Οι τιμές πλησιέστερα στο 1 υποδηλώνουν καλύτερη συσταδοποίηση 14

Παράδειγμα Παράγουμε 100 τυχαία σημεία βάσει δύο κανονικών κατανομών και εισάγουμε θόρυβο. Ιεραρχική συσταδοποίηση μονής (αριστερά) και πλήρους (δεξιά) σύνδεσης. CPCC = 0.78 CPCC = 0.88 15

Γενική μέθοδος εγκυρότητας μέσω συσχέτισης Δύο πίνακες Πίνακας Γειτνίασης (Ομοιότητας ή απόστασης) Πίνακας Εμφάνισης (Incidence) Μία γραμμή και μία στήλη για κάθε σημείο. Τιμή 1 σημαίνει ότι τα αντίστοιχα α σημεία βρίσκονται στην ση ίδια συστάδα. σ Τιμή 0 σημαίνει ότι τα αντίστοιχα σημεία βρίσκονται σε διαφορετικη συστάδα. Υπολογισμός συσχέτισης μεταξύ των δύο πινάκων. Καθώς οι πίνακες είναι συμμετρικοί, χρειάζεται ο υπολογισμός μόνο n(n-1) )/ 2 συνδυασμών. Υψηλή συσχέτιση σημαίνει ότι τα σημεία μιας συστάδας είναι κοντά το ένα στο άλλο. Δεν ενδύκνειται για συσταδοποίηση βάσει πυκνότητας ή συνέχειας. 16

Παράδειγμα Εφαρμογή του k-means means. y 1 0.9 0.8 0.7 0.6 0.5 05 0.4 0.3 0.2 01 0.1 0 0 0.2 0.4 0.6 0.8 1 x y 1 0.9 0.8 0.7 0.6 0.5 05 0.4 0.3 0.2 01 0.1 0 0 0.2 0.4 0.6 0.8 1 x Corr = 0.9235 Corr = 0.5810 17

Αποτίμηση η μέσω οπτικοποίησης ης Ταξινομούμε τα αντικείμενα ως προς την ομάδα που ανήκουν και αναπαριστούμε τις αποστάσεις τους σε έναν πίνακα 1 1 10 0.9 0.9 20 0.8 0.8 30 0.7 y 0.7 0.6 0.5 Points P 40 0.6 50 0.5 60 0.4 0.4 0.3 70 80 0.3 0.2 0.2 90 01 0.1 0.1 0 0 0.2 0.4 0.6 0.8 1 x 100 20 40 60 80 100Similarity 0 Points 18

Αποτίμηση η μέσω οπτικοποίησης ης Ταξινομούμε τα αντικείμενα ως προς την ομάδα που ανήκουν και αναπαριστούμε τις αποστάσεις τους σε έναν πίνακα 1.5 1 0.5 0-0.5-1 -1.5 15-4 -3-2 -1 0 1 2 3 4 19

Αποτίμηση η μέσω οπτικοποίησης ης Οι συστάδες σε τυχαία δεδομένα δεν είναι ξεκάθαρες 1 1 10 20 30 0.9 0.8 0.7 0.9 0.8 0.7 Points 40 06 0.6 50 0.5 60 0.4 y 06 0.6 0.5 0.4 70 0.3 0.3 80 02 0.2 02 0.2 90 100 20 40 60 80 100Similarity 0 Points 0.1 0.1 0 0 0.2 0.4 0.6 0.8 1 x DBSCAN 20

Αποτίμηση η μέσω οπτικοποίησης ης Οι συστάδες σε τυχαία δεδομένα δεν είναι ξεκάθαρες 10 0.9 1 1 0.9 20 30 0.8 0.7 0.8 0.7 Po oints 40 0.6 50 0.5 60 0.4 y 0.6 0.5 0.4 70 80 0.3 0.2 0.3 0.2 90 0.1 0.1 100 20 40 60 80 100Similarity 0 0 0 0.2 0.4 0.6 0.8 1 Points x K-means 21

Αποτίμηση η μέσω οπτικοποίησης ης Οι συστάδες σε τυχαία δεδομένα δεν είναι ξεκάθαρες 10 0.9 1 1 0.9 20 30 0.8 0.7 0.8 0.7 Po ints 40 0.6 50 05 0.5 60 0.4 y 0.6 05 0.5 0.4 70 80 0.3 0.2 0.3 0.2 90 01 0.1 01 0.1 100 20 40 60 80 100Similarity 0 Points 0 0 0.2 0.4 0.6 0.8 1 x Complete Link 22

Εγκυρότητα με εξωτερικά κριτήρια γνωρίζουμε εκ των προτέρων την κλάση στην οποία ανήκουν a: Το πλήθος των αντικειμένων που ανήκουν και στην ίδια ομάδα και στην ίδια κλάση. b: Το πλήθος των αντικειμένων που ανήκουν και στην ίδια ομάδα αλλά όχι στην ίδια κλάση. c: Το πλήθος των αντικειμένων που δεν ανήκουν στην ίδια ομάδα αλλά ανήκουν στην ίδια κλάση. Συντελεστής Jaccard a a + b + c πλησιέστερα στο 1 δηλώνουν Ο συντελεστής Jaccard παίρνει τιμές στο διάστημα [0,1]. Τιμές καλύτερη ομαδοποίηση. 23

Παράδειγμα Σύγκριση ιεραρχικών αλγορίθμων Jaccard = 0.58 Jaccard = 0.71 24

Τελευταίο σχόλιο πάνω στην εγκυρότητα The validation of clustering structures is the most difficult and frustrating part of cluster analysis. Without a strong effort in this direction, cluster analysis will remain a black art accessible only to those true believers who have experience and great courage. Algorithms for Clustering Data, Jain and Dubes 25

Πόσες συστάδες υπάρχουν; ; Μελετούμε τις γραφικές παραστάσεις του συντελεστή σιλουέτας ως προς τον αριθμό των συστάδων 1.5 1 05 0.5 0-0.5-1 -1.5-4 -3-2 -1 0 1 2 3 4 26

Πόσες συστάδες υπάρχουν; ; Επίσης μελετούμε τις γραφικές παραστάσεις του SSE ως προς τον αριθμό των συστάδων 6 4 2 10 9 8 7 6 0-2 -4 SSE 5 4 3 2 1-6 5 10 15 0 2 5 10 15 20 25 30 K 27

Τάση ομαδοποίησης ης 150 σημεία με τυχαία κατανομή Υπάρχουν clusters? 28

Έλεγχος βάσει MST Παράγουμε σημεία με τυχαία κατανομή Έστω η υπόθεση Η 0 ότι τα σύνολα δεδομένων προέρχονται από τον ίδιο πληθυσμό. 29

Βήματα ελέγχου Βρες την κυρτή (convex) περιοχή που περικλείει όλα τα σημεία του συνόλου δεδομένων δδ X. Δημιούργησε σύνολο δεδομένων Y με Y = X σημεία, που βρίσκονται εντός της κυρτής ρήςπεριοχής του βήματος 1. Βρες το MST του συνόλου X Y. T είναι ο αριθμός των ακμών του MST, των οποίων η μία τους κορυφή ανήκει στο X και η άλλη στο Y. Απόρριψε την υπόθεση H 0, αν ο αριθμός T είναι μικρός. Εναλλακτικά Απορρίπτουμε την Η 0 σε επίπεδο εμπιστοσύνης a αν Τ < z(a) 30

Παράδειγμα Υπάρχουν clusters? T= 73 από 299 Τ = -8.9 (για επίπεδο σημαντικότητας 95%, αρκεί Τ < 1.96) 31

Έλεγχος βάσει κοντινότερων γειτόνων Βρες την κυρτή (convex) περιοχή που περικλείει όλα τα σημεία του συνόλου δεδομένων X. Δημιούργησε το σύνολο δεδομένων Y με Y << X σημεία που βρίσκονται εντός της κυρτής περιοχής του βήματος 1. Πάρε ένα τυχαίο δείγμα S από σημεία του X, όπου S = Y. Θέτουμε ως X'=X-SX το σύνολο των σημείων που δεν επιλέχθηκαν στο δείγμα. Για κάθε σημείο y i στο Y βρίσκουμε την απόσταση u i από τον κοντινότερο γείτονα που ανήκει στο X. Ομοίως, για κάθε σημείο s i στο S βρίσκουμε την απόσταση w i από τον κοντινότερο γείτονα που ανήκει στο X. S Υπολόγισε το στατιστικό του Hopkins: u i i = 1 = S S i = 1 i = 1 Aπόρριψε ό την υπόθεση H 0, αν το H είναι περίπου 05 0.5. Υπάρχουν συστάδες όταν H > 0.5 H w i + u i 32

Παράδειγμα Υπάρχουν clusters? Δείγμα 50 σημείων. Η=0.77 33

Θέματα που θα εξετάσουμε σήμερα Έλεγχος Εγκυρότητας και τάσης ομαδοποίησης Γενικά θέματα κλιμάκωσης Ποιός αλγόριθμος πρέπει να επιλέγεται 34

Θέματα που πρέπει να προσεχθούν εκτός της πολυπλοκότητας απαιτήσεις σε μνήμη. αποδοτικός υπολογισμός πλησιέστερου κέντρου, γειτόνων ή σημείων μέσα σε δεδομένη απόσταση. όρια στην γειτονικότητα μείωση του αριθμού συγκρίσεων γρ ενός σημείου με κεντρικά σημεία δειγματοληψία τεχνικές διαίρει και βασίλευε περίληψη των δεδομένων παραλληλισμός 35

Θέματα που θα εξετάσουμε σήμερα Έλεγχος Εγκυρότητας και τάσης ομαδοποίησης Γενικά θέματα κλιμάκωσης Ποιός αλγόριθμος πρέπει να επιλέγεται 36

Τύπος συσταδοποίσης: Κριτήρια-παράγοντες επιλογής αλγορίθμου ιεραρχίες, πληρότητα, μοναδικότητα Τύπος συστάδων: Βάσει πρωτοτύπου-κεντρικού σημείου Βάσει γράφου Βάσει πυκνότητας Άλλα κριτήρια, όπως αποδοτικότητα σε συστάδες διαφορετικού μεγέθους, σχήματος, πυκνότητας, δυνατότητα υπολογισμού κεντρικού σημείου, συσταδοποίηση σε υποσύνολο χαρακτηριστικών 37

Κριτήρια-παράγοντες επιλογής αλγορίθμου θόρυβος και ανώμαλες-ακραίες ακραίες τιμές περιγραφή συστάδας ντετερμινιστική συπεριφορά ευαισθησία στη σειρά των δεδομένων αυτόματος υπολογισμός αριθμού συστάδων ύπαρξη αντικειμενικής συνάρτησης 38

Άσκηση η 1 Να αποδειχθεί ότι το παρακάτω άθροισμα είναι 0 39

Να αποδείξετε ότι Άσκηση η 2 cluster SSE = 1 2c ( ( x m = i) 2 ( x y ) 2 x C i i x Ci y Ci 40

Να αποδείξετε ότι Άσκηση η 3 ολικό SSB = x C i c i K 1 K n 2 2 ( mi m) = ( mi mj) 2K i= 1 j= 1 K 41