Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Ομαδοποίηση Ι (Clustering)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Αποθήκες εδομένων και Εξόρυξη εδομένων:

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Ομαδοποίηση ΙΙ (Clustering)

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Συσταδοποίηση/ Ομαδοποίηση

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

Αλγόριθμοι και Πολυπλοκότητα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

11 Ανάλυση Συστάδων

Ανάλυση κατά Συστάδες. Cluster analysis

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA

Κεφάλαιο 6: Συσταδοποίηση

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ιαµέριση - Partitioning

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ

Αλγόριθμοι και πολυπλοκότητα Περιήγηση Πανεπιστημίων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ζητήματα ηήμ με τα δεδομένα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τμήμα Πληροφορικής και Επικοινωνιών

Σειρά Προβλημάτων 5 Λύσεις

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Επαναληπτικές μέθοδοι

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

4.4 Το πρόβλημα του ελάχιστου ζευγνύοντος δένδρου

ΘΕΜΑ 1: Αλγόριθμος Ford-Fulkerson

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Λήψη αποφάσεων υπό αβεβαιότητα

Σχεδίαση και Ανάλυση Αλγορίθμων

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΘΕΜΑ

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

Αριθμητική Λύση Μη Γραμμικών Εξισώσεων Η ΜΕΘΟ ΟΣ ΤΗΣ ΙΧΟΤΟΜΙΣΗΣ 01/25/05 ΜΜΕ 203 ΙΑΛ 2 1

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Λήψη αποφάσεων υπό αβεβαιότητα

Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα).

Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία. Πέτρος Ποτίκας CoReLab 4/5/2006

Συμπίεση Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Άσκηση 3 (ανακοινώθηκε στις 24 Απριλίου 2017, προθεσμία παράδοσης: 2 Ιουνίου 2017, 12 τα μεσάνυχτα).

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βάλια

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

E [ -x ^2 z] = E[x z]

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

Δομές Δεδομένων & Αλγόριθμοι

Quicksort. Πρόβλημα Ταξινόμησης. Μέθοδοι Ταξινόμησης. Συγκριτικοί Αλγόριθμοι

Αλγόριθμοι και πολυπλοκότητα Συγχωνευτική Ταξινόμηση

Αλγόριθμοι εύρεσης ελάχιστων γεννητικών δέντρων (MST)

Σχεδίαση & Ανάλυση Αλγορίθμων

Βασικές Έννοιες Θεωρίας Γραφημάτων

Τεχνητή Νοημοσύνη. 6η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

3η Σειρά Γραπτών Ασκήσεων

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Αριθμητικές Μέθοδοι σε Προγραμματιστικό Περιβάλλον

Quicksort. Επιμέλεια διαφανειών: Δ. Φωτάκης Μικροαλλαγές: Α. Παγουρτζής. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Αναζήτηση Κατά Πλάτος

Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων

Κατανεμημένα Συστήματα Ι

Ταξινόμηση με συγχώνευση Merge Sort

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Ι

Αναζήτηση Κατά Πλάτος

Αλγόριθμοι Ταξινόμησης Μέρος 4

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Καβάλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Βιομηχανικής Πληροφορικής

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»

Εισαγωγή Αποκοπή ευθείας σε 2Δ Αποκοπή πολυγώνου σε 2Δ Αποκοπή σε 3Δ. 3ο Μάθημα Αποκοπή. Γραφικα. Ευάγγελος Σπύρου

Αλγοριθμικές Τεχνικές

ΙΑΤΡΙΚΗ ΑΠΕΙΚΟΝΙΣΗ & ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ

Βασικές Έννοιες Θεωρίας Γραφημάτων

Πιθανοτικοί Αλγόριθμοι

Δένδρα επικάλ επικ υψης ελάχιστου στους

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Transcript:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/

Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν το σύγγραμμα «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» Αρχικές εκδόσεις από μέρος των διαφανειών ετοιμάστηκαν από τον Δρ. Α. Νανόπουλο. Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Introduction to Data Mining» των Tan, Steinbach, Kumar, και «Data Mining: Concepts and Techniques» των Jiawei Han, Micheline Kamber. 2

Τί θα εξετάσουμε 4 βασικές κατηγορίες αλγορίθμων ομαδοποίησης Αλγ. τμηματοποίησης Ιεραρχικοί αλγόριθμοι Αλγ. βασισμένοι στην πυκνότητα Αλγ. βασισμένοι σμέ ση στην θεωρία γράφων Κλιμάκωση Έλεγχος Εγκυρότητας και τάσης ομαδοποίησης ης 3

Αλγόριθμοι Τμηματοποίησης (Partitioning Algorithms) Μεθοδολογία: Δημιουργία τμηματοποίησης μίας ΒΔ D με n αντικείμενα σε ένα σύνολο k συστάδων. Δεδομένου του k, πρέπει να βρεθεί η τμηματοποίηση η η που βελτιστοποιεί το κριτήριο τμηματοποίησης. Βέλτιστη λύση: πρέπει να εξεταστούν όλες οι περιπτώσεις. Ευρετικές μέθοδοι: k-means, k-medoids, k-nn k-means (MacQueen 67): Κάθε συστάδα αντιπροσωπεύεται από το κέντρο της. k-medoids or PAM (Partition around medoids) (Kaufman & Rousseeuw 87): Κάθε συστάδα αντιπροσωπεύεται από ένα αντικείμενό της. 4

K-means 1. Διάλεξε k τυχαία κέντρα. (Τα κέντρα μπορεί να μην αντιστοιχούν σε ένα από τα δεδομένα αντικείμενα.) 2. Ανάθεσε κάθε αντικείμενο στο πλησιέστερο προς αυτό κέντρο. 3. Για κάθε μία από τις k ομάδες, υπολόγισε το νέο κέντρο. 4. Αν όλα τα νέα κέντρα συμπίπτουν με τα προηγούμενα (δηλαδή, δεν υπήρξε μεταβολή), τότε τερμάτισε γιατί ο αλγόριθμος έχει συγκλίνει. Αλλιώς, επανάλαβε το βήμα 2 5

Χαρακτηριστικά K-means Πλεονεκτήματα Απλός Γρήγορος (O(nd)) Μειονεκτήματα Επιλογή k Τοπικά ελάχιστα Ευαισθησία σε θόρυβο, outliers Χαμηλή αποτελεσματικότητα όταν οι πραγματικές συστάδες είναι διαφορετικού μεγέθους, πυκνότητας, ή δεν έχουν σφαιρικό σχήμα. Χρειάζονται αυξημένο k 6

Ομαδοποίηση η πλησιέστερων γειτόνων 2 σημεία στην ίδια ομάδα αν μοιράζονται αρκετούς πλησιέστερους γείτονες i j i j 4 7

Ομαδοποίηση η πλησιέστερων γειτόνων Για κάθε αντικείμενο x i υπολόγιζε τη λίστα L(x i ) με τα k πλησιέστερα αντικείμενα. Για κάθε ζεύγος σημείων x i και x j, αν L(x i ) L(x j ) k t, τότε τοποθέτησε τα x i και x j στην ίδια ομάδα. Οι τιμές των παραμέτρων k και k t προσδιορίζονται εμπειρικά. Όταν το k παίρνει μεγάλες τιμές, ο αλγόριθμος τείνει να συνενώνει ομάδες, ενώ αντιθέτως, για μικρές τιμές του k τείνει να προκαλεί διασπάσεις. Σχετικά με το k t όταν k t =1, τότε ο αλγόριθμος παράγει παρόμοιες ομάδες με αυτές του ιεραρχικού αλγορίθμου μονής σύνδεσης (δες επόμενες διαφάνειες), ) καθώς είναι ευκολότερο να γίνουν συνδέσεις αντικειμένων. Πολυπλοκλότητα O(n 2 ) 8

Παράδειγμα με τα IRIS δεδομένα προβολή στα 2 πρώτα ιδιοδιανύσματα k=20 k=7 k=100 k t =k/2 9

Ευαισθησία στο k t k t k t -1 10

Ομαδοποίηση η αμοιβαίας γειτνίασης x j είναι το είναι το p-οστό p αντικείμενο προς το x i x i είναι το είναι το q-οστό αντικείμενο προς το x j Aν p,q<k, ΑΓ(x i,x j )=p+q, αλλιώς άπειρο Αλγόριθμος: 1. Για κάθε αντικείμενο x i υπολόγιζε τη λίστα L(x i ) με τα k πλησιέστερα αντικείμενα. 2. Για κάθε ζεύγος αντικειμένων x i και x j, υπολόγισε την τιμή ΑΓ(x i, x j ). 3. Εντόπισε όλα τα ζεύγη αντικειμένων με ΑΓ ίσο με 2. Ανάθεσε όλα αυτά τα ζεύγη αντικειμένων στην ίδια ομάδα. 4. Επανάλαβε το βήμα 3 για την επόμενη τιμή ΑΓ μέχρι την τιμή 2k. 11

Τί θα εξετάσουμε 4 βασικές κατηγορίες αλγορίθμων ομαδοποίησης Αλγ. τμηματοποίησης Ιεραρχικοί αλγόριθμοι Αλγ. βασισμένοι στην πυκνότητα Αλγ. βασισμένοι σμέ ση στην θεωρία γράφων Κλιμάκωση Έλεγχος Εγκυρότητας και τάσης ομαδοποίησης ης 12

Βασικές Δομές μς Πίνακας Δεδομένων x 11... x i1......... x 1f... x if......... x 1p... x ip............... x n1... x nf... x np Πίνακας Απόστασης 0 d(2,1) 0 d(3,1 ) d (3,2) 0 : : : d ( n,1) d ( n,2)...... 0 13

Ιεραρχική ρχ Συσταδοποίηση η Δυο βασικοί τύποι ιεραρχικής συσταδοποίησης: Συσσωρευτικός (Agglomerative): Αρχίζει με τα σημεία ως ξεχωριστές συστάδες Σε κάθε βήμα, συγχωνεύει το πιο κοντινό ζευγάρι συστάδων μέχρι μχρναμείνει μόνο μία (ή k) συστάδες Διαιρετικός (Divisive): Αρχίζει με μία συστάδα που περιέχει όλα τα σημεία Σε κάθε βήμα, διαχωρίζει μία συστάδα, έως κάθε συστάδα να περιέχει μόνο ένα σημείο (ή να δημιουργηθούν k συστάδες 14

Ιεραρχική ρχ Συσταδοποίηση: η εισαγωγικά γ Παράγει ένα σύνολο από εμφωλευμένες συστάδες οργανωμένες σε ένα ιεραρχικό δέντρο Μπορεί να παρασταθεί με έναδενδρόγραμμα Δηλ. ένα διάγραμμα που μοιάζει με δένδρο και καταγράφει τις ακολουθίες από συγχωνεύσεις (merges) και διαχωρισμούς (splits) 6 5 0.2 0.15 0.1 4 3 4 2 5 2 0.05 3 1 1 0 1 3 2 5 4 6 15

Συναθροιστική Ιεραρχική ρχ Ομαδοποίηση η 1. Ξεκίνα από την αρχική διαμέριση C 1 = {{x 1 },,{x n }}. Επίσης i=1. 2. Bρες το ζεύγος ομάδων c r και c s με τη μικρότερη απόσταση d(c r, c s ). 3. Συνένωσε τις ομάδες c r και c s και δημιούργησε την ακολουθία C i+1. Θέσε i=i+1. 4. Ενημέρωσε τον πίνακα D, διαγράφοντας τις γραμμές και τις στήλες που αντιστοιχούν στις ομάδες c r και c s. Θώ Θεώρησε μία γραμμή και στήλη, που να αντιστοιχούν στη συνενωμένη ομάδα c r c s. Υπολόγισε την απόσταση της συνενωμένης ομάδα c r c s από όλες τις υπόλοιπες ομάδες, και συμπλήρωσε τις τιμές στη νέα στήλη και τη νέα γραμμή του D. 5. Αν στο βήμα 3 έχει παραχθεί διαμέριση με k ομάδες, τότε σταμάτησε. Διαφορετικά, επανάλαβε το βήμα 2. 16

Αρχική κατάσταση p1 p2 p3 p4 p5.. p1 p2 p3 p4 p5.... Πίνακας Αποστάσεων Κάθε σημείο είναι ένα cluster 17

Ενδιάμεση κατάσταση C3 C4 c1 c2 c1 c2 c3 c4 c5... C1 c3 c4 c5. C2 C5.. Πίνακας Αποστάσεων 18

Συνένωση ομάδων C3 C4 C1 C2 C1 C2 C3 C4 C5 C1 C3 C4 C5 C2 C5 19

Μετά τη συνένωση C3 C4 C1 C2 U C5 C3 C4 C1? C1 C2 U C5???? C2 U C5 C3 C4?? 20

Απόσταση ομάδων Απόσταση;; p1 p2 p3 p4 p1 p2 p3 p4 p5... MIN MAX Μέσος όρος Απόσταση μεταξύ κέντρων Μέθοδος Ward (τετραγωνικό σφάλμα) p5... Πίνακας Αποστάσεων 21

Απόσταση ομάδων MIN MAX p1 p2 p3 p4 p5. p1 p2 p3 p4 p5.... Απόσταση μεταξύ κέντρων. Πίνακας Αποστάσεων Μέσος όρος Μέθοδος Ward (τετραγωνικό σφάλμα) Ανάλογα, χειριζόμαστε και ομοιότητες αντί για αποστάσεις 22

Απόσταση ομάδων MIN MAX Μέσος όρος Απόσταση μεταξύ κέντρων p1 p2 p3 p4 p5 Μέθοδος Ward (τετραγωνικό σφάλμα)... p1 p2 p3 p4 p5... Πίνακας Αποστάσεων 23

Απόσταση ομάδων MIN MAX Μέσος όρος Απόσταση μεταξύ κέντρων p1 p2 p3 p4 p5 Μέθοδος Ward (τετραγωνικό σφάλμα)... p1 p2 p3 p4 p5... Πίνακας Αποστάσεων 24

Απόσταση ομάδων p1 p2 p3 p4 p5... p1 p2 MIN MAX Μέσος όρος Απόσταση μεταξύ κέντρων p3 p4 p5 Μέθοδος Ward (τετραγωνικό σφάλμα)... Πίνακας Αποστάσεων 25

Σύγκριση γρ MIN vs. MAX MIN: αλγόριθμος λό μονής σύνδεσης ύδ (single-link) l MAX: αλγόριθμος πλήρους σύνδεσης (complete-link) 26

Σύγκριση γρ MIN vs. MAX 0 1.1180 2.6926 3.5 3.3541 1.1180 0 2.8282 3.1623 4.1231 2.6926 2.8284 0 1.4142 2.2361 3.5 3.1623 1.4142 0 3.6056 3.35413541 4.1231 2.23612361 3.6056 0 27

Ερμηνεία με θεωρία γράφων Ζυγισμένος γράφος G: κορυφές = αντικείμενα βάρη = αποστάσεις d(i): η απόσταση των ομάδων που συνενώνονται στο i βήμα H(d(i)): o υπογράφος του G με ακμές με βάρη < d(i) () Στο τελικό αποτέλεσμα: Μονής σύνδεσης: κάθε ομάδα αντιστοιχεί σε μία συνιστώσα που είναι spanning tree (ζευγνύον δένδρο) Πλήρους σύνδεσης: κάθε ομάδα, μία κλίκα (πλήρης υπογράφος) 28

Γενική εξίσωση απόστασης Μετά τη συνένωση r και s, βρίσκουμε την απόστασή τους από κάθε άλλη ομάδα k: 29

Αλγόριθμος Ward Το κέντρο της k ομάδας: Τετραγωνικό λάθος: Συνολικό λάθος (Κ ομάδες): Κατά τη συνένωση rs t: r,s t: Σε κάθε βήμα: συνένωση που προκαλεί μικρότερο ΔΕ 2 30

Σύγκριση 5 2 3 2 4 4 5 1 1 3 6 4 1 2 5 5 MIN MAX 2 3 6 3 1 4 4 5 2 2 3 4 1 5 3 6 1 Group Average Ward s Method 5 4 1 2 5 2 3 1 4 3 6 31

Ποιος είναι καταλληλότερος; Εξαρτάται από τα δεδομένα ΜΑΧ: +λιγότερη εξάρτηση σε θόρυβο και outliers. - Τείνει να διασπά μεγάλες συστάδες. Οδηγεί συνήθως σε κυκλικά σχήματα ΜΙΝ: + Contiguity-based (συνεχόμενες συστάδες) + Μπορεί να χειριστεί μη ελλειπτικά (non-elliptical) σχήματα - Ευαίσθητο σε θόρυβο και outliers Μέσος όρος Αά Ανάμεσα σε MIN-MAX MAX + Πλεονεκτήματα: μικρότερη ευαισθησία σε θόρυβο και outliers - Μειονεκτήματα: Ευνοεί κυκλικές συστάδες 32

Άλλο Παράδειγμα: ΜΙΝ ΜAX 33

Πολυπλοκότητα Ιεραρχικών ρχ αλγορίθμων O(N 2 ) χώρο, για τον πίνακα αποστάσεων O(N 3 ) χρόνο N βήματα, σε κάθε βήμα N 2, για τη συνένωση O(N 2 log(n) ) για μονής σύνδεσης σε χαμηλές διαστάσεις 34

Σύγκριση με k-means Δεν απαιτεί τον ορισμό του αριθμού των clusters Oι αποφάσεις σε κάθε βήμα δεν αναιρούνται Όχι τοπικά βέλτιστα. Όμως Υπάρχουν μελέτες που υποστηρίζουν ότι παράγουν καλύτερες συστάδες. Συνδυάζεται με k-means 35

Κ-means vs single link διαφάνεια από M. Vazirgiannis 36