10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ

Σχετικά έγγραφα
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Ομαδοποίηση ΙΙ (Clustering)

ΟΜΟΙΟΤΗΤΑ ΒΙΟΚΟΙΝΟΤΗΤΩΝ

Ομαδοποίηση Ι (Clustering)

Ανάλυση κατά Συστάδες. Cluster analysis

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Ζητήματα ηήμ με τα δεδομένα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

7. ΕΠΕΞΕΡΓΑΣΊΑ ΣΗΜΆΤΩΝ

Μέτρα της οργάνωσης και της ποιότητας για τον Self-Organizing Hidden Markov Model Map (SOHMMM)

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

11 Ανάλυση Συστάδων

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. ιπλωµατική Εργασία

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Νευρωνικά ίκτυα και Εξελικτικός

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

Κεφάλαιο 6 Πολυμεταβλητές Μέθοδοι Ανάλυσης

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Kεφάλαιο 4. Συστήματα διαφορικών εξισώσεων. F : : F = F r, όπου r xy

HMY 795: Αναγνώριση Προτύπων

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA

HMY 795: Αναγνώριση Προτύπων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Αναγνώριση Προτύπων Ι

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

Αλγόριθμος Ομαδοποίησης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

HMY 795: Αναγνώριση Προτύπων

Το μοντέλο Perceptron

Διακριτικές Συναρτήσεις

HMY 799 1: Αναγνώριση Συστημάτων

HMY 795: Αναγνώριση Προτύπων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Διερεύνηση περιβαλλοντικών χρονοσειρών με στατιστικές μεθόδους και τεχνικές εξόρυξης δεδομένων

/5

ΜΕΘΟΔΟΙ ΕΥΡΕΣΗΣ ΒΕΛΤΙΣΤΟΥ ΠΛΗΘΟΥΣ ΟΜΑΔΩΝ ΓΙΑ ΠΟΛΥΔΙΑΣΤΑΤΑ ΔΕΔΟΜΕΝΑ

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 -

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΚΑΤΑΝΑΛΩΤΩΝ ΜΕ ΣΚΟΠΟ ΤΗΝ ΤΙΜΟΛΟΓΗΣΗ

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ)

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Διαγωνοποίηση μητρών. Στοιχεία Γραμμικής Άλγεβρας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ << ΧΡΗΣΗ ΥΒΡΙΔΙΚΩΝ ΕΞΕΛΙΚΤΙΚΩΝ ΑΛΓΟΡΙΘΜΩΝ ΣΕ ON LINE ΠΡΟΒΛΗΜΑΤΑ ΟΜΑΔΟΠΟΙΗΣΗΣ >>

Κεφάλαιο 5: Ανάλυση Συστάδων

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Α.Τ.ΕΙ ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΟΛΥΜΕΣΩΝ. ΕΡΓΑΣΤΗΡΙΟ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ

Data Envelopment Analysis

ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΑΚ. ΕΤΟΣ Μαθηματικά για Οικονομολόγους ΙI-Μάθημα 4 Γραμμικά Συστήματα

(p 1) (p m) (m 1) (p 1)

Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής

Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις:

Ανάλυση των Χρηματιστηριακών Δεδομένων με χρήση των Αλγορίθμων Εξόρυξης

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

Υπολογιστική Νοημοσύνη. Μάθημα 10: Ομαδοποίηση με Ανταγωνιστική Μάθηση - Δίκτυα Kohonen

ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΘΕΜΑ

Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων

ιαµέριση - Partitioning

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

Ενότητα 3: Περιγραφική Στατιστική (Πίνακες & Αριθμητικά μέτρα)

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Ανταγωνιστική Εκμάθηση Δίκτυα Kohonen. Κυριακίδης Ιωάννης 2013

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ - ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12) ΕΡΓΑΣΙΑ 2 η Ημερομηνία Αποστολής στον Φοιτητή: 28 Νοεμβρίου 2011

Standard Template Library (STL) C++ library

Μεθοδολογίες παρεµβολής σε DTM.

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

HMY 795: Αναγνώριση Προτύπων

Mέτρα (παράμετροι) θέσεως

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Θεωρία Αλγόριθμοι Γραμμικής Βελτιστοποίησης

1/12/2016. Πλεονεκτήματα. Μειονεκτήματα. (Roy, 1994)

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

Αναγνώριση Προτύπων Εργασία 2η Clustering

Transcript:

ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ 1 2 3 1

ΚΑΤΗΓΟΡΊΕΣ ΤΑΞΙΝΌΜΗΣΗΣ Κατευθυνόμενη ταξινόμηση (supervised classification) Μη-κατευθυνόμενη ταξινόμηση (unsupervised classification) Γραμμική: Μη-Γραμμική: Ιεραρχική: Επιμεριστική: Linear Discriminant Analysis Νευρωνικά δίκτυα κλπ. Agglomerative Divisive k-means SOM κλπ. Spectral Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines) κλπ. 2

9. ΜΈΘΟΔΟΙ ΤΑΞΙΝΌΜΗΣΗΣ 3 Μη-κατευθυνόμενη ταξινόμηση: clustering

ΜΗ-ΚΑΤΕΥΘΥΝΌΜΕΝΗ ΤΑΞΙΝΌΜΗΣΗ: ΣΥΣΤΑΔΟΠΟΊΗΣΗ (CLUSTERING) Ιεραρχική: οι νέες ομάδες ταξινόμησης βασίζονται σε προηγούμενες Agglomerative bottom-up Divisive top-down Επιμεριστική: όλες οι ομάδες ορίζονται ταυτόχρονα. Ορισμός του αριθμού ομάδων εκ των προτέρων Αυτόματος ορισμός αριθμού ομάδων (λίγες μέθοδοι) Μέρη συσταδοποίησης: Αντιπροσώπευση δεδομένων με χαρακτηριστικά Υπολογισμός απόστασης χαρακτηριστικών Ομαδοποίηση (ιεραρχική ή επιμεριστική) «Εγκυρότητα» ομάδων 4

(1) ΑΝΤΙΠΡΟΣΏΠΕΥΣΗ ΔΕΔΟΜΈΝΩΝ Μέσω χαρακτηριστικών ή επιλογής μιας υποομάδας δεδομένων Είδη χαρακτηριστικών: Ποσοτικά (quantitative), π.χ. αριθμητικές τιμές, διάρκεια Ποιοτικά (qualitative), π.χ. χρώμα, ένταση ήχου Πολύ σημαντικό μέρος της διαδικασίας, κυρίως για χρονοσειρές. Καλή επιλογή χαρακτηριστικών οδηγεί σε απλή και εύκολα κατανοητή ομαδοποίηση Κακή επιλογή χαρακτηριστικών μπορεί να οδηγήσει σε πολύπλοκη ομαδοποίηση που δεν αντιπροσωπεύει καλά τις φυσικές ομάδες των δεδομένων 5

(2) ΥΠΟΛΟΓΙΣΜΌΣ ΑΠΌΣΤΑΣΗΣ Υπολογισμός της ομοιότητας ή ανομοιότητας μεταξύ ζευγών δεδομένων μέσω μιας αριθμητικής απόστασης. (1) Aπόσταση Minkowski: D d 1/ p p i, j = xi, k x j, k k = 1 ( x x ) όπου xi και xj: ανύσματα χαρακτηριστικών ή δεδομένων διαστάσεων d. (2) Ευκλίδεια (Euclidean): η πιο δημοφιλής, ειδική περίπτωση της απόστασης Minkowski D d ( xi,x j ) = ( xi, k x j, k ) k = 1 2 6

(3) Απόσταση Manhattan: Minkowski για p=1 D d ( xi, x j ) = k = 1 x i, k x j, k - Μειονεκτήματα αποστάσεων Minkowski: (ι) η τάση του μεγαλύτερου (σε πλάτος) χαρακτηριστικού να υπερισχύει των άλλων (ιι) ο επηρεασμός τους από τις τιμές πλάτους, έτσι πρέπει τα χαρακτηριστικά να κανονικοποιούνται πρώτα - Ευκλίδεια απόσταση: πιο κατάλληλη όταν τα δεδομένα σχηματίζουν απομονωμένες ομάδες 7

(4) Τετραγωνισμένη Ευκλίδεια απόσταση: D d ( xi, x j ) = ( xi, k x j, k ) Χρησιμοποιείται κυρίως όταν θέλουμε να δίνεται προοδευτικά μεγαλύτερη βαρύτητα σε ομάδες που είναι πιο απομακρυσμένες. (5) Kullback-Leibler divergence: ομαδοποίηση τ.μ. Μεγάλη τιμή K-L σημαίνει ομοιότητα και ταξινόμηση στην ίδια ομάδα. k = 1 2 8

(6) Απόσταση Chebychev: όταν θέλουμε τα δεδομένα να θεωρούνται ανόμοια όταν διαφέρουν σε οποιαδήποτε διάσταση. DM ( xi, x j ) = max xi x j (7) Απόσταση Power: οι δύο περιπτώσεις του p έχουν διαφορετικές τιμές D d 1/ r p i, j = xi, k x j, k k = 1 ( x x ) p: βαρύτητα απόστασης μεταξύ των διαστάσεων r: βαρύτητα απόστασης μεταξύ δεδομένων 9

(8) Απόσταση Mahalanobis: DM 1 ( x, x ) = ( x x ) Σ ( x x ) T όπου Σ -1 : πίνακας συνδιασποράς i - Όταν Σ=Ι τότε έχουμε Ευκλίδεια απόσταση. j - Διαφέρει από την Ευκλίδεια απόσταση: (ι) λαμβάνει υπόψη τη συσχέτιση μεταξύ των δεδομένων, (ιι) δεν επηρεάζεται από το πλάτος των δεδομένων. i j i j 10

(3) ΟΜΑΔΟΠΟΊΗΣΗ: (Ι) ΙΕΡΑΡΧΙΚΉ Ιεραρχικό «δέντρο»: απεικόνιση ομαδοποίησης με δενδρόγραμμα. Όταν τα δεδομένα έχουν ψηλή διαστασιακότητα η απεικόνιση μέσω δενδρογράμματος δεν είναι η πιο κατάλληλη μέθοδος απεικόνισης και ομαδοποίησης. 11

ΑΛΓΌΡΙΘΜΟΙ AGGLOMERATIVE (1) Κοντινότεροι γείτονες (single-link, nearest neighbour): δημιουργώ ομάδες που έχουν τη μικρότερη απόσταση μεταξύ τους. Οι ομάδες τείνουν να είναι πιο επιμηκείς. (2) Μακρινότεροι γείτονες (complete-link, farthest neighbour): δημιουργώ ομάδες που έχουν τη μεγαλύτερη απόσταση μεταξύ τους. Οι ομάδες τείνουν να είναι πιο συμπαγείς. Για δεδομένα Χ={Χ 1, Χ Ν }, αριθμός ομάδων Μ, πίνακας αποστάσεων Δ με διαστάσεις ΜxΜ και στοιχεία d(.): (ι) Θεωρώ κάθε δεδομένο είναι μια ομάδα. Υπολογίζω την απόσταση Δ μεταξύ όλων των ομάδων, δηλ. d(χ ι,χ ξ ) για ι=ξ=1:ν (ιι) Βρίσκω τις ομάδες με τη μικρότερη (ή μεγαλύτερη ανάλογα με τη μέθοδο) απόσταση και τις συγχωνεύω έτσι ώστε να έχω μια μεγαλύτερη ομάδα. (ιιι) Αν ο αριθμός των ομάδων μετά τη συγχώνευση είναι 1, σταματώ. Αλλιώς, πάω πίσω στο (ιι). 12

Ο πίνακας αποστάσεων, Δ, όταν Μ=Ν υπολογίζεται απευθείας μέσω μιας μεθόδου υπολογισμού απόστασης Όταν Μ<Ν τότε ο πίνακας Δ υπολογίζεται: d is = a p d ps + a q d qs + bd όπου d pq : απόσταση μεταξύ ομάδων p και q, i: νέα ομάδα που δημιουργείται από τη συγχώνευση των ομάδων p και q, και s: μια ομάδα εκτός των p και q. Oι σταθερές a p, a q, b και g παίρνουν τιμές ανάλογα με την ιεραρχική μέθοδο επιλογής. pq + g d ps d qs 13

ΜΕΘΟΔΟΣ a p a q b g Κοντινότεροι γείτονες (Nearest neighbour (single-link)) Μακρινότεροι γείτονες (Farthest neighbour (complete-link)) 0.5 0.5 0-0.5 0.5 0.5 0 0.5 Simple average 0.5 0.5 0 0 Group (weighted) average n p /n i n q /n i 0 0 Median 0.5 0.5-0.25 0 Centroid n p /n i n q /n i -n q n p /n 2 i 0 Ward s error sum of squares (n s +n p )/(n s +n i ) (n s +n q )/(n s +n i ) -n s /(n s +n i ) 0 n j : αριθμός δεδομένων στην ομάδα j 14

Γενικές παρατηρήσεις: Είναι πιο εύκολο να ενωθούν ήδη υπάρχουσες ομάδες μεταξύ τους παρά να δημιουργηθούν νέες ομάδες μεγάλες αλυσίδες ενωμένων ομάδων, linking effect (πιο εμφανές για τη μέθοδο single-link) Μέθοδος single-link είναι πιο ευαίσθητη σε παρεκτρεπόμενες τιμές από τη μέθοδο complete-link Για συμπαγείς και ισομεγέθεις ομάδες Μέθοδος Ward Για συμπαγείς ομάδες με δεδομένα πολύ όμοια completelink Επειδή είναι σπάνιο να υπάρχουν πληροφορίες για το είδος των δεδομένων πριν την ομαδοποίηση, συνήθως χρησιμοποιούνται διάφορες μέθοδοι και η μέθοδος που καταλήγει σε λύση που ερμηνεύεται πιο καλά επιλέγεται. 15

(3) ΟΜΑΔΟΠΌΙΗΣΗ: (ΙΙ) ΕΠΙΜΕΡΙΣΤΙΚΉ Για δεδομένα με ψηλή διαστατικότητα είναι πιο κατάλληλη από ιεραρχικές μεθόδους καλύτερη απεικόνιση Όμως, πρόβλημα: ο αριθμός των ομάδων, ο οποίος είναι συνήθως άγνωστος, πρέπει να προσδιοριστεί από προηγουμένως. Ομαδοποίηση βασίζεται σε βελτιστοποίηση μιας συνάρτησης κριτηρίου (criterion function) συνήθως τρέχουμε τον αλγόριθμο περισσότερο από μια φορά και παίρνουμε το καλύτερο αποτέλεσμα. 16

Σύνηθες κριτήριο για μια ομαδοποίηση L των δεδομένων Χ: squared error e 2 K j ( X L) = n ( j), x c j= 1 i= 1 i j 2 όπου x i (j) : το i th δεδομένο που ανήκει στην ομάδα j, c j : κέντρο της ομάδας j, K: αριθμός ομάδων, n j : αριθμός δεδομένων. 17

ΑΛΓΌΡΙΘΜΟΣ K-MEANS Τυχαία αρχική ομαδοποίηση σε k ομάδες και τα δεδομένα ανακατατάσσονται στις ομάδες recursively ανάλογα με την ομοιότητα του δεδομένου με το κέντρο της ομάδας. Μέθοδος: (1)(ι) Επιλέγω k δεδομένα τα οποία αντιπροσωπεύουν τα κέντρα των k ομάδων (ιι) τοποθετώ το κάθε δεδομένο στην ομάδα με της οποίας το κέντρο είναι πιο κοντά Ή (1)(ι) διαχωρίζω τα δεδομένα τυχαία σε k ομάδες (ιι) υπολογίζω τα κέντρα των ομάδων (2) Υπολογίζω τα νέα κέντρα των ομάδων (3) Αν δε χρειάζεται να μετακινηθούν δεδομένα σε άλλες ομάδες ή αν η αλλάγη στο squared error < μικρής σταθεράς, σταματώ. Αλλιώς πάω στο (1)(ιι) 18

Εξαπλωμένη μέθοδος Προβλήματα: Ευαίσθητη στην επιλογή της αρχικής ομαδοποίησης. Κακή επιλογή μπορεί να οδηγήσει σε local minimum. Ένας τρόπος επίλυσης: εφαρμογή ιεραρχικής μεθόδου για ομαδοποίηση και χρησιμοποίηση του μέσου όρου των ομάδων ως αρχικά κέντρα. Προσδιορισμός του αριθμού ομάδων k προηγουμένως. 19

ΑΛΓΌΡΙΘΜΟΣ SPECTRAL CLUSTERING Ταξινόμηση σε k ομάδες βασιζόμενη στα ιδιοδιανύσματα των δεδομένων, είτε ταυτόχρονα είτε μία-μία. Για δεδομένα Χ={Χ 1,,Χ Ν }: Υπολογισμός πίνακα: A Σχηματισμός πίνακα: ij 2 xi x j exp =, i j 2 2σ 0, i = j n 1/ 2 1/ 2 L = D AD, όπου D = diag j= 1 Εύρεση k ιδιοδιανυσμάτων του L που αντιστοιχούν στις k μεγαλύτερες ιδιοτιμές, Ε={e 1,,e k } A ij 20

Σχηματισμός του πίνακα Ε με διαστάσεις Νxk, όπου κάθε στήλη αντιστοιχεί σε ένα από τα k ιδιοδιανύσματα. Κανονικοποίηση: Y ij = E / ij E j Κάθε γραμμή του Υ θεωρείται ένα σημείο σε k-dimensional χώρο. Ταξινόμηση Υ σε k ομάδες χρησιμοποιώντας μία μέθοδο ομαδοποίησης, π.χ. k-means. Ανάθεση του αρχικού δεδομένου X i στην ομάδα j μόνο αν το ιδιοδιάνυσμα i ανήκει στην ομάδα j. 2 ij 1/ 2 21

Πλεονεκτήματα: Απλή μέθοδος Πραγματοποίηση ομαδοποίησης σε μειωμένες διαστάσεις Προβολή δεδομένων στα ιδιοδιανύσματα δημιουργεί απομωνομένες ομάδες καλύτερη και πιο φυσική ομαδοποίηση Ευσταθής δεν επηρεάζεται από παρεκτρεπόμενες τιμές Μειονέκτημα: Επιλογή αριθμού ομάδων εκ των προτέρων 22

SELF-ORGANISING MAPS (SOMS) «Πλαισιωτά» νευρωνικά δίκτυα (ΝΔ) οι κυψέλες (νευρώνες) των οποίων αντιπροσωπεύουν διαφορετικές ομάδες δεδομένων. Τα ψηλής διαστατικότητας δεδομένα απεικονίζονται σε 2-d πλαίσιο μέσω του SOM Η απόσταση των κυψέλων στο πλαίσιο αντιπροσωπεύει την ομοιότητα μεταξύ των δεδομένων - : Βοηθά στην απεικόνιση Μείωση διαστατικότητας 23

Αποτελείται από: Ένα στρώμα νευρώνων Τα outputs είναι οργανωμένα σε πλαίσιο 2- ή 3-d Κάθε input, X=(x 1,,x n ), είναι ενωμένο με όλους τους νευρώνες output Κάθε νευρώνας j έχει weight vector, w i =(w i1,,w in ) 24

Οι αρχικές τιμές των weight vectors είναι είτε τυχαίες μικρές τιμές, είτε από τις τιμές των 2 μεγαλύτερων principal components Για κάθε δεδομένο εκπαίδευσης υπολογίζεται η Ευκλίδεια απόσταση μεταξύ του και των weight vectors του κάθε νευρώνα. Ο νευρώνας του οποίου το weight vector έχει τη μικρότερη απόσταση με τα δεδομένα best matching unit (BMU) 25

Προσαρμογή των weights του BMU και των νευρώνων που είναι γειτονικά στο BMU: w j [ D( t) w ( )] ( t + 1) = w ( t) + Θ( j, t) α( t) t j j όπου w j (t): weight του νευρώνα j σε χρόνο t α(t): συντελεστής εκμάθησης (motonically decreasing) D(t): δεδομένα εκπαίδευσης Θ(j,t): συνάρτηση «γειτονιάς» (neighbourhood function) εξαρτάται από την απόσταση μεταξύ του BMU και του νευρώνα j. Πιο απλή περίπτωση: Θ( j, t) 1, = 0, για νευρώνες εκτός ττη "γειτονιάς" για νευρώνες εντός ττη "γειτονιάς" 26

(4) ΕΓΚΥΡΌΤΗΤΑ ΟΜΆΔΩΝ Αναγκαία η εκτίμηση των ομάδων γιατί: Μέθοδοι συσταδοποίησης πάντοντε καταλήγουν σε μια ομαδοποίηση, ακόμα κι αν τα δεδομένα είναι θόρυβος και δεν υπάρχει καμιά φυσική ομαδοποίηση Διαφορετικές μεθόδοι πολύ πιθανόν να δώσουν διαφορετικές ομαδοποιήσεις Απαντήσεις σε δύο ερωτήματα: Πόσο καλά η συγκεκριμένη ομαδοποίηση αντιπροσωπεύει τις πραγματικές φυσικές ομάδες των δεδομένων Πώς προσδιορίζουμε το «σωστό» αριθμό ομάδων 27

Χρησιμοποίηση συντελεστών παραμόρφωσης: (1) Εσωτερικά (internal): πληροφορίες από το goodness-of-fit μεταξύ των δεδομένων και της συγκεκριμένης ομαδοποίησης (2) Εξωτερικά (external): πληροφορίες εκτός της διαδικασίας ομαδοποίησης. Συνήθως δεν υπάρχουν πληροφορίες εκ των προτέρων για την αληθινή δομή των δεδομένων, άρα σπάνια χρησιμοποιούνται. Ο προσδιορισμός του αριθμού των ομάδων γίνεται για τις ιεραρχικές μεθόδους 28

(Ι) ΤΙΜΉ ΣΥΓΧΏΝΕΥΣΗΣ Εξέταση της τιμής συγχώνευσης (ΤΣ, fusion level) έναντι του αριθμού ομάδων, j, για προσδιορισμό του επιπέδου στο οποίο να γίνει η «κοπή» του δέντρου Σε κάθε επίπεδο j αντιστοιχεί μια ΤΣ, α 0,α 1,...,α Ν-1, όπου 0,1,...,Ν-1 αντιστοιχούν σε ομαδοποίηση με Ν,Ν-1,...,1 ομάδες. Δηλ. α j είναι η τιμή της απόστασης, d, στο επίπεδο j για την οποία συγχωνεύτηκαν οι δύο ομάδες, i και m: α j = min i< m [ d ], ή α = max[ d ], i, m = 1,..., N j im j i< m ανάλογα με τη μέθοδο (single-link ή complete-link αντίστοιχα) 29 im

Υπολογισμός επιπέδου «κοπής»: α j +1 > μ α + ks α όπου α j+1 : ΤΣ στο επίπεδο j+1, μ α και σ α : μέσος όρος και διασπορά του α αντίστοιχα, k: σταθερά (standard deviate), j=1,...,ν-2 Το επίπεδο j στο οποίο η σχέση αυτή ισχύει είναι το επίπεδο «κοπής» Δηλαδή: ψάχνουμε το επίπεδο j μετά το οποίο οι τιμές του α δεν παρουσιάζουν μεγάλη αλλαγή. 30

α Ν-1 α Ν-2 α Ν-3 31

32

α=0.7444 33

(ΙΙ) ΆΛΛΕΣ ΤΙΜΈΣ Root mean squared standard deviation (RMSSTD) μικρές τιμές αντιστοιχούν σε ομοιογενείς ομάδες R-squared (RS) τιμές από [0,1], όπου 0 ενδυκνείει ομοιογενείς ομάδες Semipartial R-squared (SPR) δείχνει το πόσο αυξάνεται η ανομοιογένεια της ομάδας που δημιουργείται από συγχώνευση 2 ομάδων, δηλ. πρέπει να έχει μικρές τιμές Απόσταση μεταξύ ομάδων ανάλογα με τη μέθοδο: Single-link: η μικρότερη Ευκλίδεια απόσταση μεταξύ όλων των ζευγών των δεδομένων Complete-link: η τιμή sum-of-squares μεταξύ ζευγών ομάδων 34

ΕΠΌΜΕΝΟ ΜΆΘΗΜΑ: 35 Κατευθυνόμενη ταξινόμηση