Ομαδοποίηση Ι (Clustering)

Σχετικά έγγραφα
Ομαδοποίηση ΙΙ (Clustering)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Ανάλυση κατά Συστάδες. Cluster analysis

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Συμπίεση χωρίς Απώλειες

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. ιπλωµατική Εργασία

Κεφάλαιο 6: Συσταδοποίηση

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Έξι βαθμοί διαχωρισμού

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Συστήματα Στήριξης Αποφάσεων

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA

Κεφάλαιο 4: Επιλογή σημείου παραγωγής

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

Ασκήσεις μελέτης της 19 ης διάλεξης

Κατανεμημένα Συστήματα Ι

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Πιθανοτικοί Αλγόριθμοι

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Κεφάλαιο 4: Επιλογή σημείου παραγωγής

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Δομές Δεδομένων και Αλγόριθμοι

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

ΑΙΚΑΤΕΡΙΝΗΣ ΤΖΙΜΟΥΛΗ

Πανεπιστήμιο Ιωαννίνων Τμήμα Πληροφορικής Δομές Δεδομένων [ΠΛΥ302] Χειμερινό Εξάμηνο 2012

Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία. Πέτρος Ποτίκας CoReLab 4/5/2006

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Value at Risk (VaR) και Expected Shortfall

Mέτρα (παράμετροι) θέσεως

Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά.

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Δομές Δεδομένων (Data Structures)

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

επιστρέφει το αμέσως μεγαλύτερο από το x στοιχείο του S επιστρέφει το αμέσως μικρότερο από το x στοιχείο του S

IV. Συνέχεια Συνάρτησης. math-gr

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Συσταδοποίηση/ Ομαδοποίηση

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Συστήματα Στήριξης Αποφάσεων

Ευφυής Προγραμματισμός

ΔΙΚΤΥΑ (13) Π. Φουληράς

Άπληστοι Αλγόριθμοι. Επιμέλεια διαφανειών: Δ. Φωτάκης Τροποποιήσεις: Α. Παγουρτζής. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Σχεδίαση & Ανάλυση Αλγορίθμων

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Όρια Αλγόριθμων Ταξινόμησης. Εισαγωγή στην Ανάλυση Αλγορίθμων Μάγια Σατρατζέμη

1η Σειρά Γραπτών Ασκήσεων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μαθηματικά της Φύσης και της Ζωής

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΚΑΤΑΝΑΛΩΤΩΝ ΜΕ ΣΚΟΠΟ ΤΗΝ ΤΙΜΟΛΟΓΗΣΗ

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ << ΧΡΗΣΗ ΥΒΡΙΔΙΚΩΝ ΕΞΕΛΙΚΤΙΚΩΝ ΑΛΓΟΡΙΘΜΩΝ ΣΕ ON LINE ΠΡΟΒΛΗΜΑΤΑ ΟΜΑΔΟΠΟΙΗΣΗΣ >>

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Θεωρία τησ Πληροφορίασ (Θ) ΔΙΔΑΚΩΝ: Δρ. Αναςτάςιοσ Πολίτησ

ιαµέριση - Partitioning

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ταξινόμηση. 1. Ταξινόμηση με Εισαγωγή 2. Ταξινόμηση με Επιλογή. Εισαγωγή στην Ανάλυση Αλγορίθμων Μάγια Σατρατζέμη

Πολλαπλή παλινδρόμηση (Multivariate regression)

Αλγόριθμοι Ταξινόμησης Bubble Sort Quick Sort. Αντρέας Δημοσθένους Καθηγητής Πληροφορικής Ολυμπιάδα 2012

Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Συστήματα Πολυμέσων. Υπερκείμενα & Υπερμέσα A

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης

Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων

Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ

Τεχνητή Νοημοσύνη. 6η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΜΑΘΗΜΑΤΙΚΗ ΔΙΑΤΥΠΩΣΗ, Διαλ. 2. Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 8/4/2017

Κατανεμημένα Συστήματα Ι

Βιοπληροφορική. Ενότητα 16: Μεθοδολογίες (Ανα-) Κατασκευής, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Στοχαστικές Στρατηγικές. διαδρομής (1)

HMY 795: Αναγνώριση Προτύπων

Σημειωματάριο Δευτέρας 4 Δεκ. 2017

Εισαγωγή Ορισμός Frequency moments

Κατακερματισμός (Hashing)

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Ταξινόμηση. Σαλτογιάννη Αθανασία

ΘΕΜΑ 1: Αλγόριθμος Ford-Fulkerson

Αναγνώριση Προτύπων Ι

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Transcript:

Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr

Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση με τη χρήση μοντέλων Ιεραρχικοί αλγόριθμοι Bottom-up, agglomerative Top-down, divisive

Hard και soft ομαδοποίηση Hard ομαδοποίηση: Κάθε παράδειγμα ανήκει σε μία μόνο ομάδα Soft ομαδοποίηση: Κάθε παράδειγμα μπορεί να ανήκει σε περισσότερες από μία ομάδες με κάποια πιθανότητα π ι Μπορεί να θέλουμε βάλουμε κάποια παρατήρηση σε δύο ομάδες πχ αθλητικά παπούτσια στην ομάδα των (i) αθλητική ένδυση (ii) παπούτσια

Αλγόριθμοι ομαδοποίησης Είναι μέθοδος με την οποία ένα σύνολο δεδομένων χωρίζεται σε ομάδες μικρότερων συνόλων με «παρόμοια» δεδομένων. Είναι μέθοδος περιγραφής δεδομένων αλλά και μέθοδος συμπίεσης δεδομένων Είναι μέθοδος με την οποία ένα σύνολο οντοτήτων με κάποιες ιδιότητες χωρίζεται λαμβάνοντας υπ όψιν μια εκ των ιδιοτήτων αυτών αγνοώντας τις υπόλοιπες

Ιεραρχική ομαδοποίηση Παράγει ένα σύνολο από εμφωλευμένες ομαδοποιήσεις οργανωμένες σε ένα ιεραρχικό δένδρο. Μπορεί να αναπαρασταθεί γραφικά από ένα δενδόγραμμα Ένα διάγραμμα οργανωμένο σε μορφή δένδρου όπου καταγράφουμε την ακολουθία των ενώσεων και των διαιρέσεων 6 5 0.2 0.15 0.1 4 3 4 2 5 2 0.05 0 1 3 2 5 4 6 3 1 1

Πλεονεκτήματα Ιεραρχικής Ομαδοποίησης Δεν κάνουμε υποθέσεις για τον αριθμό των ομάδων Μπορούμε να διαλέξουμε τον αριθμό των ομάδων «κόβοντας» το δενδόγραμμα στο κατάλληλο επίπεδο Οι ιεραρχικές ομαδοποιήσεις μπορεί να ανστισοιχούν σε ταξινομήσεις με κάποια σημασία Παραδείγματα από τη Βιολογία (πχ., φυλογεννετικά δένδρα), παγκόσμιο ιστό (πχ., κατάλογοι προϊόντων) κτλ

Ιεραρχική Ομαδοποίηση Έχουμε δύο είδη ιεραρχική ομαδοποίησης Συναρθοιστική (Agglomerative): 1. Αρχίζουμε θεωρώντας όλα τα σημεία σαν ανεξάρτητες ομάδες 2. Σε κάθε βήμα, ενώνουμε τα δύο κοντινότερα σημεία σε μια ομάδα 3. Επαναλαμβάνουμε το βήμα (2) μέχρι να έχουμε μία ομάδα Διαχωριστική (Divisive): 1. Αρχίζουμε με μια ομάδα που περιέχει όλα τα σημεία 2. Χωρίζουμε κάθε ομάδα σε δύο ομάδες 3. Επαναλαμβάνουμε το βήμα (2) μέχρι να έχουμε ομάδες με μόνο ένα σημείο (ή Κ σημεία)

Πολυπλοκότητα αλγορίθμων Ιεραρχικής Ομαδοποίησης Οι ιεραρχικοί αλγόριθμοι χρησιμοποιούν τον Πίνακα Απόστασης, για να αποφασίσουν ποιες ομάδες να ενώσουν ή να σπάσουν. Αν έχουμε Ν σημεία, ο πίνακας είναι ΝχΝ Ο χρόνος που χρειάζεται ένας τέτοιος αλγόριθμος για να τρέξει είναι της τάξης Ο(n 4 ), όπου n είναι ο αριθμός των σημείων Δεν χρησιμοποιείται για μεγάλα σύνολα σημείων

Συναθροιστικός Αλγόριθμος Ιεραρχικής Ομαδοποίησης Ο ποιο δημοφιλής αλγόριθμος Ιεραρχικής Ομαδοποίησης Βήματα αλγορίθμου 1. Υπολογίζουμε τον Πίνακα Αποστάσεων ανάμεσα στα σημεία 2. Αρχικά θεωρούμε κάθε σημείο μια αυτοτελή ομάδα 3. Επαναλαμβάνουμε 4. Ενώνουμε τις δύο κοντινότερες ομάδες 5. Ενημερώνουμε τον Πίνακα Αποστάσεων 6. Μέχρι απομείνει μια και μοναδική ομάδα Το βασικό σημείο για τη λειτουργία του αλγορίθμου είναι ο υπολογισμός της απόστασης ανάμεσα στις δύο ομάδες Διαφορετικοί ορισμοί της απόστασης οδηγούν σε ενδιάμεσες ομαδοποιήσεις και άρα διαφορετικά δενδογράμματα

Περιγραφή του αλγορίθμου Αρχίζουμε με ένα σύνολο σημείων που αποτελούν αυτοτελής ομάδες και το αντίστοιχο Πίνακα Αποστάσεων... p1 p2 p3 p4 p9 p10 p11 p12 p1 p1 p2 p3 p4 p5... p2 p3 p4 p5... Πίνακας αποστάσεων

Περιγραφή του αλγορίθμου Μετά από ορισμένα βήματα καταλήγουμε σε ορισμένες ομάδες... p1 p2 p3 p4 p9 p10 p11 p12 C4 C3 C2 C5 C1

Περιγραφή του αλγορίθμου Ενώνουμε τις δύο κοντινότερες ομάδες (C2 and C5) και ενημερώνουμε τον Πίνακα Αποστάσεων... p1 p2 p3 p4 p9 p10 p11 p12 C4 C3 C2 C5 C1

Περιγραφή του αλγορίθμου Ενώνουμε τις δύο κοντινότερες ομάδες (C2 and C5) και ενημερώνουμε τον Πίνακα Αποστάσεων C1 C2 C3 C4 C5 C3 C4 C1 C2 C3 C4 C1 C5 Πίνακας αποστάσεων C2 C5

Περιγραφή του αλγορίθμου Πως ενημερώνουμε τον Πίνακα Αποστάσεων; C3... p1 p2 p3 p4 p9 p10 p11 p12 C4 C2 U C5 C1

Περιγραφή του αλγορίθμου Πως ενημερώνουμε τον Πίνακα Αποστάσεων; C1 C2 U C5 C3 C4 C3 C1? C4 C2 U C5???? C3? C1 C4? C2 U C5

Απόσταση ανάμεσα σε δυο ομάδες Κάθε ομάδα είναι ένα σύνολο σημείων Πως ορίζουμε την απόσταση ανάμεσα σε δύο σύνολα σημείων Πολλές εναλλακτικές Δεν είναι εύκολη δουλειά

Απόσταση Απλής Ένωσης Απόσταση απλής ένωσης (Single-link distance) ανάμεσα στις ομάδες C i και C j είναι η μικρότερη απόστασης μεταξύ όλων των σημείων της ομάδας C i και της ομάδας C j Η απόσταση ορίζεται ως εξής : D sl C C min d ( x, y) x C, y C i, j x, y i j

Παράδειγμα Απόστασης Απλής Ένωσης Στην ιεραρχική ομαδοποίησης η απόσταση ορίζεται ανάμεσα σε δύο σημεία I1 I2 I3 I4 I5 I1 1.00 0.90 0.10 0.65 0.20 I2 0.90 1.00 0.70 0.60 0.50 I3 0.10 0.70 1.00 0.40 0.30 I4 0.65 0.60 0.40 1.00 0.80 I5 0.20 0.50 0.30 0.80 1.00 1 2 3 4 5

Παράδειγμα 3 5 1 5 2 2 3 1 6 0.2 0.15 0.1 4 4 0.05 0 3 6 2 5 4 1 Εμφωλευμένες ομάδες Δενδόγραμμα

Πλεονεκτήματα Απόσταση Απλής Ένωσης Αρχικά σημεία Μετά την ομαδοποίηση Μπορεί να ξεχωρίσει μη-ελλειπτικά σχήματα

Μειονεκτήματα Απόστασης Απλής Ένωσης Αρχικά σημεία Δύο ομάδες Ευαίσθητη σε θόρυβο και ακραίες τιμές Οι ομάδες είναι επιμήκεις και

Απόσταση Πλήρους Ένωσης Η Απόσταση Πλήρους Ένωσης (Complete-link distance) ανάμεσα στις ομάδες C i και C j είναι η μέγιστη απόσταση ανάμεσα σε κάθε σημείο της ομάδας C i και κάθε σημείο τη ομάδας C j Η απόσταση ανάμεσα σε δυο ομάδες ορίζεται ως : D cl C C max d ( x, y) x C, y C i, j x, y i j

Παράδειγμα Απόσταση Πλήρους Ένωσης Η απόσταση ορίζεται σαν η μέγιστη απόσταση ανάμεσα σε δύο σημεία I1 I2 I3 I4 I5 I1 1.00 0.90 0.10 0.65 0.20 I2 0.90 1.00 0.70 0.60 0.50 I3 0.10 0.70 1.00 0.40 0.30 I4 0.65 0.60 0.40 1.00 0.80 I5 0.20 0.50 0.30 0.80 1.00 1 2 3 4 5

Παράδειγμα Απόσταση Πλήρους Ένωσης 4 1 5 2 5 2 3 6 3 1 4 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 3 6 4 1 2 5 Εμφωλευμένες ομάδες Δενδόγραμμα

Πλεονεκτήματα Απόστασης Πλήρους Ένωσης Αρχικά σημεία Δύο ομάδες Ισορροπημένες ομάδες (η αναλογικά ίδια διάμετρο) Μικρότερη ευαισθησία στο θόρυβο

Μειονεκτήματα της Απόστασης Πλήρους Ένωσης Αρχικά σημεία Δύο ομάδες Σπάει μεγάλες ομάδες σε μικτότερες Όλες οι ομάδες τείνουν να έχουν την ίδια διάμετρο μικρότερες ομάδες συγχωνεύονται με μεγαλύτερες

Απόσταση της μέσης τιμής Ομάδας Απόσταση της μέσης τιμής ομάδας (Group average distance) ανάμεσα στις ομάδες C i και C j είναι η μέση τιμή των αποστάσεων ανάμεσα σε κάθε σημείο της ομάδας C i και κάθε σημείο της ομάδας C j D avg C i, C j C i 1 C j x C, y i C j d( x, y)

Παράδειγμα της Απόστασης της μέσης τιμής Ομάδας Η απόσταση ανάμεσα στις ομάδες είναι η μέση τιμή της απόστασης ανάμεσα σε ανά δύο σημεία στις ομάδες. I1 I2 I3 I4 I5 I1 1.00 0.90 0.10 0.65 0.20 I2 0.90 1.00 0.70 0.60 0.50 I3 0.10 0.70 1.00 0.40 0.30 I4 0.65 0.60 0.40 1.00 0.80 I5 0.20 0.50 0.30 0.80 1.00 1 2 3 4 5

Παράδειγμα της Απόστασης της μέσης τιμής Ομάδας 5 4 1 2 0.25 5 2 4 3 3 1 6 0.2 0.15 0.1 0.05 0 3 6 4 1 2 5 Εμφωλευμένες ομάδες Δενδόγραμμα

Απόσταση της μέσης τιμής Ομάδας Είναι ένας συμβιβασμός ανάμεσα στην Απόσταση Απλής Ένωσης και στην Απόσταση Πλήρους Ένωσης Πλεονεκτήματα Λιγότερο ευαίσθητη απόσταση σε θόρυβο στα δεδομένα και σε ακραίες τιμές Μειονεκτήματα Μεροληπτεί υπέρ μεγάλων ομάδων

Κεντροειδής Απόσταση Η Κεντροειδής Απόσταση (Centroid distance) ανάμεσα σε δύο ομάδες C i και C j είναι η απόσταση ανάμεσα στο κεντροειδές r i της C i και το κεντροειδές r j D centroids της C j C C d( r, r ) i, j i j

Απόσταση Ward H απόσταση Ward (Ward s distance) ανάμεσα σε δύο ομάδες C i και C j είναι η διαφορά ανάμεσα στο συνολικό άθροισμα των τετραγώνων της απόστασης κάθε σημείου από το κεντροειδές τους ομάδας για την κάθε ομάδα ξεχωριστά και του αθροίσματος των τετραγώνων της απόστασης του κάθε σημείο από το κεντροειδές της ένωσης των δύο ομάδων C ij D w 2 2 C i, C j x ri x rj x rij x C r i : κεντροειδές του C i r j : κεντροειδές του C j r ij : κεντροειδές του C ij i x C j x C ij 2

Απόσταση Ward Παρόμοια αποτελέσματα με την Απόσταση της μέσης τιμής Ομάδας και την Κεντροειδή Απόσταση Λιγότερο ευαίσθητη σε θόρυβο και ακραίες τιμές Μεροληπτική υπέρ σφαιροειδών ομάδων Η ιεραρχική έκδοση του αλγορίθμου k-means Μπορεί να χρησιμοποιηθεί για να αρχικοποιήσει τον αλγόριθμο k-means

Ιεραρχική ομαδοποίηση : Σύγκριση Απόσταση μέσης τιμής ομάδας Απόσταση Ward 1 2 3 4 5 6 1 2 5 3 4 Απόσταση Απλής Ένωσης Απόσταση Πλήρους Ένωσης 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 3 4 5

Ιεραρχική Ομαδοποίηση: Απαιτήσεις Για ένα σύνολο δεδομένων X που περιέχει n σημεία O(n 2 ) διαθέσιμο χώρο για την αποθήκευση του πίνακα απόστασης O(n 3 ) χρόνο στις περισσότερες περιπτώσεις Υπάρχουν n βήματα και σε κάθε βήμα ο πίνακας απόστασης μεγέθους n 2 πρέπει να προσπελαστεί για ανάγνωση και ενημέρωση Η πολυπλοκότητα μπορεί να ελαττωθεί σε O(n 2 log(n) ) με την χρήση ειδικών δομών δεδομένων

Διαχωριστική ιεραρχική ομαδοποίηση Αρχίζουμε με μια ομάδα που περιέχει όλα τα σημεία Διαχωρίζουμε σε δύο ομάδες Επαναλαμβάνουμε μέχρι να έχουμε ένα σημείο σε κάθε ομάδα ή να καταλήξουμε έναν επιθυμητό αριθμό ομάδων Η μονοθέσια διαχωριστική μέθοδος διαχωρίζει την ομάδα χρησιμοποιώντας μια μεταβλητή/διάσταση την φορά

Ομαδοποίηση βασισμένη σε μοντέλα κατανομών Υποθέτουνε ότι τα δεδομένα προέρχονται από k οικογένειες κατανομών Στόχος: Να βρούμε τις παραμέτρους των κατανομών Ο αλγόριθμος: Expectation Maximization (EM) Αποτέλεσμα: Παράμετροι κατανομών και μια ομαδοποίηση των παρατηρήσεων

Ομαδοποίηση βασισμένη μοντέλα κατανομών Υποθέτουμε k κατανομές με παραμέτρους: (θ 1,, θ k ) Δοθέντων των παρατηρήσεων X, υπολογίζουμε τις (θ 1,, θ k ) ώστε η ποσότητα Pr(X θ 1,, θ k ) [likelihood] ή η ποσότητα ln(pr(x θ 1,, θ k )) [loglikelihood] να πάρει τη μέγιστη τιμή (Πρόβλημα Βελτιστοποίησης). Κάθε σημείο xєx δεν είναι αναγκαίο να προέρχεται από μια μόνο κατανομή, αλλά μπορεί να προέρχεται από μέρος ή από όλες τις κατανομές με κάποια πιθανότητα

Αλγόριθμος EM Αρχικοποιούμε για τις k παραμέτρους των κατανομών (θ 1,, θ k ). Κάθε παράμετρος θ i αντιστοιχεί σε ένα κέντροειδές ομάδας Επαναλαμβάνουμε τα δύο παρακάτω βήματα Expectation βήμα: (τυχαία) κατανέμω παρατηρήσεις σε ομάδες Maximation βήμα: υπολογίζουμε τις παραμέτρους (θ 1,, θ k ) βελτιστοποιούν (μεγαλύτερη τιμή) την πιθανοφάνεια (likelihood) για τη δοθείσα κατανομή των παρατηρήσεων του βήματος Expectation

EM Algorithm Αρχικοποιούμε (τυχαία ή βάσει αλγορίθμου) τα k κεντροειδή Επαναλαμβάνουμε: Expectation βήμα: κατανέμω παρατηρήσεις σε ομάδες Maximation βήμα: υπολογίζω τις παραμέτρους Pr( x C ) Pr( x C ) Pr( x C ) i k w k i i k Pr( x n i C k ) j i j r k 1 n n i Pr( xi Ck ) Pr( x C 1 i j ) k