ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Σχετικά έγγραφα
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση Ι (Clustering)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. ιπλωµατική Εργασία

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Ανάλυση κατά Συστάδες. Cluster analysis

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Πανεπιστήμιο Θεσσαλίας. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Χωροταξίας Πολεοδομίας και Περιφερειακής Ανάπτυξης

ΜΕΘΟΔΟΙ ΕΥΡΕΣΗΣ ΒΕΛΤΙΣΤΟΥ ΠΛΗΘΟΥΣ ΟΜΑΔΩΝ ΓΙΑ ΠΟΛΥΔΙΑΣΤΑΤΑ ΔΕΔΟΜΕΝΑ

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Τηλεπισκόπηση - Φωτοερμηνεία Ενότητα 11: Είδη Ταξινομήσεων Επιβλεπόμενες Ταξινομήσεις Ακρίβειες.

Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία. Πέτρος Ποτίκας CoReLab 4/5/2006

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

ΙΑΤΡΙΚΗ ΑΠΕΙΚΟΝΙΣΗ & ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας

Θεωρία Γραφημάτων 5η Διάλεξη

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

E [ -x ^2 z] = E[x z]

Αναγνώριση Προτύπων Ι

Μέθοδοι Αναπαράστασης Περιγραµµάτων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 -

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

DIP_05 Τµηµατοποίηση εικόνας. ΤΕΙ Κρήτης

Εξαγωγή κανόνων από αριθµητικά δεδοµένα

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Η διαδικασία Παραγωγής Συνθετικής Εικόνας (Rendering)

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ευφυής Προγραμματισμός

2.8 Άτομα και μόρια. Ερωτήσεις θεωρίας με απαντήσεις

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Κινητός και ιάχυτος Υπολογισµός (Mobile & Pervasive Computing) Ιστοσελίδα του µαθήµατος. Περιεχόµενα. ηµήτριος Κατσαρός, Ph.D.

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

E[ (x- ) ]= trace[(x-x)(x- ) ]

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

ΤΑΞΙΝΟΜΗΣΗ ΠΡΟΤΥΠΩΝ ΜΕ ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΣΤΑΣΗΣ

Αλγόριθμοι και Πολυπλοκότητα

ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΘΕΜΑ

Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων

έντρα ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

Συσταδοποίηση/ Ομαδοποίηση

Αναγνώριση Προτύπων Ι

Διδάσκων: Παναγιώτης Ανδρέου

ΟΜΟΙΟΤΗΤΑ ΒΙΟΚΟΙΝΟΤΗΤΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ << ΧΡΗΣΗ ΥΒΡΙΔΙΚΩΝ ΕΞΕΛΙΚΤΙΚΩΝ ΑΛΓΟΡΙΘΜΩΝ ΣΕ ON LINE ΠΡΟΒΛΗΜΑΤΑ ΟΜΑΔΟΠΟΙΗΣΗΣ >>

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

ιδάσκοντες: Φ. Αφράτη,. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

BIRCH: : An Efficient Data Clustering Method for Very Large Databases

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

Κατάτµηση εικόνας σε οµοιόµορφες περιοχές

Θεωρία Γραφημάτων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Εφαρμογή και Συγκριτική Ανάλυση Μεθόδων Ταξινόμησης για Ενεργειακή και Περιβαλλοντική Κατάταξη Κτιρίων Γραφείων ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Τμήμα Επιστήμης Φυσικής Αγωγής και Αθλητισμού Πρόγραμμα Διδακτορικών Σπουδών ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ

Θεωρία Γραφημάτων 5η Διάλεξη

Γ. Κορίλη Αλγόριθµοι ροµολόγησης

Το μοντέλο Perceptron

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ιαµέριση - Partitioning

ΔΙΚΤΥΑ (13) Π. Φουληράς

Περιεχόμενα. Δομές δεδομένων. Τεχνικές σχεδίασης αλγορίθμων. Εισαγωγή στον προγραμματισμό. Υποπρογράμματα. Επαναληπτικά κριτήρια αξιολόγησης

Απόδοση θεματικών δεδομένων

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Αλγόριθμοι και πολυπλοκότητα Περιήγηση Πανεπιστημίων

ΤΣΑΝΤΑΣ ΝΙΚΟΣ 11/26/2007. Νίκος Τσάντας Τμήμα Μαθηματικών Πανεπιστημίου Πατρών, Ακαδημαϊκό έτος Δικτυωτή Ανάλυση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Ανάκτηση πολυμεσικού περιεχομένου

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Transcript:

Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο ανάλυσης δεδομένων, οργανώνει πρότυπα σε ομάδες (clusters) ή κατηγορίες, πρότυπα που ανήκουν σε μια ομάδα (ομοιότητα μεταξύ τους) Αποτελέσματα ομαδοποίησης: ταξινόμηση νέων δεδομένων, έλεγχος ομοιογένειας δεδομένων, συμπίεση δεδομένων ΣΧΗΜΑ 5.1: Σύνολα δεδομένων στον δυσδιάστατο χώρο Δύο Ομάδες - Δεν υπάρχει μια μοναδική τεχνική ομαδοποίησης όλων των περιπτώσεων Ανθρώπινη αντίληψη: καλύτερη τεχνική ομαδοποίησης (2-d, 3-d χώρο) Υψηλότερες διαστάσεις όχι καλή Πληθώρα μεθόδων - αφορούν συγκεκριμένες εφαρμογές Slide 1

Δημιουργία Ομάδων Slide 2

Δημιουργία Ομάδων Αλγόριθμοι θα ανακαλύψουν ομάδες ακόμα και εάν τα δεδομένα είναι τυχαία Τι αντιπροσωπεύουν τα σημεία, ποια έννοια έχει η ομάδα στην εφαρμογή Αντί της εύρεσης φυσικής δομής δεδομένων, επιβολή αυθαίρετης δομής Σκεπτικισμός για τα αποτελέσματα - Αυξάνουν την κατανόηση του προβλήματος; Ναι! Ομάδες έχουν επιλεγεί σωστά Εάν αποτέλεσμα έρχεται σε αντίθεση με διαίσθηση δεν έχει γίνει πλήρως κατανοητό το πρόβλημα Slide 3

Εφαρμογές Ιατρική: Ομαδοποίηση ασθενειών και συμπτωμάτων Ψυχιατρική: Διάγνωση ομάδων συμπτωμάτων - παράνοια, σχιζοφρένεια Αρχαιολογία: ταξινόμηση πέτρινων εργαλείων, ταφικά κτερίσματα Ανάλυση εικόνας (image analysis): ομάδες pixels με παρόμοια χαρακτηριστικά (χρώμα, texture) Slide 4

Ιδανικές ομάδες Αποτελείται από ένα σύνολο παρομοίων προτύπων Απόσταση μεταξύ προτύπων ίδιας ομάδας μικρότερη από απόσταση μεταξύ προτύπων διαφορετικών ομάδων Ομάδες αποτελούν συνδεδεμένες περιοχές με σχετικά μεγάλη πυκνότητα, διαχωρίζονται από άλλες ομάδες με περιοχές χαμηλής πυκνότητας Αρχικός σχεδιασμός καθορίζει τι σημαίνει ομάδα για την εφαρμογή Μεθοδολογίες ομαδοποίησης βασίζονται σε ιδανικές δομές ομαδοποίησης Περισσότεροι αλγόριθμοι ομαδοποίησης πάντοτε τοποθετούν τα δύο πλησιέστερα πρότυπα στην ίδια ομάδα Slide 5

Μεθοδολογίες Ομαδοποίησης Ιεραρχικοί (hierarchical) Διαχωριστικοί (partitional) Ιεραρχική δομή δεδομένων Δενδρόγραμμα Ιεραρχικοί (hierarchical) Συσσωρευτική (Agglomerate) Aρχικά: N ομάδες - μία για κάθε πρότυπο Ενδιάμεσα: ομάδες ενοποιούνται Τελικά: μια ομάδα που περιέχει όλα τα πρότυπα Διαμοιραστική (divisive) Aρχικά: μια ομάδα που περιέχει όλα τα πρότυπα Ενδιάμεσα: ομάδες διασπώνται Τελικά: N ομάδες - μία για κάθε πρότυπο Εφαρμογές: ταξινόμηση φυτών και ζώων Slide 6

Μεθοδολογίες Ομαδοποίησης Διαχωριστικοί (partitional) Στόχος είναι η δημιουργία ενός συνόλου ομάδων οι οποίες διαχωρίζουν τα δεδομένα σε παρόμοιες ενότητες Πρότυπα τα οποία βρίσκονται σε μικρή απόσταση θεωρούνται ότι είναι όμοια Προκαθορισμένος αριθμός κατηγοριών Χρησιμοποιούν συναρτήσεις κριτηρίων (criterion functions) όπως μέθοδοι ελαχιστοποίησης τετραγώνων, εκτιμητές πυκνότητας και πλησιέστερους γείτονες. Εφαρμογές: Κατηγορίες του προβλήματος δεν σχηματίζουν ευδιάκριτες ομάδες (υπάρχει αλληλοεπικάλυψη) διάκριση μεταξύ μεθόδων ομαδοποίησης και αλγόριθμων ομαδοποίησης Η ίδια μέθοδος ομαδοποίησης μπορεί να υλοποιηθεί διαφορετικά έχοντας σαν αποτέλεσμα την δημιουργία πολλών διαφορετικών αλγορίθμων ομαδοποίησης Forgy s, Isodata είναι βασισμένοι σε μεθόδους οι οποίες ελαχιστοποιούν το τετραγωνικό σφάλμα Slide 7

Ιεραρχική ομαδοποίηση Iατρείο μικρών ζώων δύο μεγάλες ομάδες γάτες, σκύλοι Εάν δύο πρότυπα ανήκουν στην ίδια ομάδα σε ένα επίπεδο, τότε θα ανήκουν στην ίδια ομάδα σε κάθε υψηλότερο επίπεδο Πρότυπα 1, 2 Slide 8

Ιεραρχική ομαδοποίηση 1. Καταχώρηση κάθε ένα από τα N πρότυπα σε μια μοναδική ομάδα 2. Να βρεθούν οι ομάδες με την μεγαλύτερη ομοιότητα μεταξύ τους και να συνχωνευτούν σε μια ομάδα 3. Επανάληψη του βήματος 2 έως ότου όλα τα πρότυπα να ανήκουν στην ίδια ομάδα Χρησιμοποιώντας διαφορετικές μεθόδους για τον καθορισμό της ομοιότητας μεταξύ των ομάδων προκύπτουν διαφορετικοί αλγόριθμοι. Δημοφιλή μέτρα απόστασης: Ευκλέιδεια και Ιπποδάμεια Αλγόριθμος απλής σύνδεσης (Single Linkage) μέθοδος πλησιέστερης γενετίασης (nearest neighbor) ή ελάχιστη μέθοδος (minimum method) απόσταση μεταξύ ομάδων: ελάχιστη απόσταση μεταξύ δύο προτύπων διαφορετικών ομάδων Slide 9

Αλγόριθμος απλής σύνδεσης Slide 10

Αλγόριθμος απλής σύνδεσης Slide 11

Αλγόριθμος απλής σύνδεσης Slide 12

Αλγόριθμος πλήρους σύνδεσης Ονομάζεται επίσης μέγιστη μέθοδος (maximum method) ή απομακρυσμένης γειτνίασης (farthest neighbor). απόσταση μεταξύ ομάδων: μέγιστη απόσταση μεταξύ δύο προτύπων που ανήκουν σε διαφορετικές ομάδες πλησιέστερες ομάδες {1} και {2} ενώνονται Slide 13

Αλγόριθμος πλήρους σύνδεσης μέγιστη απόσταση μεταξύ των ομάδων {1,2} {3}: 11.7 υπόλοιπες στήλες απλά διατηρούνται και αντιγράφονται Μικρότερη απόσταση μεταξύ ομάδων 8: {4}, {5} Slide 14

Αλγόριθμος πλήρους σύνδεσης μέγιστη απόσταση μεταξύ των ομάδων {1,2} {3,4}: 21.5 υπόλοιπες στήλες απλά διατηρούνται και αντιγράφονται Μικρότερη απόσταση μεταξύ ομάδων 9.8: {4,5}, {3} {1,2} {3,4,5} Slide 15

Αλγόριθμος πλήρους σύνδεσης κόβοντας δενδρόγραμμα στo 10 κόβοντας δενδρόγραμμα στo 5 2 ομάδες. 4 ομάδες Που λοιπόν πρέπει να κόψουμε το δενδρόγραμμα; Eυριστική μέθοδος: μεγάλο κάθετο κενό μεγάλο χρόνο ζωής: η διαφορά μεταξύ της απόστασης κατά την οποία η ομάδα ενώνεται από την απόσταση την οποία δημιουργήθηκε. Κόβεται δενδρόγραμμα στo 10 2 ομάδες Slide 16

Σύγκριση Αλγόριθμων Διαφορετικός ο τρόπος καθορισμού της ομοιότητας των προτύπων διαφορετικές ομαδοποίησης για τα ίδια δεδομένα Αλγόριθμος απλής σύνδεσης μειονεκτεί από το φαινόμενο της αλυσίδας: όπου απομακρυσμένα πρότυπα τοποθετούνται στην ίδια ομάδα επειδή έχουν ένα κοινό γειτονικό πρότυπο. Παραδείγματα Duda και Hart Η γραφική αναπαράσταση του αλγόριθμου απλής σύνδεσης είναι μια ελάχιστη δενδρική εξάπλωση (minimum spanning tree) η οποία δημιουργείται προσθέτοντας την πιο κοντινή τιμή μεταξύ των δύο ομάδων. Slide 17

Σύγκριση Αλγόριθμων Slide 18

Σύγκριση Αλγόριθμων α) οι ομάδες είναι συμπαγείς και καλά διαχωρίσιμες αλγόριθμος απλής σύνδεσης βρίσκει εύκολα τις διαχωρίσιμες ομάδες. β) πρότυπα δημιουργούν γέφυρα μεταξύ ομάδων αποτέλεσμα: δημιουργία απρόσμενων ομάδων, μια μεγάλη επιμήκης ομάδα και μια μικρή και συμπαγή. Φαίνεται το φαινόμενο της αλυσίδας. Εφόσον τα αποτελέσματα μιας ομαδοποίησης είναι ιδιαίτερα ευαίσθητα στον θόρυβο και σε μικρές αποκλίσεις των προτύπων στον χώρο τότε το φαινόμενο της αλυσίδας είναι μειονέκτημα. Εάν οι ομάδες είναι επιμήκεις τότε η δημιουργία αλυσίδας μπορεί να είναι και πλεονέκτημα γ) παράδειγμα Slide 19

Σύγκριση Αλγόριθμων Η γραφική αναπαράσταση του αλγορίθμου πλήρης σύνδεσης είναι η δημιουργία ενός γράφου στο οποίο ακμές ενώνουν όλα τα πρότυπα ή κόμβους σε μια ομάδα. Κάθε ομάδα αποτελεί ένα πλήρες υπογράφο. Η απόσταση μεταξύ των ομάδων καθορίζεται από την απόσταση των απομακρυσμένων προτύπων στις δύο ομάδες. Όταν γειτονικά πρότυπα συνενώνονται ο γράφος αλλάζει προσθέτοντας ακμές μεταξύ όλων των πρότυπων κάθε ομάδας. Διάμετρος ομάδας: μεγίστη απόσταση μεταξύ προτύπων στην ομάδα Aπόσταση ομάδων: διάμετρος της συνένωσης των δύο ομάδων. Slide 20

Σύγκριση Αλγόριθμων Κάθε επανάληψη των βημάτων αλγορίθμου πλήρης σύνδεσης αυξάνει κατά το λιγότερο δυνατόν την διάμετρο της νέας ομάδας. Πλεονέκτημα όταν οι πραγματικές ομάδες είναι συμπαγείς και παρόμοιες σε μέγεθος, Παραδείγματα α) και β) Αντίθετα όταν οι πραγματικές ομάδες δεν έχουν αυτά τα χαρακτηριστικά, τότε αποτελέσματα αυθαίρετα Παράδειγμα γ) άλλες συναρτήσεις όπως μέσες τιμές, και το (Centroid) κέντρα βάρους. Αλγόριθμος σύνδεσης μέσων τιμών (average linkage) Αλγόριθμος σύνδεσης κέντρων βάρους (centroid linkage). Μέθοδος Ward: Iεραρχικός αλγόριθμος ο οποίος χρησιμοποιεί τεχνικές ανάλυσης διακύμανσης (analysis of variance) Slide 21

Αλγόριθμος σύνδεσης μέσων τιμών Ο αλγόριθμος απλής σύνδεσης δημιουργεί ομάδες επιμήκης ενώ ο αλγόριθμος πλήρης σύνδεσης παράγει πιο συμπαγείς ομάδες. Ο αλγόριθμος σύνδεσης μέσων τιμών είναι μια προσπάθεια του συμβιβασμού μεταξύ των άκρων των αλγόριθμων απλής και πλήρης σύνδεσης. απόσταση μεταξύ ομάδων: μέση απόσταση των προτύπων κάθε διαφορετικής ομάδας. πλησιέστερες ομάδες {1} και {2} ενώνονται Slide 22

Αλγόριθμος σύνδεσης μέσων τιμών Αρχικός πίνακα απόστασης: d(1,3) = 11.7 d(2,3)=8.1 d({1,2},3)=9.9 υπόλοιπες στήλες απλά διατηρούνται και αντιγράφονται Μικρότερη απόσταση μεταξύ ομάδων 8: {4}, {5} Slide 23

Αλγόριθμος σύνδεσης μέσων τιμών Δεύτερο πίνακα απόστασης: d({1,2},4) = 18.0 d({1,2},5)=19.7 d({1,2},{4,5})=18.9 Μικρότερη απόσταση μεταξύ ομάδων 9.8: {4,5}, {3} {1,2} {3,4,5} Το αποτέλεσμα είναι ακριβώς το ίδιο με τον αλγόριθμο πλήρη σύνδεσης. Ο αλγόριθμος σύνδεσης μεσών τιμών είναι αποτελεσματικός για συμπαγή πρότυπα. Επιπλέον, μπορεί να χρησιμοποιηθεί και σε επιμήκεις ομάδες. Slide 24

Μέθοδος Ward Ονομάζεται επίσης μέθοδος ελάχιστης διακύμανσης (mimimum-variance). Αρχικά όλα τα πρότυπα γίνονται ατομικές ομάδες. Σε κάθε επανάληψη συνενώνεται το ζευγάρι το οποίο παράγει το μικρότερο τετραγωνικό σφάλμα. Τετραγωνικό σφάλμα ομάδας Slide 25

Μέθοδος Ward 5 ομάδες, κάθε μια αποτελείται από ένα πρότυπο Τετραγωνικό Σφάλμα 0 10 διαφορετικοί τρόποι για συνένωση 5 ομάδων {1} [4,4] {2} [8,4] μ = [6,4] E{1,2}= E{3}=0 E{4}=0 E{5}=0 E = 8 + 0 + 0 + 0 =8 Ομάδες {1} και {2} ενώνονται Slide 26

Μέθοδος Ward Ομάδες {1,2} {3} {4} {5} Μικρότερο Ε = 40 {4,5} ενώνονται {1,2} {3} {4,5} Slide 27

Μέθοδος Ward Μικρότερο Ε = 94 Οι ομάδες {3} και {4,5} ενώνονται Γενικά, η μέθοδος του Ward θεωρείται πολύ αποτελεσματική, όμως έχει την τάση δημιουργίας ομάδων μικρού μεγέθους. Ιεραρχικοί αλγόριθμοι αποτελεσματικοί για μικρό αριθμό προτύπων (<20) Slide 28