Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Σχετικά έγγραφα
Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining. Γιάννης Θεοδωρίδης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Ομαδοποίηση Ι (Clustering)

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

Ομαδοποίηση ΙΙ (Clustering)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αλγόριθμοι Εξόρυξης Χωρικών εδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

Ανάλυση κατά Συστάδες. Cluster analysis

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βάλια

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

ιαµέριση - Partitioning

Κεφάλαιο 6: Συσταδοποίηση

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

BIRCH: : An Efficient Data Clustering Method for Very Large Databases

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Ανάκτηση Πληροφορίας

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

ΔΙΑΧΕΙΡΙΣΗ ΕΦΟΔΙΑΣΤΙΚΗΣ ΑΛΥΣΙΔΑΣ

Γ. Κορίλη Αλγόριθµοι ροµολόγησης

Συσταδοποίηση/ Ομαδοποίηση

ιπλωµατική Εργασία «Οµαδοποίηση δεδοµένων σε περιβάλλον υπηρεσιών καταλόγου»

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

έντρα ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τμήμα Πληροφορικής και Επικοινωνιών

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

11 Ανάλυση Συστάδων

επιστρέφει το αμέσως μεγαλύτερο από το x στοιχείο του S επιστρέφει το αμέσως μικρότερο από το x στοιχείο του S

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Heapsort Using Multiple Heaps

Σύνθεση Data Path. ιασύνδεσης. Μονάδες. Αριθµό Μονάδων. Τύπο Μονάδων. Unit Selection Unit Binding. λειτουργιών σε. Μονάδες. Αντιστοίχιση µεταβλητών &

ιδάσκοντες: Φ. Αφράτη,. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

5. Μέθοδοι αναγνώρισης εκπαίδευση χωρίς επόπτη

Αλγόριθμοι και Πολυπλοκότητα

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

4.3. Γραµµικοί ταξινοµητές

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Αναζήτηση Κατά Πλάτος

Κινητός και ιάχυτος Υπολογισµός (Mobile & Pervasive Computing) Ιστοσελίδα του µαθήµατος. Περιεχόµενα. ηµήτριος Κατσαρός, Ph.D.

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ

Επιβλέπων καθηγητής: Βασίλειος Μεγαλοοικονόμου

Εισ. Στην ΠΛΗΡΟΦΟΡΙΚΗ. Διάλεξη 7 η. Βασίλης Στεφανής

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

ιαχείριση Εφοδιαστικής Αλυσίδας

Επεξεργασία Ερωτήσεων

Αποθήκες και Εξόρυξη Δεδομένων

υναμικός Προγραμματισμός

Τεχνολογία Πολυμέσων. Ενότητα # 16: Πολυεκπομπή Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH

ΔΙΑΧΕΙΡΙΣΗ ΕΦΟΔΙΑΣΤΙΚΗΣ ΑΛΥΣΙΔΑΣ

Μάθημα Επιλογής 8 ου εξαμήνου

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

Ταξινόμηση. Σαλτογιάννη Αθανασία

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

inding B Binding -Library Cell

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Αναζήτηση Κατά Πλάτος

Μοντέλο Σύγχρονου ικτύου. Κατανεµηµένα Συστήµατα Ι Μάθηµα Βασικής Επιλογής, Χειµερινού Εξαµήνου Τοµέας Εφαρµογών και Θεµελιώσεων

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Βασικές δοµές δεδοµένων. Ορολογία λιστών. 8.1 Βασικές έννοιες δοµών δεδοµένων 8.2 Υλοποίηση δοµών δεδοµένων 8.3 Μια σύντοµη υπόθεση εργασίας

Βασική Εφικτή Λύση. Βασική Εφικτή Λύση

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Transcript:

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db version: 6-- Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Βασισµένες κατά κύριο λόγο (αλλά όχι αποκλειστικά) στις διαφάνειες που συνοδεύουν το βιβλίο M. H. Dunham: Data Mining, Introductory and Advanced Topics Prentice Hall, Επιµέλεια Ελληνικής έκδοσης Βασίλης Βερύκιος & Γιάννης Θεοδωρίδης, 4-5

Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Εφαρµογές Συσταδοποίησης ιαµέριση µίας Β πελατών µε βάση παρόµοια πρότυπα αγοράς προϊόντων. Οµαδοποίηση των σπιτιών µίας πόλης σε γειτονιές µε βάσηπαρόµοιες ιδιότητες. Αναγνώριση νέων ειδών φυτών Αναγνώριση παρόµοιων προτύπων στη χρήση του Web. 4

Συσταδοποίηση Σπιτιών µε βάσητη(γεωγραφική) απόσταση 5 Συσταδοποίηση Σπιτιών µε βάση κάποιο άλλο χαρακτηριστικό (π.χ. µέγεθος) 6

Συσταδοποίηση vs. Κατηγοριοποίηση Καµία εκ των προτέρων γνώση Αριθµός συστάδων Σηµασία των συστάδων Μη Εποπτευόµενη Μάθηση 7 Ζητήµατα στη Συσταδοποίηση Χειρισµός Ακραίων Σηµείων (outliers) υναµικά Μεταβαλλόµενα εδοµένα αλλαγή συστάδων στην πορεία του χρόνου Ερµηνεία και Αξιολόγηση των αποτελεσµάτων Πλήθος Συστάδων οβέλτιστοςαριθµόςσυστάδωνδενείναιεκτωνπροτέρωνγνωστός Ποια δεδοµέναθαχρησιµοποιηθούν Κλιµάκωση 8

Επίδραση Ακραίων Σηµείων Έχουν αναπτυχθεί ειδικές τεχνικές για ανίχνευση / εξόρυξη ακραίων σηµείων (outlier detection / mining) 9 Το Πρόβληµα της Συσταδοποίησης οθέντων: µιας Β D={t,t,,t n } από εγγραφές, ενός µέτρου οµοιότητας sim(t i, t j ) µεταξύ δύο εγγραφών της Β και µιαςακέραιαςτιµής k, το Πρόβληµα της Συσταδοποίησης είναι η εύρεση µίας αντιστοίχισης f:d {,..., k} όπου κάθε εγγραφή t i της Β αντιστοιχίζεται σε µία συστάδα K j, j k, έτσι ώστε: για κάθε εγγραφή η οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από την ίδια συστάδα να είναι µεγαλύτερη από την οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από άλλες συστάδες. Μία Συστάδα, K j, περιέχει ακριβώς εκείνες τις πλειάδες που αντιστοιχίζονται σε αυτήν.

Συσταδοποίηση Σπιτιών µε βάσητη(γεωγραφική) απόσταση µε βάση κάποιο άλλο χαρακτηριστικό (π.χ. µέγεθος) Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι

Τύποι Συσταδοποίησης Ιεραρχική vs. ιαµέρισης δηµιουργούνται εµφωλιασµένα σύνολα συστάδων από σε,, Νσυστάδες(διαιρετικοί αλγόριθµοι) ή από Ν σε Ν-,...,, συστάδες (συσσωρευτικοί αλγόριθµοι) ήδηµιουργείται απευθείας ένα σύνολο k συστάδων. Αυξητική (ή Σειριακή) vs. Ταυτόχρονη χειρισµός ενός στοιχείου την φορά ή όλων των στοιχείων µαζί. Επικαλυπτόµενη vs. µη-επικαλυπτόµενη επιτρέπεται ή όχι η τοποθέτηση ενός στοιχείου σε περισσότερες από µία συστάδες. Για µικρές (που χωράνε στην κύρια µνήµη) ή µεγάλες Β Προσεγγίσεις Συσταδοποίησης Συσταδοποίηση Ιεραρχική ιαµέρισης Κατηγορική για µεγάλες Β Συσσώρευσης ιαιρετική ειγµατοληψίας Συµπίεσης 4

Απόσταση µεταξύ δύο Συστάδων Απόσταση απλού συνδέσµου (single link): ηελάχιστηαπόσταση µεταξύ στοιχείων των συστάδων Απόσταση πλήρους Συνδέσµου (complete link): η µέγιστη απόσταση µεταξύ στοιχείων των συστάδων Μέση απόσταση: η µέση απόσταση µεταξύ στοιχείων των συστάδων Centroid απόσταση: απόσταση µεταξύ των κέντρων βάρους (centroids) των συστάδων Χαρακτηριστικές τιµές µιας συστάδας Ν στοιχείων 5 Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι 6

Ιεραρχική Συσταδοποίηση Οι συστάδες δηµιουργούνται σε επίπεδα Κάθε επίπεδο αντιπροσωπεύει ένα σύνολο από συστάδες Συσσωρευτικοί αλγόριθµοι (agglomerative) Αρχικά κάθε στοιχείο είναι µία συστάδα Επαναληπτικά οι συστάδες συγχωνεύονται Προσέγγιση bottom-up ιαιρετικοί αλγόριθµοι (divisive) Αρχικάόλαταστοιχείασε µία συστάδα. Οι µεγάλες συστάδες προοδευτικά διαιρούνται. Προσέγγιση top-down 7 ενδρόγραµµα ενδρόγραµµα (dendrogram): µία δενδρική δοµή δεδοµένων η οποία επιδεικνύει τις ιεραρχικές τεχνικές συσταδοποίησης. Κάθε επίπεδο δείχνει τις συστάδες εκείνου του επιπέδου. Φύλλα κάθε στοιχείο αποτελεί ξεχωριστή συστάδα Ρίζα όλαταστοιχείααποτελούν µία συστάδα Μία συστάδα στο επίπεδο i είναι η ένωση των συστάδων-παιδιών στο επίπεδο i+. 8

Επίπεδα της Συσταδοποίησης 9 Παράδειγµα Συσσώρευσης Μήτρα γειτνίασης A B C D E Γράφος αποστάσεων A B A B C 4 5 E C D 4 E 5 D Κατώφλι απόστασης 4 5 A B C D E

Συσσωρευτικός Αλγόριθµος Προσεγγίσεις Συσσωρευτικού Αλγόριθµου Με βάση την τεχνική που χρησιµοποιείται για τον καθορισµό της απόστασης µεταξύ δύο συστάδων Τεχνική Απλού Συνδέσµου (single link) αναζητά συνεκτικές συνιστώσες στο γράφο αποστάσεων ονοµάζεται και τεχνική συσταδοποίησης πλησιέστερου γείτονα (nearest neighbor) Παραλλαγή: µε χρήσηδένδρου ελάχιστης ζεύξης (Minimum Spanning Tree MST) Τεχνική Πλήρους Συνδέσµου (complete link) αναζητά κλίκες στο γράφο αποστάσεων Παραλλαγή: τεχνική συσταδοποίησης απώτατου γείτονα (farthest neighbor) Τεχνική Μέσου Συνδέσµου (average link)

Εναλλακτικές Τεχνικές Συσσώρευσης 4 4 Συσσώρευση βασισµένη σε MST 5 E 4 D 5 C 4 B A E D C B A A B C D E B A E C D

5 5 Συσσωρευτικός Αλγόριθµος Απλού Συνδέσµου βασισµένος σε MST 6 6 ιαίρεση βασισµένη σε MST 5 E 4 D 5 C 4 B A E D C B A B A E C D A B C D E

Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι 7 Συσταδοποίηση µε ιαµέριση Μη ιεραρχική ηµιουργεί τις συστάδες σε ένα βήµα µόνο. Εφόσον υπάρχει µόνο ένα σύνολο συστάδων στην έξοδο, ο χρήστης πρέπει να εισάγει τον επιθυµητό αριθµό των συστάδων, k. Συνήθως χειρίζεται στατικά σύνολα. Πρόβληµα: οι πιθανοί συνδυασµοί n στοιχείων σε k συστάδες είναι ένας πολύ µεγάλος αριθµός (π.χ. > για n=9, k=4) Αναγκαστικά, η αναζήτηση γίνεται σε ένα µικρό υποσύνολο των πιθανών λύσεων 8

ιαµεριστικοί Αλγόριθµοι Τεχνική βασισµένη σε ένδρο Ελάχιστης Ζεύξης (MST) Τετραγωνικού Σφάλµατος (squared error) K-Μέσων (K-means) Πλησιέστερου Γείτονα (nearest neighbor) PAM (partitioning around medoids διαµερισµός γύρω από medoids) Τεχνική βασισµένη σε Γενετικούς Αλγορίθµους Τεχνική βασισµένη σε Νευρωνικά ίκτυα... 9 Αλγόριθµος MST Πολυπλοκότητα O(n ) O(n ) για τη δηµιουργία του MST + O(k ) για τα τελευταία βήµατα

Αλγόριθµος Squared Error Στόχος: η ελαχιστοποίηση του Τετραγωνικού Σφάλµατος Πολυπλοκότητα O(tkn) όπου t το πλήθος των επαναλήψεων Συσταδοποίηση K-Means Το αρχικό σύνολο συστάδων επιλέγεται τυχαία. Επαναληπτικά, τα στοιχεία µετακινούνται µεταξύ συνόλων συστάδων µέχρι να φτάσουµε τοεπιθυµητό σύνολο. Επιτυγχάνεται υψηλός βαθµός οµοιότητας µεταξύ των στοιχείων µίας συστάδας. εδοµένης µίας συστάδας K i ={t i,t i,,t im }, ο µέσος της συστάδας είναι m i = (/m)(t i + + t im ) Ο µέσοςτηςσυστάδαςταυτίζεταιµε τοκέντροβάρους

Παράδειγµα K-Means (σε διάσταση) ίνεται: {, 4,,,,,,, 5}, k= Τυχαία επιλέγουµε, έστω m =, m =4 η επανάληψη: K ={, }, K ={4,,,,,, 5}, m =.5, m =6 η επανάληψη: K ={,, 4}, K ={,,,,, 5}, m =, m =8 η επανάληψη: K ={,, 4, }, K ={,,,, 5}, m =4.75, m =9.6 4 η επανάληψη: K ={,, 4,,, }, K ={,, 5}, m =7, m =5 5 η επανάληψη: δεν αλλάζει τίποτα. Τέλος Αλγόριθµος K-Means 4 Πολυπλοκότητα O(tkn) όπου t το πλήθος των επαναλήψεων

Παράδειγµα K-Means (σε διαστάσεις) Τυχαία επιλογή τριών (k=) αρχικών κέντρων Y k k k 5 X Παράδειγµα K-means, η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k k k 6 X

Παράδειγµα K-means, η επανάληψη Επανυπολογισµός του νέου κέντρου βάρους του κάθε cluster Y k k k k k k 7 X Παράδειγµα K-means, η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k k k 8 X

Παράδειγµα K-means, η επανάληψη τρία στοιχεία αλλάζουν cluster Y k k k 9 X Παράδειγµα K-means, η επανάληψη Επανυπολογισµός του νέου κέντρου βάρους του κάθε cluster Y k k k 4 X

Παράδειγµα K-means, η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k k k εν αλλάζει τίποτα. Άρα, τέλος! 4 X Πλησιέστερος Γείτονας Τα στοιχεία συγχωνεύονται επαναληπτικά µέσα σε συστάδες που βρίσκονται πιο κοντά. Αυξητική προσέγγιση Ένα κατώφλι, t, χρησιµοποιείται για να καθορίσει εάν ένα στοιχείο θα ενταχθεί σε µία από τις υπάρχουσες συστάδες ή εάν θα δηµιουργηθεί µία νέα συστάδα. 4

Αλγόριθµος Πλησιέστερου Γείτονα Πολυπλοκότητα O(n ) 4 Σύνοψη Συσταδοποίηση: ηεύρεσηοµάδων µεταξύ των δεδοµένων ενός συνόλου µε βάσηέναµέτρο απόστασης Τεχνικές: Ιεραρχικές (συσσωρευτικές/διαιρετικές, απλού/πλήρους/µέσου συνδέσµου) ιαµεριστικές (µε πιοδηµοφιλή τον αλγόριθµο Apriori) Άλλες (βασισµένες στην πυκνότητα, σε γενετικούς αλγορίθµους, παράλληλες τεχνικές κ.α.) 44