Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Σχετικά έγγραφα
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ομαδοποίηση ΙΙ (Clustering)

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Ομαδοποίηση Ι (Clustering)

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Αλγόριθμοι Εξόρυξης Χωρικών εδομένων

Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining. Γιάννης Θεοδωρίδης

BIRCH: : An Efficient Data Clustering Method for Very Large Databases

ΔΙΑΧΕΙΡΙΣΗ ΕΦΟΔΙΑΣΤΙΚΗΣ ΑΛΥΣΙΔΑΣ

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ιαµέριση - Partitioning

Γ. Κορίλη Αλγόριθµοι ροµολόγησης

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ιαχείριση Εφοδιαστικής Αλυσίδας

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τμήμα Πληροφορικής και Επικοινωνιών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Συσταδοποίηση/ Ομαδοποίηση

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Ανάλυση κατά Συστάδες. Cluster analysis

Κεφάλαιο 6: Συσταδοποίηση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

Αναζήτηση Κατά Πλάτος

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Σύνθεση Data Path. ιασύνδεσης. Μονάδες. Αριθµό Μονάδων. Τύπο Μονάδων. Unit Selection Unit Binding. λειτουργιών σε. Μονάδες. Αντιστοίχιση µεταβλητών &

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

Ενότητα 4. Πρωτόκολλα ροµολόγησης: Αρχές Λειτουργίας του OSPF (Open Shortest Path First)

Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

έντρα ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

Επίλυση Προβληµάτων µε Greedy Αλγόριθµους

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ιδάσκοντες: Φ. Αφράτη,. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Επεξεργασία Ερωτήσεων

Βασικές δοµές δεδοµένων. Ορολογία λιστών. 8.1 Βασικές έννοιες δοµών δεδοµένων 8.2 Υλοποίηση δοµών δεδοµένων 8.3 Μια σύντοµη υπόθεση εργασίας

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βάλια

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Αποθήκες και Εξόρυξη Δεδομένων

Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

Heapsort Using Multiple Heaps

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Δομές δεδομένων. Ενότητα 8: Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find) Παναγιώτα Φατούρου Τμήμα Επιστήμης Υπολογιστών

Αναζήτηση Κατά Πλάτος

Το εσωτερικό ενός Σ Β

Αλγόριθµοι και Πολυπλοκότητα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Αλγόριθµοι και Πολυπλοκότητα

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Δροµολόγηση (Routing)

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Network Algorithms and Complexity Παραλληλοποίηση του αλγορίθμου του Prim. Αικατερίνη Κούκιου

Minimum Spanning Tree: Prim's Algorithm

Αποθήκες εδομένων και Εξόρυξη εδομένων:

ΕΚΘΕΣΗ ΠΡΟΟ ΟΥ Υποψήφιος ιδάκτορας: Ιωάννης Κυριαζής

Αλγόριθμοι και Πολυπλοκότητα

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Ανάκτηση Πληροφορίας

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Initialize each person to be free. while (some man is free and hasn't proposed to every woman) { Choose such a man m w = 1 st woman on m's list to

Κεφ.11: Ευρετήρια και Κατακερματισμός

Αναζήτηση Κατά Πλάτος

Λεξικό, Union Find. ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Κεφάλαιο 4. Διαίρει και Βασίλευε (Divide and Conquer) Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Πεδί α

Κεφάλαιο 14. οµές Ευρετηρίων για Αρχεία. ιαφάνεια 14-1

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

inding B Binding -Library Cell

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Transcript:

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Γενετικοί Αλγόριθµοι Συσταδοποίηση Μεγάλων Β Βασισµένες κατά κύριο λόγο (αλλά όχι αποκλειστικά) στις διαφάνειες που συνοδεύουν το βιβλίο M. H. Dunham: Data Mining, Introductory and Advanced Topics Prentice Hall, Επιµέλεια Ελληνικής έκδοσης Βασίλης Βερύκιος & Γιάννης Θεοδωρίδης, 4-5

Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Γενετικοί Αλγόριθµοι Συσταδοποίηση Μεγάλων Β Εφαρµογές Συσταδοποίησης ιαµέριση µίας Β πελατών µε βάση παρόµοια πρότυπα αγοράς προϊόντων. Οµαδοποίηση των σπιτιών µίας πόλης σε γειτονιές µε βάσηπαρόµοιες ιδιότητες. Αναγνώριση νέων ειδών φυτών Αναγνώριση παρόµοιων προτύπων στη χρήση του Web. 4

Συσταδοποίηση Σπιτιών µε βάσητη(γεωγραφική) απόσταση 5 Συσταδοποίηση Σπιτιών µε βάση κάποιο άλλο γνώρισµα (π.χ. µέγεθος) 6

Συσταδοποίηση vs. Κατηγοριοποίηση Καµία εκ των προτέρων γνώση Αριθµός συστάδων Σηµασία των συστάδων Μη Εποπτευόµενη Μάθηση 7 Ζητήµατα στη Συσταδοποίηση Χειρισµός Ακραίων Σηµείων (outliers) υναµικά Μεταβαλλόµενα εδοµένα αλλαγή συστάδων στην πορεία του χρόνου Ερµηνεία και Αξιολόγηση των αποτελεσµάτων Πλήθος Συστάδων οβέλτιστοςαριθµόςσυστάδωνδενείναιεκτωνπροτέρωνγνωστός Ποια δεδοµέναθαχρησιµοποιηθούν Κλιµάκωση 8

Επίδραση Ακραίων Σηµείων Έχουν αναπτυχθεί ειδικές τεχνικές για ανίχνευση / εξόρυξη ακραίων σηµείων (outlier detection / mining) 9 Το Πρόβληµα της Συσταδοποίησης οθέντων: µιας Β D={t 1,t,,t n } από εγγραφές, ενός µέτρου οµοιότητας sim(t i, t j ) µεταξύ δύο εγγραφών της Β και µιαςακέραιαςτιµής k, το Πρόβληµα της Συσταδοποίησης είναι η εύρεση µίας αντιστοίχισης f:d {1,..., k} όπου κάθε εγγραφή t i της Β αντιστοιχίζεται σε µία συστάδα K j, 1 j k, έτσι ώστε: για κάθε εγγραφή η οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από την ίδια συστάδα να είναι µεγαλύτερη από την οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από άλλες συστάδες. Μία Συστάδα, K j, περιέχει ακριβώς εκείνες τις πλειάδες που αντιστοιχίζονται σε αυτήν. 1

Συσταδοποίηση Σπιτιών µε βάσητη(γεωγραφική) απόσταση µε βάση κάποιο άλλο γνώρισµα (π.χ. µέγεθος) 11 Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Γενετικοί Αλγόριθµοι Συσταδοποίηση Μεγάλων Β 1

Τύποι Συσταδοποίησης Ιεραρχική vs. ιαµέρισης δηµιουργούνται εµφωλιασµένα σύνολα συστάδων από 1 σε,, Νσυστάδες(διαιρετικοί αλγόριθµοι) ή από Ν σε Ν-1,...,, 1 συστάδες (συσσωρευτικοί αλγόριθµοι) ήδηµιουργείται απευθείας ένα σύνολο k συστάδων. Αυξητική (ή Σειριακή) vs. Ταυτόχρονη χειρισµός ενός στοιχείου την φορά ή όλων των στοιχείων µαζί. Επικαλυπτόµενη vs. µη-επικαλυπτόµενη επιτρέπεται ή όχι η τοποθέτηση ενός στοιχείου σε περισσότερες από µία συστάδες. Για µικρές (που χωράνε στην κύρια µνήµη) ή µεγάλες Β 1 Προσεγγίσεις Συσταδοποίησης Συσταδοποίηση Ιεραρχική ιαµέρισης Κατηγορική για µεγάλες Β Συσσώρευσης ιαιρετική ειγµατοληψίας Συµπίεσης 14

Απόσταση µεταξύ δύο Συστάδων Απόσταση απλού συνδέσµου (single link): ηελάχιστηαπόσταση µεταξύ στοιχείων των συστάδων Απόσταση πλήρους Συνδέσµου (complete link): η µέγιστη απόσταση µεταξύ στοιχείων των συστάδων Μέση απόσταση: η µέση απόσταση µεταξύ στοιχείων των συστάδων Centroid απόσταση: απόσταση µεταξύ των κέντρων βάρους (centroids) των συστάδων Χαρακτηριστικές τιµές µιας συστάδας Ν στοιχείων 15 Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Γενετικοί Αλγόριθµοι Συσταδοποίηση Μεγάλων Β 16

Ιεραρχική Συσταδοποίηση Οι συστάδες δηµιουργούνται σε επίπεδα Κάθε επίπεδο αντιπροσωπεύει ένα σύνολο από συστάδες Συσσωρευτικοί αλγόριθµοι (agglomerative) Αρχικά κάθε στοιχείο είναι µία συστάδα Επαναληπτικά οι συστάδες συγχωνεύονται Προσέγγιση bottom-up ιαιρετικοί αλγόριθµοι (divisive) Αρχικάόλαταστοιχείασε µία συστάδα. Οι µεγάλες συστάδες προοδευτικά διαιρούνται. Προσέγγιση top-down 17 ενδρόγραµµα ενδρόγραµµα (dendrogram): µία δενδρική δοµή δεδοµένων η οποία επιδεικνύει τις ιεραρχικές τεχνικές συσταδοποίησης. Κάθε επίπεδο δείχνει τις συστάδες εκείνου του επιπέδου. Φύλλα κάθε στοιχείο αποτελεί ξεχωριστή συστάδα Ρίζα όλαταστοιχείααποτελούν µία συστάδα Μία συστάδα στο επίπεδο i είναι η ένωση των συστάδων-παιδιών στο επίπεδο i+1. 18

Επίπεδα της Συσταδοποίησης 19 Παράδειγµα Συσσώρευσης Μήτρα γειτνίασης A B C D E Γράφος αποστάσεων A B A 1 B C 1 4 1 5 E C D 4 1 E 5 D Κατώφλι απόστασης 1 4 5 A B C D E

Συσσωρευτικός Αλγόριθµος 1 Προσεγγίσεις Συσσωρευτικού Αλγόριθµου Με βάση την τεχνική που χρησιµοποιείται για τον καθορισµό της απόστασης µεταξύ δύο συστάδων Τεχνική Απλού Συνδέσµου (single link) αναζητά συνεκτικές συνιστώσεςστογράφοαποστάσεων ονοµάζεται και τεχνική συσταδοποίησης πλησιέστερου γείτονα (nearest neighbor) Παραλλαγή: µε χρήσηδένδρου ελάχιστης ζεύξης (Minimum Spanning Tree MST) Τεχνική Πλήρους Συνδέσµου (complete link) αναζητά κλίκες στο γράφο αποστάσεων Παραλλαγή: τεχνική συσταδοποίησης απώτατου γείτονα (farthest neighbor) Τεχνική Μέσου Συνδέσµου (average link)

Εναλλακτικές Τεχνικές Συσσώρευσης 4 4 Συσσώρευση βασισµένη σε MST 5 E 1 4 D 5 1 C 4 1 B 1 A E D C B A A B C D E B A E C D

5 5 Συσσωρευτικός Αλγόριθµος Απλού Συνδέσµου βασισµένος σε MST 6 6 ιαίρεση βασισµένη σε MST 5 E 1 4 D 5 1 C 4 1 B 1 A E D C B A B A E C D A B C D E

Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Γενετικοί Αλγόριθµοι Συσταδοποίηση Μεγάλων Β 7 Συσταδοποίηση µε ιαµέριση Μη ιεραρχική ηµιουργεί τις συστάδες σε ένα βήµα µόνο. Εφόσον υπάρχει µόνο ένα σύνολο συστάδων στην έξοδο, ο χρήστης πρέπει να εισάγει τον επιθυµητό αριθµό των συστάδων, k. Συνήθως χειρίζεται στατικά σύνολα. Πρόβληµα: οι πιθανοί συνδυασµοί n στοιχείων σε k συστάδες είναι ένας πολύ µεγάλος αριθµός (π.χ. >1 1 για n=19, k=4) Αναγκαστικά, η αναζήτηση γίνεται σε ένα µικρό υποσύνολο των πιθανών λύσεων 8

ιαµεριστικοί Αλγόριθµοι Βασισµένος σε ένδρο Ελάχιστης Ζεύξης (MST) Τετραγωνικού Σφάλµατος (squared error) K-Μέσων (K-means) Πλησιέστερου Γείτονα (nearest neighbor) PAM (partitioning around medoids διαµερισµός γύρω από medoids) BEA (bond energy algorithm αλγόριθµος ενέργειας δεσµού) µε Γενετικούς Αλγορίθµους µε Νευρωνικά ίκτυα... 9 Αλγόριθµος MST Πολυπλοκότητα O(n ) O(n ) για τη δηµιουργία του MST + O(k ) για τα τελευταία βήµατα

Αλγόριθµος Squared Error Στόχος: η ελαχιστοποίηση του Τετραγωνικού Σφάλµατος 1 Πολυπλοκότητα O(tkn) όπου t το πλήθος των επαναλήψεων Συσταδοποίηση K-Means Το αρχικό σύνολο συστάδων επιλέγεται τυχαία. Επαναληπτικά, τα στοιχεία µετακινούνται µεταξύ συνόλων συστάδων µέχρι να φτάσουµε το επιθυµητό σύνολο. Επιτυγχάνεται υψηλός βαθµός οµοιότητας µεταξύ των στοιχείων µίας συστάδας. εδοµένης µίας συστάδας K i ={t i1,t i,,t im }, ο µέσος της συστάδας είναι m i = (1/m)(t i1 + + t im ) Ο µέσοςτηςσυστάδαςταυτίζεται µε τοκέντροβάρους Παράδειγµα... ίνεται: {, 4, 1, 1,,,, 11, 5}, k= Τυχαία επιλέγουµε m 1 =, m =4 1 η επανάληψη: K 1 ={, }, K ={4, 1, 1,,, 11, 5}, m 1 =.5, m =16 η επανάληψη: K 1 ={,, 4}, K ={1, 1,,, 11, 5}, m 1 =, m =18 η επανάληψη: K 1 ={,, 4, 1}, K ={1,,, 11, 5}, m 1 =4.75, m =19.6 4 η επανάληψη: K 1 ={,, 4, 1, 11, 1}, K ={,, 5}, m 1 =7, m =5 5 η επανάληψη: δεν αλλάζει τίποτα. Τέλος

Αλγόριθµος K-Means Πολυπλοκότητα O(tkn) όπου t το πλήθος των επαναλήψεων K-means example, initialization Pick initial cluster centers (randomly) Y k k 1 k X 4

K-means example, 1 st repetition Y k 1 Assign each point to the closest cluster center k k X 5 K-means example, 1 st repetition Y k 1 k 1 Move each cluster center to the mean of each cluster k k k k X 6

K-means example, nd repetition Reassign points Y closest to a different new cluster center Q: Which points are reassigned? k 1 k k X 7 K-means example, nd repetition Y A: three points with animation k k 1 k X 8

K-means example, nd repetition Y re-compute cluster means k k 1 k X 9 K-means example, nd repetition Y k 1 move cluster centers to cluster means k k X 4

Πλησιέστερος Γείτονας Τα στοιχεία συγχωνεύονται επαναληπτικά µέσα σε συστάδες που βρίσκονται πιο κοντά. Αυξητική προσέγγιση Ένα κατώφλι, t, χρησιµοποιείται για να καθορίσει εάν ένα στοιχείο θα ενταχθεί σε µία από τις υπάρχουσες συστάδες ή εάν θα δηµιουργηθεί µία νέα συστάδα. 41 Αλγόριθµος Πλησιέστερου Γείτονα Πολυπλοκότητα O(n ) 4

PAM ιαµέριση γύρω από Medoids (PAM) Χειρίζεται καλά τα ακραία σηµεία (σε αντίθεση µε τονk-means). Η διάταξη της εισόδου δεν επηρεάζει τα αποτελέσµατα (σε αντίθεση µε τονk-means). Κάθε συστάδα αναπαρίσταται από ένα αντιπροσωπευτικό στοιχείο, το οποίο καλείται medoid (*). Προσοχή: το medoid ΕΝ είναι το κέντρο βάρους της συστάδας (ή ο µέσος, στην ορολογία του K-means) αλλά ένα από τα στοιχεία της Το αρχικό σύνολο των k medoids επιλέγεται τυχαία. (*) τεχνικός όρος που προέρχεται από τον όρο multivariate median (πολυµεταβλητός µέσος) 4 Παράδειγµα PAM A B C D E A 1 B 1 4 C 1 5 D 4 1 E 5 TC ih : το κόστος αντικατάστασης του µέσου i από τον µη-µέσο j Στόχος είναι να βρεθεί η αντικατάσταση µε τοελάχιστο κόστος 44

Υπολογισµός Κόστους TC ih Σε κάθε βήµα του αλγορίθµου, οι µέσοι µεταβάλλονται εάν το συνολικό κόστος βελτιώνεται. C jih αλλαγή κόστους για ένα στοιχείο t j που σχετίζεται µε την αντικατάσταση του µέσου t i από τον µη-µέσο t h. 4 περιπτώσεις προς εξέταση: 45 Αλγόριθµος PAM 46 Πολυπλοκότητα O(tn(n-k) ) όπου t το πλήθος των επαναλήψεων

Αλγόριθµος Ενέργειας εσµού (BEA) Σχεδίαση Β (φυσική και λογική) Κάθετος Τεµαχισµός Καθορισµός συνάφειας (δεσµού) µεταξύ των γνωρισµάτων µε βάση την κοινή τους χρήση. Σύνοψη Αλγορίθµου: 1. ηµιουργία του πίνακα συνάφειας. Μετατροπή στον πίνακα BOND. ηµιουργία περιοχών γειτονικής συνάφειας 47 BEA Modified from [OV99] 48

Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Γενετικοί Αλγόριθµοι Συσταδοποίηση Μεγάλων Β 49 Παράδειγµα Γενετικού Αλγορίθµου {A,B,C,D,E,F,G,H} Τυχαία επιλέγουµε αρχική λύση: {A, C, E} {B, F} {D, G, H} ή 111, 11, 111 Υποθέτουµε διασταύρωση στο σηµείο 4 και επιλέγουµε τα1 και ως γονείς: 1111, 11, 11 Ποια πρέπει να είναι τα κριτήρια τερµατισµού; 5

Αλγόριθµος GA 51 Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Γενετικοί Αλγόριθµοι Συσταδοποίηση Μεγάλων Β 5

Συσταδοποίηση Μεγάλων Β Οι περισσότεροι αλγόριθµοι συσταδοποίησης προϋποθέτουν µία µεγάλη δοµή δεδοµένων που βρίσκεται στην κύρια µνήµη. Η συσταδοποίηση θα µπορούσε να εφαρµοστεί πρώτα σε ένα δείγµα τηςβ και µετά σε ολόκληρη τη Β. Αλγόριθµοι BIRCH DBSCAN CURE 5 Επιθυµητά Χαρακτηριστικά για Μεγάλες Β Ένα πέρασµα (το πολύ) της Β Απευθείας επεξεργασία Με δυνατότητα διακοπής, τέλους, επανεκίνησης Αυξητικό Να δουλεύει µε περιορισµένη κύρια µνήµη ιαφορετικές Τεχνικές Περασµάτων (π.χ. δειγµατοληψία) Επεξεργασία κάθε εγγραφής µία µόνο φορά 54

BIRCH Σταθµισµένη Επαναληπτική Μείωση και Συσταδοποίηση µε την χρήση Ιεραρχιών Αυξητική, ιεραρχική, ένα πέρασµα Σώζουµε πληροφορίες σχετικές µε την συσταδοποίηση σε ένα δέντρο Κάθε καταχώρηση του δέντρου περιέχει πληροφορίες για µία συστάδα Καινούργιοι κόµβοι εισάγονται στην πιο κοντινή καταχώρηση του δέντρου 55 Ιδιότητα Συσταδοποίησης CT Τριάδα: (N,LS,SS) N: Αριθµός σηµείων στη συστάδα LS: Άθροισµα σηµείων στην συστάδα SS: Άθροισµα τετραγώνων σηµείων της συστάδας CF έντρο Σταθµισµένο έντρο Αναζήτησης Οκόµβος έχει µία CF τριάδα για κάθε παιδί Το φύλλο αναπαριστά τη συστάδα και έχει τιµή CF για κάθε υποσυστάδα µέσα σε αυτή. Η υποσυστάδα έχει µέγιστη διάµετρο 56

Αλγόριθµος BIRCH 57 Βελτίωση Συστάδων 58

DBSCAN Χωρική Συσταδοποίηση Εφαρµογών µε Θόρυβοµε βάσητην Πυκνότητα Τα ακραία σηµεία δεν θα έχουν ως αποτέλεσµα τηνδηµιουργία µίας συστάδας. Είσοδος MinPts ελάχιστος αριθµός σηµείων στη συστάδα Eps για κάθε σηµείο σε µίασυστάδαθαπρέπειναυπάρχειέναάλλο σηµείο σε αυτό µε µικρότερη από αυτή την απόσταση µακρυά. 59 DBSCAN Έννοιες της Πυκνότητας Eps-γειτονιά: Σηµεία µέσα σε Eps απόσταση από σηµείο. Σηµείο Πυρήνα: Eps-γειτονιά αρκετά πυκνή (MinPts) Απευθείας density-reachable: Ένα σηµείο p είναι απευθείας density-reachable από ένα σηµείο q εάν η απόσταση είναι µικρή (Eps) και το q είναι ένα σηµείο του πυρήνα. Density-reachable: Ένα σηµείο είναι density-reachable από ένα άλλο σηµείο εάν υπάρχει ένα µονοπάτι από το ένα στο άλλο το οποίο αποτελείται µόνο από σηµεία πυρήνες. 6

Έννοιες της Πυκνότητας 61 DBSCAN Αλγόριθµος 6

CURE Συσταδοποίηση µε τη χρήση αντιπροσώπων. Χρήση πολλών σηµείων για την αναπαράσταση µίας συστάδας αντί µόνο ένα. Τα σηµεία θα είναι αρκετά διασκορπισµένα. 6 Προσέγγιση CURE 64

Αλγόριθµος CURE 65 CURE για µεγάλες Β 66

Σύγκριση Τεχνικών Συσταδοποίησης 67