Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Σχετικά έγγραφα
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining. Γιάννης Θεοδωρίδης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

Ομαδοποίηση ΙΙ (Clustering)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Ομαδοποίηση Ι (Clustering)

BIRCH: : An Efficient Data Clustering Method for Very Large Databases

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Αλγόριθμοι Εξόρυξης Χωρικών εδομένων

Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

ιαµέριση - Partitioning

Κεφάλαιο 6: Συσταδοποίηση

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ανάλυση κατά Συστάδες. Cluster analysis

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Ανάκτηση Πληροφορίας

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ

Γ. Κορίλη Αλγόριθµοι ροµολόγησης

έντρα ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

ιδάσκοντες: Φ. Αφράτη,. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

ΔΙΑΧΕΙΡΙΣΗ ΕΦΟΔΙΑΣΤΙΚΗΣ ΑΛΥΣΙΔΑΣ

ιαχείριση Εφοδιαστικής Αλυσίδας

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

Συσταδοποίηση/ Ομαδοποίηση

Αποθήκες και Εξόρυξη Δεδομένων

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βάλια

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τμήμα Πληροφορικής και Επικοινωνιών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Αναζήτηση Κατά Πλάτος

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

Αποθήκες εδομένων και Εξόρυξη εδομένων:

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Αναζήτηση Κατά Πλάτος

Αλγόριθμοι και Πολυπλοκότητα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Σύνθεση Data Path. ιασύνδεσης. Μονάδες. Αριθµό Μονάδων. Τύπο Μονάδων. Unit Selection Unit Binding. λειτουργιών σε. Μονάδες. Αντιστοίχιση µεταβλητών &

Λεξικό, Union Find. ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Efficient and Effective Clustering Methods for Spatial Data Mining (Αποδοτικές και αποτελεσματικές μέθοδοι ομαδοποίησης για εξόρυξη χωρικών δεδομένων)

Τμήμα Εφαρμοσμένης Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών Ειδίκευσης Συστήματα Υπολογιστών ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Καβάλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Βιομηχανικής Πληροφορικής

Βασικές δοµές δεδοµένων. Ορολογία λιστών. 8.1 Βασικές έννοιες δοµών δεδοµένων 8.2 Υλοποίηση δοµών δεδοµένων 8.3 Μια σύντοµη υπόθεση εργασίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ << ΧΡΗΣΗ ΥΒΡΙΔΙΚΩΝ ΕΞΕΛΙΚΤΙΚΩΝ ΑΛΓΟΡΙΘΜΩΝ ΣΕ ON LINE ΠΡΟΒΛΗΜΑΤΑ ΟΜΑΔΟΠΟΙΗΣΗΣ >>

Αλγόριθμοι και πολυπλοκότητα: 4 η σειρά ασκήσεων ΣΗΜΜΥ - Ε.Μ.Π.

Λεξικό, Union Find. ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity

Επίλυση Προβληµάτων µε Greedy Αλγόριθµους

Heapsort Using Multiple Heaps

Κεφ.11: Ευρετήρια και Κατακερματισμός

Βασικές Έννοιες Θεωρίας Γραφημάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Επιβλέπων καθηγητής: Βασίλειος Μεγαλοοικονόμου

Νευρωνικά ίκτυα και Εξελικτικός. Σηµερινό Μάθηµα. επανάληψη Γενετικών Αλγορίθµων 1 η εργασία Επανάληψη νευρωνικών δικτύων Ασκήσεις εφαρµογές

Αλγόριθµοι και Πολυπλοκότητα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Αναζήτηση Κατά Πλάτος

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

Τεχνολογία Πολυμέσων. Ενότητα # 16: Πολυεκπομπή Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Λεξικό, Union Find. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Κινητός και ιάχυτος Υπολογισµός (Mobile & Pervasive Computing) Ιστοσελίδα του µαθήµατος. Περιεχόµενα. ηµήτριος Κατσαρός, Ph.D.

«Ομαδοποίηση δεδομένων Κοινωνικού Ιστού»

Transcript:

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση (clustering) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Γενετικοί Αλγόριθµοι Συσταδοποίηση Μεγάλων Β Βασισµένες κατά κύριο λόγο (αλλά όχι αποκλειστικά) στις διαφάνειες που συνοδεύουν το βιβλίο M. H. Dunham: Data Mining, Introductory and Advanced Topics Prentice Hall, Επιµέλεια Ελληνικής έκδοσης Βασίλης Βερύκιος & Γιάννης Θεοδωρίδης, 4-5 5.1

Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Γενετικοί Αλγόριθµοι Συσταδοποίηση Μεγάλων Β Εφαρµογές Συσταδοποίησης ιαµέριση µίας Β πελατών µε βάση παρόµοια πρότυπα αγοράς προϊόντων. Οµαδοποίηση των σπιτιών µίας πόλης σε γειτονιές µε βάσηπαρόµοιες ιδιότητες. Αναγνώριση νέων ειδών φυτών Αναγνώριση παρόµοιων προτύπων στη χρήση του Web. Συσταδοποίηση vs. Κατηγοριοποίηση Καµία εκ των προτέρων γνώση (αριθµός συστάδων, σηµασία των συστάδων) Μη Εποπτευόµενη Μάθηση 4 5.

Ζητήµατα στη Συσταδοποίηση Χειρισµός Ακραίων Σηµείων (outliers) υναµικά Μεταβαλλόµενα εδοµένα αλλαγή συστάδων στην πορεία του χρόνου Ερµηνεία και Αξιολόγηση των αποτελεσµάτων Πλήθος Συστάδων οβέλτιστοςαριθµόςσυστάδωνδενείναιεκτωνπροτέρωνγνωστός Ποια δεδοµέναθαχρησιµοποιηθούν Κλιµάκωση 5 Επίδραση Ακραίων Σηµείων Έχουν αναπτυχθεί ειδικές τεχνικές για ανίχνευση / εξόρυξη ακραίων σηµείων (outlier detection / mining) 6 5.

Το Πρόβληµα της Συσταδοποίησης οθέντων: µιας Β D={t 1,t,,t n } από εγγραφές, ενός µέτρου οµοιότητας sim(t i, t j ) µεταξύ δύο εγγραφών της Β και µιαςακέραιαςτιµής k, το Πρόβληµα της Συσταδοποίησης είναι η εύρεση µίας αντιστοίχισης f:d {1,..., k} όπου κάθε εγγραφή t i της Β αντιστοιχίζεται σε µία συστάδα K j, 1 j k, έτσι ώστε: για κάθε εγγραφή η οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από την ίδια συστάδα να είναι µεγαλύτερη από την οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από άλλες συστάδες. Μία Συστάδα, K j, περιέχει ακριβώς εκείνες τις πλειάδες που αντιστοιχίζονται σε αυτήν. 7 Συσταδοποίηση Σπιτιών µε βάσητη(γεωγραφική) απόσταση µε βάση κάποιο άλλο χαρακτηριστικό (π.χ. µέγεθος) 8 5.4

Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Γενετικοί Αλγόριθµοι Συσταδοποίηση Μεγάλων Β 9 Τύποι Συσταδοποίησης Ιεραρχική vs. ιαµέρισης δηµιουργούνται εµφωλιασµένα σύνολα συστάδων από 1 σε,, Νσυστάδες(διαιρετικοί αλγόριθµοι) ή από Ν σε Ν-1,...,, 1 συστάδες (συσσωρευτικοί αλγόριθµοι) ήδηµιουργείται απευθείας ένα σύνολο k συστάδων. Αυξητική (ή Σειριακή) vs. Ταυτόχρονη χειρισµός ενός στοιχείου την φορά ή όλων των στοιχείων µαζί. Επικαλυπτόµενη vs. µη-επικαλυπτόµενη επιτρέπεται ή όχι η τοποθέτηση ενός στοιχείου σε περισσότερες από µία συστάδες. Για µικρές (που χωράνε στην κύρια µνήµη) ή µεγάλες Β 1 5.5

Προσεγγίσεις Συσταδοποίησης Συσταδοποίηση Ιεραρχική ιαµέρισης Κατηγορική για µεγάλες Β Συσσώρευσης ιαιρετική ειγµατοληψίας Συµπίεσης 11 Απόσταση µεταξύ δύο Συστάδων Απόσταση απλού συνδέσµου (single link): ηελάχιστηαπόσταση µεταξύ στοιχείων των συστάδων Απόσταση πλήρους Συνδέσµου (complete link): η µέγιστη απόσταση µεταξύ στοιχείων των συστάδων Μέση απόσταση: η µέση απόσταση µεταξύ στοιχείων των συστάδων Centroid απόσταση: απόσταση µεταξύ των κέντρων βάρους (centroids) των συστάδων Χαρακτηριστικές τιµές µιας συστάδας Ν στοιχείων 1 5.6

Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Γενετικοί Αλγόριθµοι Συσταδοποίηση Μεγάλων Β 1 Ιεραρχική Συσταδοποίηση Οι συστάδες δηµιουργούνται σε επίπεδα Κάθε επίπεδο αντιπροσωπεύει ένα σύνολο από συστάδες Συσσωρευτικοί αλγόριθµοι (agglomerative) Αρχικά κάθε στοιχείο είναι µία συστάδα Επαναληπτικά οι συστάδες συγχωνεύονται Προσέγγιση bottom-up ιαιρετικοί αλγόριθµοι (divisive) Αρχικάόλαταστοιχείασε µία συστάδα. Οι µεγάλες συστάδες προοδευτικά διαιρούνται. Προσέγγιση top-down 14 5.7

ενδρόγραµµα ενδρόγραµµα (dendrogram): µία δενδρική δοµή δεδοµένων η οποία επιδεικνύει τις ιεραρχικές τεχνικές συσταδοποίησης. Κάθε επίπεδο δείχνει τις συστάδες εκείνου του επιπέδου. Φύλλα κάθε στοιχείο αποτελεί ξεχωριστή συστάδα Ρίζα όλαταστοιχείααποτελούν µία συστάδα Μία συστάδα στο επίπεδο i είναι η ένωση των συστάδων-παιδιών στο επίπεδο i+1. 15 Επίπεδα της Συσταδοποίησης 16 5.8

Παράδειγµα Συσσώρευσης Μήτρα γειτνίασης A B C D E Γράφος αποστάσεων A B A 1 B C 1 4 1 5 E C D 4 1 E 5 D Κατώφλι απόστασης 1 4 5 A B C D E 17 Συσσωρευτικός Αλγόριθµος 18 5.9

Προσεγγίσεις Συσσωρευτικού Αλγόριθµου Με βάση την τεχνική που χρησιµοποιείται για τον καθορισµό της απόστασης µεταξύ δύο συστάδων Τεχνική Απλού Συνδέσµου (single link) αναζητά συνεκτικές συνιστώσες στο γράφο αποστάσεων ονοµάζεται και τεχνική συσταδοποίησης πλησιέστερου γείτονα (nearest neighbor) Παραλλαγή: µε χρήσηδένδρου ελάχιστης ζεύξης (Minimum Spanning Tree MST) Τεχνική Πλήρους Συνδέσµου (complete link) αναζητά κλίκες στο γράφο αποστάσεων Παραλλαγή: τεχνική συσταδοποίησης απώτατου γείτονα (farthest neighbor) Τεχνική Μέσου Συνδέσµου (average link) 19 Εναλλακτικές Τεχνικές Συσσώρευσης 5.1

5.11 1 1 Συσσώρευση βασισµένη σε MST 5 E 1 4 D 5 1 C 4 1 B 1 A E D C B A A B C D E B A E C D Συσσωρευτικός Αλγόριθµος Απλού Συνδέσµου βασισµένος σε MST

ιαίρεση βασισµένη σε MST A B C D E A B A 1 B 1 4 C C 1 5 E D 4 1 D E 5 A B C D E Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Γενετικοί Αλγόριθµοι Συσταδοποίηση Μεγάλων Β 4 5.1

Συσταδοποίηση µε ιαµέριση Μη ιεραρχική ηµιουργεί τις συστάδες σε ένα βήµα µόνο. Εφόσον υπάρχει µόνο ένα σύνολο συστάδων στην έξοδο, ο χρήστης πρέπει να εισάγει τον επιθυµητό αριθµό των συστάδων, k. Συνήθως χειρίζεται στατικά σύνολα. Πρόβληµα: οι πιθανοί συνδυασµοί n στοιχείων σε k συστάδες είναι ένας πολύ µεγάλος αριθµός (π.χ. >1 1 για n=19, k=4) Αναγκαστικά, η αναζήτηση γίνεται σε ένα µικρό υποσύνολο των πιθανών λύσεων 5 ιαµεριστικοί Αλγόριθµοι Τεχνική βασισµένη σε ένδρο Ελάχιστης Ζεύξης (MST) Τετραγωνικού Σφάλµατος (squared error) K-Μέσων (K-means) Πλησιέστερου Γείτονα (nearest neighbor) PAM (partitioning around medoids διαµερισµός γύρω από medoids) Τεχνική βασισµένη σε Γενετικούς Αλγορίθµους Τεχνική βασισµένη σε Νευρωνικά ίκτυα... 6 5.1

Αλγόριθµος MST Πολυπλοκότητα O(n ) O(n ) για τη δηµιουργία του MST + O(k ) για τα τελευταία βήµατα 7 Αλγόριθµος Squared Error Στόχος: η ελαχιστοποίηση του Τετραγωνικού Σφάλµατος 8 Πολυπλοκότητα O(tkn) όπου t το πλήθος των επαναλήψεων 5.14

Συσταδοποίηση K-Means Το αρχικό σύνολο συστάδων επιλέγεται τυχαία. Επαναληπτικά, τα στοιχεία µετακινούνται µεταξύ συνόλων συστάδων µέχρι να φτάσουµε τοεπιθυµητό σύνολο. Επιτυγχάνεται υψηλός βαθµός οµοιότητας µεταξύ των στοιχείων µίας συστάδας. εδοµένης µίας συστάδας K i ={t i1,t i,,t im }, ο µέσος της συστάδας είναι m i = (1/m)(t i1 + + t im ) Ο µέσοςτηςσυστάδαςταυτίζεταιµε τοκέντροβάρους 9 Παράδειγµα K-Means (σε 1 διάσταση) ίνεται: {, 4, 1, 1,,,, 11, 5}, k= Τυχαία επιλέγουµε, έστω m 1 =, m =4 1 η επανάληψη: K 1 ={, }, K ={4, 1, 1,,, 11, 5}, m 1 =.5, m =16 η επανάληψη: K 1 ={,, 4}, K ={1, 1,,, 11, 5}, m 1 =, m =18 η επανάληψη: K 1 ={,, 4, 1}, K ={1,,, 11, 5}, m 1 =4.75, m =19.6 4 η επανάληψη: K 1 ={,, 4, 1, 11, 1}, K ={,, 5}, m 1 =7, m =5 5 η επανάληψη: δεν αλλάζει τίποτα. Τέλος 5.15

Αλγόριθµος K-Means 1 Πολυπλοκότητα O(tkn) όπου t το πλήθος των επαναλήψεων Παράδειγµα K-Means (σε διαστάσεις) Τυχαία επιλογή τριών (k=) αρχικών κέντρων Y k 1 k k X 5.16

Παράδειγµα K-means, 1 η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k 1 k k X Παράδειγµα K-means, 1 η επανάληψη Επανυπολογισµός του νέου κέντρου βάρους του κάθε cluster Y k 1 k 1 k k k k 4 X 5.17

Παράδειγµα K-means, η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k 1 k k 5 X Παράδειγµα K-means, η επανάληψη τρία στοιχεία αλλάζουν cluster Y k k 1 k 6 X 5.18

Παράδειγµα K-means, η επανάληψη Επανυπολογισµός του νέου κέντρου βάρους του κάθε cluster Y k 1 k k 7 X Παράδειγµα K-means, η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k 1 k k εν αλλάζει τίποτα. Άρα, τέλος! 8 X 5.19

Πλησιέστερος Γείτονας Τα στοιχεία συγχωνεύονται επαναληπτικά µέσα σε συστάδες που βρίσκονται πιο κοντά. Αυξητική προσέγγιση Ένα κατώφλι, t, χρησιµοποιείται για να καθορίσει εάν ένα στοιχείο θα ενταχθεί σε µία από τις υπάρχουσες συστάδες ή εάν θα δηµιουργηθεί µία νέα συστάδα. 9 Αλγόριθµος Πλησιέστερου Γείτονα Πολυπλοκότητα O(n ) 4 5.

PAM (k-medoids) ιαµέριση γύρω από Medoids (PAM) Χειρίζεται καλά τα ακραία σηµεία (σε αντίθεση µε τονk-means). Η διάταξη της εισόδου δεν επηρεάζει τα αποτελέσµατα (σε αντίθεση µε τονk-means). Κάθε συστάδα αναπαρίσταται από ένα αντιπροσωπευτικό στοιχείο, το οποίο καλείται medoid (*). Προσοχή: το medoid ΕΝ είναι το κέντρο βάρους της συστάδας (ή ο µέσος, στην ορολογία του K-means) αλλά ένα από τα στοιχεία της Το αρχικό σύνολο των k medoids επιλέγεται τυχαία. (*) τεχνικός όρος που προέρχεται από τον όρο multivariate median (πολυµεταβλητός µέσος) 41 Παράδειγµα PAM A B C D E A 1 B 1 4 C 1 5 D 4 1 E 5 TC ih : το κόστος αντικατάστασης του µέσου i από τον µη-µέσο j Στόχος είναι να βρεθεί η αντικατάσταση µε τοελάχιστο κόστος 4 5.1

Υπολογισµός Κόστους TC ih Σε κάθε βήµα του αλγορίθµου, οι µέσοι µεταβάλλονται εάν το συνολικό κόστος βελτιώνεται. C jih αλλαγή κόστους για ένα στοιχείο t j που σχετίζεται µε την αντικατάσταση του µέσου t i από τον µη-µέσο t h. 4 περιπτώσεις προς εξέταση: 4 Αλγόριθµος PAM 44 Πολυπλοκότητα O(tn(n-k) ) όπου t το πλήθος των επαναλήψεων 5.

Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Γενετικοί Αλγόριθµοι Συσταδοποίηση Μεγάλων Β 45 Παράδειγµα Γενετικού Αλγορίθµου {A,B,C,D,E,F,G,H} Τυχαία επιλέγουµε αρχική λύση: {A, C, E} {B, F} {D, G, H} ή 111, 11, 111 Υποθέτουµε διασταύρωση στο σηµείο 4 και επιλέγουµε τα1 και ως γονείς: 1111, 11, 11 Ποια πρέπει να είναι τα κριτήρια τερµατισµού; 46 5.

Αλγόριθµος GA 47 Περιεχόµενα Γενική εικόνα προβλήµατος συσταδοποίησης Τεχνικές Συσταδοποίησης Ιεραρχικοί Αλγόριθµοι ιαµεριστικοί Αλγόριθµοι Γενετικοί Αλγόριθµοι Συσταδοποίηση Μεγάλων Β 48 5.4

Συσταδοποίηση Μεγάλων Β Οι περισσότεροι αλγόριθµοι συσταδοποίησης προϋποθέτουν µία µεγάλη δοµή δεδοµένων που βρίσκεται στην κύρια µνήµη. Η συσταδοποίηση θα µπορούσε να εφαρµοστεί πρώτα σε ένα δείγµα τηςβ και µετά σε ολόκληρη τη Β. Αλγόριθµοι BIRCH DBSCAN CURE 49 Επιθυµητά Χαρακτηριστικά για Μεγάλες Β Ένα πέρασµα (το πολύ) της Β Απευθείας επεξεργασία Με δυνατότητα διακοπής, τέλους, επανεκίνησης Αυξητικό Να δουλεύει µε περιορισµένη κύρια µνήµη ιαφορετικές Τεχνικές Περασµάτων (π.χ. δειγµατοληψία) Επεξεργασία κάθε εγγραφής µία µόνο φορά 5 5.5

BIRCH Σταθµισµένη Επαναληπτική Μείωση και Συσταδοποίηση µε την χρήση Ιεραρχιών Αυξητική, ιεραρχική, ένα πέρασµα Σώζουµε πληροφορίες σχετικές µε την συσταδοποίηση σε ένα δέντρο Κάθε καταχώρηση του δέντρου περιέχει πληροφορίες για µία συστάδα Καινούργιοι κόµβοι εισάγονται στην πιο κοντινή καταχώρηση του δέντρου 51 Ιδιότητα Συσταδοποίησης CT Τριάδα: (N,LS,SS) N: Αριθµός σηµείων στη συστάδα LS: Άθροισµα σηµείων στην συστάδα SS: Άθροισµα τετραγώνων σηµείων της συστάδας CF έντρο Σταθµισµένο έντρο Αναζήτησης Οκόµβος έχει µία CF τριάδα για κάθε παιδί Το φύλλο αναπαριστά τη συστάδα και έχει τιµή CF για κάθε υποσυστάδα µέσα σε αυτή. Η υποσυστάδα έχει µέγιστη διάµετρο 5 5.6

Αλγόριθµος BIRCH 5 Βελτίωση Συστάδων 54 5.7

DBSCAN Χωρική Συσταδοποίηση Εφαρµογών µε Θόρυβοµε βάσητην Πυκνότητα Τα ακραία σηµεία δεν θα έχουν ως αποτέλεσµα τηνδηµιουργία µίας συστάδας. Είσοδος MinPts ελάχιστος αριθµός σηµείων στη συστάδα Eps για κάθε σηµείο σε µίασυστάδαθαπρέπειναυπάρχειέναάλλο σηµείο σε αυτό µε µικρότερη από αυτή την απόσταση µακρυά. 55 DBSCAN Έννοιες της Πυκνότητας Eps-γειτονιά: Σηµεία µέσα σε Eps απόσταση από σηµείο. Σηµείο Πυρήνα: Eps-γειτονιά αρκετά πυκνή (MinPts) Απευθείας density-reachable: Ένα σηµείο p είναι απευθείας density-reachable από ένα σηµείο q εάν η απόσταση είναι µικρή (Eps) και το q είναι ένα σηµείο του πυρήνα. Density-reachable: Ένα σηµείο είναι density-reachable από ένα άλλο σηµείο εάν υπάρχει ένα µονοπάτι από το ένα στο άλλο το οποίο αποτελείται µόνο από σηµεία πυρήνες. 56 5.8

Έννοιες της Πυκνότητας 57 DBSCAN Αλγόριθµος 58 5.9

CURE Συσταδοποίηση µε τη χρήση αντιπροσώπων. Χρήση πολλών σηµείων για την αναπαράσταση µίας συστάδας αντί µόνο ένα. Τα σηµεία θα είναι αρκετά διασκορπισµένα. 59 Προσέγγιση CURE 6 5.

Αλγόριθµος CURE 61 CURE για µεγάλες Β 6 5.1

Σύνοψη Συσταδοποίηση: η εύρεσηοµάδων µεταξύ των δεδοµένων ενός συνόλου µε βάσηέναµέτρο απόστασης Τεχνικές: Ιεραρχικές (συσσωρευτικές/διαιρετικές, απλού/πλήρους/µέσου συνδέσµου) ιαµεριστικές (µε πιοδηµοφιλή τον αλγόριθµο Apriori) Άλλες (βασισµένες στην πυκνότητα, σε γενετικούς αλγορίθµους, παράλληλες τεχνικές κ.α.) 6 Σύγκριση Τεχνικών Συσταδοποίησης 64 5.