Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Ομαδοποίηση ΙΙ (Clustering)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Ομαδοποίηση Ι (Clustering)

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

1. Σε ένα τουρνουά με 8 παίκτες μπορεί οι παίκτες να συμμετείχαν σε: 6,5,4,4,4,3,1,1 αγώνες αντίστοιχα;

BIRCH: : An Efficient Data Clustering Method for Very Large Databases

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες και Εξόρυξη Δεδομένων

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Θεωρία και Αλγόριθμοι Γράφων

Κατανεμημένα Συστήματα Ι

Συσταδοποίηση/ Ομαδοποίηση

Ζητήματα ηήμ με τα δεδομένα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Συμπίεση Δεδομένων

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

4.4 Το πρόβλημα του ελάχιστου ζευγνύοντος δένδρου

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

έντρα ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

ΕΝΟΤΗΤΑ 9 ΕΝΩΣΗ ΞΕΝΩΝ ΣΥΝΟΛΩΝ ( ΟΜΕΣ UNION-FIND)

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

Συσταδοποίηση IIΙ DBSCAN. DBSCAN: Γενικά. DBSCAN: Γενικά. DBSCAN: Αλγόριθμος. DBSCAN: Αλγόριθμος

ιδάσκοντες: Φ. Αφράτη,. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βάλια

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Καβάλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Βιομηχανικής Πληροφορικής

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

κυρτών και σύνθετων σωμάτων

Σχεδιαση Αλγοριθμων -Τμημα Πληροφορικης ΑΠΘ - Κεφαλαιο 9ο

Κατευθυνόμενα γραφήματα. Μαθηματικά Πληροφορικής 6ο Μάθημα. Βρόγχοι. Μη κατευθυνόμενα γραφήματα. Ορισμός

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τμήμα Πληροφορικής και Επικοινωνιών

Περιεχόμενα της Ενότητας. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς Κατανομές Πιθανότητας. Συνεχείς Κατανομές Πιθανότητας.

Διαίρει και Βασίλευε. πρόβλημα μεγέθους Ν. διάσπαση. πρόβλημα μεγέθους k. πρόβλημα μεγέθους Ν-k

Ουρά Προτεραιότητας: Heap

Κεφ.11: Ευρετήρια και Κατακερματισμός

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΗΥ360 Αρχεία και Βάσεις εδοµένων

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA

Κεφάλαιο 6: Συσταδοποίηση

ΘΕΜΑ 1: Αλγόριθμος Ford-Fulkerson

Κατανεμημένα Συστήματα Ι

Κατανεμημένα Συστήματα Ι

Σύνθεση Data Path. ιασύνδεσης. Μονάδες. Αριθµό Μονάδων. Τύπο Μονάδων. Unit Selection Unit Binding. λειτουργιών σε. Μονάδες. Αντιστοίχιση µεταβλητών &

Δυαδικά Δένδρα Αναζήτησης, Δένδρα AVL

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Απαλλακτική Εργασία Γραφικά & Εικονική Πραγματικότητα. Παπαπαύλου Χρήστος ΑΜ: 6609

i=1 i=1 i=1 (x i 1, x i +1) (x 1 1, x k +1),

Κατευθυνόμενα γραφήματα. Μαθηματικά Πληροφορικής 6ο Μάθημα. Βρόχοι. Μη κατευθυνόμενα γραφήματα. Ορισμός

Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Θεωρία Γραφημάτων 5η Διάλεξη

3η Σειρά Γραπτών Ασκήσεων

Ευφυής Προγραμματισμός

ιαµέριση - Partitioning

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1

Σχεδίαση Αλγορίθμων -Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο

Κεφάλαιο 3. Γραφήµατα v1.0 ( ) Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

Αλγόριθμοι και Πολυπλοκότητα

ΑΣΚΗΣΕΙΣ ΥΠΟΛΟΓΙΣΜΟΥ ΜΑΖΑΣ ΘΕΣΗΣ ΚΕΝΤΡΟΥ ΜΑΖΑΣ ΡΟΠΗΣ ΑΔΡΑΝΕΙΑΣ ΣΩΜΑΤΩΝ

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης

Κατευθυνόμενα γραφήματα. Μαθηματικά Πληροφορικής 6ο Μάθημα. Βρόχοι. Μη κατευθυνόμενα γραφήματα. Ορισμός

Ανάλυση κατά Συστάδες. Cluster analysis

Θεωρία Γραφημάτων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές

Ν. Μ. Σγούρος Κοινωνικά Δίκτυα Τμ. Ψηφιακών Συστημάτων, Παν. Πειραιώς

Δ10. Συμπίεση Δεδομένων

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Αναγνώριση Προτύπων Ι


Αλγόριθμοι εύρεσης ελάχιστων γεννητικών δέντρων (MST)

Transcript:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Γ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/

Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν το σύγγραμμα «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» Αρχικές εκδόσεις από μέρος των διαφανειών ετοιμάστηκαν από τον Δρ. Α. Νανόπουλο. Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Introduction to Data Mining» των Tan, Steinbach, Kumar, και «Data Mining: Concepts and Techniques» των Jiawei Han, Micheline Kamber. 2

Τί θα εξετάσουμε 4 βασικές κατηγορίες αλγορίθμων ομαδοποίησης Αλγ. τμηματοποίησης Ιεραρχικοί αλγόριθμοι Αλγ. βασισμένοι στην πυκνότητα Αλγ. βασισμένοι σμέ ση στην θεωρία γράφων Κλιμάκωση Έλεγχος Εγκυρότητας και τάσης ομαδοποίησης ης 3

DBScan κατάλληλος για ομάδες που έχουν υψηλή πυκνότητα σημείων, οι οποίες μπορεί να είναι διαχωρισμένες από άλλα σημεία (θόρυβος) χαμηλότερης πυκνότητας προϋποθέτει ότι η πυκνότητα των ομάδων είναι παρόμοια, χωρίς μεγάλες διακυμάνσεις πυκνότητα = #σημείων σε ακτίνα Eps 4

DBScan κεντρικό σημείο: έχει πυκνότητα μγ μεγαλύτερη ρηή ίση από μία τιμή MinPts (ανήκουν στο εσωτερικό των ομάδων) συνοριακό σημείο: έχει πυκνότητα μικρότερη από MinPts, αλλά απέχει από ένα κεντρικό σημείο απόσταση μικρότερη ρη ή ίση από Eps (βρίσκονται στα όρια των ομάδων) θορυβώδες σημείο: κάθε άλλο σημείο (ανήκουν στις περιοχές χαμηλής πυκνότητας) MinPts = 10 C,D κεντρικά B συνοριακό A θορυβώδες 5

DBSCAN: Αλγόριθμος 1. Χαρακτήρισε κάθε σημείο ως κεντρικό, συνοριακό ή θόρυβο. 2. Αγνόησε όλα τα σημεία θορύβου. 3. Δημιούργησε ένα γράφο με μια κορυφή για κάθε σημείο. 4. Τοποθέτησε μια ακμή μεταξύ όλων των κεντρικών σημείων που είναι σε απόσταση έως Eps μεταξύ τους. 5. Θέσε κάθε ομάδα συνδεδεμένων κεντρικών σημείων ως μια διαφορετική συστάδα. 6. Ανάθεσε κάθε συνοριακό σημείo σε μία από τις συστάδες που περιέχει το πιο κοντινό του κεντρικό σημείο. 6

Επιλογή Eps, p, MinPts Για κάθε σημείο, βρίσκουμε το k πλησιέστερο προς αυτό, καθώς και τη μεταξύ τους αποστάση Ταξινομούμε τα σημεία ως προς την απόστασή τους από το k-οστό πλησιέστερο τους Καθορίζουμε τις τιμές των Eps και MinPts έτσι ώστε να διαχωρίζονται τα σημεία που ανήκουν σε ομάδες από τα θορυβώδη σημεία 7

Παράδειγμα MinPts = 10 Eps = 0.04 8

Χαρακτηρικτικά Δεν επηρεάζεται από το θόρυβο Μπορεί να χειριστεί συστάδες με διαφορετικά σχήματα και μεγέθη Αρνητικά: Πρόβλημα με διαφορετικές πυκνότητες Ευαισθησία στις παραμέτρους Πολυ-διάστατα δεδομένα: δύσκολος ορισμός πυκνότητας και δαπανηρός υπολογισμός γειτόνων Πολυπλοκότητα: O(m x χρόνος εντοπισμού σημείων σε eps-γειτονιά) Ο(m( 2 ) Για μικρό αριθμό διαστάσεων, υπάρχουν δομές που υποστηρίζουν την πράξη σε Ο(m logm) O(m) χώρος (κρατάμε μόνο ένα έαabe label) 9

DBSCAN: ευαισθησία στις παραμέτρους ρ 10

Συνέχεια ΜinPts=10 Eps=0.02 (πάνω αριστερά) Eps=0.04 (πάνω δεξιά) Eps=0.1 (κάτω δεξιά) 11

Σύγκριση γρ ημε k-means Και οι 2 τοποθετούν οθε ού ένα έασημείο σε μία μαμοναδική ομάδα. Αλλά ο dbscan μπορεί να μην ομαδοποιήσει όλα τα σημεία. Ο k-means χρησιμοποιεί την έννοια του κέντρου της ομάδας ενώ ο dbscan της πυκνότητας. Ο dbscan χειρίζεται σωστά ομάδες με διαφορετικό σχήμα και μέγεθος, σε αντίθεση με τον k-means. Και οι 2 αλγόριθμοι δεν μπορούν να χειριστούν ομάδες με διαφορετική πυκνότητα. Ο k-means απαιτεί να μπορεί να οριστεί το κέντρο της ομάδας, ενώ ο dbscan απαιτεί να έχει νόημα η έννοια της πυκνότητας. Ο k-means έχει καλή απόδοση σε αραιά, πολυδιάστατα δεδομένα (πχ., κείμενα). ) Ο dbscan δεν έχει καλή απόδοση σε αυτήν την περίπτωση. Και οι 2 μπορούν (με επεκτάσεις) να χειριστούν δεδομένα άλλων τύπων εκτός από αριθμητικά. 12

Σύγκριση γρ ημ με k-means (συνέχεια) χ Και οι 2 λαμβάνουν υπ όψιν όλα όατα χαρακτηριστικά, δηλ. δεν δημιουργούν ομάδες βάσει μόνο κάποιων χαρακτηριστικών. Ο dbscan συνενώνει ομάδες που εφάπτονται ή επικαλύπτονται, σε αντίθεση με τον k-means. Η πολυπλοκότητα του k-means είναι μικρότερη από αυτή του dbscan. Ο k-means παράγει διαφορετικές συστάδες για τα ίδια δεδομένα,, σε αντίθεση με τον dbscan. Ο dbscan δεν απαιτεί τον εκ των προτέρων ορισμό του αριθμού των ομάδων όπως κάνει ο k-means. Απαιτεί όμως τον ορισμό παραμέτρων όπως MinPts/Eps. Ο k-means μπορεί να εκφραστεί ως (NP-hard) πρόβλημα βελτιστοποίησης καθώς προσπαθεί να ελαχιστοποιήσει το SSE. Ο dbscan δεν μπορεί να εκφραστεί με ένα θεωρητικό μοντέλο. 13

Τί θα εξετάσουμε 4 βασικές κατηγορίες αλγορίθμων ομαδοποίησης Αλγ. τμηματοποίησης Ιεραρχικοί αλγόριθμοι Αλγ. βασισμένοι στην πυκνότητα Αλγ. βασισμένοι σμέ στην θεωρία γράφων Κλιμάκωση Έλεγχος Εγκυρότητας και τάσης ομαδοποίησης ης 14

Αλγόριθμοι γράφων: MST 1. Αντιστοίχισε κάθε αντικείμενο με μία κορυφή και την απόσταση μεταξύ δύο αντικειμένων με μία ακμή ίσου βάρους. 2. Βρες το ελάχιστο ζευγνύον δένδρο (MST) του γράφου που δημιουργείται στο βήμα 1. 3. Εντόπισε και αφαίρεσε τις «ασυνεπείς» ακμές. 4. Βρες τις συνδεδεμένες συνιστώσες του γράφου που προκύπτει, δημιούργησε για κάθε συνιστώσα μία ομάδα, και ανάθεσέ της τα αντικείμενα των αντίστοιχων κορυφών της. 15

Ασυνεπείς ακμές μς Ο ορισμών των ασυνεπών ακμών μπορεί να γίνει με διάφορους τρόπους. Ο απλούστερος τρόπος είναι να εξετάσουμε την κατανομή των βαρών των ακμών του MST, και να θεωρήσουμε ασυνεπείς αυτές με βάρος που απέχει από τη μέση τιμή του βάρους ποσότητα ίση με k φορές την τυπική απόκλιση όλ της κατανομής των βαρών, όπου k μικρή σταθερά. 16

Ακμή αν: Αλγόριθμοι γράφων: RNG (relative neighborhood graph) d ( x, x ) max{ d ( x, x ), d ( x, x )}, k i j i k j k i, j Γεωμετρικά, υπάρχει ακμή μεταξύ των αντικειμένων x i και x j, αν δεν υπάρχει κάποιο άλλο αντικείμενο εντός της τομής των δύο σφαιρών με κέντρα τα x i και x j, και ακτίνα ίση με d(x i, x j ). xi xj 17

Αλγόριθμοι γράφων: GG (gabriel graph) Ακμή αν: d 2 2 ( x, x ) d ( x, x ) + d ( x, x )}, k i j i k 2 j k i, j Γεωμετρικά, υπάρχει ακμή μεταξύ των αντικειμένων x i και x j, αν δεν υπάρχει κάποιο άλλο αντικείμενο εντός της σφαίρας με κέντρο το μέσο του τμήματος με ένα άκρο x i και άλλο το x j, και διάμετρο ίση με d(x i,x j ). xi xj 18

Σύγκριση γρ Αν E είναι το σύνολο ακμών ενός γράφου, τότε μπορεί να αποδειχθεί ότι: E( MST ) E( RNG) E( GG) 1) Ενώ στο MST κάθε ζεύγος κορυφών συνδέεται με ένα μονοπάτι, στους RNG και GG, μπορεί να υπάρχουν περισσότερα ερα από ένα έαμονοπάτια οοά που να συνδέουν ένα ζεύγος αντικειμένων. 2) Πολυπλοκότητα: MST: Ο(n 2 ). Μεγαλύτερη για RNG/GG 19

Παράδειγμα για ίδιο k (IRIS δεδομένα) ) k=3 20

Τί θα εξετάσουμε 4 βασικές κατηγορίες αλγορίθμων ομαδοποίησης Αλγ. τμηματοποίησης Ιεραρχικοί αλγόριθμοι Αλγ. βασισμένοι στην πυκνότητα Αλγ. βασισμένοι σμέ ση στην θεωρία γράφων Κλιμάκωση Έλεγχος Εγκυρότητας και τάσης ομαδοποίησης ης 21

BIRCH Balanced Iterative Reducing and Clustering using Hierarchies, by Zhang, Ramakrishnan, Livny (SIGMOD 96). Επιτυγχάνει μεγάλη κλιμάκωση καθώς είναι πολύ μικρότεροι οι χωροχρονικοί περιορισμοί. Χρησιμοποιεί μία δενδρική δομή CF-δένδρου που έχει ομοιότητες με το Β + δένδρο. Αντί να κρατάμε όλα τα σημεία μιας συστάδας κρατάμε κάποια «στατιστικά» για κάθε συστάδα και για τις σχέσεις μεταξύ των συστάδων 22

Χαρακτηριστικά συστάδας Έστω μια συστάδα σημείων: Centroid(κεντρικό σημείο): Radius (ακτίνα) ί μέση απόσταση των σημείων της συστάδας από το centroid Diameter (διάμετρος): μέση ανα-δύο απόσταση των σημείων της συστάδας 23

Clustering Feature Vector Οι εγγραφές στο δένδρο είναι τριάδες, που περιέχουν αρκετή πληροφορία για τον υπολογισμό των (μετρικών) αποστάσεων μεταξύ συστάδων. Clustering Feature: CF = (N, LS, SS) N: Number of data points CF = (5,(16,30),(54,190)) LS: N i=1=x i SS: N 2 i=1=x i (3,4) 10 9 (2,6) 8 7 (4,5) 6 5 (4,7) 4 (3,8) 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 24

CF Tree B = 6 CF 1 CF 2 CF 3 CF 6 Root child 1 child 2 child 3 child 6 Non-leaf node CF 1 CF 2 CF 3 CF 5 child 1 child 2 child 3 child 5 Leaf node Leaf node prev CF 1 CF 2 CF 6 next prev CF 1 CF 2 CF 4 next κατώφλι Τ για όλα τα φύλλα, αναφορικά με την ακτίνα (ή τη διάμετρο) 25

Φάσεις Δεδομένα Φάση 1: Κατασκευή CF δέντρου Αρχικό CF δέντρο Μικρότερο CF δέντρο Φάση 2 (προαιρετική): Κατασκευή μικρότερου CF δέντρου Φάση 3: Ολική Συσταδοποίηση Καλές Συστάδες Φάση 4 (προαιρετική): βελτίωση της Συσταδοποίησης Καλύτερες Συστάδες Φάση 1: Μια δομή κύριας μνήμης που συνοψίζει τα δεδομένα. Χτίζεται σε χρόνο Ο(n). Φάση 2: προσπαθεί να διώξει τους outliers και να ενοποιήσει «όμοιες» συστάδες που αντιστοιχούν σε περιοχές με πολλά σημεία (με αύξηση του Τ)). Χρειάζεται για να βελτιώσει τη Φάση 3 26

Φάση 3 Φάσεις 3-4 Ξανα-συσταδοποιεί τα φύλλα του δέντρου. Πχ κοντινές συστάδες που (έτυχε να) είναι σε διαφορετικά φύλλα Για κάθε συστάδα που εμφανίζεται στα φύλλα, υπολογίζουμε το κεντρικό της σημείο (centroid) και τα θεωρούμε ως αρχικά σημεία αυτά τα αρχικά σημεία μπορούμε να τα συσταδοποιήσουμε χρησιμοποιώντας έναν οποιαδήποτε αλγόριθμο συσταδοποίησης. Φάση 4 Ενοποίηση ομάδων που είναι σε διαφορετικά φύλλα Εξασφαλίζει όλα τα αντίγραφα να έιναι σε ένα φύλλο 27

Προβλήματα BIRCH Λόγω Β και σειράς εισαγωγής: Διάσπαση σημείων της ίδιας ομάδας, επειδή ανήκουν σε διαφορετικά φύλλα Συγχώνευση σημείων διαφορετικών ομάδων, επειδή ανήκουν στο ίδιο φύλλο Εφαρμόζεται σε αριθμητικά δεδομένα Ευαισθησία στη σειρά των δεδομένων 28

Χωρικά δεδομένα Οι ομάδες ορίζονται ως πυκνές περιοχές στο χώρο. Έχουν οποιοδήποτε σχήμα, κατεύθυνση και μέγεθος. Διαφέρει η πυκνότητα και μέσα στις ομάδες αλλά και μέσα στην ίδια ομάδα. Θόρυβος Ο αλγόριθμος ομαδοποίησης πρέπει να μπορεί να αντιμετωπίζει όλα τα παραπάνω χωρίς να απαιτείται επίβλεψη (όσο γίνεται). 29

CHAMELEON Πρόκειται για ένα συναθροιστικό ιεραρχικό αλγόριθμο που βασίζεται σε δυναμικό μοντέλο. Προεπεξεργασία: Αναπαράσταση δεδομένων ως γράφο Δημιουργούμε έναν γράφο k-πλησιέστερων γειτόνων που αναπαριστά τις συσχετίσεις ενός σημείου με τους k-πλησιέστερους γείτονες. Η έννοια της γειτνίασης μεταβάλλεται δυναμικά. 30

Chameleon: Βήματα Φάση 1: αλγόριθμος graph partitioning εύρεση ενός μεγάλου αριθμού ομάδων με πυκνά συνδεδεμένες κορυφές Κάθε μία από αυτές τις ομάδες περιμένουμε να περιέχει σημεία από την ίδια «πραγματική» ομάδα, δηλ. να είναι υποσύνολό της. Ελάχιστο πλήθος ανά ομάδα: 1-5% του αρχικού συνόλου 31

Chameleon: Βήματα Φάση 2: Χρήση συσσωρευτικού ιεραρχικού αλγορίθμου για γανα συνενώσει τις ομάδες της προηγούμενης φάσης. Δύο ομάδες συνενώνονται αν η συστάδα που προκύπτει έχει κοινά χαρακτηριστικά με τις αρχικές συστάδες. Δύο βασικά χαρακτηριστικά για τον έλεγχο της ομοιότητας: Relative Interconnectivity-Σχετική συνοχή: Απόλυτη συνοχή (άθροισμα βαρών των ακμών που συνδέουν τις δύο συστάδες) κανονικοποιοημένη ως προς την εσωτερική συνοχή (άθροισμα των βαρών των ακμών που χωρίζουν μία συστάδα σε δυο σχεδόν ίσα μέρη) Relative Closeness-Σχετική εγγύτητα: Απόλυτη εγγύτητα δύο συστάδων (μέσος όρος των βαρών των ακμών που συνδέουν τις δύο συστάδες) κανονικοποιοημένη ως προς την εσωτερική εγγύτητα (μέσος όρος των βαρών των ακμών που ανήκουν στην τομή ελαχίστου κόστους μίας συστάδας) 32

Χαρακτηριστικά Μεγάλη αποτελεσματικότητα σε χωρικά δδ δεδομένα με διαφορετικά σχήματα, μεγέθη και πυκνότητες. Στην αρχική τμηματοποίηση του γράφου, πρέπει τα σημεία όντως να ανήκουν στην ίδια ομάδα. Πολυπλοκότητα K-nn γράφος: O(mlogm) O(m 2 ) m σημεία σε p τμήματα γράφου: O(mlog(m/p)) Υπολογισμός συνοχής εγγύτητας: O(mp) Ιεραρχικός αλγόριθμος: Ο(p 2 logp) 33

Πειραματικά Αποτελέσματα: CHAMELEON 34

Πειραματικά Αποτελέσματα: CHAMELEON 35