BIRCH: : An Efficient Data Clustering Method for Very Large Databases

Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Κεφ.11: Ευρετήρια και Κατακερματισμός

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Ομαδοποίηση Ι (Clustering)

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Ομαδοποίηση ΙΙ (Clustering)

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

ιαµέριση - Partitioning

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

Υπερπροσαρμογή (Overfitting) (1)

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Συμπίεση Δεδομένων

Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΑΛΓΟΡΙΘΜΙΚΕΣ ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στις Ηλεκτρικές Μετρήσεις

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Έξι βαθμοί διαχωρισμού

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

ΑΛΓΟΡΙΘΜΙΚΕΣ ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ

ΠΛΕ075: Προηγμένη Σχεδίαση Αλγορίθμων και Δομών Δεδομένων. Λουκάς Γεωργιάδης

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 3: Αλγόριθμοι πληροφορημένης αναζήτησης. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής

Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

ΑΛΓΟΡΙΘΜΙΚΕΣ ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ

ΠΡΟΣΟΧΗ : Νέα Ύλη για τις Κατατακτήριες από 2012 και μετά στην Φυσική Ι. Για το 1ο εξάμηνο. ΕΞΕΤΑΣΤΕΑ ΥΛΗ στο μάθημα ΦΥΣΙΚΗ Ι -ΜΗΧΑΝΙΚΗ

Εισαγωγή στους Αλγόριθμους. Παύλος Εφραιμίδης, Λέκτορας

Τεχνητή Νοημοσύνη. 4η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

ΔΙΚΤΥΑ (13) Π. Φουληράς

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 5: Παραδείγματα. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Συμπίεση Δεδομένων

Αναγνώριση Προτύπων Ι

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ. Διάλεξη 3: Περιγραφή αριθμητικών μεθόδων (συνέχεια)

Εισαγωγή στην Ανάλυση Αλγορίθμων

Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής

Συμπίεση Πολυμεσικών Δεδομένων

Advanced Data Indexing

Ανάλυση κατά Συστάδες. Cluster analysis

Συμπίεση Δεδομένων

Πανεπιστήμιο Θεσσαλίας. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Χωροταξίας Πολεοδομίας και Περιφερειακής Ανάπτυξης


4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Αλγόριθμοι Ταξινόμησης Μέρος 4

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Heapsort Using Multiple Heaps

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Πολυπλοκότητα. Παράμετροι της αποδοτικότητας ενός αλγόριθμου: Χρόνος εκτέλεσης. Απαιτούμενοι πόροι, π.χ. μνήμη, εύρος ζώνης. Προσπάθεια υλοποίησης

Επεξεργασία Ερωτήσεων

Transcript:

BIRCH: : An Efficient Data Clustering Method for Very Large Databases Tian Zhang Raghu Ramakrishnan Miron Livny Παρουσίαση: Μαρία Καθηγητής: Μιχάλης Μάθημα: Θέματα Μαρία Δήμα Μιχάλης Χατζόπουλος Θέματα Εφαρμογών Βάσεων Δεδομένων Μάιος 2008

Πρόβλημα Ομαδοποίησης Δεδομένα Ν σημεία (πολυδιάστατα) Κ ομάδες Συνάρτηση μέτρησης διαφορετικότητας Στόχος: Τοποθέτηση σημείων σε ομάδες ώστε - να ελαχιστοποιείται η διαφορετικότητα εντός ομάδας - να μεγιστοποιείται η διαφορετικότητα των ομάδων Επιπρόσθετοι περιορισμοί Περιορισμένη μνήμη Μεγάλο πλήθος δεδομένων Μείωση χρόνου για I/O

Μέθοδοι βασισμένοι σε Πιθανότητες (Probability-based) based) Βασικά Χαρακτηριστικά Περιγραφή ομάδων (και χαρακτηριστικών) βάσει πιθανοτήτων Πιθανολογική συνάρτηση μέτρησης διαφορετικότητας Σταδιακή δημιουργία Ιεραρχίας (incremental method) Παραδοχή Ανεξαρτησία των κατανομών των χαρακτηριστικών Προβλήματα Συσχετίσεις χαρακτηριστικών Μεγάλο κόστος αποθήκευσης και ενημέρωσης των ομάδων Μη-ισοζυγισμένο πιθανολογικό δέντρο Μέθοδοι: COBWEB, CLASSIT

Μέθοδοι βασισμένοι σε Απόσταση (Distance-based) Βασικά Χαρακτηριστικά Αντιπροσώπευση ομάδων από ένα κέντρο Συνάρτηση μέτρησης διαφορετικότητας βασισμένη σε απόσταση Κατηγορίες Αλγορίθμων Εξαντλητική Απαρίθμηση (Exhaustive Enumeration) Επαναληπτική Βελτιστοποίηση (Iterative Optimization) Ιεραρχική Ομαδοποίηση (Hierarchical Clustering) Προβλήματα Ολοκληρωτική διαθεσιμότητα δεδομένων (non-incremental method) Ομοιόμορφη αντιμετώπιση των δεδομένων Global ή Semi-Global μέθοδοι Μέθοδοι: KMEANS, KMEDOIDS, CLARANS, AGNES, DIANA

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) Υβριδικός Αλγόριθμος Κατασκευή δενδρογράμματος Τελική, γενική ομαδοποίηση Πλεονεκτήματα - Καινοτομίες Ρητοί περιορισμοί μνήμης και χρόνου - Βέλτιστες ομάδες (ακρίβεια) - Ελαχιστοποίηση κόστους για I/O (αποδοτικότητα) 1 μοναδική σάρωση των δεδομένων (incremental method) Μη-ομοιόμορφη αντιμετώπιση των δεδομένων Local μέθοδος Προβλήματα Μετρικά χαρακτηριστικά

Μαθηματικό Υπόβαθρο (1/2) Ομάδα με Ν σημεία διάστασης d {X i }, i = 1,, N Centroid: uur X 0 Χαρακτηριστικά μεγέθη ομάδας = N X uur i i= 1 N Radius: R uur ( Xi X0) N 2 i= 1 = N uur 1 2 Μέση απόσταση σημείων από το Centroid Diameter: D uur uur N ( N 1) ( Xi Xj) N N 2 i= 1 j= 1 = 1 2 Μέση απόσταση ζευγών σημείων εντός ομάδας

Μαθηματικό Υπόβαθρο (2/2) {X m } = {X i } + {X j } m = 1,, N 1, N 1 +1,, N 1 +N 2 Χαρακτηριστικά μεγέθη μεταξύ 2 ομάδων Centroid Euclidian Distance: Centroid Manhattan Distance: Average Inter-Cluster Distance: Average Intra-Cluster Distance: Variance Increase Distance: 1 2 2 D uuur uuur 0 = ( X0 X ) 1 0 2 uuur uuur d uuur j uuur D = X X = X X () () j 1 0 0 0 0 j= 1 1 2 1 2 1 N 2 1 N1+ N2 2 ( X uur i X uur j) i= 1 j= N1 + 1 D 2 = NN 1 2 1 N 2 1+ N2 N1+ N2 2 ( X uur i X uur j) i= 1 j= 1 D3 = ( N1+ N2) ( N1+ N2 1) N1+ N 2 2 N 2 N 1 1+ N2 uur uur uur X N l 1+ N2 uur Xl N1 uur Xl N1+ N 2 uur l= 1 l= 1 l= N1 + 1 D4 = Xk X i X j k= 1 ( N1 N2) + i= 1 N1 j= N1 + 1 N 2 2

Μία τριπλέτα που συνοψίζει τις πληροφορίες σχετικά με μία ομάδα uur CF = N, LS, SS όπου: ( ) Clustering Feature Ν: αριθμός σημείων σε μία ομάδα uur LS SS N uur = Xi i= 1 N 2 = X uur i i= 1 άθροισμα σημείων σε μία ομάδα άθροισμα τετραγώνων σημείων σε μία ομάδα Αθροιστικό Θεώρημα (CF Additivity) Αν τότε CF CF = ( N, LS, SS ) uuuur ( N, LS, SS ) 1 1 1 1 = uuur 2 2 2 2 CF = CF1 + CF2 uuur uuuur CF = N + N, LS + LS, SS + SS ( 1 2 1 2 1 2) 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 CF 1 = ( 5, (16, 30), (54,190) ) Σημεία Ομάδας (3,4) (2,6) (4,5) (4,7) (3,8)

Ιδιότητες Clustering Feature Δυνατότητα συγχώνευσης ομάδων σταδιακά και με συνέπεια Αποδοτική καταχώρηση (περισσότερο συμπαγής) Απουσία αναγκαιότητας αποθήκευσης των δεδομένων Επαρκής καταχώρηση για τον υπολογισμό των X 0, R, D, D 0 -D 4 Παραδείγματα - Centroid: μ = LS N - Radius: R N N N N 2 2 2 2 ( xi 2xiμ+μ ) ( xi ) ( 2xiμ ) + ( μ ) i= 1 i= 1 i= 1 i= 1 = = = N N N N 2 2 ( xi ) 2μ ( xi) ( μ ) SS LS N N N N N i= 1 i= 1 i= 1 = + = N 2

CF - Tree Ζυγισμένο δέντρο (height-balanced) Κόμβος υποομάδα Εσωτερικός κόμβος Ρίζα CF 11 CF 12... 12 CF 1B Β καταχωρίσεις Κόμβος Φύλλο Εσωτερικός Κόμβος CF 21... 21 CF 22 CF 2B 2B... L καταχωρίσεις που ικανοποιούν ένα Threshold T Κόμβος Φύλλο Προηγούμενο CF 1 CF 2 CF L Επόμενο Προηγούμενο CF L+1 Τα B, L προσδιορίζονται από - τη διάσταση d - το μέγεθος σελίδας P

Αλγόριθμος Για κάθε σημείο-δεδομένο { Προσδιορισμός του κατάλληλου φύλλου και της καταχώρησης-υποομάδας για εισαγωγή Αν δεν παραβιάζεται η συνθήκη σχετικά με το threshold { } Αλλιώς { Εισαγωγή στο CF-Tree Εισαγωγή του δεδομένου στην υποομάδα Ενημέρωση των εμπλεκόμενων CF τριπλετών (μέχρι και τη ρίζα) Δημιουργία νέας καταχώρησης-υποομάδας για το δεδομένο } } Αν υπάρχει χώρος στο φύλλο, ενημέρωση των εμπλεκόμενων CF τριπλετών Αλλιώς { } Σπάσιμο του φύλλου Πιθανό σπάσιμο γονέα (μέχρι και τη ρίζα) Διαδικασία συγχώνευσης για βελτίωση (Merging Refinement) Ενημέρωση των εμπλεκόμενων CF τριπλετών

Παράδειγμα Εισαγωγής στο CF-Tree (1/3) C 2 sc 6 sc 5 C 1 sc 3 sc 4 sc 1 sc 2 Αδυναμία αφομοίωσης του δεδομένου από κάποια καταχώρηση ενός φύλλου (sc 3 ) Ρίζα Δημιουργία νέας καταχώρησης C 1 C 2 Σπάσιμο φύλλου sc 1 sc 2 sc sc sc 3 4 5 sc 6

Παράδειγμα Εισαγωγής στο CF-Tree (2/3) C 2 sc 6 C 2 C 1 sc 3 sc 5 sc 4 sc 1 sc 2 Θεωρούμε Β=3 Ρίζα Ο κόμβος C 2 σπάει στους C 2 και C 2 Ανακατανομή των φύλλων - Επιλογή των 2 πιο απομακρυσμένων φύλλων - Εισαγωγή των υπολοίπων βάσει του closest criteria sc 1 sc 2 C 1 sc 5 sc 4 C 2 sc 3 C 2 sc 6

Παράδειγμα Εισαγωγής στο CF-Tree (3/3) C 2 sc 6 C 3 C 3 sc 3 sc 5 sc 4 sc 1 sc 2 Η ρίζα χωράει τους κόμβους C 1, C 2 και C 2 Ρίζα Τέλος σπασιμάτων Merging Refinement Οι κόμβοι C 1 και C 2 συγχωνεύονται στον C 3, ως οι πιο κοντινοί γείτονες με γονέα τη ρίζα C 3 C 3 C 2 Ο C 3 έχει 4 παιδιά Σπάει στους C 3, C 3 sc 2 sc 1 sc 5 sc 4 sc 3 sc 6

Γενική Επισκόπηση του Αλγορίθμου BIRCH Δεδομένα Φάση 1: Φόρτωμα δεδομένων στη μνήμη Κατασκευή CF-Tree Αρχικό CF-Tree Φάση 2 (Προαιρετική): Σύμπτυξη Κατασκευή μικρότερου CF-Tree Μικρότερο CF-Tree Φάση 3: Τελική, καθολική ομαδοποίηση Καλές ομάδες Φάση 4 (Προαιρετική): Βελτίωση λαμβανόμενων ομάδων Καλύτερες ομάδες

1 η Φάση Αλγορίθμου BIRCH Αρχικοποίηση CF-Tree t 1, με threshold Τ Διάβασμα δεδομένων Εισαγωγή στο t 1 Ανεπάρκεια μνήμης Αποτέλεσμα; Τέλος δεδομένων 1. Αύξηση του threshold T 2. Κατασκευή μικρότερου CF-Tree t 2, από το CF-Tree t 1 (καταγραφή στο δίσκο πιθανών outliers, εφόσον υπάρχει διαθέσιμος χώρος) 3. Θέτουμε όπου t 1 το t 2 Διαφορετικά Αποτέλεσμα; Ανεπάρκεια δίσκου Επανένταξη πιθανών outliers στο t 1 Επανένταξη πιθανών outliers στο t 1

Κατασκευή Μικρότερου CF-Tree Θεώρημα (Reducibility Theorem) Θεωρούμε αρχικό CF-tree t i, με σχετικό threshold Τ i και μέγεθος S i. Θέλουμε να κατασκευάσουμε CF-tree t i+1 +1, με σχετικό threshold Τ i+1 και μέγεθος S i+1 +1. Αν Τ i+1 Τ i (μεγαλύτερο threshold), τότε S i+1 S i (μικρότερο CF-tree tree) Απαιτούνται το πολύ h επιπλέον σελίδες μνήμης (h: h:ύψος δέντρου) Παλιό δέντρο Ελευθερώθηκε Παλιό τρέχων μονοπάτι Νέο δέντρο Δημιουργήθηκε Νέο κοντινότερο μονοπάτι Νέο τρέχων μονοπάτι Σάρωση και απελευθέρωση χώρου παλιού CF-tree (μονοπάτι - μονοπάτι) Ταυτόχρονη κατασκευή νέου CF-tree Εισαγωγή των καταχωρήσεων των φύλλων

Ζητήματα Σχετικά με την Επανακατασκευή 1. Threshold Αρχική τιμή: Τ 0 =0 (συντηρητική( συντηρητική) Μεγάλη αρχική τιμή Λιγότερο λεπτομερές αρχικό δέντρο Επόμενες τιμές: Το νέο δέντρο να καταλαμβάνει τη μισή μνήμη, λόγω των συγχωνεύσεων των καταχωρήσεων των φύλλων (ευρετικό) Στόχος: Μείωση των απαιτούμενων επανακατασκευών 2. Outliers Καταχωρήσεις φύλλων με πολύ λιγότερα σημεία Διάθεση R bytes στο δίσκο Χειρισμός κατά την επανακατασκευή του CF-tree Περιοδική και τελική πιθανή επανένταξη στο CF-tree 3. Καθυστέρηση επανακατασκευής (Delay-Split) Εγγραφή στο δίσκο των δεδομένων που οδηγούν σε διάσπαση κόμβου Απορρόφηση περισσότερων δεδομένων πριν την επανακατασκευή

Συμπεράσματα 1 ης Φάσης Αποτέλεσμα: Δημιουργία βέλτιστης σύνοψης των δεδομένων Πυκνοκατοικημένες υποομάδες δεδομένων Απομάκρυνση μεμονωμένων δεδομένων Συμβολή Γρηγορότεροι μετέπειτα υπολογισμοί - Ολοκληρωμένη ανάγνωση των δεδομένων - Ομαδοποίηση υποομάδων Ακριβέστεροι μετέπειτα υπολογισμοί Ελάττωση ευαισθησίας στην σειρά εμφάνισης των δεδομένων

2 η Φάση Αλγορίθμου BIRCH (Προαιρετική) Αναγκαιότητα Συγκρότηση Μ υποομάδων για ομαδοποίηση κατά την 1 η φάση Η απόδοση των global ή semi-global αλγορίθμων ομαδοποίησης εξαρτάται από το πλήθος των δεδομένων εισόδου. (CLARANS πλήθος < 5000) Διαδικασία Κατασκευή μικρότερου CF-Tree (αύξηση threshold) Εισαγωγή των καταχωρήσεων των φύλλων Απομάκρυνση περισσοτέρων outliers, πυκνότερες υποομάδες Συμβολή Συγκρότηση λιγότερων υποομάδων για τη μετάβαση στη 3 η φάση

Global Ομαδοποίηση Λήψη τελικών ομάδων εφαρμογή global ή semi-global αλγορίθμου Χρήση ενός συσσωρευτικού ιεραρχικού αλγόριθμου (HAC) - Αντιπροσώπευση των υποομάδων μέσω του CF - Χρήση της μετρικής D 2 ή D 4 - Πολυπλοκότητα O(m 2 ), όπου m το πλήθος των υποομάδων Ευελιξίες Αλγορίθμου Προσδιορισμός του επιθυμητού πλήθους των ομάδων Προσδιορισμός του επιθυμητού threshold των ομάδων Συμβολή 3 η Φάση Αλγορίθμου BIRCH Καταπολέμηση του διασκορπισμού των υποομάδων που θα έπρεπε να βρίσκονται στην ίδια ομάδα Διαχωρισμός υποομάδων που δε θα έπρεπε να βρίσκονται στην ίδια ομάδα

4 η Φάση Αλγορίθμου BIRCH (Προαιρετική) Αναγκαιότητα Εμφάνιση μικρών, τοπικών σφαλμάτων Αρχική λανθασμένη τοποθέτηση δεδομένων σε κάποια υποομάδα Διαδικασία Επανεισαγωγή των δεδομένων (k επιθυμητές φορές) Χρήση των centroids των ομάδων Κατανομή των δεδομένων βάσει του closest criteria Πρόσθετες Επιλογές Σήμανση των δεδομένων με την ομάδα που ανήκουν Απομάκρυνση μεμονωμένων σημείων Αντιστάθμισμα μνήμης - ταχύτητας

Ανάλυση Πολυπλοκότητας Κόστος CPU 1 η Φάση: ύψος πλήθος πλήθος δέντρου επανακατασκευών καταχωρήσεων M N M M O d N B 1+ log + log d B 1+ log P N ES P B 2 B 0 Μέγεθος καταχώρησης κατασκευή δέντρου κατασκευή μικρότερων δέντρων 2 η Φάση: 3 η Φάση: Παρόμοια με την 1 η φάση (επανακατασκευή) Φραγμένο από το μέγεθος εισόδου ( Ο(m 2 ) ) 4 η Φάση: Ο (Ν*Κ), (μπορεί( να βελτιωθεί σε γραμμικό) Κόστος I/O 1 η, 2 η Φάση: Κόστος διαβάσματος δεδομένων + χειρισμού outliers ( Ο(Ν) ) 4 η Φάση: Κόστος διαβάσματος δεδομένων (* το πλήθος των επαναλήψεων)

Σύγκριση Πολυπλοκότητας Αλγορίθμων Αλγόριθμος Τύπος Χώρος Χρόνος Χαρακτηριστικά Single Link Ιεραρχικός O(n 2 ) O(kn 2 ) Not incremental Average Link Ιεραρχικός O(n 2 ) O(kn 2 ) Not incremental Complete Link Ιεραρχικός O(n 2 ) O(kn 2 ) Not incremental MST Ιεραρχικός Διαμέρισης O(n 2 ) O(n 2 ) Not incremental Squared Error Διαμέρισης O(n) O(tkn) Iterative K-Means Διαμέρισης O(n) O(tkn) Iterative, No categorical Nearest Neighbor Διαμέρισης O(n 2 ) O(n 2 ) Incremental PAM Διαμέρισης O(tn 3 ) ή O(tkn 2 ) O(n 2 ) Iterative ROCK Συσσωρευτικός O(n 2 lgn) O(n 2 ) Sampling, Categorical, Links CURE Υβριδικός O(n 2 lgn) O(n) Heap, k-d tree, Incremental, Outliers DBSCAN Υβριδικός O(n 2 ) O(n 2 ) Sampling, Outliers BIRCH Υβριδικός O(n) O(n) CF-Tree, Incremental, Outliers

Πειράματα 1 ο Πείραμα - Αξιολόγηση ικανότητας ομαδοποίησης μεγάλων συνόλων δεδομένων - Σύγκριση BIRCH με CLARANS 2 ο Πείραμα - Μελέτη της ευαισθησίας του BIRCH στις αλλαγές των τιμών κάποιων παραμέτρων - Σχέση χρόνου εκτέλεσης και μεγέθους συνόλου δεδομένων 3 ο Πείραμα Αξιολόγηση ποιότητας ομαδοποίησης σε εφαρμογές του πραγματικού κόσμου (φιλτράρισμα και συμπίεση εικόνων)

1 ο Πείραμα: Τεχνητό Σύνολο Δεδομένων (1/2) Σύνολα δεδομένων 3 τεχνητά σύνολα δυσδιάστατων δεδομένων (d=2) Κ ομάδες για κάθε σύνολο Χαρακτηριστικά ομάδων - Πλήθος δεδομένων (n) - Radius (r) - Center (c) 1. Grid Pattern Τα κέντρα βρίσκονται σε ένα K πλέγμα 2. Sine Pattern Τα κέντρα βρίσκονται σε 1 καμπύλη ημιτόνου 3. Random Pattern Τα κέντρα τοποθετούνται τυχαία K

1 ο Πείραμα: Τεχνητό Σύνολο Δεδομένων (2/2) Σύνολο Δεδομένων Παραγωγή δεδομένων (για κάθε ομάδα) Δυσδιάστατη ανεξάρτητη κανονική κατανομή με - μέσο κέντρο c - διασπορά κάθε διάστασης Πιθανή εμφάνιση outliers Πιθανή προσθήκη θορύβου (r r ) Ρυθμίσεις Γεννήτριας DS 1 Πλέγμα, Κ=100, n l =n h =1000, r l =r h = 2, k g =4, r n =0%, o = τυχαία+σε σειρά 2,00 DS 2 Ημίτονο, Κ=100, n l =n h =1000, r l =r h = 2, n c =4, r n =0%, o = τυχαία+σε σειρά 2,00 DS 3 Τυχαία, Κ=100, n l =0, n h =2000, r l =0, r h =4, r n =0%, o = τυχαία+σε σειρά 4.18 Τοποθέτηση δεδομένων (για κάθε σύνολο) (ο) Τυχαία (π.χ. διαβάζεται ένα δεδομένο από τη 3 η ομάδα και μετά ένα από τη 10 η ) Σε σειρά (τατα δεδομένα κάθε ομάδας διαβάζονται όλα μαζί, ο θόρυβος στο τέλος) 2 r 2 D act

1 ο Πείραμα: Παράμετροι BIRCH Πεδίο Παράμετροι Προεπιλεγμένες Τιμές (Default) Γενικά 1 η Φάση 3 η Φάση 4 η Φάση Μνήμη (M) Δίσκος για Outliers (R) 80 1024 bytes (5% δεδομένων) 20% M Μετρική Απόστασης D 2 Μετρική Ποιότητας Ορισμός Threshold Threshold για το D Αρχικό Threshold 0.0 Καθυστέρηση Επανακατασκευής Μέγεθος Σελίδας (P) Χειρισμός Outliers Ορισμός Outliers Ενεργό 1024 bytes Ενεργό Καταχώρηση φύλλου με δεδομένα λιγότερα από το 25% του μέσου πλήθους των δεδομένων των καταχωρήσεων Εύρος Εισόδου 1000 Αλγόριθμος HAC Διορθωτικά Περάσματα 1 Απομάκρυνση Outliers Ορισμός Outliers D Ενεργό Σημείο-δεδομένο που απέχει από το κοντινότερο κέντρο περισσότερο από το διπλάσιο της ακτίνας

1 ο Πείραμα: CLARANS Βασικά Χαρακτηριστικά Πιθανοτικός Αλγόριθμος (Randomized Search) Αντιπροσώπευση ομάδας από ένα κεντρικό σημείο (medoid) Αναζήτηση σε ένα γράφο - κόμβος - γείτονας κόμβου Αλγόριθμος λύση του προβλήματος (σύνολο Κ ομάδων) κόμβος που έχει ένα διαφορετικό medoid Μέχρι να βρεθούν numlocal λύσεις (τοπικά ελάχιστα) { Επέλεξε τυχαία ένα δείγμα των δεδομένων Επέλεξε τυχαία ένα κόμβο του δέντρου ως ενεργό Μέχρι να βρεθεί λύση { Για το πολύ maxneighbor φορές { Επέλεξε τυχαία ένα γείτονα του ενεργού κόμβου Αν η ομαδοποίηση είναι καλύτερη, θέσε το γείτονα ως ενεργό κόμβο και συνέχισε } Αν δεν έχει βρεθεί καλύτερος γείτονας, σημείωσε ως λύση τον ενεργό κόμβο } } Προβλήματα Η ποιότητα της λύσης εξαρτάται από το επιλεγμένο δείγμα. Αδυναμία εύρεσης πραγματικών τοπικών ελάχιστων

1 ο Πείραμα: Παραδοχές CLARANS Απαίτηση Μνήμης - Διατίθεται η αναγκαία για τη διατήρηση των δεδομένων - Πλεονέκτημα όσον αφορά την ταχύτητα της εκτέλεσης Ευαισθησία στη γεννήτρια παραγωγής τυχαίων αριθμών - Unix rand() rand() : Όχι πραγματικά τυχαίοι αριθμοί - Ασταθής απόδοση CLARANS - Χρήση εξειδικευμένης γεννήτριας Τερματισμός σε αποδεχτό χρόνο - maxneighbor < 100 - numlocal = 2

1 ο Πείραμα: Σύγκριση BIRCH CLARANS(1/2) 1 ο σύνολο δεδομένων: Grid Pattern BIRCH CLARANS Κέντρο (c) Μικρή Διαφορά (μέση διαφορά 0,07) Παραμορφωμένο το αναμενόμενο pattern Ομάδες Δεδομένα (n) Παρόμοιο Πλήθος (<4% οι διαφορές) Διαφορετικό πλήθος (διαφορές μέχρι και 57%) Ακτίνα (r) Μικρότερη (1.32<1.41) Μεγαλύτερη (1.44>1.41) Απόδοση Pattern Impact Όχι Ναι Order Impact Όχι Ναι

1 ο Πείραμα: Σύγκριση BIRCH CLARANS(2/2) Σύνολα Χρόνος D Σύνολα Χρόνος D Σύνολα Χρόνος D Σύνολα Χρόνος D DS 1 47,1 1,87 οds 1 47,4 1,87 DS 2 47,5 1,99 οds 2 46,4 1,99 DS 3 49,5 3,39 οds 3 48,4 3,26 Συγκεντρωτική Απόδοση BIRCH DS 1 839.5 2.11 οds 1 1525.7 10.75 DS 2 777.5 2.56 οds 2 1405.8 179.23 DS 3 1520.2 3.36 οds 3 2390.5 6.93 Συγκεντρωτική Απόδοση CLARANS Χρόνος BIRCH ταχύτερος του CLARANS, ενώ χρησιμοποιεί λιγότερη μνήμη D τιμές Καλύτερη ομαδοποίηση ο BIRCH Σειρά διαβάσματος Αμφίβολος ο CLARANS

2 ο Πείραμα: Ευαισθησία στις Παραμέτρους Αρχικό Threshold - Σταθερή απόδοση για όχι υπερβολικά μεγάλη αρχική τιμή - Κατάλληλο T 0 Μέγεθος σελίδας P - Μικρότερα P επιτάχυνση μέχρι 10% χειρότερη απόδοση - Για P=256..4096, ποιοτική ομαδοποίηση λόγω της 4 ης φάσης Χειρισμός Outliers (ενεργός) - Ταχύτερη ομαδοποίηση - Καλύτερη ποιότητα Διαθέσιμη Μνήμη - Προσαρμογή για την αντιμετώπιση μικρής μνήμης - Μεγάλη μνήμη Μικρή μνήμη Μικρός χρόνος εκτέλεσης Μεγάλος χρόνος εκτέλεσης

2 ο Πείραμα: Χρονική Απόδοση (1/2) Παράμετρος Τιμές / Διαστήματα Τιμών Διάσταση d 2.. 50 Pattern Πλέγμα, Ημίτονο, Τυχαία Πλήθος Ομάδων K 2.. 256 n l (μικρότερο n) 0.. 2500 n h (μεγαλύτερο n) 50.. 2500 r l (μικρότερο r) 0.. 2 r h (μεγαλύτερο r) 2.. 32 Distance Multiplier k g 4 (μόνο για το πλέγμα) Number of cycles n c 4 (μόνο για το ημίτονο) Ποσοστό Θορύβου r n (%) 0.. 10 Σειρά Διαβάσματος Δεδομένων ο Τυχαία, σε Σειρά Πόσος χρόνος παραπάνω απαιτείται, όταν αυξηθεί το μέγεθος του συνόλου των δεδομένων; Τροποποίηση μιας παραμέτρου κάθε φορά Ίδια διαθέσιμη μνήμη

2 ο Πείραμα: Χρονική Απόδοση (2/2) Πλήθος Δεδομένων κάθε Ομάδας - Αύξηση n l, n h αύξηση n, Ν - Γραμμική αύξηση σε σχέση με το N - Ελαφρώς ταχύτερη ομαδοποίηση για το DS 2 Χρόνος Εκτέλεσης (sec) Πλήθος δεδομένων (N) Πλήθος Ομάδων - Αύξηση Κ αύξηση Ν - Φάσεις 1-3: Γραμμική αύξηση - Φάση 4: Πολυπλοκότητα Ο(Κ*Ν) (σχεδόν γραμμική) - Διαφορετικές κλίσεις Χρόνος Εκτέλεσης (sec) Πλήθος δεδομένων (N)

3 ο Πείραμα: Φιλτράρισμα Εικόνων Εικόνα τραβηγμένη στην σχεδόν υπέρυθρη ζώνη (NIR) Εικόνα τραβηγμένη στην ορατή ζώνη (VIS) Δεδομένα Εικόνες σε διαφορετικά μήκη κύματος - σχεδόν υπέρυθρη ζώνη (NIR) - ορατή ζώνη (VIS) 512 1024 pixels Σε κάθε pixel αντιστοιχούν δύο τιμές φωτεινότητας (NIR, VIS) Στόχος: Διευκόλυνση Κατηγοριοποίησης Διαχωρισμός δέντρων από φόντο Εντοπισμός φωτεινών φύλλων, σκιών και κλαδιών Αποτέλεσμα: : 6 ομάδες φωτεινός ουρανός, κανονικός ουρανός, σύννεφα, φωτεινά φύλλα, σκιές, κλαδιά δέντρων

3 ο Πείραμα: Εργαλείο Κατηγοριοποίησης Pixels Δεδομένα Προετοιμασία Δεδομένων: Επιλογή Χαρακτηριστικών, Απόδοση Βαρών Pixel: (X, Y, VIS, NIR) Ομαδοποίηση με τον BIRCH Χρήστης Φιλτράρισμα Δεδομένων (για περαιτέρω ομαδοποίηση) Απεικόνιση αποτελεσμάτων με το DEVISE

3 ο Πείραμα: Αποτελέσματα Ομαδοποίησης VIS 1 η Εκτέλεση y NIR 2 Ομάδες: Δέντρα, Ουρανός Βάρος VIS 10 φορές μεγαλύτερο από του NIR Αυτοματοποίηση Κατηγοριοποίησης NIR Διαχωρισμός Δέντρων και Ουρανού x 2 η Εκτέλεση (ομάδα δέντρα ) y VIS 3 Ομάδες: Φωτεινά Φύλλα, Σκιές και Κλαδιά Βάρος NIR 10 φορές μεγαλύτερο από του VIS Διαχωρισμός Φωτεινών Φύλλων, Σκιών και Κλαδιών x

3 ο Πείραμα: Συμπίεση Εικόνων Lena Συμπίεση με το LBG Codebook Baboon Συμπίεση με το LBG Codebook Lena Συμπίεση με το BIRCH Codebook Baboon Συμπίεση με το BIRCH Codebook Lena Συμπίεση με το CLARANS Codebook Baboon Συμπίεση με το CLARANS Codebook

Μελλοντική Έρευνα Τύπος Δεδομένων Πολυπ/τητα Αφηρημένα Σχήματα Ομάδων Outliers BIRCH Παράμετροι Εισόδου Αριθμητικά O(n) Όχι Ναι Threshold, B Αποτελέσματα K Ομάδες (CF αντιπρόσωποι) Κριτήριο Ομαδοποίησης Ένα σημείο ανατίθεται στον κοντινότερο κόμβο (ομάδα) σύμφωνα με το επιλεγμένο μέτρο απόστασης. Επίσης, κάθε ομάδα πρέπει να ικανοποιεί ένα όριο threshold 1. Διαφορετική μεθοδολογία δυναμικής αύξησης του threshold T 2. Δυναμική τροποποίηση του χειρισμού των outliers 3. Ακριβέστερες μετρικές ποιότητας 4. Παράμετροι δεδομένων που προβλέπουν την ποιότητα της ομαδοποίησης 5. Παράλληλες εκτελέσεις και αξιοποίηση διαδραστικής γνώσης 6. Προσαρμογή ρυθμού ομαδοποίησης ανάλογα με το ρυθμό εισαγωγής των δεδομένων 7. Αξιοποίηση των πληροφοριών ομαδοποίησης για την επίλυση προβλημάτων