Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ομαδοποίηση ΙΙ (Clustering)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στους Αλγορίθμους

Λογιστική Κόστους Ενότητα 12: Λογισμός Κόστους (2)

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού σε κατάσταση Κορεσμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

Διοικητική Λογιστική

Μηχανολογικό Σχέδιο Ι

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Prim

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Kruskal

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Λογιστική Κόστους Ενότητα 8: Κοστολογική διάρθρωση Κύρια / Βοηθητικά Κέντρα Κόστους.

Βάσεις Περιβαλλοντικών Δεδομένων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 3: Έλεγχοι στατιστικών υποθέσεων

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Γ. Ολοκληρωτικός Λογισμός

Διοίκηση Επιχειρήσεων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 1: Καταχώρηση δεδομένων

Εισαγωγή στους Αλγορίθμους Ενότητα 10η Άσκηση Αλγόριθμος Dijkstra

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Ιστορία της μετάφρασης

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους (1)

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Γενικά Μαθηματικά Ι. Ενότητα 12: Κριτήρια Σύγκλισης Σειρών. Λουκάς Βλάχος Τμήμα Φυσικής ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 2: Περιγραφική στατιστική

Ψηφιακή Επεξεργασία Εικόνων

ΑΛΓΟΡΙΘΜΟΙ. Ενότητα 12: Αντιμετώπιση Περιορισμών Αλγοριθμικής Ισχύος

Κβαντική Επεξεργασία Πληροφορίας

Διοίκηση Εξωτερικής Εμπορικής Δραστηριότητας

Γενικά Μαθηματικά Ι. Ενότητα 15: Ολοκληρώματα Με Ρητές Και Τριγωνομετρικές Συναρτήσεις Λουκάς Βλάχος Τμήμα Φυσικής

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού Υπέρθερμου Ατμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 5

Λογιστική Κόστους Ενότητα 10: Ασκήσεις Προτύπου Κόστους Αποκλίσεων.

ΗΛΕΚΤΡΟΝΙΚΗ ΙIΙ Ενότητα 6

Βέλτιστος Έλεγχος Συστημάτων

Ενότητα. Εισαγωγή στις βάσεις δεδομένων

1 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Δομές Δεδομένων Ενότητα 1

Θέματα Εφαρμοσμένης. Ενότητα 14.2: Η ψήφος στα πρόσωπα. Θεόδωρος Χατζηπαντελής Τμήμα Πολιτικών Επιστημών ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Εφαρμογές πληροφορικής σε θέματα πολιτικού μηχανικού

Διοικητική Λογιστική

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Εισαγωγή στους Η/Υ. Ενότητα 2β: Αντίστροφο Πρόβλημα. Δημήτρης Σαραβάνος, Καθηγητής Πολυτεχνική Σχολή Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 2: ΣΥΓΚΕΝΤΡΩΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

Λογισμός 3. Ενότητα 19: Θεώρημα Πεπλεγμένων (γενική μορφή) Μιχ. Γ. Μαριάς Τμήμα Μαθηματικών ΑΝΟΙΚΤΑ ΑΚΑ ΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Εισαγωγή στους Αλγορίθμους Ενότητα 11η Άσκηση - Σταθμισμένος Χρονοπρογραμματισμός Διαστημάτων

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εκκλησιαστικό Δίκαιο

Χωρικές σχέσεις και Γεωμετρικές Έννοιες στην Προσχολική Εκπαίδευση

Μυελού των Οστών Ενότητα #1: Ερωτήσεις κατανόησης και αυτόαξιολόγησης

Κβαντική Επεξεργασία Πληροφορίας

Βάσεις Δεδομένων. Ενότητα 1: Εισαγωγή στις Βάσεις δεδομένων. Πασχαλίδης Δημοσθένης Τμήμα Ιερατικών σπουδών

Βάσεις Περιβαλλοντικών Δεδομένων

Εξελικτική Ψυχολογία: Κοινωνικο-γνωστική ανάπτυξη

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 4

Μηχανολογικό Σχέδιο Ι

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εκκλησιαστικό Δίκαιο

Ενδεικτικές λύσεις ασκήσεων διαχείρισης έργου υπό συνθήκες αβεβαιότητας

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 1: Εκτιμητές και Ιδιότητες. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Ψηφιακή Επεξεργασία Εικόνων

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Προγραμματισμός Η/Υ. Βασικές Προγραμματιστικές Δομές. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Τεχνικό Σχέδιο - CAD

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 1

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 6

Μηχανολογικό Σχέδιο Ι

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 8

Βέλτιστος Έλεγχος Συστημάτων

Μάρκετινγκ Αγροτικών Προϊόντων

Ευφυής Προγραμματισμός

Παράκτια Τεχνικά Έργα

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 3

ΣΥΜΠΕΡΙΦΟΡΑ ΚΑΤΑΝΑΛΩΤΗ

Τεχνικό Σχέδιο - CAD

Διδακτική Πληροφορικής

Έλεγχος και Διασφάλιση Ποιότητας Ενότητα 4: Μελέτη ISO Κουππάρης Μιχαήλ Τμήμα Χημείας Εργαστήριο Αναλυτικής Χημείας

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Διδακτική των εικαστικών τεχνών Ενότητα 3

Αλγόριθμοι και πολυπλοκότητα Συγχωνευτική Ταξινόμηση

Σχεδίαση και Ανάλυση Αλγορίθμων Ενότητα 4: ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ - ΔΕΝΤΡΑ

Διδακτική της Πληροφορικής

Εξελικτική Ψυχολογία: Κοινωνικο-γνωστική ανάπτυξη

Διδακτική Πληροφορικής

Αξιολόγηση μεταφράσεων ιταλικής ελληνικής γλώσσας

Μηχανολογικό Σχέδιο Ι

Διαχείριση Πολιτισμικών Δεδομένων

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ομαδοποίηση Μέρος Γ Αλγόριθμοι βασισμένοι στην πυκνότητα, αλγόριθμοι βασισμένοι στη θεωρία γράφων

Περιεχόμενα ενότητας 1. Αλγόριθμοι βασισμένοι στην πυκνότητα. 2. Αλγόριθμοι βασισμένοι στην θεωρία γράφων. 5

Σκοποί ενότητας Παρουσίαση αλγορίθμων που βασίζονται στην πυκνότητα, όπως ο DBScan. Παρουσίαση αλγορίθμων που βασίζονται στη θεωρία γράφων, όπως ο MST. Μελέτη ζητημάτων κλιμάκωσης στην ομαδοποίηση. 6

DBScan (1/2) Κατάλληλος για ομάδες που έχουν υψηλή πυκνότητα σημείων, οι οποίες μπορεί να είναι διαχωρισμένες από άλλα σημεία (θόρυβος) χαμηλότερης πυκνότητας. Προϋποθέτει ότι η πυκνότητα των ομάδων είναι παρόμοια, χωρίς μεγάλες διακυμάνσεις. πυκνότητα = #σημείων σε ακτίνα Eps 7

DBScan (2/2) Κεντρικό σημείο: έχει πυκνότητα μεγαλύτερη ή ίση από μία τιμή MinPts (ανήκουν στο εσωτερικό των ομάδων). Συνοριακό σημείο: έχει πυκνότητα μικρότερη από MinPts, αλλά απέχει από ένα κεντρικό σημείο απόσταση μικρότερη ή ίση από Eps (βρίσκονται στα όρια των ομάδων). Θορυβώδες σημείο: κάθε άλλο σημείο (ανήκουν στις περιοχές χαμηλής πυκνότητας). MinPts = 10 C,D κεντρικά. B συνοριακό. A θορυβώδες. 8

DBSCAN: Αλγόριθμος 1. Χαρακτήρισε κάθε σημείο ως κεντρικό, συνοριακό ή θόρυβο. 2. Αγνόησε όλα τα σημεία θορύβου. 3. Δημιούργησε ένα γράφο με μια κορυφή για κάθε σημείο. 4. Τοποθέτησε μια ακμή μεταξύ όλων των κεντρικών σημείων που είναι σε απόσταση έως Eps μεταξύ τους. 5. Θέσε κάθε ομάδα συνδεδεμένων κεντρικών σημείων ως μια διαφορετική συστάδα. 6. Ανάθεσε κάθε συνοριακό σημείο σε μία από τις συστάδες που περιέχει το πιο κοντινό του κεντρικό σημείο. 9

Επιλογή Eps, MinPts Για κάθε σημείο, βρίσκουμε το k πλησιέστερο προς αυτό, καθώς και τη μεταξύ τους απόσταση. Ταξινομούμε τα σημεία ως προς την απόστασή τους από το k-οστό πλησιέστερο τους. Καθορίζουμε τις τιμές των Eps και MinPts έτσι ώστε να διαχωρίζονται τα σημεία που ανήκουν σε ομάδες από τα θορυβώδη σημεία. 10

Χαρακτηριστικά Δεν επηρεάζεται από το θόρυβο. Μπορεί να χειριστεί συστάδες με διαφορετικά σχήματα και μεγέθη. Αρνητικά: o Πρόβλημα με διαφορετικές πυκνότητες. o Ευαισθησία στις παραμέτρους. o Πολυ-διάστατα δεδομένα: δύσκολος ορισμός πυκνότητας και δαπανηρός υπολογισμός γειτόνων. Πολυπλοκότητα: o O(m x χρόνος εντοπισμού σημείων σε eps-γειτονιά). Ο(m 2 ) Για μικρό αριθμό διαστάσεων, υπάρχουν δομές που υποστηρίζουν την πράξη σε Ο(m logm). O(m) χώρος (κρατάμε μόνο ένα label). 11

Σύγκριση με k-means (1/2) Και οι 2 τοποθετούν ένα σημείο σε μία μοναδική ομάδα. Αλλά ο dbscan μπορεί να μην ομαδοποιήσει όλα τα σημεία. Ο k-means χρησιμοποιεί την έννοια του κέντρου της ομάδας ενώ ο dbscan της πυκνότητας. Ο dbscan χειρίζεται σωστά ομάδες με διαφορετικό σχήμα και μέγεθος, σε αντίθεση με τον k-means. o Και οι 2 αλγόριθμοι δεν μπορούν να χειριστούν ομάδες με διαφορετική πυκνότητα. Ο k-means απαιτεί να μπορεί να οριστεί το κέντρο της ομάδας, ενώ ο dbscan απαιτεί να έχει νόημα η έννοια της πυκνότητας. Ο k-means έχει καλή απόδοση σε αραιά, πολυδιάστατα δεδομένα (πχ., κείμενα). Ο dbscan δεν έχει καλή απόδοση σε αυτήν την περίπτωση. 12

Σύγκριση με k-means (2/2) Και οι 2 μπορούν (με επεκτάσεις) να χειριστούν δεδομένα άλλων τύπων εκτός από αριθμητικά. Και οι 2 λαμβάνουν υπόψη όλα τα χαρακτηριστικά, δηλ. δεν δημιουργούν ομάδες βάσει μόνο κάποιων χαρακτηριστικών. Ο dbscan συνενώνει ομάδες που εφάπτονται ή επικαλύπτονται, σε αντίθεση με τον k-means. Η πολυπλοκότητα του k-means είναι μικρότερη από αυτή του dbscan. Ο k-means παράγει διαφορετικές συστάδες για τα ίδια δεδομένα, σε αντίθεση με τον dbscan. Ο dbscan δεν απαιτεί τον εκ των προτέρων ορισμό του αριθμού των ομάδων όπως κάνει ο k-means. Απαιτεί όμως τον ορισμό παραμέτρων όπως MinPts/Eps. Ο k-means μπορεί να εκφραστεί ως (NP-hard) πρόβλημα βελτιστοποίησης καθώς προσπαθεί να ελαχιστοποιήσει το SSE. Ο dbscan δεν μπορεί να εκφραστεί με ένα θεωρητικό μοντέλο. 13

Αλγόριθμοι γράφων: MST 1. Αντιστοίχισε κάθε αντικείμενο με μία κορυφή και την απόσταση μεταξύ δύο αντικειμένων με μία ακμή ίσου βάρους. 2. Βρες το ελάχιστο ζευγνύον δένδρο (MST) του γράφου που δημιουργείται στο βήμα 1. 3. Εντόπισε και αφαίρεσε τις «ασυνεπείς» ακμές. 4. Βρες τις συνδεδεμένες συνιστώσες του γράφου που προκύπτει, δημιούργησε για κάθε συνιστώσα μία ομάδα, και ανάθεσέ της τα αντικείμενα των αντίστοιχων κορυφών της. 14

Ασυνεπείς ακμές Ο ορισμών των ασυνεπών ακμών μπορεί να γίνει με διάφορους τρόπους. Ο απλούστερος τρόπος είναι: o να εξετάσουμε την κατανομή των βαρών των ακμών του MST, και o να θεωρήσουμε ασυνεπείς αυτές με βάρος που απέχει από τη μέση τιμή του βάρους ποσότητα ίση με k φορές την τυπική απόκλιση της κατανομής των βαρών, o όπου k μικρή σταθερά. 15

Ακμή αν: Αλγόριθμοι γράφων: RNG (relative neighborhood graph) d 2 ( x i, x j ) d 2 ( x i, x k ) d 2 ( x j, x k )}, k i, j Γεωμετρικά, υπάρχει ακμή μεταξύ των αντικειμένων xi και xj, αν δεν υπάρχει κάποιο άλλο αντικείμενο εντός της τομής των δύο σφαιρών με κέντρα τα xi και xj, και ακτίνα ίση με d(xi, xj ). xi xj 16

Αλγόριθμοι γράφων: GG (gabriel Ακμή αν: graph) d 2 ( x i, x j ) d 2 ( x i, x k ) d 2 ( x j, x k )}, k i, j Γεωμετρικά, υπάρχει ακμή μεταξύ των αντικειμένων xi και xj, αν δεν υπάρχει κάποιο άλλο αντικείμενο εντός της τομής των δύο σφαιρών με κέντρα τα xi και xj, και ακτίνα ίση με d(xi, xj ). xi xj 17

Σύγκριση Αν E είναι το σύνολο ακμών ενός γράφου, τότε μπορεί να αποδειχθεί ότι: E( MST) E( RNG ) E( GG) Ενώ στο MST κάθε ζεύγος κορυφών συνδέεται με ένα μονοπάτι, στους RNG και GG, μπορεί να υπάρχουν περισσότερα από ένα μονοπάτια που να συνδέουν ένα ζεύγος αντικειμένων. Πολυπλοκότητα: o MST: Ο(n 2 ). Μεγαλύτερη για RNG/GG. 18

BIRCH Balanced Iterative Reducing and Clustering using Hierarchies, by Zhang, Ramakrishnan, Livny (SIGMOD 96). Επιτυγχάνει μεγάλη κλιμάκωση καθώς είναι πολύ μικρότεροι οι χωροχρονικοί περιορισμοί. Χρησιμοποιεί μία δενδρική δομή CF-δένδρου που έχει ομοιότητες με το Β + δένδρο. Αντί να κρατάμε όλα τα σημεία μιας συστάδας κρατάμε κάποια «στατιστικά» για κάθε συστάδα και για τις σχέσεις μεταξύ των συστάδων. 19

Χαρακτηριστικά συστάδας Έστω μια συστάδα σημείων: Centroid(κεντρικό σημείο): Radius (ακτίνα) - μέση απόσταση των σημείων της συστάδας από το centroid: Diameter (διάμετρος) - μέση ανα-δύο απόσταση των σημείων της συστάδας: 20

Clustering Feature Vector Οι εγγραφές στο δένδρο είναι τριάδες, που περιέχουν αρκετή πληροφορία για τον υπολογισμό των (μετρικών) αποστάσεων μεταξύ συστάδων. Clustering Feature: CF = (N, LS, SS) CF = (5,(16,30),(54,190)) N: Number of data points. LS: (3,4) (2,6) (4,5) (4,7) (3,8) 10 9 8 SS: 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 21

CF Tree B = 6 CF 1 CF 2 CF 3 CF 6 child 1 child 2 child 3 child 6 Ρίζα Εσωτερικός κόμβος CF 1 CF 2 CF 3 CF 5 child 1 child 2 child 3 child 5 Κόμβος φύλλο prev CF 1 CF 2 CF 6 next prev CF 1 CF 2 CF 4 Κόμβος φύλλο next κατώφλι Τ για όλα τα φύλλα, αναφορικά με την ακτίνα (ή τη διάμετρο). 22

Φάσεις 1-2 Δεδομένα Φάση 1: Κατασκευή CF δέντρου Αρχικό CF δέντρο Φάση 1: Μια δομή κύριας μνήμης που συνοψίζει τα δεδομένα. Χτίζεται σε χρόνο Ο(n). Μικρότερο CF δέντρο Φάση 2 (προαιρετική): Κατασκευή μικρότερου CF δέντρου Φάση 3: Ολική Συσταδοποίηση Καλές Συστάδες Φάση 4 (προαιρετική): βελτίωση της Συσταδοποίησης Καλύτερες Συστάδες Φάση 2: προσπαθεί να διώξει τους outliers και να ενοποιήσει «όμοιες» συστάδες που αντιστοιχούν σε περιοχές με πολλά σημεία (με αύξηση του Τ)). Χρειάζεται για να βελτιώσει τη Φάση 3. 23

Φάσεις 3-4 Φάση 3: o Ξανα-συσταδοποιεί τα φύλλα του δέντρου, π.χ. κοντινές συστάδες που (έτυχε να) είναι σε διαφορετικά φύλλα. o Για κάθε συστάδα που εμφανίζεται στα φύλλα, υπολογίζουμε το κεντρικό της σημείο (centroid) και τα θεωρούμε ως αρχικά σημεία αυτά τα αρχικά σημεία μπορούμε να τα συσταδοποιήσουμε χρησιμοποιώντας έναν οποιαδήποτε αλγόριθμο συσταδοποίησης. Φάση 4: o o Ενοποίηση ομάδων που είναι σε διαφορετικά φύλλα. Εξασφαλίζει όλα τα αντίγραφα να είναι σε ένα φύλλο. 24

Προβλήματα BIRCH Λόγω Β και σειράς εισαγωγής: o Διάσπαση σημείων της ίδιας ομάδας, επειδή ανήκουν σε διαφορετικά φύλλα. o Συγχώνευση σημείων διαφορετικών ομάδων, επειδή ανήκουν στο ίδιο φύλλο. o Εφαρμόζεται σε αριθμητικά δεδομένα. o Ευαισθησία στη σειρά των δεδομένων. 25

Χωρικά δεδομένα Οι ομάδες ορίζονται ως πυκνές περιοχές στο χώρο. Έχουν οποιοδήποτε σχήμα, κατεύθυνση και μέγεθος. Διαφέρει η πυκνότητα και μέσα στις ομάδες αλλά και μέσα στην ίδια ομάδα. Θόρυβος. Ο αλγόριθμος ομαδοποίησης πρέπει να μπορεί να αντιμετωπίζει όλα τα παραπάνω χωρίς να απαιτείται επίβλεψη (όσο γίνεται). 26

CHAMELEON Πρόκειται για ένα συναθροιστικό ιεραρχικό αλγόριθμο που βασίζεται σε δυναμικό μοντέλο. Προεπεξεργασία: o Αναπαράσταση δεδομένων ως γράφο Δημιουργούμε έναν γράφο k-πλησιέστερων γειτόνων που αναπαριστά τις συσχετίσεις ενός σημείου με τους k-πλησιέστερους γείτονες. Η έννοια της γειτνίασης μεταβάλλεται δυναμικά. 27

Chameleon: Βήμα 1 Φάση 1: αλγόριθμος graph partitioning εύρεση ενός μεγάλου αριθμού ομάδων με πυκνά συνδεδεμένες κορυφές. o Κάθε μία από αυτές τις ομάδες περιμένουμε να περιέχει σημεία από την ίδια «πραγματική» ομάδα, δηλ. να είναι υποσύνολό της. o Ελάχιστο πλήθος ανά ομάδα: 1-5% του αρχικού συνόλου. 28

Chameleon: Βήμα 2 Φάση 2: Χρήση συσσωρευτικού ιεραρχικού αλγορίθμου για να συνενώσει τις ομάδες της προηγούμενης φάσης. o Δύο ομάδες συνενώνονται αν η συστάδα που προκύπτει έχει κοινά χαρακτηριστικά με τις αρχικές συστάδες. Δύο βασικά χαρακτηριστικά για τον έλεγχο της ομοιότητας: o Relative Interconnectivity-Σχετική συνοχή: Απόλυτη συνοχή (άθροισμα βαρών των ακμών που συνδέουν τις δύο συστάδες) κανονικοποιημένη ως προς την εσωτερική συνοχή (άθροισμα των βαρών των ακμών που χωρίζουν μία συστάδα σε δυο σχεδόν ίσα μέρη). o Relative Closeness-Σχετική εγγύτητα: Απόλυτη εγγύτητα δύο συστάδων (μέσος όρος των βαρών των ακμών που συνδέουν τις δύο συστάδες) κανονικοποιημένη ως προς την εσωτερική εγγύτητα (μέσος όρος των βαρών των ακμών που ανήκουν στην τομή ελαχίστου κόστους μίας συστάδας). 29

Χαρακτηριστικά Μεγάλη αποτελεσματικότητα σε χωρικά δεδομένα με διαφορετικά σχήματα, μεγέθη και πυκνότητες. Στην αρχική τμηματοποίηση του γράφου, πρέπει τα σημεία όντως να ανήκουν στην ίδια ομάδα. Πολυπλοκότητα: o K-nn γράφος: O(mlogm) O(m 2 ) o m σημεία σε p τμήματα γράφου: O(mlog(m/p)) o Υπολογισμός συνοχής εγγύτητας: O(mp) o Ιεραρχικός αλγόριθμος: Ο(p 2 logp) 30

Σημείωμα Αναφοράς Copyright, Αναστάσιος Γούναρης. «. Ενότητα 9. Ομαδοποίηση Μέρος Γ». Έκδοση: 1.0. Θεσσαλονίκη 2014. Διαθέσιμο από τη δικτυακή διεύθυνση:http://eclass.auth.gr/courses/ocrs182/

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί. Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο [1] http://creativecommons.org/licenses/by-nc-sa/4.0/

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Τέλος ενότητας Επεξεργασία: Ανδρέας Κοσματόπουλος Θεσσαλονίκη, Χειμερινό Εξάμηνο 2013-2014

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Σημειώματα

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.