Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH"

Transcript

1 Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Επανάληψη Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 2

2 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε συστάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων συστάδων Οι αποστάσεις μέσα στη συστάδα ελαχιστοποιούνται Οι αποστάσεις ανάμεσα στις συστάδες μεγιστοποιούνται 3 διάστατα σημεία, ευκλείδεια απόσταση Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 3 Είδη Συστάδων Συστάδες βασισμένες σε κέντρο ή πρότυπο Μια συστάδα είναι ένα σύνολο από αντικείμενα τέτοιο ώστε ένα αντικείμενο στην ομάδα είναι κοντινότερο σε (ή πιο όμοιο με) το «κέντρο» (κεντρικό σημείο ή κέντρο βάρους) ή πρότυπο (medoid) της ομάδας από ότι από το κέντρο οποιασδήποτε άλλης ομάδας. Συνεχής συστάδες (Contiguous Cluster): μια συστάδα είναι ένα σύνολο σημείων τέτοιο ώστε κάθε σημείο είναι πιο κοντά σε ένα ή περισσότερα σημεία της συστάδας από ό,τι σε οποιοδήποτε σημείο εκτός συστάδας Συστάδες βασισμένες στην πυκνότητα: μια συστάδα είναι μια πυκνή περιοχή από σημεία την οποία χωρίζουν από άλλες περιοχές μεγάλης πυκνότητας περιοχές χαμηλής πυκνότητας Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 4

3 Είδη Συστάδων Παράδειγμα βάση κέντρου συνεχής βάση πυκνότητας Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 5 Είδη Συστάδων Διαχωριστικές (Partitioning) Μέθοδοι κατασκευάζουν διαχωρισμούς του χώρου και τους βελτιώνουν επαναληπτικά Ιεραρχικές Μέθοδοι Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 6

4 K means: Βασικός Αλγόριθμος Διαχωριστική μέθοδος Κατασκευάζει K συστάδες (είσοδος στο πρόβλημα) Κάθε συστάδα συσχετίζεται με κάποιο σημείο centroid (κεντρικό σημείο) Κάθε σημείο συσχετίζεται με την κοντινότερη του από της K συστάδες (δηλ. κεντρικά σημεία) Συνήθως Ευκλείδεια απόσταση Βασικός αλγόριθμος : Επιλογή Κ σημείων ως τα αρχικά κεντρικά σημεία 2: Repeat 3: Ανάθεση όλων των αρχικών σημείων στο κοντινότερο τους από τα K κεντρικά σημεία 4: Επανα-υπολογισμός του κεντρικού σημείου κάθε συστάδας 5: Until τα κεντρικά σημεία να μην αλλάζουν Μέσο (κέντρο βάρους) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 7 Αρχική κατάσταση, Κ = 3 συστάδες K means: Βασικός Αλγόριθμος Αρχικά σημεία k, k 2, k 3 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 8

5 Τα σημεία ανατίθενται στο πιο γειτονικό από τα 3 αρχικά σημεία K means: Βασικός Αλγόριθμος Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 9 Επανα-υπολογισμός του κέντρου (κέντρου βάρους) κάθε σημείου K means: Βασικός Αλγόριθμος Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 0

6 Νέα ανάθεση των σημείων Νέακέντραβάρους K means: Βασικός Αλγόριθμος Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ K means: Βασικός Αλγόριθμος εν αλλάζει τίποτα -> ΤΕΛΟΣ Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 2

7 K means: Βασικός Αλγόριθμος Προβλήματα με: μη σφαιρικά σχήματα μέγεθος πυκνότητα ακραία σημεία (outliers) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 3 Άθροισμα του Τετραγωνικού Σφάλματος (ΑΤΣ) Sum of Squared Error (SSE) Για όλες τις Κ συστάδες SSE( ΑΤΣ) = K i= x Ci 2 dist ( m, x) i Τετραγωνικό λάθος, για κάθε συστάδα C i, Για όλα τα σημεία x C i, παίρνουμε την απόσταση τους από ένα αντιπροσωπευτικό σημείο (m i ) της συστάδας (το κέντρο βάρους για Ευκλείδειες αποστάσεις) Το σημείο που ελαχιστοποιεί το σφάλμα είναι το κέντρο βάρους κάθε πλειάδας Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 4

8 Άθροισμα Απόλυτου Σφάλματος (ΑΑΣ) Για όλες τις Κ συστάδες ΑΑΣ = K i= x Ci dist L ( mi, x) Διαφορετικές συναρτήσεις σφάλματος, πχ Manhattan (L) Το σημείο που ελαχιστοποιεί το σφάλμα είναι το (μεσαίο σημείο) διάμεσος Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 5 K medoid Αντί για το μέσο (πουμπορείναμηνανήκειστοαρχικόσύνολοσημείων) διαλέγει κάθε φορά ένα αντιπροσωπευτικό σημείο από τα δεδομένα και ελαχιστοποιεί την απόσταση από αυτό Medoid: το πιο κεντρικό σημείο της συστάδας (αντί να χρησιμοποιεί το mean), το σημείο με τη μικρότερη μέση απόσταση από όλα τα σημεία της ομάδας Mειώνει την ευαισθησία σε outliers Μπορεί να εφαρμοστεί σε δεδομένα οποιουδήποτε τύπου (πχ και για κατηγορικά δεδομένα) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 6

9 Ιεραρχική Συσταδοποίηση: Βασικά Παράγει ένα σύνολο από εμφωλευμένες συστάδες οργανωμένες σε ένα ιεραρχικό δέντρο Μπορεί να παρασταθεί με ένα δένδρο γραμμα Ένα διάγραμμα που μοιάζει με δένδρο και καταγράφει τις ακολουθίες από συγχωνεύσεις (merges) και διαχωρισμούς (splits) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 7 Ιεραρχική Συσταδοποίηση Δυο βασικοί τύποι ιεραρχικής συσταδοποίησης Συσσωρευτικός (Agglomerative): Αρχίζει με τα σημεία ως ξεχωριστές συστάδες Σε κάθε βήμα, συγχωνεύει το πιο κοντινό ζευγάρι συστάδων μέχρι να μείνει μόνο μία (ή k) συστάδες Διαιρετικός (Divisive): Αρχίζει με μία συστάδα που περιέχει όλα τα σημεία Σε κάθε βήμα, διαχωρίζει μία συστάδα, έως κάθε συστάδα να περιέχει μόνο ένα σημείο (ή να δημιουργηθούν k συστάδες) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 8

10 Συσσωρευτική Ιεραρχική Συσταδοποίηση (ΣΙΣ) Βασικός Αλγόριθμος : Υπολογισμός του Πίνακα Γειτνίασης 2: Έστω κάθε σημείο αποτελεί και μια συστάδα 3: Repeat 4: Συγχώνευση των δύο κοντινότερων συστάδων 5: Ενημέρωση του Πίνακα Γειτνίασης 6: Until να μείνει μία μόνο συστάδα Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 9 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων min max MIN (μοναδικής ακμής) single link MAX (πλήρους συνδεσιμότητας) Μέσος όρος των αποστάσεων των σημείων των συστάδων Η απόσταση μεταξύ των κεντρικών σημείων (κέντρου βάρους) Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 20

11 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων A B C D E Α Β C D E πίνακας γειτνίασης Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 2 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων A B C D E Α Β C D E πίνακας γειτνίασης Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 22

12 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων A B C D E Α Β C D E πίνακας γειτνίασης Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 23 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων A B C D E Α Β C D E πίνακας γειτνίασης Δεν αρκεί να δούμε ένα link (μία απόσταση) d(e, {C, D}) 2 αποστάσεις d(e, {A, B}) 2 αποστάσεις d({a, B}, {C, D}) 4 αποστάσεις Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 24

13 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: MAX MIN MAX Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 25 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: MAX MIN MAX Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 26

14 ΣΙΣ: Περιορισμοί και Προβλήματα Οι αποφάσεις είναι τελικές αφού δυο συστάδες συγχωνευτούν αυτό δεν μπορεί να αλλάξει Δεν ελαχιστοποιούν άμεσα κάποια αντικειμενική συνάρτηση Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 27 DBSCAN Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 28

15 DBSCAN: Γενικά Γειτονιά ενός σημείου p=όλα τα σημεία σε απόσταση Eps από το p: NEps(p) = {q dist(p,q) <= Eps } Δύο παράμετροι: Eps : Μέγιστη ακτίνα της γειτονιάς MinPts: Ελάχιστος αριθμός σημείων στην Eps γειτονιά ενός σημείου O DBSCAN είναι ένας αλγόριθμος βασισμένος στην πυκνότητα Πυκνότητα για ένα σημείο = αριθμός σημείων (MinPts) μέσα σε μια προκαθορισμένη ακτίνα (Eps) από αυτό (συμπεριλαμβανομένου του σημείου) Για το p έχουνε 4 Για το q έχουμε >5 q p MinPts = 5 ε = cm Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 29 DBSCAN: Γενικά Τα σημεία διαχωρίζονται σε: Βασικά (core) σημεία πυρήνα: ένα σημείο για το οποίο υπάρχουν περισσότερα από ένα προκαθορισμένο αριθμό (MinPts) σημεία σε ακτίνα Eps Αυτά είναι τα σημεία που είναι στο εσωτερικό μιας συστάδας (ομάδας πυκνών σημείων) Οριακά (border) σημεία ορίου: ένα σημείο για το οποίο υπάρχουν λιγότερα από ένα προκαθορισμένο αριθμό (MinPts) σημεία σε ακτίνα Eps, αλλά είναι στη γειτονιά (τουλάχιστον) ενός βασικού σημείου Θορύβου (noise): ένα σημείο που δεν είναι ούτε σημείο πυρήνα ούτε σημείο ορίου q p MinPts = 5 ε = cm Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 30

16 DBSCAN: Γενικά Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 3 DBSCAN: Αλγόριθμος Βασικός Αλγόριθμος : Χαρακτήρισε κάθε σημείο ως πυρήνα, ορίου ή θορύβου 2: Διέγραψε τα σημεία θορύβου 3: Τοποθέτησε μια ακμή μεταξύ όλων των σημείων πυρήνα που είναι σε απόσταση έως Eps μεταξύ τους 4: Κάνε κάθε ομάδα συνδεδεμένων σημείων πυρήνα μια διαφορετική συστάδα 5: Ανάθεσεκάθεσημείοορίουσεμίααπότιςσυστάδεςτων συσχετιζόμενων του σημείων πυρήνα Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 32

17 DBSCAN: Αλγόριθμος Βήμα &2 Αρχικά σημεία Τύποι σημείων: core, border και noise Eps = 0, MinPts = 4 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 33 DBSCAN: Πλεονεκτήματα Βήμα 3&4 Αρχικά Σημεία Συστάδες Δεν επηρεάζεται από το θόρυβο Μπορεί να χειριστεί συστάδες με διαφορετικά σχήματα και μεγέθη Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 34

18 DBSCAN: Πολυπλοκότητα Για m σημεία εισόδου: O(m x χρόνος εντοπισμού σημείων σε eps-γειτονιά) Ο(m 2 ) Για μικρό αριθμό διαστάσεων, υπάρχουν δομές που υποστηρίζουν την πράξη σε Ο(m logm) O(m) χώρος (για κάθε σημείο κρατάμε μόνο ένα label σε μια συστάδα ανήκει και το είδος του (βασικό, οριακό, θόρυβος)) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 35 DBSCAN: Περιορισμοί Αρχικά Σημεία Διαφορετικές πυκνότητες Πολυ διάστατα δεδομένα δύσκολος ορισμός πυκνότητας και δαπανηρός υπολογισμός γειτόνων (MinPts=4, Eps=9.75). (MinPts=4, Eps=9.92) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 36

19 DBSCAN: Καθορισμός των MinPts και Eps Η ιδέα είναι να κοιτάξουμε την απόσταση ενός σημείου από τον k οστό κοντινότερο γείτονα του > k dist Γενικά (κατά μέσο όρο), για τα σημεία που ανήκουν στην ίδια ομάδα, η τιμή του k dist θα είναι μικρή (αν το k δεν είναι μεγαλύτερο από το μέγεθος της συστάδας) Θαθέλαμεγιατασημείαμιαςσυστάδας, να έχουν περίπου την ίδια k dist Τα σημεία θορύβου έχουν μεγαλύτερες k dist. Υπολογίζουμε την k dist γιαόλατασημεία, για κάποιο k 2. Ταξινομούμε τις αποστάσεις με φθίνουσα διάταξη Περιμένουμε ξαφνική αλλαγή στο k dist που αντιστοιχεί στο Eps Οπότε k = MinPts και Eps = k dist Eps ~ 7 MinPts = 4 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 37 DBSCAN: Γενικά Συσταδοποίηση βασισμένη στην πυκνότητα (τοπικό κριτήριο) Βασικά χαρακτηριστικά: Ανακαλύπτουν συστάδες οποιουδήποτε σχήματος Αντιμετωπίζουν το θόρυβο Μία διάσχιση (scan) των δεδομένων Χρειάζονται παραμέτρους εισόδου για την πυκνότητα Δύσκολο να ανακαλύψουν συστάδες με διαφορετική πυκνότητα Στις πολλές διαστάσεις, η έννοια της πυκνότητας είναι ασαφής Το κόστος εξαρτάται από το κόστος υπολογισμού του κοντινότερου γείτονα Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 38

20 DBSCAN: Τυπικός ορισμός Density reachable (προσπελάσιμο( με βάση τη πυκνότητα): Ένα σημείο p είναι density reachable από ένα σημείο q αν υπάρχει μια αλυσίδα από σημεία p,, p n, p = q, p n = p τέτοια ώστε το p i+ να είναι στη γειτονιά του p i p p Density connected Ένα σημείο p είναι density connected σε ένα σημεία q αν υπάρχει ένα σημείο o τέτοιο ώστε και το p and q να είναι density reachable από το o Συστάδα είναι το μέγιστο (maximal) σύνολο από density connected σημεία p q o q Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 39 Εγκυρότητα Συσταδοποίησης Cluster validity Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 40

21 Ποιότητα Συσταδοποίησης Ποιότητα ή εγκυρότητα συσταδοποίησης: Πόσο καλή είναι η συσταδοποίηση που επιτύχαμε; Οι αλγόριθμοι που είδαμε παράγουν κάποιες συστάδες ακόμα και όταν τα δεδομένα παράγονται τυχαία Δύσκολη η αξιολόγηση, ιδιαίτερα σε πολλές διαστάσεις Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 4 Συστάδες σε Τυχαία Δεδομένα Τυχαία Σημεία y y DBSCAN 3 ομάδες κοιτώντας την απόσταση του 4ου γείτονα x x K-means ΣΙΣ με MAX-link y 0.5 y x x Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 42

22 Κριτήρια Ορθότητας Συσταδοποίησης. Υπάρχει τάση ομαδοποίησης (clustering tendency), δηλαδή μη τυχαία δομή στο σύνολο των δεδομένων; 2. Σύγκριση των αποτελεσμάτων της ανάλυσης της ομαδοποίησης με κάποια ήδη γνωστά αποτελέσματα, πχ κάποια ετικέτα που ήδη έχει δοθεί για μια συστάδα 3. Πόσο καλά ταιριάζουν τα αποτελέσματα της ανάλυσης με τα δεδομένα χωρίς αναφορά σε εξωτερική πληροφορία, χρησιμοποιώντας μόνο τα δεδομένα 4. Σύγκριση των αποτελεσμάτων δυο διαφορετικών συσταδοποιήσεων για να αποφασιστεί ποια είναι καλύτερη. 5. Καθορισμός του «σωστού» αριθμού συστάδων Τα 2, 3 και 4 μπορεί να αφορούν είτε την ολική συσταδοποίηση είτε τη κάθε συστάδα χωριστά Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 43 Μετρήσεις Ποιότητας Συσταδοποίησης Οι μετρήσεις για την ποιότητα (το πόσο καλή) είναι μια συσταδοποίηση ανήκουν σε μία από τις παρακάτω τρεις κατηγορίες: Με επίβλεψη (supervised) Εξωτερικό Ευρετήριο (External Index): Υπάρχει εξωτερική πληροφορία (πληροφορία εκτός των δεδομένων), πχ ετικέτες για τις συστάδες Μετράμε πόσο οι περιγραφές των συστάδων ταιριάζουν με τις ετικέτες των κλάσεων. πχ Εντροπία Χωρίς επίβλεψη (unsupervised) Εσωτερικό Ευρετήριο (Internal Index): Εκτιμάμε το πόσο καλή είναι μια συσταδοποίηση χωρίς παροχή εξωτερικής πληροφορίας πχ EES Συνεκτικότητα (cohesion) Διακριτότητα ή διαχωρισμός (separation) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 44

23 Μετρήσεις Ποιότητας Συσταδοποίησης Συγκριτικοί Σχετικό Ευρετήριο (Relative Index): Χρησιμοποιείται για τη σύγκριση δυο διαφορετικών συσταδοποιήσεων ή συστάδων Συχνά για αυτό το σκοπό χρησιμοποιείται ένα εσωτερικό ή εξωτερικό ευρετήριο Εσωτερικό, πχ δυο k means συσταδοποιήσεις με βάση το SSE Κριτήρια vs Eυρετήρια κριτήριο: η γενική στρατηγική και ευρετήριο η αριθμητική μέτρηση που υλοποιεί το κριτήριο Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 45 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη Χρήση Συνοχής και Διαχωρισμού Χρήση Πίνακα Γειτνίασης Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 46

24 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Έχουμε μια συσταδοποίηση (ένα σύνολο συστάδων): Πόσο «καλή/έγκυρη» είναι Δύο μέτρα: Ένα για να χαρακτηρίσουμε κάθε συστάδα ξεχωριστά (cohesion συνοχή) : πόσο κοντά (όμοια) είναι τα σημεία κάθε συστάδας Ένα για τις συστάδες μεταξύ τους (separation διαχωρισμός): πόσο μακριά (ανόμοιες) είναι δύο συστάδες) Συνδυασμός της συνοχής και του διαχωρισμού για το χαρακτηρισμό συνολικά της συσταδοποίησης Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 47 Χαρακτηρισμός Ποιότητας Συσταδοποίησης Δύο γενικοί ορισμοί για κάθε μέτρο:. Prototype based (βάσει προτύπων): με βάση το «κεντρικό σημείο»(κέντρο βάρους) κάθε συστάδας 2. Graph based (Βάσει γραφημάτων): με βάση τις ανά δύο αποστάσεις των σημείων Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 48

25 Συνοχή Συνοχή βασισμένη σε πρότυπα n cohesion ( Ci) = proximity( x, ci) Όπου: x (σημείο της συστάδας) c i πρότυπο της συστάδας (π.χ., διάμεσος, κέντρο βάρους) Proximity (εγγύτητα) μπορεί να είναι η ομοιότητα ή η απόσταση των σημείων Π.χ., το άθροισμα των αποστάσεων όλων των σημείων της συστάδας από το κέντρο βάρους της συστάδας Όπου c i to κεντρικό σημείο (X 0 ) στον BIRCH ακτίνα R στον ΒΙRCH/k means x C i Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 49 Συνοχή Συνοχή βασισμένη σε γραφήματα n cohesion ( Ci) = proximity( x, y) x y C i Ci Η συνοχή μιας συστάδας (cluster cohesion) είναι το άθροισμα της εγγύτητας (συνήθως απόσταση) μεταξύ όλων των σημείων της συστάδας. αντιστοιχεί στo D - διάμετρο στον ΒΙRCH Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 50

26 Διαχωρισμός Διαχωρισμόςβασισμένοςσεπρότυπα C i C j separation( Ci ) = proximity( ci, c) c i c j separation ( Ci, Cj) = proximity( ci, cj) Την απόσταση του πρότυπου μιας συστάδας από το σημείο c > το συνολικό κέντρο όλων των σημείων Την απόσταση μεταξύ των προτύπων (π.χ., κέντρα βάρους) κάθε συστάδας αντιστοιχεί στa D0 (D) στον ΒΙRCH Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 5 Διαχωρισμόςβασισμένοςσεγραφήματα Διαχωρισμός C i C j separation ( Ci, Cj) = proximity( x, y) Όλες τις αποστάσεις μεταξύ των σημείων της μιας συστάδας από τα σημεία της άλλης συστάδας n x y C i Cj αντιστοιχεί στo D2 στον ΒΙRCH Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 52

27 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός overall validity = k i= wi validity( Ci) Όπου το βάρος (w i ) μπορεί να είναι πχ ανάλογο του μεγέθους της συστάδας ή η τετραγωνική ρίζα της συνεκτικότητας ή Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 53 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Συνολική Συνοχή overall cohesion = Συνολικός Διαχωρισμός overall separation = k i= k i= w cohesion( Ci) i w i separation( Ci) Άθροισμα συνοχής κάθε συστάδας το βάρος μπορεί να εξαρτάται πχ από το μέγεθος κάθε συστάδας Άθροισμα διαχωρισμού των συστάδων Συνολικός Χαρακτηρισμός Ποιότητας για τη συσταδοποίηση overall validity = k i= seperation(ci) cohesion(ci) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 54

28 Σχέση Συνοχής και Διαχωρισμού (για Ευκλείδειες αποστάσεις) Σχέση μεταξύ συνοχής προτύπου και γραφήματος Έστω Ευκλείδεια απόσταση, σχέση SSE (λάθους με βάση το άθροισμα των τετραγώνων των αποστάσεων) με συνοχή (πόσο στενά σχετιζόμενα είναι τα αντικείμενα μιας συστάδας); ανά συστάδα ανά συστάδα SSE = SSE = n x C i y Ci 2 distance( x, y) n x C i distance( x, ci) 2 Αποδεικνύεται ότι SSE = x Ci dist ( x, ci) = 2m i x Ci y Ci dist( x, y 2 ) 2 Όπου m o αριθμός σημείων της συστάδας Δηλαδή, είτε πάρουμε την απόσταση από το κέντρο (πρότυπο) είτετομέσοόροτων ανά δύο αποστάσεων των σημείων είναι το ίδιο Σχέση διαμέτρου και ακτίνας Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 55 Σχέση Συνοχής και Διαχωρισμού (για Ευκλείδειες αποστάσεις) Αποδεικνύεται ότι Σχέση μεταξύ διαχωρισμού προτύπου και γραφήματος Έστω Ευκλείδεια απόσταση, σχέση SSB (group sum of squares) με διαχωρισμό (πόσο μακριά είναι οι συστάδες); 2 cluster SSB = dist( ci, c) Το ολικό κέντρο (σημείο c στους τύπους) είναι το σημείο K (ολικό ) SSB = m dist( c i i, c) 2 που προκύπτει αν πάρουμε το μέσο (mean) των κέντρων όλων i= των συστάδων ολικό SSB = x Ci m dist i Μέγεθος συστάδας 2K K K 2 2 ( ci, c) = dist( ci, cj) i= j= m K Ισομεγέθεις συστάδες m i = m / K Δηλαδή, είτε πάρουμε την απόσταση των κέντρων (προτύπων) κάθε συστάδας από το ολικό κέντρο (πρότυπο) είτετομέσοόροτωνανάδύοαποστάσεωντωνκέντρων(προτύπων) κάθε συστάδας είναι το ίδιο Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 56

29 Σχέση Συνοχής και Διαχωρισμού (για Ευκλείδειες αποστάσεις) Αποδεικνύεται ότι Total SSB + Total SSE = σταθερά TSS = K i= x C i ( x c) 2 Ίσομετοτετράγωνοτωναποστάσεωνόλωντωνσημείωναπότοολικόμέσο Ελαχιστοποίηση της SSE (συνοχής) => Μεγιστοποίηση του SSB (διαχωρισμού) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 57 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Συνολική Συνοχή + Συνολικός Διαχωρισμός = σταθερά Total SSE + Total SSB = σταθερά c c c 2 5 K = cluster: total SSE= ( 3) + (2 3) + (4 3) + (5 3) = 0 total SSB= 4 (3 3) Total = = 0 2 = K = 2 clusters: total SSE= (.5) + (2.5) + (4 4.5) + (5 4.5) = 2 2 total SSB= 2 (3.5) + 2 (4.5 3) = 9 Total = + 9 = 0 Ίση με το άθροισμα του τετραγώνου της απόστασης όλων των σημείων από το κέντρο βάρους τους Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 58

30 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Μπορούν να χρησιμοποιηθούν για τη βελτίωση της συσταδοποίησης Πχ μια συστάδα με κακή συνοχή μπορεί να χρειαστεί να διασπαστεί Δυο συστάδες όχι καλά διαχωρισμένες μπορεί να συγχωνευτούν Το πόσο καλή είναι μια συσταδοποίηση Το ποσό καλή είναι μια συστάδα Το ποσό καλό είναι ένα σημείο σε μια συστάδα Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 59 Χρήση για καθορισμό του πλήθους συστάδων Χρήση SSE (άθροισμα τετραγώνου αποστάσεων) για υπολογισμό του σωστού αριθμού συστάδων χρησιμοποιώντας τον K means (Κ = 5 και 0 φαίνονται καλές τιμές) SSE K Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 60

31 Χρήση για καθορισμό του πλήθους συστάδων Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 6 Silhouette Coefficient (συντελεστής σκιαγράφησης) Συντελεστής Σκιαγράφησης Για κάθε σημείο i Υπολογισμός a = μέση απόσταση του i από τα σημεία της συστάδας Υπολογισμός b = μέσηαπόστασητουi από όλα τα σημεία κάθε άλλης συστάδας επιλογή του μικρότερου, δηλαδή μέση απόσταση από την κοντινότερη συστάδα s = a/b αν a < b, (ή s = b/a αν a b, η μη συνηθισμένη περίπτωση) Συνήθως μεταξύ του 0 και του Όσο πιο κοντά στο, τόσοτοκαλύτερο a i b Μπορεί να χρησιμοποιηθεί και για μια συστάδα ή συσταδοποίηση θεωρώντας μέσες τιμές για όλα τα σημεία τους ή συστάδες Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 62

32 Συντελεστής Σκιαγράφησης O συντελεστής σκιαγράφησης για σημεία στις 0 συστάδες Πόσο «κεντρικό» είναι ένα σημείο για μία συστάδα (όσο πιο ανοιχτόχρωμο τόσο το καλύτερο) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 63 y x Points Πίνακας Εγγύτητας Αναδιατάσσουμετασημείαστονπίνακαγειτνίασηςήεγγύτητα(δηλαδή, στον πίνακα με τις αποστάσεις) έτσι ώστε τα σημεία που ανήκουν στην ίδια συστάδα να είναι γειτονικά Συγκεκριμένα, ταδιατάσουμεμεβάσητησυστάδα: Σημεία Συστάδας, Σημεία Συστάδας 2, Σημεία Συστάδας 3 Σημείωση: similarity = (d min_d)/(max_d min_d) Similarity Points ΔΙΑΓΩΝΙΟΣ ΜΠΛΟΚ ΠΙΝΑΚΑΣ Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 64

33 Πίνακας Εγγύτητας Points y Similarity 0 Points x K-means Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 65 Πίνακας Εγγύτητας Points y Similarity 0 Points x DBSCAN Κάποιεςσυστάδεςακόμακαι σε τυχαία δεδομένα Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 66

34 Πίνακας Εγγύτητας Points Similarity 0 Points y x ΣΙΣ-max Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 67 Πίνακας Εγγύτητας DBSCAN Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 68

35 Πίνακας Εγγύτητας Ειδικά για ιεραρχικούς αλγόριθμους Cophenetic distance (συμφαινετική απόσταση): είναι η απόσταση (proximity) όταν ο αλγόριθμος τοποθετεί τα δυο σημεία στην ίδια συστάδα για πρώτη φορά Πχ συγχωνεύω τα σημεία του C με τα σημεία του C2 σε απόσταση 0., όλα τα σημεία του C απέχουν από το C2 0. Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 69 Χαρακτηρισμός Ποιότητας Συσταδοποίησης με Επίβλεψη: Επίσης υπάρχουν μέτρα με επίβλεψη μέτρα βασισμένα σε συσχέτιση (correlation) που θα δούμε αφού μιλήσουμε για κατηγοριοποίηση Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 70

36 Πίνακας Εγγύτητας (συσχέτιση) Δύο Πίνακες Πίνακας Εγγύτητας (proximity matrix) ο πίνακας με την ομοιότητα των σημείων Πίνακας Εμφάνισης ( incidence matrix) Μια γραμμή και μια στήλη για κάθε σημείο Μια εγγραφή είναι αν το αντίστοιχο ζευγάρι σημείων ανήκει στην ίδια συστάδα Μια εγγραφή είναι 0 αν το αντίστοιχο ζευγάρι σημείων ανήκει σε διαφορετική συστάδα Υπολογισμός της συσχέτισης (correlation) των δύο πινάκων Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 7 Πίνακας Εγγύτητας (συσχέτιση) Υπολογισμός correlation των δύο πινάκων όταν χρησιμοποιείται ο K means στα παρακάτω σύνολα y x y x Corr = Corr = Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 72

37 Πίνακας Εγγύτητας (συσχέτιση) Υψηλή συσχέτιση σημαίνει ότι τα σημεία που ανήκουν στην ίδια συστάδα είναι κοντινά μεταξύ τους Δεν είναι καλή μέτρηση για κάποιες συστάδες που βασίζονται σε πυκνότητα και σε συνέχεια (contiguity) Επειδή, οι δυο πίνακες είναι συμμετρικοί, χρειάζεται ο υπολογισμός n(n ) / 2 εγγραφών Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 73 BIRCH T. Zhang, R. Ramakrishnan and M. Linvy. BIRCH: An Efficient Data Clustering Method for Very Large Databases, SIGMOD 996 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 74

38 BIRCH Μεγάλα Σύνολα Δεδομένων Περιορισμένη μνήμη (πολύ μικρότερη από το μέγεθος των δεδομένων) ΣΤΟΧΟΣ: μείωση του χρόνου εισόδου/εξόδου (I/O) Κόστος I/O γραμμικό στο μέγεθος του συνόλου δεδομένων Αρκεί ένα πέρασμα (scan) των δεδομένων Ένα ή περισσότερα επιπρόσθετα περάσματα για βελτίωση της ποιότητας της συσταδοποίησης BIRCH: Balanced Iterative Reducing and Clustering using Hierarchies Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 75 BIRCH Δύο βασικά χαρακτηριστικά: Ιεραρχική συσταδοποίηση, κρατάμε το δενδρόγραμμα σε ένα δένδρο (ιεραρχία) Αντί να κρατάμε όλα τα σημεία μιας συστάδας κρατάμε κάποια «στατιστικά» για κάθε συστάδα και για τις σχέσεις μεταξύ των συστάδων Ποια είναι αυτά τα στοιχεία; Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 76

39 BIRCH Για μια συστάδα N σημείων: Centroid (κέντρο βάρους): Radius (ακτίνα): μέση απόσταση των σημείων τηςσυστάδας από το κέντροβάρους Συνοχή βασισμένη σε κεντρικά σημεία Diameter (διάμετρος): μέση ανά δύο απόσταση των σημείων της συστάδας Συνοχή βασισμένη σε γραφήματα Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 77 BIRCH Έστω δυο συστάδες (στατιστικά στοιχεία για το διαχωρισμό) Συστάδα {X i }: i =, 2,, N Συστάδα {X j }: j = N +, N +2,, N +N 2 X i X j Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 78

40 BIRCH Μεταξύ δυο συστάδων Η απόσταση μεταξύ των κέντρων βάρους των δυο συστάδων centroid Euclidean distance Διαχωρισμός βασισμένος σε κεντρικά σημεία centroid Manhattan distance average inter cluster (D2) μέση απόσταση των σημείων της μιας συστάδας από τα σημεία της άλλης Διαχωρισμός με βάση γραφήματα Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 79 BIRCH Συγχώνευση Συστάδων Συστάδα {X i }: i =, 2,, N Συστάδα {X j }: j = N +, N +2,, N +N 2 X i X j Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 80

41 BIRCH Συστάδα X k = {X i } + {X j }: l =, 2,, N, N +, N +2,, N +N 2 Η νέα συστάδα έχει το σύνολο των σημείων των δύο συστάδων Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 8 BIRCH intra cluster (D3) μέση απόσταση όλων των σημείων Είναι ουσιαστικά η διάμετρος D της συγχωνευμένης συστάδας variance increase (D4) Νέα Απόσταση Απόσταση στο C i Απόσταση στο C j Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 82

42 Clustering Feature (CF): μια περίληψη μιας συστάδας δεδομένων BIRCH: CF Μια τριάδα Ν: αριθμός σημείων, LS: γραμμικό άθροισμα σημείων συστάδας, SS: άθροισμα τετραγώνου σημείων συστάδας) Δοθείσας μια συστάδας Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 83 BIRCH: CF Σημαντική (προσθετική) ιδιότητα: Για το CF της νέας συστάδας, ισχύει: Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 84

43 BIRCH: CF CF εγγραφές είναι συνοπτικές πολύ λιγότερη πληροφορία από ότι όλα τα σημεία μιας συστάδας Λόγω της προσθετικής ιδιότητας μπορούμε να συγχωνεύσουμε δυο υποσυστάδες σταδιακά Μια εγγραφή CF έχει αρκετή πληροφορία για να υπολογίσουμε τα D0 D4 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 85 BIRCH Ιεραρχικός αλγόριθμος Χτίζει σταδιακά καθώς διαβάζει τα δεδομένα ένα δεντρόγραμμα του οποίου κόμβοι είναι οι τιμές CF που περιγράφουν τα δεδομένα κάθε υπο συστάδας Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 86

44 BIRCH: CF δέντρο Εσωτερικός κόμβος CF CF 2 CF B Ρίζα CF CF 2 CF B Εσωτερικός κόμβος CF B CF B2 CF BB Φύλλο CF CF 2 CF L Υπο-συστάδα A CF tree is a height-balanced tree with three parameters: branching factor B, threshold T, and a leaf node contains Τ at most L entries. Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 87 BIRCH: CF δέντρο Κάθε εσωτερικός κόμβος μια υπό συστάδα που αποτελείται από τις υπό συστάδες των παιδιών του Κάθε εσωτερικός κόμβος περιέχει έναν αριθμό B από παιδιά, δηλαδή, υπό συστάδες (παράγοντας διακλάδωσης) εγγραφές <CF i, παιδί i > Κάθε φύλλο περιέχει έναν αριθμό L από υπό συστάδες (δηλαδή, το πολύ L CF εγγραφές [CFi] και <prev>, <next> pointers) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 88

45 BIRCH: CF δέντρο B, L Όπως σε όλες τις σχετικές δομές απαιτούμε κάθε κόμβος του δέντρου να χωρά σε μια σελίδα (block) Το μέγεθος των κόμβων (B, L) καθορίζεται από τη διάσταση των δεδομένων (πόσο μεγάλο είναι το CF) και το μέγεθος της σελίδας (που δίνεται ως είσοδος) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 89 BIRCH: CF δέντρο Κατώφλι ομοιότητας Κάθε υποσυστάδα ενός φύλλου πρέπει να έχει Διάμετρο (ή ακτίνα) μικρότερη από κάποιο κατώφλι T (μέγιστηαπόστασητωνσημείων κάθε συστάδας) Το μέγεθος του T καθορίζει το μέγεθος του δέντρου Όσο πιο μεγάλο είναι το Τ, τόσο μικρότερο είναι το δέντρο Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 90

46 BIRCH: CF δέντρο Συνοπτικά, το CF δέντρο είναι ένα ισοζυγισμένο δέντρο με δυο παραμέτρους Παράγοντα διακλάδωσης Β (που καθορίζεται από το μέγεθος της σελίδας) Κατώφλι Τ (που καθορίζει την ποιότητα της συσταδοποίησης) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 9 Για ένα φύλλο: LS = SS = Pi N Pi N v P i v P i 2 BIRCH: CF δέντρο Για κάθε εσωτερικό κόμβο που έχει παιδιά τα N, N 2,, N k LS = SS = k i= k i= LS of N SS of N i i Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 92

47 BIRCH: CF δέντρο εισαγωγή στοιχείου Οαλγόριθμοςδιαβάζει(scan) ταδεδομένακαιταεισάγειστο CF δέντρο ένα ένα Η εισαγωγή ενός στοιχείου στο CF δέντρο γίνεται με topdown διάσχιση ξεκινώντας από τη ρίζα με βάση μια συνάρτηση απόστασης Distance(σημείο, cluster) Χρήση της D0, D, D2, D3 ή D4 Κάθε σημείο εισάγεται στην κοντινότερη υπό συστάδα που υπάρχει σε κάποιο από τα φύλλα Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 93 BIRCH: CF δέντρο εισαγωγή στοιχείου. Εύρεση κατάλληλου φύλου αν το φύλλο μπορεί να το απορροφήσει (διάμετρος παραμένει <= Τ) ok, Αλλιώς 3 2. Ενημέρωση του φύλλου 3. Διάσπαση φύλλου 4. Ενημέρωση τιμής CF Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 94

48 BIRCH: CF δέντρο εισαγωγή στοιχείου. Εύρεση φύλλου CF CF 2 CF B CF CF 2 CF B CF B CF B2 CF BB CF CF 2 CF L subcluster Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 95 BIRCH: CF δέντρο εισαγωγή στοιχείου 4. Τροποποίηση CF τιμών CF CF 2 CF B CF CF 2 CF B CF B CF B2 CF BB CF CF 2 CF L subcluster Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 96

49 BIRCH: CF δέντρο εισαγωγή στοιχείου 2. Μετατροπή φύλλου CF CF 2 CF B CF CF 2 CF B CF B CF B2 CF BB CF CF 2 CF L subcluster Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Διάσπαση και ενημέρωση του μονοπατιού από τη ρίζα CF CF 2 CF B BIRCH: CF δέντρο εισαγωγή στοιχείου CF CF 2 CF B CF B CF B2 CF BB CF CF 2 CF L subcluster Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 98

50 BIRCH: CF δέντρο εισαγωγή στοιχείου 3 4 Διάσπαση και ενημέρωση του μονοπατιού από τη ρίζα CF CF 2 CF B CF CF 2 CF B CF B CF B2 CF BB CF CF 2 CF 2 CF 22 subcluster Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 99 BIRCH: CF δέντρο Κάθε σημείο εισάγεται στο κοντινότερη υπό συστάδα που υπάρχει σε κάποιο από τα φύλλα Ανηεισαγωγήενόςσημείουμεγαλώσει τη διάμετρο της υποσυστάδας πάνω από T, τότε έχουμε δημιουργία νέας υποσυστάδας Αν η νέα συστάδα χωρά στο φύλλο, οk > ενημέρωση προγόνων Αν η νέα συστάδα δε χωρά > υπερχείλιση στο φύλλο Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 00

51 BIRCH: CF δέντρο Διάσπαση φύλλου (split) Δημιουργία νέου φύλλου και μοίρασμα των συστάδων, πως; Εύρεση των δύο υπό συστάδων του φύλλου πού έχουν τη μεγαλύτερη απόσταση μεταξύ τους, έστω Ci και Cj Αυτές οι δύο αποτελούν το κριτήριο διάσπασης των υπο συστάδων του φύλλου κάθε μια από αυτές σε ένα από τα δύο νέα φύλλα όλες οι άλλες υπό συστάδες C ανατίθενται στο φύλλο της Ci ή στο φύλλο της Cj με βάση ποια από τις δύο είναι πιο όμοια της Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 0 BIRCH: CF δέντρο Διάσπαση φύλλου μπορεί να οδηγήσει σε υπερχείλιση εσωτερικού κόμβου (όταν περιέχει περισσότερα παιδιά από ότι ο παράγοντας διακλάδωσης) Διάσπαση εσωτερικού κόμβου Οι εσωτερικοί κόμβοι διασπούνται αναδρομικά με βάση μια μέτρηση της απόσταση των συστάδων τους Διάσπαση της ρίζας, οδηγεί σε αύξηση του ύψους του δέντρου κατά Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 02

52 Νέα υπο συστάδα BIRCH: CF δέντρο sc sc8 sc3 sc4 sc5 sc6 sc7 LN sc2 LN2 Root LN LN2 LN3 LN3 Αν ο παράγοντας διακλάδωσης του φύλλου είναι 3 => διάσπαση του LN sc8 sc sc2 sc3 sc4 sc5 sc6 sc7 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 03 BIRCH: CF δέντρο sc sc8 sc3 sc4 sc5 sc6 sc7 sc2 LN LN sc8 LN LN LN2 Root LN2 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 04 LN3 sc sc3 sc4 sc5 sc6 sc7 sc2 LN3 Αν ο παράγοντας διακλάδωσης εσωτερικού κόμβου είναι 3 => διάσπαση της ρίζας και αύξηση του ύψους

53 BIRCH: CF δέντρο sc sc8 sc3 sc4 sc5 sc6 sc7 sc2 LN LN2 LN3 LN NLN Root NLN2 LN LN LN2 LN3 sc8 sc sc2 sc3 sc5 sc4 sc6 sc7 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 05 BIRCH: CF δέντρο Οι διασπάσεις οφείλονται στο ότι ξεπερνιέται το όριο της σελίδας μπορούν να οδηγήσουν σε κακές διασπάσεις! Μια μικρή διόρθωση: Όταν η διάσπαση κάποιων κόμβων τελειώνει (χωρούν σε ένα κόμβο) έστω στον κόμβο Nj κοιτάμε τον κόμβο Nj και προσπαθούμε να συγχωνεύσουμε τις δύο πιο κοντινές συστάδες αν αυτές δε προέκυψαν από την πιο πρόσφατη διάσπαση Αυτό σημαίνει ότι πρέπει να συγχωνεύσουμε και τα αντίστοιχα 2 παιδιά Αν χωρούν σε μια σελίδα > ελάττωση χώρου, Αλλιώς ανακατανέμουμε τις εγγραφές Πως; κάνουμε πάλι διάσπαση Τελικά ή συγχώνευση και ελευθέρωση χώρου ή καλύτερη ανακατανομή των εγγραφών σε κάποιο από τα παιδιά Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 06

54 Έστω ότι η αρίθμηση των υποσυστάδων αντιστοιχεί στη σειρά δημιουργίας τους BIRCH: CF δέντρο sc6 sc5 sc2 sc3 sc4 sc LN2 LN root LN2 LN Αν ο παράγοντας διακλάδωσης του φύλλου είναι 3 => διάσπαση του LN2 sc sc2 sc3 sc4 sc5 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 07 sc6 BIRCH: CF δέντρο sc6 sc5 sc2 sc3 sc4 sc LN3 LN2 LN2 root Merge? LN LN2 LN2 sc sc2 sc6 sc5 sc4 sc3 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 08

55 BIRCH: CF δέντρο sc6 sc5 sc2 sc3 sc4 sc LN2 LN3 sc2 LN3 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 09 root LN3 sc sc5 sc4 sc3 LN2 sc6 LN3 Συγχώνευση LN2 και LN και ο καινούργιος κόμβος θα διασπαστεί πάλι BIRCH: αλγόριθμος Επειδή η κατασκευή επηρεάζεται από το μέγεθος της σελίδας: Οισυστάδεςπουδημιουργούνταιμπορείναμηνείναιπραγματικές ανάλογα με το skew (κατανομή) και τη σειρά που έρχονται τα δεδομένα Επίσης, αν ξανά εισάγουμε ένα σημείο μπορεί να εισαχθεί σε διαφορετική συστάδα Αριθμός αντιστοιχεί στη σειρά εισαγωγής, Έστω dist(, 2) > T Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 0

56 BIRCH: αλγόριθμος Αυτό αντιμετωπίζεται με προαιρετικές επιπρόσθετες φάσεις Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Δεδομένα BIRCH αλγόριθμος Φάση : Κατασκευή CF δέντρου Αρχικό CF δέντρο Φάση 2 (προαιρετική): Κατασκευή μικρότερου CF δέντρου Μικρότερο CF δέντρο Φάση 3: Ολική Συσταδοποίηση Καλές Συστάδες Φάση 4 (προαιρετική): βελτίωση της Συσταδοποίησης Φάση : Μια δομή κύριας μνήμης που συνοψίζει τα δεδομένα Φάση 2: Κοιτά τα φύλλα και προσπαθεί να διώξει τους outliers και να ενοποιήσει «όμοιες» συστάδες που αντιστοιχούν σε περιοχές με πολλά σημεία Χρειάζεται για να βελτιώσει τη Φάση 3 Καλύτερες Συστάδες Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 2

57 Φάση 3 BIRCH Ξανα συσταδοποιεί τα φύλλα του δέντρου Γιατί; Πχ κοντινές συστάδες που (έτυχε να) είναι σε διαφορετικά φύλλα Πως; Για κάθε συστάδα που εμφανίζεται στα φύλλα, υπολογίζουμε το κεντρικό της σημείο (centroid) και τα θεωρούμε ως αρχικά σημεία αυτά τα αρχικά σημεία μπορούμε να τα συσταδοποιήσουμε χρησιμοποιώντας έναν οποιαδήποτε αλγόριθμο συσταδοποίησης Μπορούμε αντί ένα σημείο ανά συστάδα, κάθε συστάδα τόσες φορέςόσεςτασημείατης Εναλλακτικά, μπορούμε να συσταδοποιήσουμε τις συστάδες ως έχουν πχ με έναν ιεραρχικό συγκεντρωτικό αλγόριθμο Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 3 BIRCH Φάση 4 (προαιρετική) Χρησιμοποιεί τα κεντρικά σημεία των συστάδων που παράγει η Φάση 3 ως seeds, και αναδιανέμει όλα τα στοιχεία εισόδου (δεύτερο πέρασμα!) Μπορεί να έχουμε και παραπάνω από ένα επιπρόσθετα περάσματα (έχει αποδειχτεί σύγκλιση) Εξασφαλίζει ότι όλα τα αντίγραφα ενός σημείου πάνε στην ίδια συστάδα Μπορούμε επίσης να βάλουμε ως ετικέτα σε κάθε σημείο, τη συστάδα πουανήκει Μπορούμε να απαλλαγούμε από outliers (πχ σημεία πολύ μακριά από όλα τα seeds) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 4

58 BIRCH αλγόριθμος Λίγα ακόμα για τη Φάση Ξεκίνα με κάποια αρχική τιμή για το threshold (Τ) Διαβάζει τα δεδομένα και τα εισάγει στο δέντρο Αν ξεπεράσει το διαθέσιμο χώρο πριν διαβάσει όλα τα δεδομένα: Αύξηση του threshold Κτίσιμο νέου (μικρότερου) δέντρου ξανά εισάγοντας τις τιμές απότοπαλιόδέντρο Μόλις εισαχθούν όλες οι τιμές από το παλιό στο νέο δέντρο, Συνεχίζεται η ανάγνωση των δεδομένων από εκεί που είχε σταματήσει Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 5 BIRCH αλγόριθμος Πως γίνεται η ανα κατασκευή Μονοπάτι Μονοπάτι Ανακατασκευάζουμε κάθε μονοπάτι από τη ρίζα στο φύλλο, ξεκινώντας από το πιοαριστερόμονοπάτι(old current path) Δημιουργούμε το new current path Κάθε φύλλο είτε στο new είτε στο newclosest Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 6

59 BIRCH αλγόριθμος. Create the corresponding NewCurrentPath in the new tree 2. Insert leaf entries in OldCurrentPath to the new tree NewClosestPath NewCurrentPath 3. Free space in OldCurrentPath and NewCurrentPath 4. Set OldCurrentPath to the next path if there exists one Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 7

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση Συσταδοποίηση II Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 Εξόρυξη Δεδομένων: Ακ. Έτος 008-009 ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Τι είναι συσταδοποίηση

Διαβάστε περισσότερα

Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity

Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity Συσταδοποίηση IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 ιαχείριση Ποιότητας Cluster validity Εξόρυξη Δεδομένων: Ακ. Έτος 006-007

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Γ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Συσταδοποίηση IIΙ DBSCAN. DBSCAN: Γενικά. DBSCAN: Γενικά. DBSCAN: Αλγόριθμος. DBSCAN: Αλγόριθμος

Συσταδοποίηση IIΙ DBSCAN. DBSCAN: Γενικά. DBSCAN: Γενικά. DBSCAN: Αλγόριθμος. DBSCAN: Αλγόριθμος Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Συσταδοποίηση IIΙ DBSCAN Μέρος των διαφανειών είναι από το P.-N. Tan, M.Stenbach, V. Kumar, «Introducton to Data Mnng», Addson Wesle, 6 Εξόρυξη Δεδομένων:

Διαβάστε περισσότερα

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Συσταδοποίηση/ Ομαδοποίηση

Συσταδοποίηση/ Ομαδοποίηση Συσταδοποίηση/ Ομαδοποίηση Lecture Notes for Chapter 8 Introduction to Data Mining by Tan, Steinbach, Kumar 1 Τι είναι η ανάλυση ομάδων/ομαδοποίηση (Συσταδοποίηση)? Εύρεση συνόλων από αντικείμενα έτσι

Διαβάστε περισσότερα

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining», Συσταδοποίηση Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα

Διαβάστε περισσότερα

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εξόρυξη Δεδομένων Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι 1 2 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση (clustering) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 10: Ομαδοποίηση Μέρος Δ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Ομαδοποίηση Ι (Clustering)

Ομαδοποίηση Ι (Clustering) Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση Συσταδοποίηση I Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 6 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα

Διαβάστε περισσότερα

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση Συσταδοποίηση I Εισαγωγή Ο αλγόριθμος k-means Αποστάσεις Ιεραρχική Συσταδοποίηση Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 Τι

Διαβάστε περισσότερα

BIRCH: : An Efficient Data Clustering Method for Very Large Databases

BIRCH: : An Efficient Data Clustering Method for Very Large Databases BIRCH: : An Efficient Data Clustering Method for Very Large Databases Tian Zhang Raghu Ramakrishnan Miron Livny Παρουσίαση: Μαρία Καθηγητής: Μιχάλης Μάθημα: Θέματα Μαρία Δήμα Μιχάλης Χατζόπουλος Θέματα

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς

Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς Φωτεινή Καλαφάτη Πολυτεχνείο Κρήτης Σχολή Μηχανικών Παραγωγής και Διοίκησης Πολυτεχνειούπολη, 73100 Χανιά email: fot.kalafati@yahoo.com

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

ιαµέριση - Partitioning

ιαµέριση - Partitioning ιαµέριση - Partitioning ιαµέριση ιαµέριση είναι η διαµοίραση αντικειµένων σε οµάδες µε στόχο την βελτιστοποίηση κάποιας συνάρτησης. Στην σύνθεση η διαµέριση χρησιµοποιείται ως εξής: Οµαδοποίηση µεταβλητών

Διαβάστε περισσότερα

Κεφάλαιο 6: Συσταδοποίηση

Κεφάλαιο 6: Συσταδοποίηση Κεφάλαιο 6: Συσταδοποίηση Σύνοψη Ο βασικός στόχος αυτού του κεφαλαίου είναι η εξοικείωση με θέματα που αφορούν την τρίτη σημαντική εργασία της εξόρυξης δεδομένων, δηλαδή την ανάλυση των συστάδων. Πιο συγκεκριμένα,

Διαβάστε περισσότερα

Διάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου

Διάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου Διάλεξη 14: Δέντρα IV B Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: 2 3 Δένδρα, Εισαγωγή και άλλες πράξεις Άλλα Δέντρα: Β δένδρα, Β+ δέντρα, R δέντρα Διδάσκων: Παναγιώτης Ανδρέου ΕΠΛ231

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Ηλίας Κ. Σάββας Εξόρυξη Δεδομένων Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, Μετατροπή δεδομένων σε ΠΛΗΡΟΦΟΡΙΑ, Πολλά δεδομένα αποθηκευμένα

Διαβάστε περισσότερα

Διάλεξη 14: Δέντρα IV - B-Δένδρα

Διάλεξη 14: Δέντρα IV - B-Δένδρα ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 14: Δέντρα IV - B-Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - 2-3 Δένδρα, Εισαγωγή και άλλες πράξεις - Άλλα Δέντρα: Β-δένδρα, Β+-δέντρα,

Διαβάστε περισσότερα

Advanced Data Indexing

Advanced Data Indexing Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Αναζήτηση Δέντρα (2 ο Μέρος) Διαχρονικά -Δέντρα (Persistent -trees) Σε μερικές εφαρμογές βάσεων/δομών δεδομένων όπου γίνονται ενημερώσεις μας ενδιαφέρει

Διαβάστε περισσότερα

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ 1 2 3 1 ΚΑΤΗΓΟΡΊΕΣ ΤΑΞΙΝΌΜΗΣΗΣ Κατευθυνόμενη ταξινόμηση (supervised classification) Μη-κατευθυνόμενη ταξινόμηση (unsupervised classification) Γραμμική: Μη-Γραμμική: Ιεραρχική: Επιμεριστική:

Διαβάστε περισσότερα

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινοµηµένα Αρχεία Φυσική διάταξη των εγγραφών

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ Παπαδάκης Χαράλαμπος 1, Παναγιωτάκης Κώστας 2, Παρασκευή Φραγκοπούλου 1 1 Τμήμα Μηχ/κών Πληροφορικής, ΤΕΙ Κρήτης 2 Τμήμα

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

Ανάλυση Συσχέτισης IΙ

Ανάλυση Συσχέτισης IΙ Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)

Διαβάστε περισσότερα

Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας 1. Πως δομούνται οι ιεραρχικές μνήμες; Αναφέρετε τα διάφορα επίπεδά τους από τον επεξεργαστή μέχρι τη δευτερεύουσα

Διαβάστε περισσότερα

Εξωτερική Ταξινόμηση. Μ.Χατζόπουλος 1

Εξωτερική Ταξινόμηση. Μ.Χατζόπουλος 1 Εξωτερική Ταξινόμηση Μ.Χατζόπουλος 1 Γιατί είναι απαραίτητη; Κλασσικό Πρόβλημα της Πληροφορικής Πολλές φορές θέλουμε να παρουσιάσουμε δεδομένα σε ταξινομημένη μορφή Είναι σημαντική για την απαλοιφή διπλοτύπων

Διαβάστε περισσότερα

ΗΥ360 Αρχεία και Βάσεις εδοµένων

ΗΥ360 Αρχεία και Βάσεις εδοµένων ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης Tutorial B-Trees, B+Trees Μπαριτάκης Παύλος 2018-2019 Ιδιότητες B-trees Χρήση για μείωση των προσπελάσεων στον δίσκο Επέκταση των Binary Search Trees

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ ΜΑΘΗΜΑ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΑΔ. ΕΤΟΣ 2007-2008 14.02.2008 EΠΙΣΤΡΕΦΕΤΑΙ ΔΙΔΑΣΚΩΝ Ιωάννης Βασιλείου, Καθηγητής,

Διαβάστε περισσότερα

Ανάλυση κατά Συστάδες. Cluster analysis

Ανάλυση κατά Συστάδες. Cluster analysis Ανάλυση κατά Συστάδες Cluster analysis 1 H ανάλυση κατά συστάδες είναι µια µέθοδος που σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρήσεις χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες

Διαβάστε περισσότερα

Διάλεξη 18: B-Δένδρα

Διάλεξη 18: B-Δένδρα Διάλεξη 18: B-Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Εισαγωγή & Ισοζυγισμένα Δένδρα 2-3 Δένδρα, Περιγραφή Πράξεων της Εισαγωγής και άλλες πράξεις Β-δένδρα Διδάσκων: Κωνσταντίνος

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Καβάλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Βιομηχανικής Πληροφορικής

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Καβάλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Βιομηχανικής Πληροφορικής Τεχνολογικό Εκπαιδευτικό Ίδρυμα Καβάλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Βιομηχανικής Πληροφορικής Διπλωματική Εργασία: Ομαδοποίηση γράφων με τους αλγόριθμους k-means και DBSCAN. Σπουδαστής: Νικηφοράκης

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

Το μοντέλο Perceptron

Το μοντέλο Perceptron Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1 Το μοντέλο

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Χωρικά φίλτρα Χωρικά φίλτρα Γενικά Σε αντίθεση με τις σημειακές πράξεις και μετασχηματισμούς, στα

Διαβάστε περισσότερα

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης DIP_05 Τμηματοποίηση εικόνας ΤΕΙ Κρήτης ΤΜΗΜΑΤΟΠΟΙΗΣΗ ΕΙΚΟΝΑΣ Τμηματοποίηση εικόνας είναι η διαδικασία με την οποία διαχωρίζεται μία εικόνα σε κατάλληλες περιοχές ή αντικείμενα. Για την τμηματοποίηση

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 3 Ο Εργαστήριο WEKA (CLUSTERING) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Συσταδοποίηση (Clustering) Συσταδοποίηση / Ομαδοποίηση

Διαβάστε περισσότερα

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. ιπλωµατική Εργασία

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. ιπλωµατική Εργασία ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ιπλωµατική Εργασία «Μετάδοση πληροφορίας σε ασύρµατο δίκτυο αισθητήρων µε οµαδοποιηµένους κόµβους και µε χρήση διευθύνσεων

Διαβάστε περισσότερα

2ο ΓΕΛ ΑΓ.ΔΗΜΗΤΡΙΟΥ ΑΕΠΠ ΘΕΟΔΟΣΙΟΥ ΔΙΟΝ ΠΡΟΣΟΧΗ ΣΤΑ ΠΑΡΑΚΑΤΩ

2ο ΓΕΛ ΑΓ.ΔΗΜΗΤΡΙΟΥ ΑΕΠΠ ΘΕΟΔΟΣΙΟΥ ΔΙΟΝ ΠΡΟΣΟΧΗ ΣΤΑ ΠΑΡΑΚΑΤΩ ΠΡΟΣΟΧΗ ΣΤΑ ΠΑΡΑΚΑΤΩ ΣΤΑΘΕΡΕΣ είναι τα μεγέθη που δεν μεταβάλλονται κατά την εκτέλεση ενός αλγόριθμου. Εκτός από τις αριθμητικές σταθερές (7, 4, 3.5, 100 κλπ), τις λογικές σταθερές (αληθής και ψευδής)

Διαβάστε περισσότερα

Κατακερµατισµός. Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Κατακερµατισµός. Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινομημένα Αρχεία Φυσική διάταξη των εγγραφών

Διαβάστε περισσότερα

Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων

Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Εφαρμοσμένη Πολυμεταβλητή Ανάλυση : Ανάλυση κατά συστάδες 1. Εισαγωγή Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων Η ομαδοποίηση δεδομένων

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data

Διαβάστε περισσότερα

Θέματα Μεταγλωττιστών

Θέματα Μεταγλωττιστών Γιώργος Δημητρίου Ενότητα 7 η : Περιοχές: Εναλλακτική Μέθοδος Ανάλυσης Ροής Δεδομένων Περιοχές (Regions) Σε κάποιες περιπτώσεις βρόχων η ανάλυση ροής δεδομένων με τον επαναληπτικό αλγόριθμο συγκλίνει αργά

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Κεφάλαιο 4. Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1,

Κεφάλαιο 4. Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1, Κεφάλαιο 4 Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1, 2015-01-19 Χρησιμοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne. 1 Διαίρει και Βασίλευε (Divide-and-Conquer) Διαίρει-και-βασίλευε

Διαβάστε περισσότερα

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ» Τ.Ε.Ι. ΚΑΒΑΛΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ» Της σπουδάστριας ΚΑΤΣΑΡΟΥ ΧΑΡΙΚΛΕΙΑΣ Επιβλέπων Δρ. ΓΕΡΟΝΤΙΔΗΣ

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα Ι

Κατανεμημένα Συστήματα Ι Κατανεμημένα Συστήματα Ι Εκλογή αρχηγού και κατασκευή BFS δένδρου σε σύγχρονο γενικό δίκτυο Παναγιώτα Παναγοπούλου Περίληψη Εκλογή αρχηγού σε γενικά δίκτυα Ορισμός του προβλήματος Ο αλγόριθμος FloodMax

Διαβάστε περισσότερα

ΘΕΜΑ 1: Αλγόριθμος Ford-Fulkerson

ΘΕΜΑ 1: Αλγόριθμος Ford-Fulkerson ΘΕΜΑ : Αλγόριθμος Ford-Fulkerson Α Να εξετάσετε αν ισχύει η συνθήκη συντήρησης της αρχικής ροής στο δίκτυο. Β Με χρήση του αλγορίθμου Ford-Fulkerson να βρεθεί η μέγιστη ροή που μπορεί να σταλεί από τον

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα Ι

Κατανεμημένα Συστήματα Ι Κατανεμημένα Συστήματα Ι Παναγιώτα Παναγοπούλου Χριστίνα Σπυροπούλου 8η Διάλεξη 8 Δεκεμβρίου 2016 1 Ασύγχρονη κατασκευή BFS δέντρου Στα σύγχρονα συστήματα ο αλγόριθμος της πλημμύρας είναι ένας απλός αλλά

Διαβάστε περισσότερα

Network Science. Θεωρεία Γραφηµάτων (2)

Network Science. Θεωρεία Γραφηµάτων (2) Network Science Θεωρεία Γραφηµάτων () Section.8 PATHOLOGY Διαδρομές Μια διαδρομή είναι μια σειρά κόμβων όπου κάθε κόμβος είναι δίπλα στην επόμενη P i0,in μήκους n μεταξύ των κόμβων i 0 και i n είναι μια

Διαβάστε περισσότερα

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη Ευρετήρια 1 Αρχεία Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη µνήµη. Η µεταφορά δεδοµένων από το δίσκο στη µνήµη και από τη

Διαβάστε περισσότερα

Σχεδίαση & Ανάλυση Αλγορίθμων

Σχεδίαση & Ανάλυση Αλγορίθμων Σχεδίαση & Ανάλυση Αλγορίθμων Ενότητα 3 Αλγόριθμοι Επιλογής Σταύρος Δ. Νικολόπουλος Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros Αλγόριθμοι Επιλογής Γνωρίζουμε

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα