Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity
|
|
- Πυθις Γιάνναρης
- 7 χρόνια πριν
- Προβολές:
Transcript
1 Συσταδοποίηση IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 ιαχείριση Ποιότητας Cluster validity Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ
2 Ποιότητα Συσταδοποίησης Πόσο καλή είναι συσταδοποίηση που επιτύχαμε; Οι αλγόριθμοι που είδαμε παράγουν κάποιες συστάδες ακόμα και όταν τα δεδομένα παράγονται τυχαία ύσκολη η αξιολόγηση, ιδιαίτερα σε πολλές διαστάσεις Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 3 Συστάδες σε Τυχαία εδομένα Τυχαία Σημεία y y DBSCAN 3 ομάδες κοιτώντας την απόσταση του 4ου γείτονα x x K-means ΣΙΣ με MAX-link y 0.5 y x x Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 4
3 Κριτήρια Ορθότητας Συσταδοποίησης. Υπάρχει τάση ομαδοποίησης (clustering tendency), δηλαδή μη τυχαία δομή στο σύνολο των δεδομένων;. Σύγκριση των αποτελεσμάτων της ανάλυσης της ομαδοποίησης με κάποια ήδη γνωστά αποτελέσματα, πχ κάποια ετικέτα που ήδη έχει δοθεί για μια συστάδα 3. Πόσο καλά τα αποτελέσματα της ανάλυσης ταιριάζουν με τα δεδομένα χωρίς αναφορά σε εξωτερική πληροφορία, χρησιμοποιώντας μόνο τα δεδομένα 4. Σύγκριση των αποτελεσμάτων δυο διαφορετικών συσταδοποιήσεων για να αποφασιστεί ποια είναι καλύτερη. 5. Καθορισμός του «σωστού» αριθμού συστάδων Τα, 3 και 4 μπορεί να αφορούν είτε την ολική συσταδοποίηση είτε τη κάθε συστάδα χωριστά Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 5 Μετρήσεις Ποιότητας Συσταδοποίησης Οι μετρήσεις για την ποιότητα (το πόσο καλή) είναι μια συσταδοποίηση ανήκουν σε μία από τις παρακάτω τρεις κατηγορίες: Με επίβλεψη (supervised) - Εξωτερικό Ευρετήριο (External Index): Υπάρχει εξωτερική πληροφορία (πληροφορία εκτός των δεδομένων), πχ ετικέτες για τις συστάδες Μετράμε πόσο οι περιγραφές των συστάδων ταιριάζουν με τις ετικέτες των κλάσεων. πχ Εντροπία Χωρίς επίβλεψη (unsupervised) Εσωτερικό Ευρετήριο (Internal Index): Εκτιμάμε το πόσο καλή είναι μια συσταδοποίηση χωρίς παροχή εξωτερικής πληροφορίας Συνεκτικότητα (cohesion) ιακριτότητα ή διαχωρισμός (separation) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 6
4 Μετρήσεις Ποιότητας Συσταδοποίησης Συγκριτικοί -Σχετικό Ευρετήριο (Relative Index): Χρησιμοποιείται για τη σύγκριση δυο διαφορετικών συσταδοποιήσεων ή συστάδων - Συχνά για αυτό το σκοπό χρησιμοποιείται ένα εσωτερικό ή εξωτερικό ευρετήριο Εσωτερικό, πχ δυο k-means συσταδοποιήσεις με βάση το SSE Κριτήρια vs Eυρετήρια κριτήριο: η γενική στρατηγική και ευρετήριο η αριθμητική μέτρηση που υλοποιεί το κριτήριο Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 7 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη Χρήση Πίνακα Γειτνίασης Χρήση Συνεκτικότητας και ιαχωρισμού Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 8
5 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και ιαχωρισμός overall validity = k i= wi validity( Ci) Όπου το βάρος (w i ) μπορεί να είναι πχ ανάλογο του μεγέθους της συστάδας ή η τετραγωνική ρίζα της συνεκτικότητας ή Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 9 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και ιαχωρισμός overall validity = k i= wi validity( Ci) Όπου το βάρος (w i ) μπορεί να είναι πχ ανάλογο του μεγέθους της συστάδας ή η τετραγωνική ρίζα της συνεκτικότητας ή Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 0
6 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και ιαχωρισμός Συσταδοποίηση βασισμένη σε γραφήματα (ΣΙΣ) Η συνεκτικότητα μιας συστάδας (cluster cohesion) είναι το άθροισμα των βαρών (πχ απόσταση) μεταξύ όλων των συνδέσεων σε μια συστάδα. Ο διαχωρισμός (cluster separation) είναι το άθροισμα των βαρών μεταξύ κόμβων της συστάδας και κόμβων εκτός συστάδας n cohesion ( Ci) = proximity( x, y) seperation ( Ci, Cj) = proximity( x, y) x C i y C i n x C i y C j Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και ιαχωρισμός Συσταδοποίηση βασισμένη σε κεντρικά σημεία Centroid-based clustering (πχ k-means) n cohesion ( Ci) = proximity( x, ci) x C i Αν proximity = τετράγωνο της Ευκλείδειας, τότε ESS seperation ( Ci, Cj) = proximity( ci, cj) seperation( Ci ) = proximity( ci, c) Όπου c το κέντρο όλων των σημείων Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ
7 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και ιαχωρισμός overall cohesion = k i= w cohesion( Ci) i Για prototype και graph overall seperation = overall validity = k i= k i= w i seperation( Ci) seperation(ci) cohesion(ci) Για prototype Για graph Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 3 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και ιαχωρισμός Σχέση prototype και graph-based συνεκτικότητας και διαχωρισμού (για Ευκλείδειες αποστάσεις) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 4
8 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και ιαχωρισμός Σχέση prototype και graph-based συνεκτικότητας (για Ευκλείδειες αποστάσεις) Έστω Ευκλείδεια απόσταση, σχέση SSE με συνεκτικότητα (πόσο στενά σχετιζόμενα είναι τα αντικείμενα μιας συστάδας); cluster SSE = dist ( c i, x) Αποδεικνύεται ότι Total SSE = cluster SSE = x Ci K i= x Ci x C i dist ( c, x) dist ( x, ci) = m i i x Ci y Ci dist( x, y ) ηλαδή, είτε πάρουμε την απόσταση από το κέντρο είτε το μέσο όρο των ανά δύο αποστάσεων των σημείων είναι το ίδιο Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 5 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και ιαχωρισμός Σχέση δυο προσεγγίσεων διαχωρισμού (για Ευκλείδειες αποστάσεις) Έστω Ευκλείδεια απόσταση, σχέση SSB (group sum of squares) με διαχωρισμό (πόσο μακριά είναι οι συστάδες); Αποδεικνύεται ότι ολικό SSB = x Ci cluster SSB = dist( c, c) (ολικό ) SSB = m dist i K i= m dist( c, c i K i i K K ( ci, c) = dist( ci, cj) ) i= j= m K Ισομεγέθεις συστάδες m i = m / K ηλαδή, είτε πάρουμε την απόσταση των κέντρων κάθε συστάδας από το ολικό κέντρο είτε το μέσο όρο των ανά δύο αποστάσεων των κέντρων κάθε συστάδας είναι το ίδιο Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 6
9 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και ιαχωρισμός Total-SSE + Total-SSB = constant c c 3 4 c 5 K= cluster: K= clusters: total SSE= ( 3) + ( 3) + (4 3) + (5 3) = 0 total SSB= 4 (3 3) = 0 Total = = 0 total SSE= (.5) + (.5) + (4 4.5) + (5 4.5) = total SSB= (3.5) + (4.5 3) = 9 Total = + 9 = 0 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 7 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και ιαχωρισμός Αποδεικνύεται ότι Total SSB + Total SSE = constant TSS = K i= x C i ( x c) Ίσο με το τετράγωνο των αποστάσεων όλων των σημείων από το ολικό μέσο Ελαχιστοποίηση της SSE (συνεκτικότητας) => Μεγιστοποίηση του SSB (διαχωρισμού) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 8
10 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και ιαχωρισμός Μπορούν να χρησιμοποιηθούν για τη βελτίωση της συσταδοποίησης Πχ μια συστάδα με κακή συνεκτικότητα μπορεί να χρειαστεί να διασπαστεί υο συστάδες όχι καλά διαχωρισμένες μπορεί να συγχωνευτούν Το πόσο καλή είναι μια συσταδοποίηση Το ποσό καλή είναι μια συστάδα Το ποσό καλό είναι ένα σημείο σε μια συστάδα Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 9 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συντελεστής Σκιαγράφησης Silhouette Coefficient (συντελεστής σκιαγράφησης) Για κάθε σημείο, i Υπολογισμός a = μέση απόσταση του i από τα σημεία της συστάδας Υπολογισμός b = μέση απόσταση του i aπό όλα τα σημεία κάθε άλλης συστάδας επιλογή του μικρότερου, δηλαδή μέση απόσταση από κοντινότερη συστάδα s = a/b if a < b, (or s = b/a - if a b, not the usual case) Συνήθως μεταξύ του 0 και του Όσο πιο κοντά στο, τόσο το καλύτερο a b Μπορεί να χρησιμοποιηθεί και για μια συστάδα ή συσταδοποίηση θεωρώντας μέσες τιμές για όλα τα σημεία τους ή συστάδες Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 0
11 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης ύο Πίνακες Πίνακας Γειτνίασης (proximity matrix) Πίνακας Εμφάνισης ( incidence matrix) Μια γραμμή και μια στήλη για κάθε σημείο Μια εγγραφή είναι αν το αντίστοιχο ζευγάρι σημείων ανήκει στην ίδια συστάδα Μια εγγραφή είναι 0 αν το αντίστοιχο ζευγάρι σημείων ανήκει σε διαφορετική συστάδα Υπολογισμός της συσχέτισης (correlation) των δύο πινάκων Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Συσχέτιση Μετρά τη γραμμική σχέση μεταξύ αντικειμένων To compute correlation, we standardize data objects, p and q, and then take their dot product p k q = ( p mean( p)) / std( p) k k = ( q mean( q)) / std( q) k correlatio n( p, q) = p q Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ
12 Συσχέτιση Θετική συσχέτιση Μεγάλο x => μεγάλο y (-) σημαίνει τέλεια γραμμική συσχέτιση 0 όχι γραμμική συσχέτιση Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 3 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης Υψηλή συσχέτιση σημαίνει ότι τα σημεία που ανήκουν στην ίδια συστάδα είναι κοντινά μεταξύ τους εν είναι καλή μέτρηση για κάποιες συστάδες που βασίζονται σε πυκνότητα και σε συνέχεια (contiguity) Επειδή, οι δυο πίνακες είναι συμμετρικοί, χρειάζεται ο υπολογισμός n(n-) / εγγραφών Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 4
13 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης Υπολογισμός correlation των δύο πινάκων όταν χρησιμοποιείται ο K-means στα παρακάτω σύνολα y x y x Corr = Corr = Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 5 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης - Οπτικοποίηση Αναδιατάσσουμε τα σημεία στον πίνακα έτσι ώστε τα σημεία που ανήκουν στην ίδια συστάδα να είναι γειτονικά Συγκεκριμένα, τα διατάσουμε με βάση τη συστάδα: Σημεία Συστάδας, Σημεία Συστάδας, Σημεία Συστάδας 3 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 6
14 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης - Οπτικοποίηση Αναδιατάσσουμε τα σημεία στον πίνακα έτσι ώστε τα σημεία που ανήκουν στην ίδια συστάδα να είναι γειτονικά Συγκεκριμένα, τα διατάσουμε με βάση τη συστάδα: Σημεία Συστάδας, Σημεία Συστάδας, Σημεία Συστάδας 3 y x Σημείωση s = (d min_d)/(max_d min_d) Points Similarity Points Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 7 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης - Οπτικοποίηση Points y Similarity 0 Points x DBSCAN Κάποιες συστάδες ακόμα και σε τυχαία δεδομένα Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 8
15 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης - Οπτικοποίηση Points y Similarity 0 Points x K-means Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 9 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης - Οπτικοποίηση Points Similarity 0 Points y x ΣΙΣ-max Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 30
16 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης - Οπτικοποίηση DBSCAN Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 3 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης Ειδικά για ιεραρχικούς αλγόριθμους Cophenetic distance: είναι η απόσταση (proximity) όταν ο αλγόριθμος τοποθετεί τα δυο σήμεια στην ίδια συστάδα για πρώτη φορά Πχ συγχωνεύω τα σημεία του C με τα σημεία του C σε απόσταση 0., όλα τα σημεία του C απέχουν από το C 0. CoPhenetic Correlation Coefficient (CPCC) Χρησιμοποείται για επιλογή του είδους της ιεραρχικής συσταδοποίησης Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 3
17 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης MIN MAX Ward s Method Group Average Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 33 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και ιαχωρισμός Χρήση SSE για υπολογισμό του σωστού αριθμού συστάδων χρησιμοποιώντας τον K-means (Κ = 5 και 0 φαίνονται καλές τιμές) SSE K Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 34
18 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και ιαχωρισμός Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 35 Χαρακτηρισμός Ποιότητας Συσταδοποίησης με Επίβλεψη: Μας δίνονται κάποιες ετικέτες κλάσεων και θέλουμε να δούμε πόσο καλά ταιριάζουν με τα δεδομένα Classification-oriented (μετρήσεις για ταξινόμηση): κατά πόσο μια συστάδα περιέχει αντικείμενα μίας μόνο κλάσης Similarity-oriented: κατά πόσο δύο αντικείμενα που ανήκουν στην ίδια κλάση, ανήκουν και στην ίδια συστάδα Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 36
19 Χαρακτηρισμός Ποιότητας Συσταδοποίησης με Επίβλεψη: Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 37 Χαρακτηρισμός Ποιότητας Συσταδοποίησης με Επίβλεψη: Ιδανικός πίνακας ομοιότητας συστάδων Ιδανικός πίνακας ομοιότητας κλάσεων Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 38
20 Αλγόριθμοι Συσταδοποίησης Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 39 BIRCH Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 40
21 BIRCH Μεγάλα Σύνολα εδομένων Περιορισμένη μνήμη (πολύ μικρότερη από το μέγεθος των δεδομένων) ΣΤΟΧΟΣ: μείωση του χρόνου εισόδου/εξόδου (I/O) Κόστος I/O γραμμικό στο μέγεθος του συνόλου δεδομένων Αρκεί ένα απλό διάβασμα (scan) των δεδομένων Ένα ή περισσότερα επιπρόσθετα περάσματα για βελτίωση της ποιότητας της συσταδοποίησης BIRCH: Balanced Iterative Reducing and Clustering using Hierarchies Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 4 BIRCH Έστω μια συστάδα σημείων: Centroid: Radius: average distance from member points to centroid Diameter: average pair-wise distance within a cluster Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 4
22 BIRCH centroid Euclidean distance centroid Manhattan distance Μεταξύ δυο συστάδων Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 43 BIRCH Cluster {X Cluster {X i }: j }: j = N i =,,, N +, N +,, N +N Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 44
23 BIRCH Cluster X l = {X i } + {X j }: l =,,, N, N +, N +,, N +N Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 45 average inter-cluster (D) average intra-cluster (D3) variance increase (D4) BIRCH D της συγχωνευμένης συστάδας Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 46
24 BIRCH: CF Clustering Feature (CF): μια περίληψη μιας υπο-συστάδας δεδομένων Μια τριάδα (αριθμός-σημείων, γραμμικό-άθροισμασημείων-συστάδας, άθροισμα-τετραγώνου-σημείων-συστάδας) Σημαντική (προσθετική) ιδιότητα: Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 47 BIRCH: CF CF εγγραφές είναι συνοπτικές πολύ λιγότερη πληροφορία από ότι όλατασημείατηςυπο-συστάδας Λόγω της προσθετικής ιδιότητας μπορούμε να συγχωνεύσουμε δυο υπο-συστάδες σταδιακά Μια εγγραφή CF έχει αρκετή πληροφορία για να υπολογίσουμε τα D0-D4 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 48
25 BIRCH Ιεραρχικός αλγόριθμος Χτίζει σταδιακά καθώς διαβάζει τα δεδομένα ένα δεντρόγραμμα του οποίου κόμβοι είναι οι τιμές CF που περιγράφουν τα δεδομένα κάθε υπο-συστάδας Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 49 BIRCH: CF δέντρο Το CF-δέντρο είναι ένα ισοζυγισμένο δέντρο με δυο παραμέτρους Παράγοντα διακλάδωσης Β (που καθορίζεται από το μέγεθος του block) Κατώφλι Τ (που καθορίζει την ποιότητα της συσταδοποίησης) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 50
26 nonleaf node CF CF CF B Root CF CF CF B BIRCH: CF-δέντρο nonleaf node CF B CF B CF BB leaf node CF CF CF L A CF tree is a height-balanced tree with three parameters: branching factor B, threshold T, and a leaf node contains Τ at most L entries. subcluster Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 5 BIRCH: CF-δέντρο Κάθε εσωτερικός κόμβος περιέχει έναν αριθμό από παιδιά - B (παράγοντας διακλάδωσης) εγγραφές <CF i, παιδί i > Κάθε φύλλο περιέχει έναν αριθμό από υπο-συστάδες το πολύ L CF εγγραφές [CF i ] και <prev>, <next> pointers Κάθε εσωτερικός κόμβος μια υποσυστάδα που αποτελείται από τις υποσυστάδες των παιδιών του Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 5
27 BIRCH: CF-δέντρο Όπως σε όλες τις σχετικές δομές απαιτούμε κάθε κόμβος του δέντρου να χωρά σε ένα block Το μέγεθος των κόμβων (B, L) καθορίζεται από τη διάσταση των δεδομένων και το μέγεθος της σελίδας P (που δίνεται ως είσοδος) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 53 BIRCH: CF-δέντρο Κάθε υποσυστάδα ενός φύλλου πρέπει να έχει διάμετρο μικρότερη από κάποιο κατώφλι T Το μέγεθος του T καθορίζει το μέγεθος του δέντρου Όσο πιο μεγάλο είναι το Τ, τόσο μικρότερο είναι το δέντρο Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 54
28 Για ένα φύλλο: LS = SS = Pi N Pi N v P i v P i BIRCH: CF-δέντρο For a non-leaf node, which has child nodes N, N,, N k LS = SS = k i= k i= LS of N SS of N i i Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 55 BIRCH: CF-δέντρο εισαγωγή στοιχείου Ο αλγόριθμος διαβάζει (scan) τα δεδομένα και τα εισάγει στο CF δέντρο ένα-ένα Η εισαγωγή ενός στοιχείου στο CF-δέντρο γίνεται με top-down διάσχιση ξεκινώντας από τη ρίζα με βάση μια συνάρτηση απόστασης Distance(σημείο, cluster) Χρήση της D0, D, D, D3 ή D4 Κάθε σημείο εισάγεται στο κοντινότερη υπο-συστάδα που υπάρχει σε κάποιο από τα φύλλα Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 56
29 BIRCH: CF-δέντρο εισαγωγή στοιχείου. Εύρεση κατάλληλου φύλου αν το φύλλο μπορεί να το απορροφήσει (διάμετρος παραμένει <= Τ) ok, Αλλιώς 3. Ενημέρωση του φύλλου 3. ιάσπαση φύλλου 4. Ενημέρωση τιμής CF Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 57 BIRCH: CF-δέντρο εισαγωγή στοιχείου. Εύρεση φύλλου CF CF CF B CF CF CF B CF B CF B CF BB CF CF CF L subcluster Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 58
30 BIRCH: CF-δέντρο εισαγωγή στοιχείου 4. Τροποποίηση CF τιμών CF CF CF B CF CF CF B CF B CF B CF BB CF CF CF L subcluster Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 59 BIRCH: CF-δέντρο εισαγωγή στοιχείου. Μετατροπή φύλλου CF CF CF B CF CF CF B CF B CF B CF BB CF CF CF L subcluster Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 60
31 3-4 ιάσπαση και ενημέρωση του μονοπατιού από τη ρίζα BIRCH: CF-δέντρο εισαγωγή στοιχείου CF CF CF B CF CF CF B CF B CF B CF BB CF CF CF L subcluster Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ ιάσπαση και ενημέρωση του μονοπατιού από τη ρίζα BIRCH: CF-δέντρο εισαγωγή στοιχείου CF CF CF B CF CF CF B CF B CF B CF BB CF CF CF CF subcluster Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 6
32 BIRCH: CF-δέντρο Κάθε σημείο εισάγεται στο κοντινότερη υπο-συστάδα που υπάρχει σε κάποιο από τα φύλλα Αν η εισαγωγή ενός σημείου μεγαλώσει τη διάμετρο της υποσυστάδας πάνω από T, τότε έχουμε δημιουργία νέας υποσυστάδας Η δημιουργία μιας νέας υπο-συστάδας μπορεί να οδηγήσει το φύλλο που την περιέχει να υπερχειλίσει Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 63 BIRCH: CF-δέντρο ιάσπαση φύλλου (split of a leaf) Εύρεση των δύο υπο-συστάδων του φύλλου πού έχουν τη μεγαλύτερη απόσταση μεταξύ τους, έστω C και C Αυτές οι δύο αποτελούν το κριτήριο διάσπασης των υπο-συστάδων του φύλλου κάθε μια από αυτές σε ένα από τα δύο νέα φύλλα όλες οι άλλες υπο-συστάδες C ανατίθενται στο φύλλο της C ή στο φύλλο της C με βάση ποια από τις δύο είναι πιο όμοια της Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 64
33 BIRCH: CF-δέντρο ιάσπαση φύλλου μπορεί να οδηγήσει σε υπερχείλιση εσωτερικού κόμβου (όταν περιέχει περισσότερα παιδιά από ότι ο παράγοντας διακλάδωσης) ιάσπαση εσωτερικού κόμβου Οι εσωτερικοί κόμβοι διασπούνται αναδρομικά με βάση μια μέτρηση της απόσταση των συστάδων τους ιάσπαση της ρίζας, οδηγεί σε αύξηση του ύψους του δέντρου κατά Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 65 BIRCH: CF-δέντρο Οι διασπάσεις οφείλονται στο ότι ξεπερνιέται το όριο της σελίδας μπορούν να οδηγήσουν σε κακές διασπάσεις! Μια μικρή διόρθωση: Όταν η διάσπαση κάποιων κόμβων τελειώνει (χωρούν σεένα κόμβο) έστω στον κόμβο Nj κοιτάμε τον κόμβο Nj και προσπαθούμε να συγχωνεύσουμε τις δύο πιο κοντινές συστάδες αν αυτές δε προέκυψαν από την πιο πρόσφατη διάσπαση Αυτό σημαίνει ότι πρέπει να συγχωνεύσουμε και τα αντίστοιχα παιδιά Αν δε χωρούν πρέπει να κάνουμε πάλι διάσπαση Τελικά ή συγχώνευση και ελευθέρωση χώρου ή καλύτερη ανακατανομή των εγγραφών σε κάποιο από τα παιδιά Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 66
34 Νέα υπο-συστάδα BIRCH: CF-δέντρο sc sc8 sc3 sc4 sc5 sc6 sc7 LN sc LN Root LN LN LN3 LN3 Αν ο παράγοντας διακλάδωσης του φύλλου είναι 3 => διάσπαση του LN sc8 sc sc sc3 sc4 sc5 sc6 sc7 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 67 BIRCH: CF-δέντρο sc sc8 sc3 sc4 sc5 sc6 sc7 sc LN LN sc8 LN LN LN Root LN Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 68 LN3 sc sc3 sc4 sc5 sc6 sc7 sc LN3 Αν ο παράγοντας διακλάδωσης εσωτερικού κόμβου είναι είναι 3 => διάσπαση της ρίζας και αύξηση του ύψους
35 BIRCH: CF-δέντρο sc sc8 sc3 sc4 sc5 sc6 sc7 sc LN LN LN3 LN NLN Root NLN LN LN LN LN3 sc8 sc sc sc3 sc5 sc4 sc6 sc7 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 69 Assume that the subclusters are numbered according to the order of formation. BIRCH: CF-δέντρο sc6 sc5 sc sc3 sc4 sc LN LN root LN LN Αν ο παράγοντας διακλάδωσης του φύλλου είναι 3 => διάσπαση του LN sc sc sc3 sc4 sc5 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 70 sc6
36 BIRCH: CF-δέντρο sc6 sc5 sc sc3 sc4 sc LN3 LN LN root Merge? LN LN LN sc sc sc6 sc5 sc4 sc3 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 7 BIRCH: CF-δέντρο sc6 sc5 sc sc3 sc4 sc LN LN3 sc LN3 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 7 root LN3 sc sc5 sc4 sc3 LN sc6 LN3 Συγχώνευση LN και LN και ο καινούργιος κόμβος θα διασπαστεί πάλι
37 BIRCH: αλγόριθμος Επειδή η κατασκευή επηρεάζεται από το μέγεθος της σελίδας Αφού κατασκευαστεί το δέντρο, ο BIRCH χρησιμοποιεί έναν ιεραρχικό αλγόριθμο συσταδοποίησης για να συσταδοποιήσει τις συστάδες των φύλλων. Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 73 The objects are numbered by the incoming order and assume that the distance between objects and exceeds the diameter threshold. Επίσης, αν το ίδιο αντικείμενο ξανα-εισαχθεί μπορεί να μπει σε άλλο φύλλο Τέλος, πρόβλημα με skewed data Γενικά, order-dependent BIRCH: αλγόριθμος 9 0 Subcluster 3 Subcluster 5 4 Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 74
38 BIRCH-αλγόριθμος Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 75 BIRCH-αλγόριθμος Ξεκίνα με κάποια αρχική τιμή για το threshold (Τ) ιάβασε τα δεδομένα και εισήγαγε τα στο δέντρο Αν ξεπεράσει το διαθέσιμο χώρο πριν διαβάσει όλα τα δεδομένα Αύξηση του threshold Κτίσιμο νέου (μικρότερου) δέντρου ξανα-εισάγοντας τις τιμές από το παλιό δέντρο Μόλις εισαχθούν οι τιμές από το παλιό στο νέο δέντρο, Συνεχίζεται η ανάγνωση των δεδομένων από εκεί που είχε σταματήσει Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 76
39 Start CF tree t of initial T Scan data and insert to t BIRCH-αλγόριθμος Out of memory? Yes () Increase T () Rebuild CF tree t of new T from t If a leaf of t is potential outlier and disk space available, write to disk. (3) t <- t No No Out of disk space? Yes Re-absorb potential outliers into t Re-absorb potential outliers into t if they aren t outliers Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 77 BIRCH-αλγόριθμος Βασίζεται σε μονοπάτια Ανακατασκευάζουμε κάθε μονοπάτι από τη ρίζα στο φύλλο, ξεκινώντας από το πιο αριστερό μονοπάτι (old-current path) ημιουργούμε το new-current path Κάθε φύλλο είτε στο new είτε στο newclosest Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 78
40 BIRCH-αλγόριθμος. Create the corresponding NewCurrentPath in the new tree. Insert leaf entries in OldCurrentPath to the new tree NewClosestPath NewCurrentPath 3. Free space in OldCurrentPath and NewCurrentPath 4. Set OldCurrentPath to the next path if there exists one Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 79 BIRCH: Επανακατασκευή τoυ CF-δέντρου Με την αύξηση του Τ απορροφά πιο πολλά δεδομένα Rebuilding "pushes" CFs over The larger T allows different CFs to group together Reducibility theorem Increasing T will result in a CF-tree as small or smaller then the original Rebuilding needs at most h extra pages of memory Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 80
41 BIRCH Phase : Φόρτωση δεδομένων στη μνήμη Κτίσιμο αρχικού in-memory CF-δέντρου με τα δεδομένα (one scan) Phase : Condense data Rebuild the CF-tree with a larger T Condensing is optional Απομάκρυνση outliers Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 8 BIRCH Phase 3: Global clustering Use existing clustering algorithm on CF entries Helps fix problem where natural clusters span nodes D or D4 Phase 4: Cluster refining Do additional passes over the dataset & reassign data points to the closest centroid from phase 3 Refining is optional Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 8
42 BIRCH Why have optional phases? Phase allows us to resize the data set so Phase 3 runs on an optimally sized data set Phase 4 fixes a problem with CF-trees where some data points may be assigned to different leaf entries Phase 4 will always converge to a minimum Phase 4 allows us to discard outliers Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 83 BIRCH: Delay-Split Option When we run out of memory and some points require us to split a node, we can write them to disk until we run out of disk space. Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 84
43 BIRCH Τοπικότητα: κάθε απόφαση σχετικά με συσταδοποίηση παίρνετε χωρίς να χρειάζεται να διαβαστούν όλα τα σημεία ή όλες οι υπάρχουσες συστάδες Σημεία σε αραιές περιοχές θεωρούνται οριακά (outliers) και (προαιρετικά) αφαιρούνται Λαμβάνει υπ όψιν τη διαθέσιμη μνήμη Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ 85
Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση
Συσταδοποίηση II Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 Εξόρυξη Δεδομένων: Ακ. Έτος 008-009 ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Τι είναι συσταδοποίηση
Διαβάστε περισσότεραΣυσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH
Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος
Διαβάστε περισσότεραΣυσταδοποίηση IIΙ DBSCAN. DBSCAN: Γενικά. DBSCAN: Γενικά. DBSCAN: Αλγόριθμος. DBSCAN: Αλγόριθμος
Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Συσταδοποίηση IIΙ DBSCAN Μέρος των διαφανειών είναι από το P.-N. Tan, M.Stenbach, V. Kumar, «Introducton to Data Mnng», Addson Wesle, 6 Εξόρυξη Δεδομένων:
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Γ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Διαβάστε περισσότεραΣυσταδοποίηση/ Ομαδοποίηση
Συσταδοποίηση/ Ομαδοποίηση Lecture Notes for Chapter 8 Introduction to Data Mining by Tan, Steinbach, Kumar 1 Τι είναι η ανάλυση ομάδων/ομαδοποίηση (Συσταδοποίηση)? Εύρεση συνόλων από αντικείμενα έτσι
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Διαβάστε περισσότεραΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ
Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση
Διαβάστε περισσότεραΟμαδοποίηση ΙΙ (Clustering)
Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση
Διαβάστε περισσότεραP.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,
Συσταδοποίηση Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα
Διαβάστε περισσότεραBIRCH: : An Efficient Data Clustering Method for Very Large Databases
BIRCH: : An Efficient Data Clustering Method for Very Large Databases Tian Zhang Raghu Ramakrishnan Miron Livny Παρουσίαση: Μαρία Καθηγητής: Μιχάλης Μάθημα: Θέματα Μαρία Δήμα Μιχάλης Χατζόπουλος Θέματα
Διαβάστε περισσότεραΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 10: Ομαδοποίηση Μέρος Δ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Διαβάστε περισσότεραΗΥ360 Αρχεία και Βάσεις εδοµένων
ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης Tutorial B-Trees, B+Trees Μπαριτάκης Παύλος 2018-2019 Ιδιότητες B-trees Χρήση για μείωση των προσπελάσεων στον δίσκο Επέκταση των Binary Search Trees
Διαβάστε περισσότεραΠανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Διαβάστε περισσότεραΣυστήματα Διαχείρισης Βάσεων Δεδομένων
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Συστήματα Διαχείρισης Βάσεων Δεδομένων Φροντιστήριο 5: Tutorial on External Sorting Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών TUTORIAL ON EXTERNAL SORTING
Διαβάστε περισσότεραClustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων
Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία
Διαβάστε περισσότεραΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Όλοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα μικρότεροι του 10000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Αν κάπου κάνετε κάποιες υποθέσεις
Διαβάστε περισσότεραΠανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Διαβάστε περισσότεραΕυρετήρια. Βάσεις Δεδομένων. Διδάσκων: Μαρία Χαλκίδη
Ευρετήρια Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη Βασικές έννοιες Οι μηχανισμοί δεικτοδότησης χρησιμοποιούνται για να επιταχύνουν την προσπέλαση σε επιθυμητά δεδομένα. π.χ., author catalog in library
Διαβάστε περισσότεραPhysical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.
B-Trees Index files can become quite large for large main files Indices on index files are possible 3 rd -level index 2 nd -level index 1 st -level index Main file 1 The 1 st -level index consists of pairs
Διαβάστε περισσότεραΔεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ
Διαβάστε περισσότεραΔιάλεξη 14: Δέντρα IV - B-Δένδρα
ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 14: Δέντρα IV - B-Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - 2-3 Δένδρα, Εισαγωγή και άλλες πράξεις - Άλλα Δέντρα: Β-δένδρα, Β+-δέντρα,
Διαβάστε περισσότεραΔεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P
Διαβάστε περισσότεραJesse Maassen and Mark Lundstrom Purdue University November 25, 2013
Notes on Average Scattering imes and Hall Factors Jesse Maassen and Mar Lundstrom Purdue University November 5, 13 I. Introduction 1 II. Solution of the BE 1 III. Exercises: Woring out average scattering
Διαβάστε περισσότεραΔεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες
Διαβάστε περισσότεραΤα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο
Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων
Διαβάστε περισσότεραΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Ολοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα είναι μικρότεροι το 1000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Διάρκεια: 3,5 ώρες Καλή
Διαβάστε περισσότεραΚεφ.11: Ευρετήρια και Κατακερματισμός
Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση
Διαβάστε περισσότεραApproximation of distance between locations on earth given by latitude and longitude
Approximation of distance between locations on earth given by latitude and longitude Jan Behrens 2012-12-31 In this paper we shall provide a method to approximate distances between two points on earth
Διαβάστε περισσότεραΕισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία
Διαβάστε περισσότεραΑλγόριθμοι Ταξινόμησης Μέρος 3
Αλγόριθμοι Ταξινόμησης Μέρος 3 Μανόλης Κουμπαράκης 1 Ταξινόμηση με Ουρά Προτεραιότητας Θα παρουσιάσουμε τώρα δύο αλγόριθμους ταξινόμησης που χρησιμοποιούν μια ουρά προτεραιότητας για την υλοποίηση τους.
Διαβάστε περισσότεραPhys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)
Phys460.nb 81 ψ n (t) is still the (same) eigenstate of H But for tdependent H. The answer is NO. 5.5.5. Solution for the tdependent Schrodinger s equation If we assume that at time t 0, the electron starts
Διαβάστε περισσότεραThe challenges of non-stable predicates
The challenges of non-stable predicates Consider a non-stable predicate Φ encoding, say, a safety property. We want to determine whether Φ holds for our program. The challenges of non-stable predicates
Διαβάστε περισσότεραΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ
ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε
Διαβάστε περισσότεραΟΜΑΔΕΣ. Δημιουργία Ομάδων
Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο
Διαβάστε περισσότεραΔεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές
Διαβάστε περισσότεραΕξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση (clustering) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων
Διαβάστε περισσότεραΕισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις
Διαβάστε περισσότεραExercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.
Exercises 0 More exercises are available in Elementary Differential Equations. If you have a problem to solve any of them, feel free to come to office hour. Problem Find a fundamental matrix of the given
Διαβάστε περισσότεραHOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:
HOMEWORK 4 Problem a For the fast loading case, we want to derive the relationship between P zz and λ z. We know that the nominal stress is expressed as: P zz = ψ λ z where λ z = λ λ z. Therefore, applying
Διαβάστε περισσότεραNumerical Analysis FMN011
Numerical Analysis FMN011 Carmen Arévalo Lund University carmen@maths.lth.se Lecture 12 Periodic data A function g has period P if g(x + P ) = g(x) Model: Trigonometric polynomial of order M T M (x) =
Διαβάστε περισσότεραΜέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση
Συσταδοποίηση I Εισαγωγή Ο αλγόριθμος k-means Αποστάσεις Ιεραρχική Συσταδοποίηση Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 Τι
Διαβάστε περισσότεραInstruction Execution Times
1 C Execution Times InThisAppendix... Introduction DL330 Execution Times DL330P Execution Times DL340 Execution Times C-2 Execution Times Introduction Data Registers This appendix contains several tables
Διαβάστε περισσότεραStatistics 104: Quantitative Methods for Economics Formula and Theorem Review
Harvard College Statistics 104: Quantitative Methods for Economics Formula and Theorem Review Tommy MacWilliam, 13 tmacwilliam@college.harvard.edu March 10, 2011 Contents 1 Introduction to Data 5 1.1 Sample
Διαβάστε περισσότεραΜέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση
Συσταδοποίηση I Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 6 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα
Διαβάστε περισσότεραΠροεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη
Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης
Διαβάστε περισσότεραEE512: Error Control Coding
EE512: Error Control Coding Solution for Assignment on Finite Fields February 16, 2007 1. (a) Addition and Multiplication tables for GF (5) and GF (7) are shown in Tables 1 and 2. + 0 1 2 3 4 0 0 1 2 3
Διαβάστε περισσότεραThe Probabilistic Method - Probabilistic Techniques. Lecture 7: The Janson Inequality
The Probabilistic Method - Probabilistic Techniques Lecture 7: The Janson Inequality Sotiris Nikoletseas Associate Professor Computer Engineering and Informatics Department 2014-2015 Sotiris Nikoletseas,
Διαβάστε περισσότεραFractional Colorings and Zykov Products of graphs
Fractional Colorings and Zykov Products of graphs Who? Nichole Schimanski When? July 27, 2011 Graphs A graph, G, consists of a vertex set, V (G), and an edge set, E(G). V (G) is any finite set E(G) is
Διαβάστε περισσότεραSection 8.3 Trigonometric Equations
99 Section 8. Trigonometric Equations Objective 1: Solve Equations Involving One Trigonometric Function. In this section and the next, we will exple how to solving equations involving trigonometric functions.
Διαβάστε περισσότεραΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011
Διάρκεια Διαγωνισμού: 3 ώρες Απαντήστε όλες τις ερωτήσεις Μέγιστο Βάρος (20 Μονάδες) Δίνεται ένα σύνολο από N σφαιρίδια τα οποία δεν έχουν όλα το ίδιο βάρος μεταξύ τους και ένα κουτί που αντέχει μέχρι
Διαβάστε περισσότεραANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?
Teko Classes IITJEE/AIEEE Maths by SUHAAG SIR, Bhopal, Ph (0755) 3 00 000 www.tekoclasses.com ANSWERSHEET (TOPIC DIFFERENTIAL CALCULUS) COLLECTION # Question Type A.Single Correct Type Q. (A) Sol least
Διαβάστε περισσότεραOn a four-dimensional hyperbolic manifold with finite volume
BULETINUL ACADEMIEI DE ŞTIINŢE A REPUBLICII MOLDOVA. MATEMATICA Numbers 2(72) 3(73), 2013, Pages 80 89 ISSN 1024 7696 On a four-dimensional hyperbolic manifold with finite volume I.S.Gutsul Abstract. In
Διαβάστε περισσότεραΕπεξεργασία Ερωτήσεων
Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008
Διαβάστε περισσότεραΑνάλυση Συσχέτισης IΙ
Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ
Διαβάστε περισσότεραMath221: HW# 1 solutions
Math: HW# solutions Andy Royston October, 5 7.5.7, 3 rd Ed. We have a n = b n = a = fxdx = xdx =, x cos nxdx = x sin nx n sin nxdx n = cos nx n = n n, x sin nxdx = x cos nx n + cos nxdx n cos n = + sin
Διαβάστε περισσότεραΕισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων
Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :
Διαβάστε περισσότεραΕπεξεργασία Ερωτήσεων
Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων
Διαβάστε περισσότεραΔυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)
Διαβάστε περισσότεραMath 6 SL Probability Distributions Practice Test Mark Scheme
Math 6 SL Probability Distributions Practice Test Mark Scheme. (a) Note: Award A for vertical line to right of mean, A for shading to right of their vertical line. AA N (b) evidence of recognizing symmetry
Διαβάστε περισσότεραΕπεξεργασία Ερωτήσεων
Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική
Διαβάστε περισσότεραΔυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)
Διαβάστε περισσότεραΠρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής
Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους
Διαβάστε περισσότερα6.1. Dirac Equation. Hamiltonian. Dirac Eq.
6.1. Dirac Equation Ref: M.Kaku, Quantum Field Theory, Oxford Univ Press (1993) η μν = η μν = diag(1, -1, -1, -1) p 0 = p 0 p = p i = -p i p μ p μ = p 0 p 0 + p i p i = E c 2 - p 2 = (m c) 2 H = c p 2
Διαβάστε περισσότεραΕξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι
Εξόρυξη Δεδομένων Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι 1 2 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση
Διαβάστε περισσότεραExample Sheet 3 Solutions
Example Sheet 3 Solutions. i Regular Sturm-Liouville. ii Singular Sturm-Liouville mixed boundary conditions. iii Not Sturm-Liouville ODE is not in Sturm-Liouville form. iv Regular Sturm-Liouville note
Διαβάστε περισσότεραΚεφάλαιο 4. Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1,
Κεφάλαιο 4 Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1, 2015-01-19 Χρησιμοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne. 1 Διαίρει και Βασίλευε (Divide-and-Conquer) Διαίρει-και-βασίλευε
Διαβάστε περισσότεραPotential Dividers. 46 minutes. 46 marks. Page 1 of 11
Potential Dividers 46 minutes 46 marks Page 1 of 11 Q1. In the circuit shown in the figure below, the battery, of negligible internal resistance, has an emf of 30 V. The pd across the lamp is 6.0 V and
Διαβάστε περισσότεραSection 9.2 Polar Equations and Graphs
180 Section 9. Polar Equations and Graphs In this section, we will be graphing polar equations on a polar grid. In the first few examples, we will write the polar equation in rectangular form to help identify
Διαβάστε περισσότερα9.09. # 1. Area inside the oval limaçon r = cos θ. To graph, start with θ = 0 so r = 6. Compute dr
9.9 #. Area inside the oval limaçon r = + cos. To graph, start with = so r =. Compute d = sin. Interesting points are where d vanishes, or at =,,, etc. For these values of we compute r:,,, and the values
Διαβάστε περισσότεραΔυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος
Διαβάστε περισσότεραΕργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο
Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων Εξάμηνο 7 ο Procedures and Functions Stored procedures and functions are named blocks of code that enable you to group and organize a series of SQL and PL/SQL
Διαβάστε περισσότεραΔυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή
Διαβάστε περισσότερα[1] P Q. Fig. 3.1
1 (a) Define resistance....... [1] (b) The smallest conductor within a computer processing chip can be represented as a rectangular block that is one atom high, four atoms wide and twenty atoms long. One
Διαβάστε περισσότεραk A = [k, k]( )[a 1, a 2 ] = [ka 1,ka 2 ] 4For the division of two intervals of confidence in R +
Chapter 3. Fuzzy Arithmetic 3- Fuzzy arithmetic: ~Addition(+) and subtraction (-): Let A = [a and B = [b, b in R If x [a and y [b, b than x+y [a +b +b Symbolically,we write A(+)B = [a (+)[b, b = [a +b
Διαβάστε περισσότεραAquinas College. Edexcel Mathematical formulae and statistics tables DO NOT WRITE ON THIS BOOKLET
Aquinas College Edexcel Mathematical formulae and statistics tables DO NOT WRITE ON THIS BOOKLET Pearson Edexcel Level 3 Advanced Subsidiary and Advanced GCE in Mathematics and Further Mathematics Mathematical
Διαβάστε περισσότεραCHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS
CHAPTER 5 SOLVING EQUATIONS BY ITERATIVE METHODS EXERCISE 104 Page 8 1. Find the positive root of the equation x + 3x 5 = 0, correct to 3 significant figures, using the method of bisection. Let f(x) =
Διαβάστε περισσότεραTridiagonal matrices. Gérard MEURANT. October, 2008
Tridiagonal matrices Gérard MEURANT October, 2008 1 Similarity 2 Cholesy factorizations 3 Eigenvalues 4 Inverse Similarity Let α 1 ω 1 β 1 α 2 ω 2 T =......... β 2 α 1 ω 1 β 1 α and β i ω i, i = 1,...,
Διαβάστε περισσότεραHY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems
HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη
Διαβάστε περισσότεραΕισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων
Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)
Διαβάστε περισσότεραPartial Differential Equations in Biology The boundary element method. March 26, 2013
The boundary element method March 26, 203 Introduction and notation The problem: u = f in D R d u = ϕ in Γ D u n = g on Γ N, where D = Γ D Γ N, Γ D Γ N = (possibly, Γ D = [Neumann problem] or Γ N = [Dirichlet
Διαβάστε περισσότεραMatrices and Determinants
Matrices and Determinants SUBJECTIVE PROBLEMS: Q 1. For what value of k do the following system of equations possess a non-trivial (i.e., not all zero) solution over the set of rationals Q? x + ky + 3z
Διαβάστε περισσότεραAVL-trees C++ implementation
Τ Μ Η Μ Α Μ Η Χ Α Ν Ι Κ Ω Ν Η / Υ Κ Α Ι Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ AVL-trees C++ implementation Δομές Δεδομένων Μάριος Κενδέα 31 Μαρτίου 2015 kendea@ceid.upatras.gr Εισαγωγή (1/3) Δυαδικά Δένδρα Αναζήτησης:
Διαβάστε περισσότεραMBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.
Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα
Διαβάστε περισσότεραOrdinal Arithmetic: Addition, Multiplication, Exponentiation and Limit
Ordinal Arithmetic: Addition, Multiplication, Exponentiation and Limit Ting Zhang Stanford May 11, 2001 Stanford, 5/11/2001 1 Outline Ordinal Classification Ordinal Addition Ordinal Multiplication Ordinal
Διαβάστε περισσότεραHomework 3 Solutions
Homework 3 Solutions Igor Yanovsky (Math 151A TA) Problem 1: Compute the absolute error and relative error in approximations of p by p. (Use calculator!) a) p π, p 22/7; b) p π, p 3.141. Solution: For
Διαβάστε περισσότεραΥπερπροσαρμογή (Overfitting) (1)
Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης
Διαβάστε περισσότεραΔιάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου
Διάλεξη 14: Δέντρα IV B Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: 2 3 Δένδρα, Εισαγωγή και άλλες πράξεις Άλλα Δέντρα: Β δένδρα, Β+ δέντρα, R δέντρα Διδάσκων: Παναγιώτης Ανδρέου ΕΠΛ231
Διαβάστε περισσότεραΑποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης
Διαβάστε περισσότεραΔιάλεξη 18: B-Δένδρα
Διάλεξη 18: B-Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Εισαγωγή & Ισοζυγισμένα Δένδρα 2-3 Δένδρα, Περιγραφή Πράξεων της Εισαγωγής και άλλες πράξεις Β-δένδρα Διδάσκων: Κωνσταντίνος
Διαβάστε περισσότεραΣυσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;
Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση
Διαβάστε περισσότεραthe total number of electrons passing through the lamp.
1. A 12 V 36 W lamp is lit to normal brightness using a 12 V car battery of negligible internal resistance. The lamp is switched on for one hour (3600 s). For the time of 1 hour, calculate (i) the energy
Διαβάστε περισσότεραΚεφάλαιο 4. Διαίρει και Βασίλευε (Divide and Conquer) Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.
Κεφάλαιο 4 Διαίρει και Βασίλευε (Divide and Conquer) Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne. 1 Διαίρει και Βασίλευε (Divide-and-Conquer) Διαίρει-και-βασίλευε (γενικά) Χωρίζουµε
Διαβάστε περισσότεραΔιακριτικές Συναρτήσεις
Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New
Διαβάστε περισσότεραΑναζήτηση σε Γράφους. Μανόλης Κουμπαράκης. ΥΣ02 Τεχνητή Νοημοσύνη 1
Αναζήτηση σε Γράφους Μανόλης Κουμπαράκης ΥΣ02 Τεχνητή Νοημοσύνη 1 Πρόλογος Μέχρι τώρα έχουμε δει αλγόριθμους αναζήτησης για την περίπτωση που ο χώρος καταστάσεων είναι δένδρο (υπάρχει μία μόνο διαδρομή
Διαβάστε περισσότεραMock Exam 7. 1 Hong Kong Educational Publishing Company. Section A 1. Reference: HKDSE Math M Q2 (a) (1 + kx) n 1M + 1A = (1) =
Mock Eam 7 Mock Eam 7 Section A. Reference: HKDSE Math M 0 Q (a) ( + k) n nn ( )( k) + nk ( ) + + nn ( ) k + nk + + + A nk... () nn ( ) k... () From (), k...() n Substituting () into (), nn ( ) n 76n 76n
Διαβάστε περισσότερα