Αποτίμηση Μοντέλου. Ταξινόμηση III. Μέτρα Εκτίμησης. Μέτρα Εκτίμησης. Πιστότητα - Accuracy. Αποτίμηση Μοντέλου. Αποτίμηση Μοντέλου

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Αποτίμηση Μοντέλου. Ταξινόμηση III. Μέτρα Εκτίμησης. Μέτρα Εκτίμησης. Πιστότητα - Accuracy. Αποτίμηση Μοντέλου. Αποτίμηση Μοντέλου"

Transcript

1 Ταξινόμηση III Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ Αφού κατασκευαστεί ένα μοντέλο, θα θέλαμε να αξιολογήσουμε/εκτιμήσουμε την ποιότητα του/την ακρίβεια της ταξινόμησης που πετυχαίνει Έμφαση στην ικανότητα πρόβλεψης του μοντέλου παρά στην αποδοτικότητα του (πόσο γρήγορα κατασκευάζει το μοντέλο ή ταξινομεί μια εγγραφή, κλιμάκωση κλπ.) Confusion Matrix (Πίνακας Σύγχυσης) f ij : αριθμός των εγγραφών της κλάσης i που προβλέπονται ως κλάση j Πιστότητα (ακρίβεια;) (accuracy) Το πιο συνηθισμένο μέτρο Πιστότητα - Accuracy PREDICTED πρόβλεψη PREDICTED (true positive) f (false negative) f 0 f 00 + Accuracy = = f = 0 πραγματική f f 0 f 0 f 00 (false positive) f 0 (true negative) f 00 Λόγος Λάθους Error rate = f f ErrorRate(C) = Accuracy(C) Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 3 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 4 Μπορούμε να χρησιμοποιήσουμε τα λάθη εκπαίδευσης/γενίκευσης (αισιόδοξη ή απαισιόδοξη προσέγγιση) εν είναι κατάλληλα γιατί βασίζονται στα δεδομένα εκπαίδευσης μόνο Συνήθως, σύνολο ελέγχου Μέτρα (metrics) για την εκτίμηση της απόδοσης του μοντέλου Πως να εκτιμήσουμε την απόδοση ενός μοντέλου Τι θα μετρήσουμε Μέθοδοι για την εκτίμηση της απόδοσης Πως μπορούνε να πάρουμε αξιόπιστες εκτιμήσεις Πως θα το μετρήσουμε Μέθοδοι για την σύγκριση μοντέλων Πως να συγκρίνουμε τη σχετική απόδοση δύο ανταγωνιστικών μοντέλων Ισχύουν για όλα τα μοντέλα ταξινόμησης Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 5 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 6

2 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 7 Μέθοδος Holdout ιαμέριση του αρχικού συνόλου σε δύο ξένα σύνολα: Σύνολο εκπαίδευσης (/3) Σύνολο Ελέγχου (/3) Κατασκευή μοντέλου με βάση το σύνολο εκπαίδευσης Αποτίμηση μοντέλου με βάση το σύνολο ελέγχου Μέθοδος Holdout (-) Λιγότερες εγγραφές για εκπαίδευση πιθανόν όχι τόσο καλό μοντέλο, όσο αν χρησιμοποιούνταν όλες (-) Το μοντέλο εξαρτάται από τη σύνθεση των συνόλων εκπαίδευσης και ελέγχου όσο μικρότερο το σύνολο εκπαίδευσης, τόσο μεγαλύτερη η variance του μοντέλου όσο μεγαλύτερο το σύνολο εκπαίδευσης, τόσο λιγότερο αξιόπιστη η πιστότητα του μοντέλου που υπολογίζεται με το σύνολο ελέγχου wide confidence interval (-) Τα σύνολα ελέγχου και εκπαίδευσης δεν είναι ανεξάρτητα μεταξύ τους (υποσύνολα τυ ίδιου συνόλου - πχ μια κλάση που έχει πολλά δείγματα στο ένα, θα έχει λίγα στο άλλο και το ανάποδο) Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 8 Τυχαία Λήψη ειγμάτων Random Subsampling Επανάληψη της μεθόδου για τη βελτίωσή της έστω k επαναλήψεις, παίρνουμε το μέσο όρο της ακρίβειας Πάλι αφαιρούμε δεδομένα από το σύνολο εκπαίδευσης Ένα ακόμα πρόβλημα είναι ότι μια εγγραφή μπορεί να χρησιμοποιείται (επιλέγεται) ως εγγραφή εκπαίδευσης πιο συχνά από κάποια άλλη Cross validation ιαμοίραση των δεδομένων σε k διαστήματα Κατασκευή του μοντέλου αφήνοντας κάθε φορά ένα διάστημα ως σύνολο ελέγχου και χρησιμοποιώντας όλα τα υπόλοιπα ως σύνολα εκπαίδευσης (μια εγγραφή χρησιμοποιείται ακριβώς μια φορά για έλεγχο και τον ίδιο αριθμό για εκπαίδευση) -fold (δύο ίσα υποσύνολα, το ένα μια φορά για έλεγχο το άλλο για εκπαίδευση και μετά ανάποδα) Αν k = N, (Ν ο αριθμός των εγγραφών) leave-one-out Bootstrap Sample with replacement Μια εγγραφή που επιλέχθηκε ως δεδομένο εκπαίδευσης, ξαναμπαίνει στο αρχικό σύνολο Αν Ν δεδομένα, ένα δείγμα Ν στοιχείων 63.% των αρχικών Πιθανότητα ένα δεδομένο να επιλεγεί (-/Ν) Ν Για μεγάλο Ν, η πιθανότητα επιλογής τείνει ασυμπτωτικά στο -e - = 0.63, πιθανότητα μη επιλογής Οι υπόλοιπες εγγραφές (όσες δεν επιλεγούν στο σύνολο εκπαίδευσης) εγγραφές ελέγχου.63 boostrap acc b = (0.638* errortest * c boot accs ) Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 9 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 0 Βελτίωση Απόδοσης Βελτίωση Απόδοσης Ensemble Methods Σύνολο Μεθόδων Κατασκευή ενός συνόλου από ταξινομητές από τα δεδομένα εκπαίδευσης C, C,. C t -> C* Υπολογισμός της κλάσης των δεδομένων συναθροίζοντας (aggregating) τις προβλέψεις των t ταξινομητών Πως: πχ με πλειοψηφικό σύστημα (Voting majority) Step : Create Multiple Data Sets Step : Build Multiple Classifiers Step 3: Combine Classifiers D Aρχικά Δεδομένα εκπαίδευσης D D... D t- D t C C C t - C t C * Έστω t = 5 βασικοί ταξινομητές Αν ο καθένας λάθος, ε = 0.35 Έστω ότι ανεξάρτητοι και μόνο κλάσεις Πιθανότητα λανθασμένης πρόβλεψης του συνόλου: 5 i = 3 5 i ε ( ε ) i 5 i = 0.06 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ

3 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 3 Βελτίωση Απόδοσης Bagging (Bootstarp + Aggregation ειγματοληψία με επανένταξη (Sampling with replacement) Κατασκευή ταξινομητή για κάθε δείγμα Κάθε δείγμα έχει πιθανότητα ( /n) n να επιλεγεί Original Data Bagging (Round ) Bagging (Round ) Bagging (Round 3) Boosting ε δίνουμε το ίδιο βάρος σε όλους τους ταξινομητές, αλλά παίρνουμε υπόψη μας την ακρίβειά τους -- C* βάρος με βάση την ακρίβεια του Βασική ιδέα: Έστω C i, o C i+ μεγαλύτερο βάθος στις πλειάδες που ταξινόμησε λάθος ο C i Πως; «πειράζουμε» την πιθανότητα επιλογής τους στο σύνολο εκπαίδευσης σωστά, πιθανότητα επιλογής λάθος, πιθανότητα επιλογής + Πως μπορούμε να πάρουμε αξιόπιστες εκτιμήσεις της απόδοσης Η απόδοση ενός μοντέλου μπορεί να εξαρτάται από πολλούς παράγοντες εκτός του αλγορίθμου μάθησης: Κατανομή των κλάσεων Το κόστος της λανθασμένης ταξινόμησης Το μέγεθος του συνόλου εκπαίδευσης και του συνόλου ελέγχου Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 4 Άλλα πέραν της Πιστότητας Καμπύλη Μάθησης (Learning Curve) Πίνακας σύγχυσης PREDICTED Η καμπύλη μάθησης δείχνει πως μεταβάλλεται η πιστότητα (accuracy) με την αύξηση του μεγέθους του δείγματος Επίδραση δείγματος μικρού μεγέθους: Bias in the estimate Variance of estimate Πιστότητα (accuracy) -- υπενθύμιση -- f 00 + Accuracy = = f f Λόγος Λάθους Error rate = f f Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 5 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 6 Άλλα πέραν της Πιστότητας Μειονεκτήματα της πιστότητας Θεωρείστε ένα πρόβλημα με κλάσεις Αριθμός παραδειγμάτων της κλάσης 0 = 9990 Αριθμός παραδειγμάτων της κλάσης = 0 Αν ένα μοντέλο προβλέπει οτιδήποτε ως κλάση 0, τότε πιστότητα = 9990/0000 = 99.9 % Η πιστότητα είναι παραπλανητική γιατί το μοντέλο δεν προβλέπει κανένα παράδειγμα της κλάσης C(i j) Πίνακας Κόστους PREDICTED C( ) C( ) C( ) C( ) C(i j): κόστος λανθασμένης ταξινόμησης ενός παραδείγματος της κλάσης i ως κλάση j βάρος C(M) = x C( ) + x C( ) + C( ) + C( ) Αρνητική τιμή κόστους σημαίνει επιπρόσθετη «επιβράβευση» σωστής πρόβλεψης Στα προηγούμενα, είχαμε C(YES YES) = C( ) = 0 και C(YES ) = C( YES) = Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 7 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 8

4 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 9 Υπολογισμός του Κόστους της Ταξινόμησης Cost Matrix Model PREDICTED M Accuracy = 80% Cost = 390 PREDICTED C(i j) Model M PREDICTED + - C(i j): κόστος λανθασμένης ταξινόμησης ενός παραδείγματος της κλάσης i ως κλάση j Accuracy = 90% Cost = Ταξινόμηση που λαμβάνει υπό όψιν της το κόστος Κατασκευή έντρου Ταξινόμησης Επιλογή γνωρίσματος στο οποίο θα γίνει η διάσπαση Στην απόφαση αν θα ψαλιδιστεί κάποιο υπο-δέντρο Στον καθορισμό της κλάσης του φύλλου Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 0 Καθορισμός κλάσης Κανονικά, ως ετικέτα ενός φύλλου την πλειοψηφούσα κλάση, Leaf-label = max p(i), το ποσοστό των εγγραφών της κλάσης i που έχουν ανατεθεί στον κόμβο Για δύο κλάσεις, p(+) > 0.5 Τώρα, την κλάση που ελαχιστοποιεί το: κλάση φύλλου = j p ( j) C( j, i) Για δύο κλάσεις: p(+) x C(+, +) + p(+) x C(+, -) p(-) x C(-, -) + p(-) x C(-, +) C(, + ) Αν C(-, -) = C(+, +) = 0 p( + ) > p(+) C(+, -) > p(-) x C(-, +) => C (, + ) + C ( +, ) Αν C(-, +) < C(+, -), τότε λιγότερο του 0.5 Κόστος vs Πιστότητας (Accuracy) Count Cost PREDICTED a c p q PREDICTED b d q p Η πιστότητα είναι ανάλογη του κόστους αν:. C( )=C( ) = q. C( )=C( ) = p N = a + b + c + d Accuracy = (a + d)/n Cost = p (a + d) + q (b + c) = p (a + d) + q (N a d) = q N (q p)(a + d) = N [q (q-p) Accuracy] Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ Άλλες μετρήσεις με βάση τον πίνακα σύγχυσης Άλλες μετρήσεις με βάση τον πίνακα σύγχυσης PREDICTED PREDICTED True positive rate or sensitivity: Το ποσοστό των θετικών παραδειγμάτων που ταξινομούνται σωστά R = + False positive rate: Το ποσοστό των αρνητικών παραδειγμάτων που ταξινομούνται λάθος (δηλαδή, ως θετικά) R = + True negative rate or specificity: Το ποσοστό των αρνητικών παραδειγμάτων που ταξινομούνται σωστά R = + False negative rate: Το ποσοστό των θετικών παραδειγμάτων που ταξινομούνται λάθος (δηλαδή, ως αρνητικά) R = + Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 3 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 4

5 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 5 Recall (ανάκληση) Precision (ακρίβεια) Recall (ανάκληση) Precision (ακρίβεια) Precision p = + PREDICTED Πόσα από τα παραδείγματα που ο ταξινομητής έχει ταξινομήσει ως θετικά είναι πραγματικά θετικά Όσο πιο μεγάλη η ακρίβεια, τόσο μικρότερος o αριθμός των Precision Recall p = + r = + Πόσα από τα παραδείγματα που ο ταξινομητής έχει ταξινομήσει ως θετικά είναι πραγματικά θετικά Πόσα από τα θετικά παραδείγματα κατάφερε ο ταξινομητής να βρει Recall r = + Πόσα από τα θετικά παραδείγματα κατάφερε ο ταξινομητής να βρει Όσο πιο μεγάλη η ανάκληση, τόσο λιγότερα θετικά παραδείγματα έχουν ταξινομεί λάθος (=R) Συχνά το ένα καλό και το άλλο όχι Πχ, ένας ταξινομητής που όλα τα ταξινομεί ως θετικά, τηνκαλύτερηανάκλησημετη χειρότερη ακρίβεια Πώς να τα συνδυάσουμε; Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 6 F measure F rp = = r + p + + F = / r + / p Αρμονικά, Γεωμετρικά και Αριθμητικά Μέσα Παράδειγμα α=, b=5 Αρμονικό μέσο (Harmonic mean) Τείνει να είναι πιο κοντά στο μικρότερο από τα δύο Υψηλή τιμή σημαίνει ότι και τα δύο είναι ικανοποιητικά μεγάλα Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 7 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 8 Precision (p) = + Recall (r) = + rp F- measure (F) = = r + p + + Precision - C( ) & C( ) Recall - C( ) & C( ) F-measure όλα εκτός του C( ) w + w4 Weighted Accuracy = w + w + w + w Recall Precision F Accuracy w w 0 w w4 : ROC ROC (Receiver Operating Characteristic Curve) Αναπτύχθηκε στη δεκαετία 950 για την ανάλυση θορύβου στα σήματα Χαρακτηρίζει το trade-off μεταξύ positive hits και false alarms Η καμπύλη ROC δείχνει τα R (στον άξονα των y) προς τα R (στον άξονα των x) Η απόδοση κάθε ταξινομητή αναπαρίσταται ως ένα σημείο στην καμπύλη ROC R = + R = + Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 9 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 30

6 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 3 : ROC : ROC (,): (0,0): declare everything to be negative class (,): declare everything to be positive class (,0): ideal Diagonal line: Random guessing Μια εγγραφή θεωρείται θετική με καθορισμένη πιθανότητα p ανεξάρτητα από τις τιμές των γνωρισμάτων της Καλοί ταξινομητές κοντά στην αριστερή πάνω γωνία του διαγράμματος Κάτω από τη διαγώνιο Πρόβλεψη είναι το αντίθετο της πραγματικής κλάσης R = + R = + R = + R = + Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 3 : ROC Σύγκριση δύο μοντέλων Κανένα μοντέλο δεν είναι πάντα καλύτερο του άλλου M καλύτερο για μικρό R M καλύτερο για μεγάλο R Ηπεριοχήκάτωαπότην καμπύλη ROC Ideal: Area = Random guess: Area = 0.5 Μέτρα (metrics) για την εκτίμηση της απόδοσης του μοντέλου Πως να εκτιμήσουμε την απόδοση ενός μοντέλου Μέθοδοι για την εκτίμηση της απόδοσης Πως μπορούνε να πάρουμε αξιόπιστες εκτιμήσεις Μέθοδοι για την σύγκριση μοντέλων Πως να συγκρίνουμε τη σχετική απόδοση δύο ανταγωνιστικών μοντέλων Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 33 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 34 Έλεγχος Σημαντικότητας (Test of Significance) Έστω δύο μοντέλα: Μοντέλο M: ακρίβεια = 85%, έλεγχος σε 30 εγγραφές Μοντέλο M: ακρίβεια = 75%, έλεγχος σε 5000 εγγραφές Είναι το Μ καλύτερο από το Μ; Πόση εμπιστοσύνη (confidence) μπορούμε να έχουμε για την πιστότητα του Μ και πόση για την πιστότητα του Μ; Μπορεί η διαφορά στην απόδοση να αποδοθεί σε τυχαία διακύμανση του συνόλου ελέγχου; Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 35 ιάστημα Εμπιστοσύνης για την Ακρίβεια (Confidence Interval) Η πρόβλεψη μπορεί να θεωρηθεί σε ένα πείραμα Bernoulli Ένα Bernoulli πείραμα έχει δύο πιθανά αποτελέσματα Πιθανά αποτελέσματα πρόβλεψης: σωστό ή λάθος Μια συλλογή από πειράματα έχει δυωνυμική κατανομή Binomial distribution: x Bin(N, p) x: αριθμός σωστών προβλέψεων Πχ: ρίξιμο τίμιου νομίσματος (κορώνα/γράμματα) 50 φορές, αριθμός κεφαλών; Expected number of heads = N p = = 5 οθέντος του x (# σωστών προβλέψεων) ήισοδύναμα, acc=x/n, και του N (# εγγραφών ελέγχου), Μπορούμε να προβλέψουμε το p (την πραγματική πιστότητα του μοντέλο); Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 36

7 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 37 Γιαμεγάλασύνολαελέγχου (N > 30), acc έχει κανονική κατανομή με μέσο mean p and variance p(-p)/n P acc p < < α / ) = α p( p) / N ( Zα / Z Area = - α Έστω ένα μοντέλο που έχει accuracy 80% όταν αποτιμάται σε 00 στιγμιότυπα ελέγχου: Ποιο είναι το διάστημα εμπιστοσύνης για την πραγματική του πιστότητα (p) με επίπεδο εμπιστοσύνης (-a) 95% N=00, acc = 0.8 -α = 0.95 (95% confidence) Από τον πίνακα, Z α/ =.96 Κάνοντας τις πράξεις 7.% % -α Z Confidence Interval for p ( ιάστημα εμπιστοσύνης για το p): Z α/ Z - α / N p(lower) Πλησιάζει το 80% όσο το Ν μεγαλώνει N acc + Zα / ± Zα / + 4 N acc 4 N acc ( N + Zα ) / p(upper) Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 38 Μέτρα (metrics) για την εκτίμηση της απόδοσης του μοντέλου Πως να εκτιμήσουμε την απόδοση ενός μοντέλου Μέθοδοι για την εκτίμηση της απόδοσης Πως μπορούνε να πάρουμε αξιόπιστες εκτιμήσεις Μέθοδοι για την σύγκριση μοντέλων Πως να συγκρίνουμε τη σχετική απόδοση δύο ανταγωνιστικών μοντέλων οσμένων δύο μοντέλων, έστω M και M, ποιο είναι καλύτερο; M ελέγχεται στο D (size=n), error rate = e M ελέγχεται στο D (size=n), error rate = e Έστω D and D είναι ανεξάρτητα Θέλουμε να εξετάσουμε αν η διαφορά d = e -e είναι στατιστικά σημαντική Αν τα n και n είναι αρκετά are μεγάλα, τότε: Approximate e ( e ) i i ˆ σ = i n i e ~ N e ~ N ( μ, σ) ( μ, σ ) Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 39 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 40 Παράδειγμα d = e e d ~ N(d t,σ t ) όπου d t είναι η πραγματική διαφορά Since D and D are independent, their variance adds up: σ = σ + σ ˆ σ + ˆ σ t e( e) e( e) = + n n οθέντων: M: n = 30, e = 0.5 M: n = 5000, e = 0.5 d = e e = 0. Ηεκτιμώμενηvariance της διαφοράς στα error rates ˆ σ d Για 95% confidence level, Zα/=.96 d t 0.5( 0.5) 0.5( 0.5) = + = = 0.00 ± = 0.00 ± 0.8 At (-α) confidence level, d t = d ± Z α / ˆ σ t => Το διάστημα περιέχει το 0 => η διαφορά μπορεί να είναι στατιστικά μη σημαντική Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 4 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 4

8 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 43 0 Άλλοι Ταξινομητές Ταξινομητές με κανόνες Ταξινόμηση των εγγραφών με βάση ένα σύνολο από κανόνες της μορφής if then Κανόνας: (Συνθήκη) y όπου Συνθήκη (Condition) είναι σύζευξη συνθηκών στα γνωρίσματα y η ετικέτα της κλάσης LHS: rule antecedent (πρότερο) ή condition (συνθήκη) RHS: rule consequent (επακόλουθο ή απότοκο) Παραδείγματα κανόνων ταξινόμησης: (Blood Type=Warm) (Lay Eggs=) Birds (Taxable Income < 50K) (Refund=) Evade= Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 44 Παράδειγμα Name Blood Type Give Birth Can Fly Live in Water Class human warm yes no mammals no python cold no no no reptiles salmon cold no no yes fishes whale warm yes no yes mammals frog cold no no sometimes amphibians komodo cold no no no reptiles bat warm yes yes no mammals pigeon warm no yes no birds cat warm yes no no mammals leopard shark cold yes no yes fishes turtle cold no no sometimes reptiles penguin warm no no sometimes birds porcupine warm yes no no mammals eel cold no no yes fishes salamander cold no no sometimes amphibians gila monster cold no no no reptiles platypus warm no no no mammals owl warm no yes no birds dolphin warm yes no yes mammals eagle warm no yes no birds R: (Give Birth = no) (Can Fly = yes) Birds R: (Give Birth = no) (Live in Water = yes) Fishes R3: (Give Birth = yes) (Blood Type = warm) Mammals R4: (Give Birth = no) (Can Fly = no) Reptiles R5: (Live in Water = sometimes) Amphibians Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 45 Εφαρμογή Ταξινομητών με Κανόνες Ένας κανόνας r καλύπτει (covers) ένα στιγμιότυπο (εγγραφή) αν τα γνωρίσματα του στιγμιότυπου ικανοποιούν τη συνθήκη του κανόνα R: (Give Birth = no) (Can Fly = yes) Birds R: (Give Birth = no) (Live in Water = yes) Fishes R3: (Give Birth = yes) (Blood Type = warm) Mammals R4: (Give Birth = no) (Can Fly = no) Reptiles R5: (Live in Water = sometimes) Amphibians Name Blood Type Give Birth Can Fly Live in Water Class hawk warm no yes no? grizzly bear warm yes no no? Ο κανόνας R καλύπτει το hawk (ή αλλιώς το hawk ενεργοποιεί (trigger) τον κανόνα) => Bird Ο κανόνας R3 καλύπτει το grizzly bear => Mammal Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 46 Κάλυψη Κανόνα - Coverage: Το ποσοστό των εγγραφών που ικανοποιούν το LHS του κανόνα Πιστότητα Κανόνα - Accuracy: Το ποσοστό των κανόνων που καλύπτουν και το LHS και το RHS του κανόνα (Status=Single) Coverage = 40%, Accuracy = 50% Tid Refund Marital Status Taxable Income Single 5K Married 00K 3 Single 70K 4 Married 0K Class 5 Divorced 95K 6 Married 60K 7 Divorced 0K 8 Single 85K 9 Married 75K 0 Single 90K Χαρακτηριστικά Ταξινομητών με Κανόνες Αμοιβαία αποκλειόμενοι κανόνες (Mutually exclusive rules) Ένας ταξινομητής περιέχει αμοιβαία αποκλειόμενους κανόνες αν οι κανόνες είναι ανεξάρτητοι ο ένας από τον άλλο Κάθε εγγραφή καλύπτεται από το πολύ έναν κανόνα Εξαντλητικοί κανόνες (Exhaustive rules) Ένας ταξινομητής έχει εξαντλητική κάλυψη (coverage) αν καλύπτει όλους τους πιθανούς συνδυασμούς τιμών γνωρισμάτων Κάθε εγγραφή καλύπτεται από τουλάχιστον έναν κανόνα Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 47 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 48

9 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 49 0 Κατασκευή Ταξινομητών με Κανόνες Έμμεση Μέθοδος: Από έντρα Απόφασης σε Κανόνες Ένας κανόνας για κάθε μονοπάτι από τη ρίζα σε φύλλο Κάθε ζευγάρι γνώρισμα-τιμή στο μονοπάτι αποτελεί ένα όρο στη σύζευξη και το φύλλο αφορά την κλάση (RHS) Άμεση Μέθοδος: Εξαγωγή κανόνων απευθείας από τα δεδομένα Π.χ.: RIPPER, CN, Holte s R Έμμεση Μέθοδος: Εξαγωγή κανόνων από άλλα μοντέλα ταξινομητών (πχ από δέντρα απόφασης) Π.χ.: C4.5 κανόνες {Single, Divorced} Refund Taxable Income Marital Status < 80K > 80K YES {Married} Κανόνες Ταξινόμησης (Classification Rules) (Refund=) ==> (Refund=, Marital Status={Single,Divorced}, Taxable Income<80K) ==> (Refund=, Marital Status={Single,Divorced}, Taxable Income>80K) ==> (Refund=, Marital Status={Married}) ==> Κανόνες αμοιβαία αποκλειόμενοι και εξαντλητικοί Το σύνολο κανόνων περιέχει όση πληροφορία περιέχει και το δέντρο Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 50 Q Από έντρα Απόφασης σε Κανόνες (Παράδειγμα) P R Q - + Rule Set r: (P=,Q=) ==> - r: (P=,Q=) ==> + r3: (P=,R=) ==> + r4: (P=,R=,Q=) ==> - r5: (P=,R=,Q=) ==> + Οι κανόνες μπορεί να απλοποιηθούν (απαλοιφή κάποιων όρων στο LHS αν δεν αλλάζει πολύ το λάθος) {Single, Divorced} Refund Taxable Income Marital Status < 80K > 80K YES Από έντρα Απόφασης σε Κανόνες {Married} Tid Refund Marital Status Taxable Income Cheat Single 5K Married 00K 3 Single 70K 4 Married 0K 5 Divorced 95K 6 Married 60K 7 Divorced 0K 8 Single 85K 9 Married 75K 0 Single 90K Αρχικός Κανόνας: (Refund=) (Status=Married) Απλοποιημένος Κανόνας: (Status=Married) Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 5 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 5 Από έντρα Απόφασης σε Κανόνες Αν γίνει απλοποίηση (κλάδεμα): Οι κανόνες δεν είναι πια αμοιβαία αποκλειόμενοι Μια εγγραφή μπορεί να ενεργοποιήσει παραπάνω από έναν κανόνα Λύση (conflict resolution) () ιάταξη του συνόλου κανόνων (αν μια εγγραφή ενεργοποιεί πολλούς κανόνες, της ανατίθεται αυτός με τη μεγαλύτερη προτεραιότητα) (decision list) ή () ο κανόνας με τις πιο πολλές απαιτήσεις (πχ με το μεγαλύτερο αριθμό όρων) (size ordering) ή (3) διάταξη των κλάσεων (αν μια εγγραφή ενεργοποιεί πολλούς κανόνες, της ανατίθεται η τάξη με τη μεγαλύτερη προτεραιότητα) (misclassification cost) Άλλοι Ταξινομητές Ταξινομητές στιγμιοτύπου Χωρίς διάταξη του συνόλου κανόνων χρήση σχήματος ψηφοφορίας Οι κανόνες δεν είναι πια εξαντλητικοί Μια εγγραφή μπορεί να μην ενεργοποιεί κάποιον κανόνα Λύση Χρήση default κλάσης Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 53 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 54

10 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 55 Ταξινομητές βασισμένοι σε Στιγμιότυπα Ταξινομητές βασισμένοι σε Στιγμιότυπα Μέχρι στιγμής Ταξινόμηση βασισμένη σε δύο βήματα Βήμα : Induction Step Κατασκευή Μοντέλου Ταξινομητή Βήμα : Deduction Step Εφαρμογή του μοντέλου για έλεγχο παραδειγμάτων Eager Learners vs Lazy Learners πχ Instance Based Classifiers (ταξινομητές βασισμένοι σε στιγμιότυπα) Μην κατασκευάσεις μοντέλο αν δε χρειαστεί Σύνολο Αποθηκευμένων Περιπτώσεων Atr... AtrN Class A B B C A C B Αποθήκευσε τις εγγραφές του συνόλου εκπαίδευσης Χρησιμοποίησε τις αποθηκευμένες εγγραφές για την εκτίμηση της κλάσης των νέων περιπτώσεων Unseen Case Atr... AtrN Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 56 Ταξινομητές βασισμένοι σε Στιγμιότυπα Παραδείγματα: Rote-learner Κρατά (Memorizes) όλο το σύνολο των δεδομένων εκπαίδευσης και ταξινομεί μια εγγραφή αν ταιριάζει πλήρως με κάποιο από τα δεδομένα εκπαίδευσης Nearest neighbor Κοντινότερος Γείτονας Χρήση των k κοντινότερων closest σημείων (nearest neighbors) για την ταξινόμηση k-κοντινότεροι γείτονες μιας εγγραφής x είναι τα σημεία που έχουν την k-οστή μικρότερη απόσταση από το x X X X (a) -nearest neighbor (b) -nearest neighbor (c) 3-nearest neighbor Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 57 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 58 Άγνωστη Εγγραφή Basic idea: If it walks like a duck, quacks like a duck, then it s probably a duck Training Records Compute Distance Choose k of the nearest records Test Record Χρειάζεται. Το σύνολο των αποθηκευμένων εγγραφών. Distance Metric Μετρική απόστασης για να υπολογίσουμε την απόσταση μεταξύ εγγραφών 3. Την τιμή του k, δηλαδή τον αριθμό των κοντινότερων γειτόνων που πρέπει να ανακληθούν Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 59 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 60

11 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 6 Άγνωστη Εγγραφή Γιαναταξινομηθείμιαάγνωστη εγγραφή: Υπολογισμός της απόστασης από τις εγγραφές του συνόλου Εύρεση των k κοντινότερων γειτόνων Χρήση των κλάσεων των κοντινότερων γειτόνων για τον καθορισμό της κλάσης της άγνωστης εγγραφής - π.χ., με βάση την πλειοψηφία (majority vote) Απόσταση μεταξύ εγγραφών: Πχ ευκλείδεια απόσταση d( p, q) = i Καθορισμός τάξης Απλά τη πλειοψηφική κλάση Βάρος σε κάθε ψήφο με βάση την απόσταση weight factor, w = /d ( p i q i ) Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 6 Επιλογή της τιμής του k: k πολύ μικρό, ευαισθησία στα σημεία θορύβου k πολύ μεγάλο, η γειτονιάμπορείναπεριέχεισημείααπόάλλες κλάσεις Θέματα Κλιμάκωσης Τα γνωρίσματα ίσως πρέπει να κλιμακωθούν ώστε οι αποστάσεις να μην κυριαρχηθούν από κάποιο γνώρισμα Παράδειγμα: height of a person may vary from.5m to.8m weight of a person may vary from 90lb to 300lb income of a person may vary from $0K to $M εν κατασκευάζεται μοντέλο, μεγάλο κόστος για την ταξινόμηση Πολλές διαστάσεις (κατάρα των διαστάσεων) Θόρυβο (ελάττωση μέσω k-γειτόνων) Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 63 Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 64 Περίληψη Ορισμός Προβλήματος Ταξινόμησης Μια Κατηγορία Ταξινομητών: έντρο Απόφασης Μέθοδοι ορισμού της μη καθαρότητας ενός κόμβου Θέματα στην Ταξινόμηση: over and under-fitting, missing values, εκτίμηση λάθους Αποτίμηση μοντέλου Ταξινομητές Στιγμιότυπου (k-κοντινότεροι γείτονες) Εξόρυξη Δεδομένων: Ακ. Έτος ΤΑΞΙΝΟΜΗΣΗ 65

Κατηγοριοποίηση ΙΙI. Κατηγοριοποιητές Κανόνων. Εξόρυξη Δεδομένων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ II 1

Κατηγοριοποίηση ΙΙI. Κατηγοριοποιητές Κανόνων. Εξόρυξη Δεδομένων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ II 1 Κατηγοριοποίηση ΙΙI Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ II 1 Κατηγοριοποιητές Κανόνων Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ II 2 Εξόρυξη Δεδομένων 2010-2011 1 Κατηγοριοποίηση

Διαβάστε περισσότερα

Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις)

Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Κατηγοριοποίηση ΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 200-20 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ II Κατηγοριοποίηση Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες

Διαβάστε περισσότερα

Ταξινόμηση ΙI. Σύντομη Επανάληψη. Εισαγωγή Κατασκευή έντρου Απόφασης. Εξόρυξη Δεδομένων

Ταξινόμηση ΙI. Σύντομη Επανάληψη. Εισαγωγή Κατασκευή έντρου Απόφασης. Εξόρυξη Δεδομένων Ταξινόμηση ΙI Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Σύντομη Επανάληψη Εισαγωγή Κατασκευή έντρου Απόφασης Εξόρυξη Δεδομένων:

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2 1 M = 1 N = N prob k N k { k n ω wrongly classfed} = (1 ) N k 2 Η συνάρτηση πιθανοφάνειας L(p) μεγιστοποιείται όταν =k/n. 3 Αφού τα s είναι άγνωστα,

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Δ.Π.Μ.Σ. ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΧΟΥΧΟΥΜΗΣ ΙΩΑΝΝΗΣ Το σύνολο των

Διαβάστε περισσότερα

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή 0 0 0 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση Οι διαφάνειες στηρίζονται στο P.-N. Tan,

Διαβάστε περισσότερα

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή; Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός

Διαβάστε περισσότερα

Lecture Notes for Chapter 5

Lecture Notes for Chapter 5 Data Miig Classificati: Alterative Techiques Lecture Ntes fr Chapter 5 Classificati Prblem Πρόβλημα μάθησης με επίβλεψη (Supervised learig) Δεδομένα του συνόλου εκπαίδευσης X N, y 1 αποτελούμενα από ζεύγη

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Πολυτεχνείο Κρήτης Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Ηλεκτρονικών Υπολογιστών Τομέας Τηλεπικοινωνιών Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην

Διαβάστε περισσότερα

Εισαγωγή στην Εκτιμητική

Εισαγωγή στην Εκτιμητική Εισαγωγή στην Εκτιμητική Πληθυσμός Εκτίμηση παραμέτρου πληθυσμού μ, σ 2, σ, p Δείγμα Υπολογισμός στατιστικού Ερώτηματα: Πόσο κοντά στην πραγματική τιμή της παραμέτρου του πληθυσμού βρίσκεται η εκτίμηση

Διαβάστε περισσότερα

Πληρουορική Γ Γσμμασίοσ

Πληρουορική Γ Γσμμασίοσ Πληρουορική Γ Γσμμασίοσ Προγραμματισμός και Αλγόριθμοι Από το και τημ Χελώμα στημ Ευριπίδης Βραχνός http://evripides.mysch.gr/ 2014 2015 1 Προγραμματισμός Ζάννειο Πρότυπο Πειραματικό Γυμνάσιο Πειραιά Ενότητα:

Διαβάστε περισσότερα

Κατηγοριοποίηση. 3 ο Φροντιστήριο. Ε Ξ Ό Ρ Υ Ξ Η Δ Ε Δ Ο Μ Έ Ν Ω Ν Κ Α Ι Α Λ Γ Ό Ρ Ι Θ Μ Ο Ι Μ Ά Θ Η Σ Η ς. Σκούρα Αγγελική

Κατηγοριοποίηση. 3 ο Φροντιστήριο. Ε Ξ Ό Ρ Υ Ξ Η Δ Ε Δ Ο Μ Έ Ν Ω Ν Κ Α Ι Α Λ Γ Ό Ρ Ι Θ Μ Ο Ι Μ Ά Θ Η Σ Η ς. Σκούρα Αγγελική Κατηγοριοποίηση Ε Ξ Ό Ρ Υ Ξ Η Δ Ε Δ Ο Μ Έ Ν Ω Ν Κ Α Ι Α Λ Γ Ό Ρ Ι Θ Μ Ο Ι Μ Ά Θ Η Σ Η ς 3 ο Φροντιστήριο Σκούρα Αγγελική skoura@ceid.upatras.gr Κατηγοριοποίηση (Classification) Σκοπός: Learn a method for

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

University of Cyprus Optical Diagnostics Laboratory. ΗΜΥ 370 Εισαγωγή στη Βιοϊατρική Μηχανική. Κλινικές Μελέτες και Βιοστατιστική

University of Cyprus Optical Diagnostics Laboratory. ΗΜΥ 370 Εισαγωγή στη Βιοϊατρική Μηχανική. Κλινικές Μελέτες και Βιοστατιστική University of Cyprus Optical Diagnostics Laboratory ΗΜΥ 370 Εισαγωγή στη Βιοϊατρική Μηχανική Κλινικές Μελέτες και Βιοστατιστική Σχεδίαση Ερευνητικής Διαδικασίας Για επιτυχημένη βιοϊατρική έρευνα 1. Καθορισμός

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Κατηγοριοποίηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 13: Δημιουργία Βάσεων Κανόνων Από Δεδομένα- Αξιολόγηση Βάσης Κανόνων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ

ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ Ιωάννα Τζουλάκη Κώστας Τσιλίδης Ιωαννίδης: κεφάλαιο 2 Guyatt: κεφάλαιο 18 ΕΠΙςΤΗΜΟΝΙΚΗ ΙΑΤΡΙΚΗ Επιστήμη (θεωρία) Πράξη (φροντίδα υγείας) Γνωστικό μέρος Αιτιό-γνωση Διά-γνωση Πρό-γνωση

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Εργασία 1η Classification

Αναγνώριση Προτύπων Εργασία 1η Classification ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Αναγνώριση Προτύπων Εργασία 1η Classification Κιντσάκης Αθανάσιος 6667 Μόσχογλου Στυλιανός 6978 30 Νοεμβρίου,

Διαβάστε περισσότερα

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 3, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 1

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 3, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 1 ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 3, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 1 5.1: Εισαγωγή 5.2: Πιθανότητες 5.3: Τυχαίες Μεταβλητές καθ. Βασίλης Μάγκλαρης

Διαβάστε περισσότερα

Ταξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Ταξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach,

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Μηχανική Μάθηση Hypothesis Testing

Μηχανική Μάθηση Hypothesis Testing ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Μηχανική Μάθηση Hypothesis Testing Γιώργος Μπορμπουδάκης Τμήμα Επιστήμης Υπολογιστών Procedure 1. Form the null (H 0 ) and alternative (H 1 ) hypothesis 2. Consider

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά Μάιος 2008 Τα δεδομένα που έχουμε προς επεξεργασία χωρίζονται σε τρία μέρη: 1. Τα δεδομένα εκπαίδευσης (training set) που αποτελούνται από 2528

Διαβάστε περισσότερα

1.α ιαγνωστικοί Έλεγχοι. 2.α Ευαισθησία και Ειδικότητα (εισαγωγικές έννοιες) ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. Πολύ σηµαντικό το θεώρηµα του Bayes:

1.α ιαγνωστικοί Έλεγχοι. 2.α Ευαισθησία και Ειδικότητα (εισαγωγικές έννοιες) ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. Πολύ σηµαντικό το θεώρηµα του Bayes: ΠΜΣ ΕΠΑΓΓΕΛΜΑΤΙΚΗ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗ ΥΓΕΙΑ, ΙΑΧΕΙΡΙΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΗ ΑΠΟΤΙΜΗΣΗ ΑΚ. ΕΤΟΣ 2006-2007, 3ο εξάµηνο ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ ΜΑΘΗΜΑ 6 ΙΑΓΝΩΣΤΙΚΟΙ ΕΛΕΓΧΟΙ 1.β ιαγνωστικοί Έλεγχοι Πολύ σηµαντικό το θεώρηµα

Διαβάστε περισσότερα

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος Η παρούσα εργασία έγινε στα πλαίσια της εκπόνησης της διπλωματικής διατριβής

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Ταξινόμηση II Σύντομη Ανακεφαλαίωση

Ταξινόμηση II Σύντομη Ανακεφαλαίωση 0 0 0 Ταξινόμηση II Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 ΤΑΞΙΝΟΜΗΣΗ

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 2 Ο Εργαστήριο WEKA (CLASSIFICATION) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κατηγοριοποίηση Αποτελεί μια από τις βασικές

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ Είναι τεχνικές που έχουν σκοπό: τον εντοπισμό χαρακτηριστικών των οποίων οι αριθμητικές τιμές επιτυγχάνουν

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Τα προς επεξεργασία

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Διάλεξη 1 Βασικές έννοιες

Διάλεξη 1 Βασικές έννοιες Εργαστήριο SPSS Ψ-4201 (ΕΡΓ) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com Διαλέξεις αναρτημένες στο: Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ Διάλεξη

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας Μέτρα Απόδοσης Precision = # σχετικών κειμένων που επιστρέφονται # κειμένων που επιστρέφονται Recall = # σχετικών κειμένων που επιστρέφονται # συνολικών

Διαβάστε περισσότερα

Βιοστατιστική Ι. Δείκτες αξιολόγησης διαγνωστικών μεθόδων Θετική-Αρνητική Διαγνωστική Αξία ROC καμπύλες

Βιοστατιστική Ι. Δείκτες αξιολόγησης διαγνωστικών μεθόδων Θετική-Αρνητική Διαγνωστική Αξία ROC καμπύλες Βιοστατιστική Ι Δείκτες αξιολόγησης διαγνωστικών μεθόδων Θετική-Αρνητική Διαγνωστική Αξία ROC καμπύλες Διαγνωστικές εξετάσεις Κλινικές ή εργαστηριακές Αναγνώριση ατόμου ως πάσχον από ένα νόσημα πολλές

Διαβάστε περισσότερα

Predicting the Choice of Contraceptive Method using Classification

Predicting the Choice of Contraceptive Method using Classification ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΣΣΑΛΟΝΙΚΗ Predicting the Choice of Contraceptive Method using Classification ΠΑΠΑΔΟΠΟΥΛΟΣ ΧΡΗΣΤΟΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Νικόλαος Σαμαράς ΕΞΕΤΑΣΤΗΣ:

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας Δειγματοληψία στην εκπαιδευτική έρευνα Είδη δειγματοληψίας Γνωρίζουμε ότι: Με τη στατιστική τα δεδομένα γίνονται πληροφορίες Στατιστική Δεδομένα Πληροφορία Αλλά από πού προέρχονται τα δεδομένα; Πώς τα

Διαβάστε περισσότερα

Ταξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar

Ταξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar Ταξινόμηση Lecture Notes for Chapter 4 Introduction to Data Mining by Tan, Steinbach, Kumar Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση

Διαβάστε περισσότερα

Εξόρυξη Δεδομένων Κατηγοριοποίηση

Εξόρυξη Δεδομένων Κατηγοριοποίηση Εξόρυξη Δεδομένων Κατηγοριοποίηση 1 2 Κατηγοριοποίηση: Θέματα Κατηγοριοποίηση: Βασικές Έννοιες Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Αφελής Κατηγοριοποίηση Bayes Κατηγοριοποίηση Κ-πλησιέστεροι γείτονες

Διαβάστε περισσότερα

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques) Αναγνώριση Προτύπων Μη παραμετρικές τεχνικές Αριθμητικά Παραδείγματα (Non Parametric Techniques) Καθηγητής Χριστόδουλος Χαμζάς Τα περιεχόμενο της παρουσίασης βασίζεται στο βιβλίο: Introduction to Pattern

Διαβάστε περισσότερα

Math 6 SL Probability Distributions Practice Test Mark Scheme

Math 6 SL Probability Distributions Practice Test Mark Scheme Math 6 SL Probability Distributions Practice Test Mark Scheme. (a) Note: Award A for vertical line to right of mean, A for shading to right of their vertical line. AA N (b) evidence of recognizing symmetry

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΕΝΑ ΦΛΟΚΑ Επίκουρος Καθηγήτρια Τµήµα Φυσικής, Τοµέας Φυσικής Περιβάλλοντος- Μετεωρολογίας ΓΕΝΙΚΟΙ ΟΡΙΣΜΟΙ Πληθυσµός Σύνολο ατόµων ή αντικειµένων στα οποία αναφέρονται

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ Ε Θ Ν Ι Κ Ο Μ Ε Τ Σ Ο Β Ι Ο Π Ο Λ Υ Τ Ε Χ Ν Ε Ι Ο ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ & ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΟΝΟΜΑΤΕΠΩΝΥΜΟ:

Διαβάστε περισσότερα

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Αντικείμενο Μελέτη και ανάπτυξη μεθόδων από τον χώρο της μηχανικής μάθησης για

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διαλέξεις 7 8 Μπεϋζιανή εκτίμηση συνέχεια Μη παραμετρικές μέθοδοι εκτίμησης πυκνότητας Εκτίμηση ML για την κανονική κατανομή Μπεϋζιανή εκτίμηση για την κανονική κατανομή Γνωστή

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

Θέματα Στατιστικής στη γλώσσα R

Θέματα Στατιστικής στη γλώσσα R Θέματα Στατιστικής στη γλώσσα R Ποσότητες οδηγοί και τα ποσοστιαία σημεία των αντίστοιχων κατανομών Ν(0,1) Student s t X 2, F Διαστήματα εμπιστοσύνης-έλεγχοι Υποθέσεων ένα δείγμα για τη μέση τιμή κανονικής

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Επιλογή παραμέτρων και χαρακτηριστικών ταξινομητή με χρήση της καμπύλης λειτουργίας δείκτη (ROC Curve)

Επιλογή παραμέτρων και χαρακτηριστικών ταξινομητή με χρήση της καμπύλης λειτουργίας δείκτη (ROC Curve) ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Διπλωματική εργασία Τίτλος: Επιλογή παραμέτρων και χαρακτηριστικών ταξινομητή με χρήση της καμπύλης λειτουργίας δείκτη (ROC Curve)

Διαβάστε περισσότερα

Δημιουργία και ανάλυση προφίλ επενδυτών σε ασφαλιστικά προϊόντα με χρήση εργαλείων Εξόρυξης Γνώσης

Δημιουργία και ανάλυση προφίλ επενδυτών σε ασφαλιστικά προϊόντα με χρήση εργαλείων Εξόρυξης Γνώσης Μεταπτυχιακό Πρόγραμμα «Συστήματα Υπολογιστών» Μεταπτυχιακή Εργασία Δημιουργία και ανάλυση προφίλ επενδυτών σε ασφαλιστικά προϊόντα με χρήση εργαλείων Εξόρυξης Γνώσης Καραπατσίδης Δημήτρης Επιβλέπων Καθηγητής:

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Bayesian decision Minimum misclassificaxon rate decision: διαλέγουμε την κατηγορία Ck για

Διαβάστε περισσότερα

1η εργασία για το μάθημα «Αναγνώριση προτύπων»

1η εργασία για το μάθημα «Αναγνώριση προτύπων» 1η εργασία για το μάθημα «Αναγνώριση προτύπων» Σημειώσεις: 1. Η παρούσα εργασία είναι η πρώτη από 2 συνολικά εργασίες, η κάθε μια από τις οποίες θα βαθμολογηθεί με 0.4 μονάδες του τελικού βαθμού του μαθήματος.

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Μηχανική μάθηση. Ενότητα 7: Metrics of Performance. Ιωάννης Τσαμαρδίνος Τμήμα Επιστήμης Υπολογιστών

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Μηχανική μάθηση. Ενότητα 7: Metrics of Performance. Ιωάννης Τσαμαρδίνος Τμήμα Επιστήμης Υπολογιστών ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Μηχανική μάθηση Ενότητα 7: Metrics of Performance Ιωάννης Τσαμαρδίνος Τμήμα Επιστήμης Υπολογιστών Given a Classification Model 1. We are given a classification model

Διαβάστε περισσότερα

Π ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ

Π ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ Α ΡΙΣΤΟΤΕΛΕΙΟ Π ΑΝΕΠΙΣΤΗΜΙΟ Θ ΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΠΡΟΒΛΕΨΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΑΓΩΝΩΝ ΠΟΔΟΣΦΑΙΡΟΥ ΠΑΥΛΟΣ ΠΟΛΙΑΝΙΔΗΣ

Διαβάστε περισσότερα

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική Κατηγοριοποίηση Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 2 ο Φροντιστήριο Σκούρα Αγγελική skoura@ceid.upatras.gr Μηχανική Μάθηση Η μηχανική μάθηση είναι μια περιοχή της τεχνητής νοημοσύνης η οποία αφορά

Διαβάστε περισσότερα

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M. 09470015 AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διδάσκων: Γιώργος Τζιραλής ΔΠΜΣ ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ Στάδιο 1 ο. Προεπισκόπηση-προεπεξεργασία δεδομένων: Δίδονται τα παρακάτω

Διαβάστε περισσότερα

ΕΠΑΛΗΘΕΥΣΗ (VERIFICATION) ΚΑΙ ΕΓΚΥΡΟΠΟΙΗΣΗ (VALIDATION) ΒΚ

ΕΠΑΛΗΘΕΥΣΗ (VERIFICATION) ΚΑΙ ΕΓΚΥΡΟΠΟΙΗΣΗ (VALIDATION) ΒΚ ΕΠΑΛΗΘΕΥΣΗ (VERIFICATION) ΚΑΙ ΕΓΚΥΡΟΠΟΙΗΣΗ (VALIDATION) ΒΚ Οι V&V αναφέρονται κυρίως τον έλεγχο λαθών (testing) ενός ΕΣΒΚ, δηλ. αν δίνονται σωστές λύσεις στα προβλήματα που διαπραγματεύεται. Αφορούν όμως

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Διαχωριστικές συναρτήσεις Ταξινόμηση κανονικών

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436 A εξάμηνο 2009-2010 Περιγραφική Στατιστική Ι users.att.sch.gr/abouras abouras@sch.gr sch.gr abouras@uth.gr Μέτρα θέσης Η θέση αντιπροσωπεύει τη θέση της κατανομής κατά

Διαβάστε περισσότερα

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ DATA MINING ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ 1 ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Αφού δεν γνωρίζουμε κάποιο τρόπο για να επιλέξουμε εκ των προτέρων την πιο κατάλληλη και αποδοτική μέθοδο μάθησης

Διαβάστε περισσότερα

Other Test Constructions: Likelihood Ratio & Bayes Tests

Other Test Constructions: Likelihood Ratio & Bayes Tests Other Test Constructions: Likelihood Ratio & Bayes Tests Side-Note: So far we have seen a few approaches for creating tests such as Neyman-Pearson Lemma ( most powerful tests of H 0 : θ = θ 0 vs H 1 :

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 10: Ομαδοποίηση Μέρος Δ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

APPENDICES APPENDIX A. STATISTICAL TABLES AND CHARTS 651 APPENDIX B. BIBLIOGRAPHY 677 APPENDIX C. ANSWERS TO SELECTED EXERCISES 679

APPENDICES APPENDIX A. STATISTICAL TABLES AND CHARTS 651 APPENDIX B. BIBLIOGRAPHY 677 APPENDIX C. ANSWERS TO SELECTED EXERCISES 679 APPENDICES APPENDIX A. STATISTICAL TABLES AND CHARTS 1 Table I Summary of Common Probability Distributions 2 Table II Cumulative Standard Normal Distribution Table III Percentage Points, 2 of the Chi-Squared

Διαβάστε περισσότερα

Ανάλυση Συσχέτισης IΙ

Ανάλυση Συσχέτισης IΙ Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

Χημική Τεχνολογία. Ενότητα 1: Στατιστική Επεξεργασία Μετρήσεων. Ευάγγελος Φουντουκίδης Τμήμα Μηχανολόγων Μηχανικών Τ.Ε.

Χημική Τεχνολογία. Ενότητα 1: Στατιστική Επεξεργασία Μετρήσεων. Ευάγγελος Φουντουκίδης Τμήμα Μηχανολόγων Μηχανικών Τ.Ε. ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Χημική Τεχνολογία Ενότητα 1: Στατιστική Επεξεργασία Μετρήσεων Ευάγγελος Φουντουκίδης Τμήμα Μηχανολόγων Μηχανικών Τ.Ε. Άδειες Χρήσης

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

t-distribution t a (ν) s N μ = where X s s x = ν 2 FD ν 1 FD a/2 a/2 t-distribution normal distribution for ν>120

t-distribution t a (ν) s N μ = where X s s x = ν 2 FD ν 1 FD a/2 a/2 t-distribution normal distribution for ν>120 t-ditribution t X x μ = where x = ν FD ν FD t a (ν) 0 t-ditribution normal ditribution for ν>0 a/ a/ -ta ta ΒΑΘΜΟΙ ΕΛΕΥΘΕΡΙΑΣ (freedom degree) Βαθμοί ελευθερίας (ν): ο αριθμός των ανεξάρτητων μετρήσεων

Διαβάστε περισσότερα

11. ΣΤΑΤΙΣΤΙΚΕΣ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

11. ΣΤΑΤΙΣΤΙΚΕΣ ΑΠΟΤΕΛΕΣΜΑΤΩΝ 11. ΣΤΑΤΙΣΤΙΚΕΣ ΑΠΟΤΕΛΕΣΜΑΤΩΝ 1 ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ/ΑΝΑΓΝΩΡΙΣΗΣ Ακρίβεια αναγνώρισης: (Αριθμός δεδομένων που ταξινομήθηκαν στη σωστή ομάδα) / (Συνολικός αριθμός δεδομένων που ανήκουν στην ομάδα) x 100%

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

χ 2 test ανεξαρτησίας

χ 2 test ανεξαρτησίας χ 2 test ανεξαρτησίας Καθηγητής Ι. Κ. ΔΗΜΗΤΡΙΟΥ demetri@econ.uoa.gr 7.2 Το χ 2 Τεστ Ανεξαρτησίας Tο χ 2 τεστ ανεξαρτησίας (όπως και η παλινδρόμηση) είναι στατιστικά εργαλεία για τον εντοπισμό σχέσεων μεταξύ

Διαβάστε περισσότερα

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort 1, c 3, a 3, b 7, d 7, g 7, e B 0 1 3 4 5 6 7 8 9 1 BucketSort (Ταξινόμηση Κάδου) - Αρχικά θεωρείται ένα κριτήριο κατανομής με βάση το οποίο

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων» Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων» Οδηγίες: Σχετικά με την παράδοση της εργασίας θα πρέπει: Το κείμενο

Διαβάστε περισσότερα

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο Κατανομές Στατιστικών Συναρτήσεων Δείγμα από κανονική κατανομή Έστω Χ= Χ Χ Χ τ.δ. από Ν µσ τότε ( 1,,..., n) (, ) Τ Χ Χ Ν Τ Χ σ σ Χ Τ Χ n Χ S µ S µ 1( ) = (0,1), ( ) = ( n 1)

Διαβάστε περισσότερα

Biostatistics for Health Sciences Review Sheet

Biostatistics for Health Sciences Review Sheet Biostatistics for Health Sciences Review Sheet http://mathvault.ca June 1, 2017 Contents 1 Descriptive Statistics 2 1.1 Variables.............................................. 2 1.1.1 Qualitative........................................

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης

Διαβάστε περισσότερα