Αποθήκες εδομένων και Εξόρυξη εδομένων:

Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Ζητήματα ηήμ με τα δεδομένα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Διδάσκουσα: Χάλκου Χαρά,

Υπερπροσαρμογή (Overfitting) (1)

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις)

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας

Δισδιάστατη ανάλυση. Για παράδειγμα, έστω ότι 11 άτομα δήλωσαν ότι είναι άγαμοι (Α), 26 έγγαμοι (Ε), 12 χήροι (Χ) και 9 διαζευγμένοι (Δ).

Χημική Τεχνολογία. Ενότητα 1: Στατιστική Επεξεργασία Μετρήσεων. Ευάγγελος Φουντουκίδης Τμήμα Μηχανολόγων Μηχανικών Τ.Ε.

Ευφυής Προγραμματισμός

Δειγματοληψία στην Ερευνα. Ετος

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Εξόρυξη Δεδομένων Κατηγοριοποίηση

Αιτιολόγηση με αβεβαιότητα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Kruskal-Wallis H

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

1 x-μ - 2 σ. e σ 2π. f(x) =

Δειγματικές Κατανομές

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

. Τι πρακτική αξία έχουν αυτές οι πιθανότητες; (5 Μονάδες)

ΠΕΡΙΕΧΟΜΕΝΑ. Πιθανότητες. Τυχαίες μεταβλητές - Κατανομές ΙΑΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΕΦΑΛΑΙΟ 1 ΚΕΦΑΛΑΙΟ 2

Π ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ

Εισόδημα Κατανάλωση

Περιεχόμενα της Ενότητας. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς Κατανομές Πιθανότητας. Συνεχείς Κατανομές Πιθανότητας.

ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εισαγωγή στην Εκτιμητική

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Αν Α και Β είναι δύο ενδεχόμενα ενός δειγματικού χώρου να αποδείξετε ότι: Αν Α Β τότε Ρ(Α) Ρ(Β)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

University of Cyprus Optical Diagnostics Laboratory. ΗΜΥ 370 Εισαγωγή στη Βιοϊατρική Μηχανική. Κλινικές Μελέτες και Βιοστατιστική

ΚΕΦΑΛΑΙΟ 6 ΠΡΟΒΛΕΨΕΙΣ ΜΕ ΥΠΟΔΕΙΓΜΑΤΑ ΧΡΟΝΟΣΕΙΡΩΝ

ΤΕΧΝΙΚΗ ΥΔΡΟΛΟΓΙΑ Πιθανοτική προσέγγιση των υδρολογικών μεταβλητών

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ: ΣΤΑΤΙΣΤΙΚΗ ΕΝΟΤΗΤΑ: Εισαγωγικές Έννοιες ΟΝΟΜΑ ΚΑΘΗΓΗΤΗ: ΦΡ. ΚΟΥΤΕΛΙΕΡΗΣ ΤΜΗΜΑ: Τμήμα Διαχείρισης Περιβάλλοντος και Φυσικών Πόρων

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΕΞΕΤΑΣΕΙΣ στο τέλος του εξαμήνου με ΑΝΟΙΧΤΑ βιβλία ΕΞΕΤΑΣΕΙΣ ο καθένας θα πρέπει να έχει το ΔΙΚΟ του βιβλίο ΔΕΝ θα μπορείτε να ανταλλάσετε βιβλία ή να

HMY 795: Αναγνώριση Προτύπων

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

HMY 795: Αναγνώριση Προτύπων

Διπλωματική Εργασία : Πολυκριτήρια Αξιολόγηση Συστημάτων Ταξινόμησης

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ: ΣΤΑΤΙΣΤΙΚΗ ΕΝΟΤΗΤΑ: Πιθανότητες - Κατανομές ΟΝΟΜΑ ΚΑΘΗΓΗΤΗ: ΦΡ. ΚΟΥΤΕΛΙΕΡΗΣ ΤΜΗΜΑ: Τμήμα Διαχείρισης Περιβάλλοντος και Φυσικών

Γ. Πειραματισμός Βιομετρία

ΒΕΛΤΙΣΤΟ ΜΕΓΕΘΟΣ ΔΕΙΓΜΑΤΟΣ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αναγνώριση Προτύπων Ι

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Βιοστατιστική ΒΙΟ-309

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Μελέτη και βελτίωση της ακρίβειας της μεθόδου κατηγοριοποίησης Mahalanobis-Taguchi Strategy με τεχνικές Bootstrap και Bagging

Θέματα Συστημάτων Πολυμέσων

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

Διάστημα εμπιστοσύνης της μέσης τιμής

Αναγνώριση Προτύπων Ι

Βιοστατιστική ΒΙΟ-309

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εισαγωγή στη Στατιστική

HMY 795: Αναγνώριση Προτύπων

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Transcript:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/

Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν το σύγγραμμα «Εισαγωγή στην Εξόρυξη και τις Αποθήκες εδομένων» Xρησιμοποιήθηκε μ ή η επιπλέον υλικό από τα βιβλία ββ «Introduction to Data Mining» των Tan, Steinbach, Kumar, και «Data Mining: Concepts and Techniques» των Jiawei Han, Micheline Kamber. 2

Θέματα προς εξέταση Μέρος Α Εισαγωγικές Έννοιες ένδρα Απόφασης Μέρος Β Bayesian κατηγοριοποιητές Κατηγοριοποιητές πλησιέστερων γειτόνων Αποτίμηση Ακρίβειας 3

Σύνδεση με προηγούμενα ένδρα απόφασης 4

Χαρακτηριστικά ένδρων Απόφασης Η κατασκευή του βέλτιστου δένδρου απόφασης απαιτεί αποτρεπτικό χρόνο (είναι NP-complete πρόβλημα). Για το λόγο αυτό χρησιμοποιούνται ευρετικοί αλγόριθμοι, οι οποίοι είναι άπληστοι και δεν χρησιμοποιούν οπισθοδρόμηση. Τα ευρετικά μειώνουν κατά πολύ το χρόνο κατασκευής. Το αποτέλεσμα είναι ότι τα δένδρα απόφασης κλιμακώνονται σε μεγάλους όγκους δεδομένων Γρήγορη εφαρμογή. Η ακρίβεια πρόβλεψης των δένδρων απόφασης είναι αποδεκτή για τις περισσότερες ρ περιπτώσεις, συγκρίσιμη γρ με την ακρίβεια άλλων κατηγοριοποιητών Το μοντέλο που προκύπτει είναι πολύ εύκολο στην κατανόηση. Τα δένδρα απόφασης έχουν καλή ανοχή στο θόρυβο ειδικά όταν εφαρμόζεται ψαλιδισμός 5

Επιπλέον Τα Α μπορούν να διαχειριστούν πολυδιάστατα δεδομένα 1 διάσταση τη φορά χρησιμοποιείται κατά την ανάπτυξη του μοντέλου και κάθε τύπο μεταβλητών Συμβολικές, αριθμητικές, κλπ. 6

Μειονεκτήματα Αγνοούν εξαρτήσεις μεταξύ των ιδιοτήτων. Προβλήματα όταν λείπουν πολλά δεδομένα ιάσπαση ως προς μία ιδιότητα => αντιστοίχιση με περιοχές, τα όρια των οποίων είναι παράλληλα με τους άξονες 7

Άλλοι κατηγοριοποιητές; η Bayesian κατηγοριοποιητές Κατηγοριοποιητές πλησιέστερων γειτόνων 8

Bayesian κατηγοριοποιητής η για 1 ιδιότητα Ιδιότητα Χ (συμβολική) m διακριτές τιμές Ιδιότητα κλάσης C n διακριτές τιμές Θέλουμε να υπολογίσουμε για κάθε j: 0<j<n+1: P ( C = c X = ( x j i ) Άγνωστη ποσότητα 9

Παράδειγμα Οικογενειακή Αγοραστής Κατάσταση ιαζευγμένος ΝΑΙ Αν ιαζευγμένος ΝΑΙ Οικογενειακή κατάσταση: Άγαμος Έγγαμος ΟΧΙ Άγαμος ΝΑΙ Άγαμος ΝΑΙ Έγγαμος ΟΧΙ ιαζευγμένος ΝΑΙ ιαζευγμένος ΝΑΙ Αγοραστής: ναι ή όχι; P(Ναι Άγαμος) = ; ιαζευγμένος ΝΑΙ P(Όχι Άγαμος) =; Άγαμος ΟΧΙ 10

Θεώρημα Bayes ρημ y ) ( i j x X c C P = = Άγνωστη ποσότητα ) ( i j x X c C P Άγνωστη ποσότητα ) ( ) ( ) ( ) ( j i j i i j c C P x X P c C x X P x X c C P = = = = = = = ) ( i x X P ) ( ), ( j j i c C P c C x X P = = = Είναι υπολογίσιμα ) ( i x X P = Είναι ανεξάρτητο της κλάσης Ά ί β ύ λά ί ί Άρα αρκεί να βρούμε την κλάση για την οποία μεγιστοποιείται το ) ( ) ( j j i c C P c C x X P = = = 11 ) ( ) ( j j i c C P c C x X P

Στο παράδειγμα Ηλικία Οικογενειακή Κατάσταση Αγοραστής 20 Διαζευγμένος ΝΑΙ 30 Διαζευγμένος ΝΑΙ 25 Έγγαμος ΟΧΙ 30 Άγαμος ΝΑΙ 40 Άγαμος ΝΑΙ 20 Έγγαμος ΟΧΙ 30 Διαζευγμένος ΝΑΙ 25 Διαζευγμένος ΝΑΙ 40 Διαζευγμένος ΝΑΙ 20 Άγαμος ΟΧΙ P(Ναι Άγαμος) P(Άγαμος Ναι) P(Ναι) = 2/7*7/10 = 0.2 P(Όχι Άγαμος) P(Άγαμος Όχι) P(Όχι) = 1/3 * 3/10 = 0.1 12

Τι γίνεται για περισσότερες ρ ιδιότητες; Έστω ότι μας δίνεται η τιμή d χαρακτηριστικών Πρέπει να υπολογίσουμε την πιθανότητα P ( X =< x, x,.., x > C = c ) ( 1 2 d j Απλούστευση: ανεξαρτησία των d ιδιοτήτων d =< 1 2 d j Π= i 1 i c j P ( X x, x,.., x > C = c ) = P( X = x C = Αφελείς Bayesian κατηγοριοποιητές arg max d 1 j mπ= i 1 P ( X = x C = c ) P( C = i j c j ) ) 13

Παράδειγμα Ηλικία Οικογενειακή Κατάσταση Αγοραστής 20 Διαζευγμένος ΝΑΙ 30 Διαζευγμένος ΝΑΙ 25 Έγγαμος ΟΧΙ 30 Άγαμος ΝΑΙ 40 Άγαμος ΝΑΙ 20 Έγγαμος ΟΧΙ 30 Διαζευγμένος ΝΑΙ 25 Διαζευγμένος ΝΑΙ 40 Διαζευγμένος ΝΑΙ 20 Άγαμος ΟΧΙ Οικογενειακή κατάσταση = Άγαμος, Ηλικία =35 Αγοραστής: ναι ή όχι; Πρέπει να υπολογιστούν τα P(Ναι Άγαμος, 35), P(Όχι Άγαμος, 35) 14

Παράδειγμα P(Ναι Άγαμος, 35) P(Άγαμος,35 Ναι) * P(Ναι)=; P(Όχι Άγαμος, 35) P(Άγαμος,35 Όχι) * P(Όχι)=; Υπόθεση: Ανεξαρτησία οικογενειακής κατάστασης και ηλικίας P(Ναι Άγαμος, 35) P(Άγαμος Ναι) * P(35 Ναι) * P(Ναι)=; P(Όχι Άγαμος, 35) P(Άγαμος Όχι) * P(35 Όχι) * P(Όχι)=; Από το παράδειγμα μιας ιδιότητας, έχω ήδη υπολογίσει: P(Άγαμος Ναι) *P(Ν P(Ναι) = 0.2 P(Άγαμος Όχι) * P(Όχι) = 0.1 15

P(35 Ναι)=; P(35 Όχι)=; χ Παράδειγμα Ηλικία: συνεχής μεταβλητή 1. Κβάντωση 2. Yπόθεση συνεχούς κανονικής κατανομής: 16

Παράδειγμα P(Ναι Άγαμος, 35) P(Άγαμος Ναι) P(35 Ναι) * P(Ναι)= 0.2 * 0.11ε = 0.022 ε P(Όχι Άγαμος, 35) P(Άγαμος Όχι) P(35 Όχι) * P(Όχι)= 0.1 * 10-14 ε= 10-15 ε Άρα, αγοραστής: NAI 17

Χαρακτηριστικά Αφελών Bayesian Η ακρίβεια πρόβλεψης των αφελών Bayesian κατηγοριοποιητών επηρεάζεται αρνητικά από το γεγονός ότι σε πραγματικά δεδομένα σχεδόν πάντοτε υπάρχουν εξαρτήσεις μεταξύ των μεταβλητών Το μοντέλο ο που προκύπτει είναι απλά και σχετικά εύκολα στην κατανόηση. Η κατασκευή των ιστογραμμάτων για τους υπολογισμούς των πιθανοτήτων, απαιτεί μόνο μία ανάγνωση του συνόλου δεδομένων. Επομένως, οι Bayesian κατηγοριοποιητές κλιμακώνονται σε μεγάλους όγκους δεδομένων. Οι Bayesian κατηγοριοποιητές έχουν καλή ανοχή στο θόρυβο, επειδή οι θορυβώδεις τιμές εξομαλύνονται από τις υπόλοιπες κατά τους υπολογισμούς των εν μέρει πιθανοτήτων. Οι Bayesian κατηγοριοποιητές απαιτούν αντιπροσωπευτικό δείγμα για εκπαίδευση και δεν επηρεάζονται από τις ελλιπείς τιμές, επειδή μπορούν να αγνοηθούν. 18

Bayesian Belief Networks Μοντελοποίηση εξαρτήσεων μεταξύ των χαρακτηριστικών Γραφικό μοντέλο Ορίζει την κοινή κατανομή πιθανότητας X Z Y P Κόμβοι: χαρακτηριστικά Συνδέσεις: εξαρτήσεις Τα X και Y είναι οι γονείς του Z, και το Y είναι γονέας του P Τα Z και P είναι ανεξάρτητα εν υπάρχουν κύκλοι 19

Παράδειγμα Family History Smoker Πίνακας με υπο συνθήκη πιθανότητες για LungCancer: (FH, S) (FH, ~S) (~FH, S) (~FH, ~S) Lung Cancer Emphy sema LC ~LC 0.8 02 0.2 0.5 05 0.5 0.7 03 0.3 0.1 09 0.9 δείχνει την υπο συνθήκη πιθανότητα για κάθε συνδυασμό γονέων Positive Dyspnea XRay Bayesian Belief Networks n P ( x 1,..., x n ) = P ( xi A ( xi )) i = 1 A(x): κόμβοι γονείς του x 20

Κατηγοριοποιητής η k πλησιέστερων γειτόνων Κατηγοριοποιεί ένα αντικείμενο στην κλάση στην οποία ανήκει η πλειοψηφία των k πλησιέστερών σε αυτό αντικειμένων Απαιτείται ορισμός μέτρου ομοιότητας (ή απόστασης) ) 21

Παράδειγμα {Άγαμος, Έγγαμος, ιαζευγμένος} {0, 0.5, 1} Ηλικία x (x-20)/(40-20) Ευκλείδειος χώρος [0,1] x [0,1] Ευκλείδεια απόσταση 22

Παράδειγμα k = 3, προς κατηγοριοποίηση Άγαμος, 35 23

Επιλογή k Η τιμή του k μπορεί επηρεάζει το αποτέλεσμα Μικρές τιμές του k εξετάζουν μόνο την άμεση γειτονιά, επομένως είναι επιρρεπείς στο θόρυβο. Μεγάλες τιμές του k αγνοούν την αρχή της τοπικότητας, και είναι επιρρεπείς στην πλειοψηφούσα κλάση σε όλο το σύνολο δεδομένων Συχνά χρησιμοποιούμενη τιμή είναι k = sqrt(n), όπου n είναι ο αριθμός των αντικειμένων στο σύνολο εκμάθησης ης Σε εμπορικά συστήματα η default τιμή είναι k = 10 24

Χαρακτηριστικά κατηγοριοποιητών k πλησιέστερων γειτόνων Η ακρίβεια πρόβλεψης των κατηγοριοποιητών k πλησιέστερων γειτόνων είναι ευαίσθητη στην τιμή του k. Oι κατηγοριοποιητές k πλησιέστερων γειτόνων αξιοποιούν την τοπικότητα και εξετάζουν μη γραμμικές περιοχές Αντίθετα από τα δένδραδ απόφασης, κάτι που σε αρκετές περιπτώσεις αποτελεί λί πλεονέκτημα. Το αποτέλεσμα της κατηγοριοποίησης δεν γίνεται πολύ εύκολα κατανοητό. Η αρχή της τοπικότητας είναι η μόνη αιτιολόγηση, αλλά είναι πολύ γενική. Ο χρόνος εύρεσης ρσηςαπόστασης ασης είναι γραμμικός ως προς τα σημεία, κάτι που περιορίζει την κλιμάκωσή (γιατί;) των κατηγοριοποιητών k πλησιέστερων γειτόνων. Μπορούν, όμως, να χρησιμοποιηθούν δομές καταλόγου (π.χ., χ kd-tree) για την επιτάχυνση της εύρεσης πλησιέστερων γειτόνων. Οι κατηγοριοποιητές k πλησιέστερων γειτόνων δεν έχουν καλή ανοχή στο θόρυβο, ιδιαίτερα για μικρές τιμές του k. k 25

Θέματα προς εξέταση Μέρος Α Εισαγωγικές Έννοιες ένδρα Απόφασης Μέρος Β Bayesian κατηγοριοποιητές Κατηγοριοποιητές πλησιέστερων γειτόνων Αποτίμηση Ακρίβειας Άλλες μέθοδοι 30

Χαρακτηριστικά ένδρων Απόφασης Η κατασκευή του βέλτιστου δένδρου απόφασης απαιτεί αποτρεπτικό χρόνο (είναι ί NP-complete πρόβλημα). ) Για το λόγο αυτό χρησιμοποιούνται ευρετικοί αλγόριθμοι, οι οποίοι είναι άπληστοι και δεν χρησιμοποιούν οπισθοδρόμηση. Τα ευρετικά μειώνουν κατά πολύ το χρόνο κατασκευής. Το αποτέλεσμα είναι ότι τα δένδρα απόφασης κλιμακώνονται σε μεγάλους όγκους δεδομένων Γρήγορη εφαρμογή. Η ακρίβεια πρόβλεψης των δένδρων απόφασης είναι αποδεκτή για τις περισσότερες περιπτώσεις, συγκρίσιμη με την ακρίβεια άλλων κατηγοριοποιητών Το μοντέλο που προκύπτει είναι πολύ εύκολο στην κατανόηση. η Τα δένδρα απόφασης έχουν καλή ανοχή στο θόρυβο ειδικά όταν εφαρμόζεται ψαλιδισμός 31

Επιπλέον Τα Α μπορούν να διαχειριστούν πολυδιάστατα δεδομένα 1 διάσταση τη φορά χρησιμοποιείται κατά την ανάπτυξη του μοντέλου και κάθε τύπο μεταβλητών Συμβολικές, αριθμητικές, κλπ. 32

Μειονεκτήματα Αγνοούν εξαρτήσεις μεταξύ των ιδιοτήτων. Προβλήματα όταν λείπουν πολλά δεδομένα ιάσπαση ως προς μία ιδιότητα => αντιστοίχιση με περιοχές, τα όρια των οποίων είναι παράλληλα με τους άξονες 33

Χαρακτηριστικά Αφελών Bayesian Η ακρίβεια πρόβλεψης των αφελών Bayesian κατηγοριοποιητών επηρεάζεται αρνητικά από το γεγονός ότι σε πραγματικά δεδομένα σχεδόν πάντοτε υπάρχουν εξαρτήσεις μεταξύ των μεταβλητών Το μοντέλο που προκύπτει είναι απλό και σχετικά εύκολο στην κατανόηση. Η κατασκευή των ιστογραμμάτων για τους υπολογισμούς των πιθανοτήτων, απαιτεί μόνο μία ανάγνωση του συνόλου δεδομένων. Επομένως, οι Bayesian κατηγοριοποιητές κλιμακώνονται σε μεγάλους όγκους δεδομένων. Οι Bayesian κατηγοριοποιητές έχουν καλή ανοχή στο θόρυβο, επειδή οι θορυβώδεις τιμές εξομαλύνονται από τις υπόλοιπες κατά τους υπολογισμούς των εν μέρει πιθανοτήτων. Οι Bayesian κατηγοριοποιητές δεν επηρεάζονται από τις ελλιπείς τιμές, επειδή μπορούν να αγνοηθούν. 34

Χαρακτηριστικά κατηγοριοποιητών k πλησιέστερων γειτόνων Η ακρίβεια ρβ πρόβλεψης των κατηγοριοποιητών η k πλησιέστερων γειτόνων είναι ευαίσθητη στην τιμή του k. Παρά ταύτα, οι κατηγοριοποιητές k πλησιέστερων γειτόνων αξιοποιούν την τοπικότητα και εξετάζουν μη γραμμικές περιοχές (αντίθετα από τα δένδρα απόφασης), κάτι που σε αρκετές περιπτώσεις αποτελεί πλεονέκτημα. Το αποτέλεσμα της κατηγοριοποίησης δεν γίνεται πολύ εύκολα κατανοητό. Η αρχή της τοπικότητας είναι η μόνη αιτιολόγηση του αποτελέσματος, αλλά είναι πολύ γενική. Ο χρόνος εύρεσης απόστασης είναι γραμμικός ως προς τα σημεία, κάτι που περιορίζει την κλιμάκωσή (γιατί;) των κατηγοριοποιητών k πλησιέστερων γειτόνων. Μπορούν, όμως, να χρησιμοποιηθούν δομές καταλόγου (π.χ., kdtree) για την επιτάχυνση της εύρεσης πλησιέστερων γειτόνων. Οι κατηγοριοποιητές k πλησιέστερων γειτόνων δεν έχουν καλή ανοχή στο θόρυβο, ιδιαίτερα για μικρές τιμές του k. 35

Αποτίμηση η ακρίβειας ρβ Γνωρίζουμε 3 κατηγοριοποιητές Πως συγκρίνουμε την επίδοσή τους ως προς την ακρίβεια; Πως μπορούμε να είμαστε σίγουροι για την ακρίβεια που θα έχει το μοντέλο μας; Μέτρηση η με αντικειμενικό τρόπο,, που να αποκλείει προκατάληψη: 4 μέθοδοι Υπολογισμός στατιστικής σημαντικότητας η 36

Μέθοδοι μέτρησης ακρίβειας: Hold-out out Χωρίζουμε ρζ το σύνολο δεδομένων σε δύο τμήματα: το σύνολο εκμάθησης (π.χ., τα 2/3 πρώτα αντικείμενα) και το σύνολο ελέγχου (π.χ. τα επόμενα 1/3) ημιουργούμε μοντέλο σύμφωνα με το σύνολο εκμάθησης Κατατάσσεται κάθε αντικείμενο του συνόλου ελέγχου X είναι ο αριθμός που κατατάσσονται σωστά Ν είναι ο συνολικός αριθμός των αντικειμένων στο σύνολο ελέγχου Ακρίβεια: A = X N Εξάρτηση από τη διάταξη των αντικειμένων 37

Μέθοδοι μέτρησης ακρίβειας: Τυχαία Υποδειγματοληψία-Random subsampling Αποφυγή εξάρτησης ης από διάταξη Εφαρμόζουμε τυχαία δειγματοληψία χωρίς επανατοποθέτηση Επιλέγουμε N αντικείμενα, τα οποία θέτουμε στο σύνολο ελέγχου Τα εναπομείναντα αντικείμενα τα θέτουμε στο σύνολο εκμάθησης. Επανάληψη της διαδικασίας αυτής k φορές Αν X i είναι ο αριθμός των σωστά καταταγμένων αντικειμένων στην i-οστή επανάληψη A = 1 k k Σ i = 1 ΠΡΟΣΟΧΗ: το μοντέλο που θα χρησιμοποιήσουμε τελικά θα εκπαιδευτεί σε όλα τα δεδομένα. X N i 38

Μέθοδοι μέτρησης ακρίβειας: ια-εγκυροποίηση -Cross validation Για να μην λαμβάνουμε τυχαία α τα δείγματα α M ο αριθμός των αντικειμένων στο σύνολο δεδομένων Θέλουμε k επαναλήψεις Χωρίζουμε το σύνολο σε k τμήματα με M/k (διαδοχικά) αντικείμενα το κάθε ένα Στην i-οστή επανάληψη, το i-οστό τμήμα λειτουργεί ως σύνολο ελέγχου, ενώ τα υπόλοιπα k-1 k τμήματα απαρτίζουν το σύνολο εκμάθησης. Μία συχνά χρησιμοποιούμενη τιμή του k είναι το 10 Η μέθοδος 10-fold cross-validation θεωρείται ως μία από τις πιο αξιόπιστες για την αποτίμηση της ακρίβειας κατηγοριοποιητών. Στην ειδική περίπτωση που k=μ, τότε η μέθοδος ονομάζεται leaveone-out χρησιμοποιείται μόνο για μικρά σύνολα δεδομένων. 39

Μέθοδοι μέτρησης ης ακρίβειας: ρβ bootstrap ειγματοληψία με επανατοποθέτηση Μ αντικείμενα 0.632Μ στο δείγμα ειγματοληπτούμε Μ φορές Σε κάθε προσπάθεια: P(επιλογή x) = 1/Μ Σε M προσπάθειες 40

Μέθοδοι μέτρησης ης ακρίβειας: ρβ bootstrap Τα 0.632Μ αντικείμενα αποτελούν το σύνολο εκμάθησης Επανάληψη k φορές της διαδικασίας Αν α i είναι η ακρίβεια στην i-οστήi επανάληψη και α η ακρίβεια όταν σύνολο ελέγχου = σύνολο εκμάθησης = σύνολο 41

ιαστήματα εμπιστοσύνης για την ακρίβεια πρόβλεψης Χ από N αντικείμενα κατατάχθηκαν σωστά Χ τυχαία μεταβλητή με διωνυμική κατανομή p η πραγματική ακρίβεια πρόβλεψης Α = Χ/Ν τυχαία μεταβλητή (διωνυμική) 42

ιαστήματα εμπιστοσύνης για την ακρίβεια πρόβλεψης Για Ν Α = Χ/Ν ακολουθεί κανονική κατανομή (νόμος μεγάλων αριθμών) Σε επίπεδο εμπιστοσύνης α: 43

Ενδεικτικές τιμές μς Έστω ένα μπντέλο με ακρίβεια 80% όταν χρησιμοποιούνται 100 δείγματα για έλεγχο: N=100, Α = 0.8 α Z α = 0.95 (διάστημα εμπιστοσύνης 95%) Από τον διπλανό πίνακα, Z α =1.96 0.99 2.58 N 50 100 500 1000 5000 p(lower) 0.670 0.711 0.763 0.774 0.789 p(upper) 0.888 0.866 0.833 0.824 0.811 098 0.98 233 2.33 0.95 1.96 0.90 1.65 44

Παράδειγμα Έστω ένα σύνολο ελέγχου με N=50 αντικείμενα. Αν η εκτιμώμενη ακρίβεια αποτιμήθηκε ίση με A=85%, να βρεθεί το διάστημα εμπιστοσύνης σε επίπεδο a=0.95 και a=0.90. Για a=0.95 ισχύει z_a=1.96. Από την Εξίσωση προκύπτει ότι p=0.825 ± 0.099. Άρα, αναμένουμε η πραγματική ακρίβεια p να κυμαίνεται μεταξύ 0.726 και 0.924. Για a=0.90 ισχύει z_a=1.65. Από την ίδια εξίσωση προκύπτει ότι p=0.832 ± 0.083. Άρα, αναμένουμε η πραγματική ακρίβεια p να κυμαίνεται μεταξύ 0.749 και 0.915. 45

Βελτίωση της ακρίβειας ρβ Γνωρίζουμε 3 βασικούς κατηγοριοποιητές. Ξέρουμε πώς να εκτιμούμε σωστά την ακρίβεια. ρβ Μπορούμε να βελτιώσουμε την ακρίβεια χρησιμοποιώντας διαφορετικά τους γνωστούς μας κατηγοριοποιητές; Ψαλιδισμός Σύνολα κατηγοριοποιητών 46

Σύνολα κατηγοριοποιητών η n δυαδικοί (2 κλάσεις) ανεξάρτητοι κατηγοριοποιητές Κάθε ένας έχει πιθανότητα λάθους e Αποφασίζουμε την κλάση που λέει η πλειοψηφία των κατηγοριοποιητών Για να γίνει λάθος, περισσότεροι από n/2 να κάνουν λάθος Εκτιμώμενο λάθος για το σύνολο: 47

Σύνολα κατηγοριοποιητών η Π.χ., για n=10, e=0.2, τότε E =0.0064 48

Bagging g (Bootstrap AGGragatING) k δείγματα με επανατοποθέτηση (διαδικασία bootstrap) σύνολα δεδομένων για k κατηγοριοποιητές (ίδιος αλγόριθμος κατασκευής) αναμενόμενος αριθμός διακριτών αντικειμένων στο κάθε δείγμα: 63.2% του αρχικού Ένα νέο αντικείμενο κατατάσσεται με καθέναν από k κατηγοριοποιητές. Το αναθέτουμε στην κλάση που πλειοψηφεί Η μέθοδος bagging βελτιώνει την ακρίβεια, όταν υπάρχει διακύμανση στην ακρίβεια των k κατηγοριοποιητών 49

Άλλα μέτρα ποιότητας Πίνακας σύγχυσης Ευαισθησία Εξειδίκευση Ορθότητα Ανάκληση 50

Πίνακας σύγχυσης Πίνακας Σύγχυσης (Confusion Matrix): Actual class\predicted class C 1 C 1 C 1 True Positives (TP) False Negatives (FN) C 1 False Positives (FP) True Negatives (TN) Παράδειγμα: Actual class\predicted class buy_computer = yes buy_computer = no Total buy_computer = yes 6954 46 7000 buy_computer = no 412 2588 3000 Total 7366 2634 10000 CM i,j : πλήθος εγγραφών της κλάσης i που κατηγοριοποιήθηκαν στην κλάση j 51

Άλλα μέτρα Actual\ Predicted C C Όταν μία κλάση η(η θετική) είναι πολύ πιο σπάνια: C TP FN P C FP TN N P N All Ακρίβεια ρβ (Accuracy): (TP + TN)/All Ποσοσό Σφάλματος ς( (Error rate): 1 accuracy, ή (FP + FN)/All Ευαισθησία (Sensitivity): TP/P Εξειδίκευση (Specificity): TN/N Ορθότητα (Precision) TP/(TP+FP) Ανάκληση (Recall) TP/(TP+FN) 52