LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO

Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός Παρατήρηση N x N i i 2 1 2 ( ) N x N i 1 Παράμετροι πληθυσμού 1 ) ( 2 1 2 n X x s n n i i n x X n i 1 Στατιστικές δείγματος

Διάστημα Εμπιστοσύνης (confidence interval) Η τιμή της στατιστικής στο δείγμα Σημειακή εκτίμηση (πόσο σίγουροι θέλουμε να είμαστε στην εκτίμηση) (τυπική απόκλιση) Τιμές z-κατανομής ή t-κατανομής Τυπική απόκλιση της στατιστικής.

Δειγματοληψία Ένα δείγμα είναι ένα «μικρό» και καλώς εχόντων αντιπροσωπευτικό σύνολο αντικειμένων από έναν πληθυσμό που χρησιμοποιείται για να εκτιμήσουμε αλήθειες για τον πληθυσμό (Field, 2005) Γιατί ; Πόρους (χρόνο, χρήμα) και ποσότητα δουλειάς Παίρνουμε αποτελέσματα με γνωστή ακρίβεια η οποία μπορεί να υπολογισθεί με μαθηματικό τρόπο

Δειγματοληψία Πληθυσμός είναι το σύνολο των αντικειμένων για τα οποία θέλουμε να εξάγουμε κάποιο αποτέλεσμα Δειγματοληπτικός πληθυσμός είναι ένα υποσύνολο του πληθυσμού που δυνητικά μπορεί να συμπεριληφθεί στη δειγματοληψία Το πλαίσιο δειγματοληψία είναι μια καταγραφή του πληθυσμού με την βοήθεια του οποίου θα διεξάγουμε την έρευνα Μονάδα παρατήρησης είναι το αντικείμενο του πληθυσμού για το οποίο καταγράφουμε τα χαρακτηριστικά που μας ενδιαφέρουν Μέγεθος του δείγματος είναι ο αριθμός των αντικειμένων του πληθυσμού που θα πρέπει να επιλέξουμε ώστε να εξάγουμε σωστό αποτέλεσμα

Τυχαία δειγματοληψία Μη-Τυχαία Δειγματοληψία Τυχαία δειγματοληψία : κάθε αντικείμενο του πληθυσμού έχει μια γνωστή εκ των προτέρων πιθανότητα να επιλεγούν Γνωστές μέθοδοι είναι η τυχαία δειγματοληψία, συστηματική δειγματοληψία και στρωματοποιημένη δειγματοληψία. Μη-τυχαία δειγματοληψία : κάθε αντικείμενο του πληθυσμού επιλέγεται με ένα μη-τυχαίο τρόπο : Γνωστές μέθοδοι είναι δειγματοληψία ευκολίας

Τυχαία δειγματοληψία Στην τυχαία δειγματοληψία : Κάθε αντικείμενο του πληθυσμού έχει την ίδια πιθανότητα να επιλεγεί. Όταν ο πληθυσμός είναι πολύ μεγάλος, είναι σχετικά δύσκολο να προσδιορίσουμε όλα τα αντικείμενα του πληθυσμού, με αποτέλεσμα η δειγματοληψία να είναι μεροληπτική. Υπάρχει αρκετά μεγάλο σφάλμα εκτίμησης, ίσο με 1 e = N σε επίπεδο σημαντικότητας 95% Μπορούμε να χρησιμοποιήσουμε λογισμικό όπως η R, για να δημιουργήσουμε τυχαίους αριθμούς για την επιλογή των αντικειμένων

Τυχαία δειγματοληψία

Συστηματική δειγματοληψία Στη συστηματική δειγματοληψία : Χρειαζόμαστε ένα δειγματοληπτικό πλαίσιο, ταξινομημένο ως προς το χαρακτηριστικό που μας ενδιαφέρει. Αν θελήσουμε ένα δείγμα n από έναν πληθυσμό Ν, χρησιμοποιούμε τον τύπο Ν n n 1 + χ, όπου χ 1, Ν n Μπορούμε να χρησιμοποιήσουμε λογισμικό όπως η R, για να δημιουργήσουμε τυχαίους αριθμούς για την επιλογή των αντικειμένων

Στρωματοποιημένη δειγματοληψία Στη στρωματοποιημένη δειγματοληψία : Κάθε τμήμα (στρώμα) του πληθυσμού αντιπροσωπεύεται. Πρέπει να υπάρχει δειγματοληπτικό πλαίσιο. Γίνεται απλή τυχαία δειγματοληψία σε κάθε στρώμα (strata) Διακρίνεται σε αναλογική, όπου το μέγεθος του τμήματος του πληθυσμού καθορίζει και τον αριθμό των ατόμων που επιλέγονται από το συγκεκριμένο τμήμα και μη αναλογική όπου το μέγεθος είναι ίδιο σε όλα τα τμήματα.

Επεξηγηματική μεταβλητή Πίνακας συνάφειας (contingency table) Είναι πίνακας που παρουσιάζει όλους τους συνδυασμούς των τιμών της επεξηγηματικής και της μεταβλητές απόκρισης Αριθμοί των κελιών αντιπροσωπεύουν τον αριθμό των περιπτώσεων Τα αθροίσματα των στηλών και γραμμών ονομάζονται οριακά αθροίσματα (marginal totals) Μεταβλητή απόκρισης Θετικό αποτέλεσμα Αρνητικό αποτέλεσμα Σύνολο ομάδας Ομάδα 1 n 11 n 12 n 1. Ομάδα 2 n 21 n 22 n 2. Σύνολο αποτελέσματος n.1 n.2 n..

Πίνακας συνάφειας ενός ταξινομητή Αποτέλεσμα Θετικά Αρνητικά Συνθήκη (Gold Standard) Θετικά Αληθώς θετικό Ψευδώς Αρνητικό (Σφάλμα Τύπου II ) Αρνητικά Ψευδώς Θετικό (Σφάλμα Τύπου I) Αληθώς Αρνητικό Σε ένα διαγνωστικό έλεγχο θέλουμε να ανιχνεύουμε το χαρακτηριστικό όταν υπάρχει (true positive) και να μην το ανιχνεύουμε όταν δεν υπάρχει (true negative)

Ευαισθησία (Sensitivity) - Ειδικότητα (Specificity) Η ευαισθησία περιγράφει το ποσοστό των πραγματικά θετικών αποτελεσμάτων και ορίζεται ως Ευαισθησία = Αληθώς Θετικά Αληθώς Θετικά + Ψευδώς Αρνητικά Η ειδικότητα περιγράφει το ποσοστό των πραγματικά αρνητικών αποτελεσμάτων και ορίζεται ως Ειδικότητα = Αληθώς Αρνητικά Αληθώς Αρνητικά + Ψευδώς Θετικά

Ορθότητα (accuracy) και ακρίβεια (precision) Η ακρίβεια αναφέρεται στο πόσο κοντά είναι το αποτέλεσμα με την πραγματικότητα Ορθότητα = Αληθώς Θετικά + Αληθώς Αρνητικά Ν Η ορθότητα αναφέρεται στο δυνατότητα του διαγνωστικού ελέγχου να ανιχνεύσει την πραγματικότητα Ακρίβεια = Αληθώς Θετικά Αληθώς Θετικά + Ψευδώς Θετικά

Ανάκληση (recall) και F1-score Η ανάκληση αναφέρεται στο ποσοστό ανάκληση = Αληθώς Θετικά Αληθώς Θετικά + Αληθώς Αρνητικά Το F1-score αναφέρεται στην ακρίβεια πρόγνωσης ενός ταξινομητή F1 score = 2 Ορθότητα Ακρίβεια Ορθότητα+Ακρίβεια

Αριθμός περιπτώσεων Ευαισθησία (Sensitivity) - Ειδικότητα (Specificity) Τι πραγματικά σημβαίνει Σημείο κατώφλι Ανήκουν στην κλάση : Δεν ανήκουν στην κλάση: TP Αληθώς θετικά Αληθώς αρνητικά Ψευδώς θετικά Ψευδώς FP αρνητικά ελάττωση ευαισθησίας αύξηση ειδικότητας αύξηση ευαισθησίας ελάττωση ειδικότητας

Χαρακτηριστική καμπύλη λειτουργίας (Receiver operator curve) Είναι γραφική αναπαράσταση της ευαισθησίας προς το 1-ειδικότητα Εύκολος τρόπος να βρούμε τις επιθυμητές διαγνωστικές τιμές ενός ελέγχου Επιθυμητό Ανεπιθύμητο

Εμβαδόν χαρακτηριστικής καμπύλης λειτουργίας (AUC) Δείχνει την αποτελεσματικότητα ενός διαγνωστικού ελέγχου Εύκολος τρόπος να βρούμε τις επιθυμητές διαγνωστικές τιμές Ισοδυναμεί με τον έλεγχο Wilcoxon

Παράδειγμα Ποιές από τις δύο μεθόδους εξόρυξης δεδομένων Α και Β είναι καλύτερή όταν AUC A = AUC B

Συντελεστής αξιοπιστίας του Cohen Μετρά την αξιοπιστία μεταξύ δύο ή περισσοτέρων τεχνικών στον «ίδιο» χρόνο Παίρνει τιμές μεταξύ 0 (καμία ταύτιση) και 1 (πλήρη ταύτιση) όπου Pr(a) η πιθανότητα συμφωνίας και Pr(e) η πιθανότητα τυχαίας συμφωνίας

Συντελεστής αξιοπιστίας του Cohen (συνέχεια) Όταν έχουμε διατακτικά (ordinal) δεδομένα τότε μπορούμε δώσουμε συντελεστές βαρύτητας σε κάθε επίπεδο Ο συντελεστής του Cohen υπολογίζεται ως εξής : m m Pr a = 1 N w ij n ij και i=1 m j=1 m Pr e = 1 N 2 w ijc i r j με m i=1 j=1 m c i = n ij και r j = n ij j=1 i=1

Συντελεστής αξιοπιστίας του Cohen (συνέχεια) Τιμή κ Ερμηνεία <0.20 Φτωχή (Poor) 0.21 0.40 Κάποια (Fair) 0.41 0.60 Μέτρια (Moderate) 0.61 0.80 Καλή (Good) 0.81 1.00 Πολύ καλή (Very good) http://ptjournal.apta.org/content/85/3/257.full.pdf+html

Εκτίμηση ακρίβειας μηχανών εκμάθησης Μας απασχολεί η Αποτίμηση του λάθους εκπαίδευσης (training error) Εκτίμηση του λάθους ελέγχου (test error) Εκτίμηση του λάθους γενίκευσης (generalization error) Χρησιμοποιούμε μη-επαναληπτική τυχαία δειγματοληψία (resampling) γιατί από το σύνολο δεδομένων εκπαίδευσης γιατί : Δεν χρησιμοποιούμε το ίδιο δείγμα για να υπολογίσουμε το λάθος εκπαίδευσης και το λάθος ελέγχου

Εκτίμηση ακρίβειας μηχανών εκμάθησης https://alliance.seas.upenn.edu/~cis520/dynamic/2014/wiki/index.php?n=lectures.overfitting

Εκτίμηση ακρίβειας μηχανών εκμάθησης Η τεχνική που ακολουθούμε για να εκτιμήσουμε το λάθος ελέγχου είναι η παρακάτω : Χωρίζουμε τα δεδομένα μας με τυχαίο τρόπο σε δύο υποσύνολα Το υποσύνολο εκμάθησης, που χρησιμοποιείται για να «εκπαιδεύσουμε» την μηχανή εκμάθησης Το υποσύνολο εκτίμησης (validation set) ή υποσύνολο παρακράτησης (hold-out set) για να εκτιμήσουμε το λάθος ελέγχου, δηλ την απόκριση της λάθους της μηχανής εκμάθησης σε νέα δεδομένα εκτός του συνόλου εκμάθησης.

Εκτίμηση ακρίβειας μηχανών εκμάθησης Το λάθος ελέγχου εκτιμάται από το μέσο τετράγωνο του σφάλματος (Mean Squared Error MSE) αν έχουμε η μεταβλητή απόκρισης είναι συνεχής ή τον ρυθμό λανθασμένης κατηγοριοποίησης (Misclassification Rate - MR) αν η μεταβλητή απόκρισης είναι διακριτή. Πραγματική τιμή (Π) Εκτιμώμενη τιμή (Ε) SE = Π Ε 2 MR= N E N MSE = SE N

Εκτίμηση ακρίβειας μηχανών εκμάθησης Μεταβλητότητα της μεθόδου παρακράτησης

Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation) Σύνηθες διαδικασία εκτίμησης του λάθους ελέγχου Οι εκτιμήσεις του σφάλματος μπορεί να χρησιμοποιηθούν για την επιλογή του καλύτερου μοντέλου και μια καλύτερη εκτίμηση του λάθους ελέγχου του τελικού μοντέλου. Η τεχνική είναι η εξής: Με τυχαίο τρόπο χωρίζουμε τα δεδομένα μας σε Κ ισοπληθή υποσύνολα Χρησιμοποιούμε τα Κ-1 υποσύνολα για να εκπαιδεύσουμε την μηχανή εκμάθησης Τα Κ υποσύνολο το χρησιμοποιούμε για να υπολογίσουμε το λάθος ελέγχου Επαναλαμβάνουμε για τα κ = 1,2,,Κ υποσύνολα Υπολογίζουμε το τελικό λάθος ελέγχου 30

Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation) Σπάμε το σύνολο εκμάθησης σε υποσύνολα ίδιας πληθυκότητας Κρατάμε ένα σύνολο για έλεγχο σφάλματος και τα υπόλοιπα τα χρησιμοποιούμε για να εκπαιδεύσουμε την μηχανή εκμάθησης Test Επαναλαμβάνουμε 31 31

Συνήθως χρησιμοποιούμε Κ=10 και αν είναι δυνατόν κάνουμε στρωματοποιημένη δειγματοληψία Γιατί 10; Εκτενή πειράματα έχουν δείξει ότι είναι η καλύτερη επιλογή αριθμού υποσυνόλων για να έχουν την ακριβέστερη εκτίμηση του λάθους ελέγχου Η στρωμάτωση κατά την επιλογή των υποσυνόλων μειώνει τη μεταβλητότητα της εκτίμησης Ακόμη καλύτερη τεχνική : Επαναλαμβανόμενη 10-πλή στρωματοποιημένη κατατμημένη επαλήθευση 32 Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation) πχ. Η 10-πλή στρωματοποιημένη κατατμημένη επαλήθευση επαναλαμβάνεται δέκα (10) φορές Για Κ=N έχουμε μια ειδική μορφή επαλήθευσης, την Leave- One-Out Cross Validation (LOOCV)

Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation)

Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation) Ας εφαρμόσουμε την τεχνική επαλήθευσης με 10-πλή κατάτμηση: 1. Στην αρχή έχουμε 5000 μεταβλητές και 50 δείγματα. Θέλουμε να βρούμε τις 100 καλύτερες μεταβλητές που έχουν την μεγαλύτερη προβλεψιμότητα σε σχέση με την κλάση στην οποία ανήκει η εξαρτημένη μεταβλητή μας. 2. Στην συνέχεια εφαρμόζουμε τη λογιστική παλινδρόμηση στις 100 ανεξάρτητες μεταβλητές. Σε ποιο βήμα εφαρμόζουμε την τεχνική επαλήθευσης με 10-πλή κατάτμηση; Μόνο στο βήμα 1 Μόνο στο βήμα 2 Και στα δύο βήματα Και στα δύο βήματα Δεν μπορεί να εφαρμοστεί σε κανένα βήμα.

Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation) Αν εφαρμόσουμε τη διαδικασία μόνο στο βήμα 2, τότε αγνοούμε παντελώς το γεγονός ότι στο βήμα 1, η διαδικασία επιλογής των 100 καλύτερων μεταβλητών έχει ήδη εφαρμοστεί στα δεδομένα εκμάθησης. Επειδή αυτό είναι μια μορφή εκμάθησης, θα πρέπει να εφαρμόσουμε και εδώ το μέρος ελέγχου για να έχουμε μια ακριβή εκτίμηση του λάθους ελέγχου Αν κάνουμε μια προσομοίωση ώστε το πραγματικό λάθος να είναι ίσο 50%, βρίσκουμε ότι το εκτιμώμενο λάθος ελέγχου όταν η τεχνική επαλήθευσης δεν περιλαμβάνει το βήμα 1, είναι μηδέν!

Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation)

Ευχαριστώ Πασχάλης Θρήσκος PhD pthriskos@mnec.gr