LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Σχετικά έγγραφα
Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Δειγματοληψία στην Ερευνα. Ετος

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

Kruskal-Wallis H

ΛΟΗ Β. PDF created with pdffactory trial version

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

Μεθοδολογία της έρευνας και Ιατρική στατιστική

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. Ι. Δημόπουλος, Καθηγητής, Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών-ΤΕΙ Πελοποννήσου

Βιοστατιστική Ι. Δείκτες αξιολόγησης διαγνωστικών μεθόδων Θετική-Αρνητική Διαγνωστική Αξία ROC καμπύλες

Χημική Τεχνολογία. Ενότητα 1: Στατιστική Επεξεργασία Μετρήσεων. Ευάγγελος Φουντουκίδης Τμήμα Μηχανολόγων Μηχανικών Τ.Ε.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ: ΣΤΑΤΙΣΤΙΚΗ ΕΝΟΤΗΤΑ: Εισαγωγικές Έννοιες ΟΝΟΜΑ ΚΑΘΗΓΗΤΗ: ΦΡ. ΚΟΥΤΕΛΙΕΡΗΣ ΤΜΗΜΑ: Τμήμα Διαχείρισης Περιβάλλοντος και Φυσικών Πόρων

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

ΤΕΧΝΙΚΕΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ ΓΕΩΡΓΙΟΣ ΛΑΓΟΥΜΙΝΤΖΗΣ, ΒΙΟΧΗΜΙΚΟΣ, PHD ΙΑΤΡΙΚΗΣ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

11. ΣΤΑΤΙΣΤΙΚΕΣ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Περιεχόμενα. Πρόλογος... 15

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 3 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου

ΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ. Γρηγόρης Χλουβεράκης, Ph.D. Αναπληρωτής Καθηγητής Πανεπιστήμιο Κρήτης

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

Ενότητα 1: Πληθυσμός και δείγμα Είδη Μεταβλητών - Περιγραφική στατιστική

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

Ερευνητική υπόθεση. Η ερευνητική υπόθεση αναφέρεται σε μια συγκεκριμένη πρόβλεψη σχετικά με τη σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές.

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο

Μελέτες Διαγνωστικής Ακρίβειας

Ενότητα 2: Μέθοδοι δειγματοληψίας & Εισαγωγή στην Περιγραφική Στατιστική

Γ. Πειραματισμός Βιομετρία

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Γ. Πειραματισμός - Βιομετρία

Στατιστική Ι. Ενότητα 8: Επαγωγική Στατιστική. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ


ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Διαστήματα εμπιστοσύνης. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

3. ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratified Random Sampling)

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 6. Δειγματοληψία 6-1

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

University of Cyprus Optical Diagnostics Laboratory. ΗΜΥ 370 Εισαγωγή στη Βιοϊατρική Μηχανική. Κλινικές Μελέτες και Βιοστατιστική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Η μέθοδος των βοηθητικών μεταβλητών. Παπάνα Αγγελική

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

ΔΙΑΓΝΩΣΤΙΚΈΣ ΔΟΚΙΜΑΣΊΕΣ

ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ

Εισαγωγή στην Εκτιμητική

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Βιοστατιστική ΒΙΟ-309

Εισόδημα Κατανάλωση

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ Δειγµατοληψια. Καθηγητής Α. Καρασαββόγλου Επίκουρος Καθηγητής Π. Δελιάς

Μαθησιακοί στόχοι κεφαλαίου

Εισαγωγή - Πειραματικοί Σχεδιασμοί. Κατσιλέρος Αναστάσιος

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Αναγνώριση Προτύπων Ι

Θέμα 1 ο (ΜΑΪΟΣ 2004, ΜΑΪΟΣ 2008) Να δείξετε ότι η παράγωγος της σταθερής συνάρτησης f (x) = c είναι (c) = 0. Απόδειξη

Στατιστική Συμπερασματολογία

Βιοστατιστική ΒΙΟ-309

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

Διαστήματα Εμπιστοσύνης

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Μεθοδολογία Έρευνας Διάλεξη 6 η : Μέθοδοι Δειγματοληψίας

Στατιστική Ι. Ενότητα 2: Στατιστική Ι (2/4) Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη)

Είδη Μεταβλητών. κλίµακα µέτρησης

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΜΕΡΟΣ Α Κάθε µια από τις παρακάτω φράσεις (1α, 1β, 1γ, 2α κτλ) µπορεί να είναι σωστή ή λανθασµένη. Ποιες είναι σωστές και ποιες όχι;

ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ

Κεφάλαιο 9. Έλεγχοι υποθέσεων

1.α ιαγνωστικοί Έλεγχοι. 2.α Ευαισθησία και Ειδικότητα (εισαγωγικές έννοιες) ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. Πολύ σηµαντικό το θεώρηµα του Bayes:

Transcript:

Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO

Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός Παρατήρηση N x N i i 2 1 2 ( ) N x N i 1 Παράμετροι πληθυσμού 1 ) ( 2 1 2 n X x s n n i i n x X n i 1 Στατιστικές δείγματος

Διάστημα Εμπιστοσύνης (confidence interval) Η τιμή της στατιστικής στο δείγμα Σημειακή εκτίμηση (πόσο σίγουροι θέλουμε να είμαστε στην εκτίμηση) (τυπική απόκλιση) Τιμές z-κατανομής ή t-κατανομής Τυπική απόκλιση της στατιστικής.

Δειγματοληψία Ένα δείγμα είναι ένα «μικρό» και καλώς εχόντων αντιπροσωπευτικό σύνολο αντικειμένων από έναν πληθυσμό που χρησιμοποιείται για να εκτιμήσουμε αλήθειες για τον πληθυσμό (Field, 2005) Γιατί ; Πόρους (χρόνο, χρήμα) και ποσότητα δουλειάς Παίρνουμε αποτελέσματα με γνωστή ακρίβεια η οποία μπορεί να υπολογισθεί με μαθηματικό τρόπο

Δειγματοληψία Πληθυσμός είναι το σύνολο των αντικειμένων για τα οποία θέλουμε να εξάγουμε κάποιο αποτέλεσμα Δειγματοληπτικός πληθυσμός είναι ένα υποσύνολο του πληθυσμού που δυνητικά μπορεί να συμπεριληφθεί στη δειγματοληψία Το πλαίσιο δειγματοληψία είναι μια καταγραφή του πληθυσμού με την βοήθεια του οποίου θα διεξάγουμε την έρευνα Μονάδα παρατήρησης είναι το αντικείμενο του πληθυσμού για το οποίο καταγράφουμε τα χαρακτηριστικά που μας ενδιαφέρουν Μέγεθος του δείγματος είναι ο αριθμός των αντικειμένων του πληθυσμού που θα πρέπει να επιλέξουμε ώστε να εξάγουμε σωστό αποτέλεσμα

Τυχαία δειγματοληψία Μη-Τυχαία Δειγματοληψία Τυχαία δειγματοληψία : κάθε αντικείμενο του πληθυσμού έχει μια γνωστή εκ των προτέρων πιθανότητα να επιλεγούν Γνωστές μέθοδοι είναι η τυχαία δειγματοληψία, συστηματική δειγματοληψία και στρωματοποιημένη δειγματοληψία. Μη-τυχαία δειγματοληψία : κάθε αντικείμενο του πληθυσμού επιλέγεται με ένα μη-τυχαίο τρόπο : Γνωστές μέθοδοι είναι δειγματοληψία ευκολίας

Τυχαία δειγματοληψία Στην τυχαία δειγματοληψία : Κάθε αντικείμενο του πληθυσμού έχει την ίδια πιθανότητα να επιλεγεί. Όταν ο πληθυσμός είναι πολύ μεγάλος, είναι σχετικά δύσκολο να προσδιορίσουμε όλα τα αντικείμενα του πληθυσμού, με αποτέλεσμα η δειγματοληψία να είναι μεροληπτική. Υπάρχει αρκετά μεγάλο σφάλμα εκτίμησης, ίσο με 1 e = N σε επίπεδο σημαντικότητας 95% Μπορούμε να χρησιμοποιήσουμε λογισμικό όπως η R, για να δημιουργήσουμε τυχαίους αριθμούς για την επιλογή των αντικειμένων

Τυχαία δειγματοληψία

Τυχαία δειγματοληψία

Συστηματική δειγματοληψία Στη συστηματική δειγματοληψία : Χρειαζόμαστε ένα δειγματοληπτικό πλαίσιο, ταξινομημένο ως προς το χαρακτηριστικό που μας ενδιαφέρει. Αν θελήσουμε ένα δείγμα n από έναν πληθυσμό Ν, χρησιμοποιούμε τον τύπο Ν n n 1 + χ, όπου χ 1, Ν n Μπορούμε να χρησιμοποιήσουμε λογισμικό όπως η R, για να δημιουργήσουμε τυχαίους αριθμούς για την επιλογή των αντικειμένων

Στρωματοποιημένη δειγματοληψία Στη στρωματοποιημένη δειγματοληψία : Κάθε τμήμα (στρώμα) του πληθυσμού αντιπροσωπεύεται. Πρέπει να υπάρχει δειγματοληπτικό πλαίσιο. Γίνεται απλή τυχαία δειγματοληψία σε κάθε στρώμα (strata) Διακρίνεται σε αναλογική, όπου το μέγεθος του τμήματος του πληθυσμού καθορίζει και τον αριθμό των ατόμων που επιλέγονται από το συγκεκριμένο τμήμα και μη αναλογική όπου το μέγεθος είναι ίδιο σε όλα τα τμήματα.

Επεξηγηματική μεταβλητή Πίνακας συνάφειας (contingency table) Είναι πίνακας που παρουσιάζει όλους τους συνδυασμούς των τιμών της επεξηγηματικής και της μεταβλητές απόκρισης Αριθμοί των κελιών αντιπροσωπεύουν τον αριθμό των περιπτώσεων Τα αθροίσματα των στηλών και γραμμών ονομάζονται οριακά αθροίσματα (marginal totals) Μεταβλητή απόκρισης Θετικό αποτέλεσμα Αρνητικό αποτέλεσμα Σύνολο ομάδας Ομάδα 1 n 11 n 12 n 1. Ομάδα 2 n 21 n 22 n 2. Σύνολο αποτελέσματος n.1 n.2 n..

Πίνακας συνάφειας ενός ταξινομητή Αποτέλεσμα Θετικά Αρνητικά Συνθήκη (Gold Standard) Θετικά Αληθώς θετικό Ψευδώς Αρνητικό (Σφάλμα Τύπου II ) Αρνητικά Ψευδώς Θετικό (Σφάλμα Τύπου I) Αληθώς Αρνητικό Σε ένα διαγνωστικό έλεγχο θέλουμε να ανιχνεύουμε το χαρακτηριστικό όταν υπάρχει (true positive) και να μην το ανιχνεύουμε όταν δεν υπάρχει (true negative)

Ευαισθησία (Sensitivity) - Ειδικότητα (Specificity) Η ευαισθησία περιγράφει το ποσοστό των πραγματικά θετικών αποτελεσμάτων και ορίζεται ως Ευαισθησία = Αληθώς Θετικά Αληθώς Θετικά + Ψευδώς Αρνητικά Η ειδικότητα περιγράφει το ποσοστό των πραγματικά αρνητικών αποτελεσμάτων και ορίζεται ως Ειδικότητα = Αληθώς Αρνητικά Αληθώς Αρνητικά + Ψευδώς Θετικά

Ορθότητα (accuracy) και ακρίβεια (precision) Η ακρίβεια αναφέρεται στο πόσο κοντά είναι το αποτέλεσμα με την πραγματικότητα Ορθότητα = Αληθώς Θετικά + Αληθώς Αρνητικά Ν Η ορθότητα αναφέρεται στο δυνατότητα του διαγνωστικού ελέγχου να ανιχνεύσει την πραγματικότητα Ακρίβεια = Αληθώς Θετικά Αληθώς Θετικά + Ψευδώς Θετικά

Ανάκληση (recall) και F1-score Η ανάκληση αναφέρεται στο ποσοστό ανάκληση = Αληθώς Θετικά Αληθώς Θετικά + Αληθώς Αρνητικά Το F1-score αναφέρεται στην ακρίβεια πρόγνωσης ενός ταξινομητή F1 score = 2 Ορθότητα Ακρίβεια Ορθότητα+Ακρίβεια

Αριθμός περιπτώσεων Ευαισθησία (Sensitivity) - Ειδικότητα (Specificity) Τι πραγματικά σημβαίνει Σημείο κατώφλι Ανήκουν στην κλάση : Δεν ανήκουν στην κλάση: TP Αληθώς θετικά Αληθώς αρνητικά Ψευδώς θετικά Ψευδώς FP αρνητικά ελάττωση ευαισθησίας αύξηση ειδικότητας αύξηση ευαισθησίας ελάττωση ειδικότητας

Χαρακτηριστική καμπύλη λειτουργίας (Receiver operator curve) Είναι γραφική αναπαράσταση της ευαισθησίας προς το 1-ειδικότητα Εύκολος τρόπος να βρούμε τις επιθυμητές διαγνωστικές τιμές ενός ελέγχου Επιθυμητό Ανεπιθύμητο

Εμβαδόν χαρακτηριστικής καμπύλης λειτουργίας (AUC) Δείχνει την αποτελεσματικότητα ενός διαγνωστικού ελέγχου Εύκολος τρόπος να βρούμε τις επιθυμητές διαγνωστικές τιμές Ισοδυναμεί με τον έλεγχο Wilcoxon

Παράδειγμα Ποιές από τις δύο μεθόδους εξόρυξης δεδομένων Α και Β είναι καλύτερή όταν AUC A = AUC B

Συντελεστής αξιοπιστίας του Cohen Μετρά την αξιοπιστία μεταξύ δύο ή περισσοτέρων τεχνικών στον «ίδιο» χρόνο Παίρνει τιμές μεταξύ 0 (καμία ταύτιση) και 1 (πλήρη ταύτιση) όπου Pr(a) η πιθανότητα συμφωνίας και Pr(e) η πιθανότητα τυχαίας συμφωνίας

Συντελεστής αξιοπιστίας του Cohen (συνέχεια) Όταν έχουμε διατακτικά (ordinal) δεδομένα τότε μπορούμε δώσουμε συντελεστές βαρύτητας σε κάθε επίπεδο Ο συντελεστής του Cohen υπολογίζεται ως εξής : m m Pr a = 1 N w ij n ij και i=1 m j=1 m Pr e = 1 N 2 w ijc i r j με m i=1 j=1 m c i = n ij και r j = n ij j=1 i=1

Συντελεστής αξιοπιστίας του Cohen (συνέχεια) Τιμή κ Ερμηνεία <0.20 Φτωχή (Poor) 0.21 0.40 Κάποια (Fair) 0.41 0.60 Μέτρια (Moderate) 0.61 0.80 Καλή (Good) 0.81 1.00 Πολύ καλή (Very good) http://ptjournal.apta.org/content/85/3/257.full.pdf+html

Εκτίμηση ακρίβειας μηχανών εκμάθησης Μας απασχολεί η Αποτίμηση του λάθους εκπαίδευσης (training error) Εκτίμηση του λάθους ελέγχου (test error) Εκτίμηση του λάθους γενίκευσης (generalization error) Χρησιμοποιούμε μη-επαναληπτική τυχαία δειγματοληψία (resampling) γιατί από το σύνολο δεδομένων εκπαίδευσης γιατί : Δεν χρησιμοποιούμε το ίδιο δείγμα για να υπολογίσουμε το λάθος εκπαίδευσης και το λάθος ελέγχου

Εκτίμηση ακρίβειας μηχανών εκμάθησης https://alliance.seas.upenn.edu/~cis520/dynamic/2014/wiki/index.php?n=lectures.overfitting

Εκτίμηση ακρίβειας μηχανών εκμάθησης Η τεχνική που ακολουθούμε για να εκτιμήσουμε το λάθος ελέγχου είναι η παρακάτω : Χωρίζουμε τα δεδομένα μας με τυχαίο τρόπο σε δύο υποσύνολα Το υποσύνολο εκμάθησης, που χρησιμοποιείται για να «εκπαιδεύσουμε» την μηχανή εκμάθησης Το υποσύνολο εκτίμησης (validation set) ή υποσύνολο παρακράτησης (hold-out set) για να εκτιμήσουμε το λάθος ελέγχου, δηλ την απόκριση της λάθους της μηχανής εκμάθησης σε νέα δεδομένα εκτός του συνόλου εκμάθησης.

Εκτίμηση ακρίβειας μηχανών εκμάθησης Το λάθος ελέγχου εκτιμάται από το μέσο τετράγωνο του σφάλματος (Mean Squared Error MSE) αν έχουμε η μεταβλητή απόκρισης είναι συνεχής ή τον ρυθμό λανθασμένης κατηγοριοποίησης (Misclassification Rate - MR) αν η μεταβλητή απόκρισης είναι διακριτή. Πραγματική τιμή (Π) Εκτιμώμενη τιμή (Ε) SE = Π Ε 2 MR= N E N MSE = SE N

Εκτίμηση ακρίβειας μηχανών εκμάθησης Μεταβλητότητα της μεθόδου παρακράτησης

Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation) Σύνηθες διαδικασία εκτίμησης του λάθους ελέγχου Οι εκτιμήσεις του σφάλματος μπορεί να χρησιμοποιηθούν για την επιλογή του καλύτερου μοντέλου και μια καλύτερη εκτίμηση του λάθους ελέγχου του τελικού μοντέλου. Η τεχνική είναι η εξής: Με τυχαίο τρόπο χωρίζουμε τα δεδομένα μας σε Κ ισοπληθή υποσύνολα Χρησιμοποιούμε τα Κ-1 υποσύνολα για να εκπαιδεύσουμε την μηχανή εκμάθησης Τα Κ υποσύνολο το χρησιμοποιούμε για να υπολογίσουμε το λάθος ελέγχου Επαναλαμβάνουμε για τα κ = 1,2,,Κ υποσύνολα Υπολογίζουμε το τελικό λάθος ελέγχου 30

Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation) Σπάμε το σύνολο εκμάθησης σε υποσύνολα ίδιας πληθυκότητας Κρατάμε ένα σύνολο για έλεγχο σφάλματος και τα υπόλοιπα τα χρησιμοποιούμε για να εκπαιδεύσουμε την μηχανή εκμάθησης Test Επαναλαμβάνουμε 31 31

Συνήθως χρησιμοποιούμε Κ=10 και αν είναι δυνατόν κάνουμε στρωματοποιημένη δειγματοληψία Γιατί 10; Εκτενή πειράματα έχουν δείξει ότι είναι η καλύτερη επιλογή αριθμού υποσυνόλων για να έχουν την ακριβέστερη εκτίμηση του λάθους ελέγχου Η στρωμάτωση κατά την επιλογή των υποσυνόλων μειώνει τη μεταβλητότητα της εκτίμησης Ακόμη καλύτερη τεχνική : Επαναλαμβανόμενη 10-πλή στρωματοποιημένη κατατμημένη επαλήθευση 32 Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation) πχ. Η 10-πλή στρωματοποιημένη κατατμημένη επαλήθευση επαναλαμβάνεται δέκα (10) φορές Για Κ=N έχουμε μια ειδική μορφή επαλήθευσης, την Leave- One-Out Cross Validation (LOOCV)

Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation)

Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation) Ας εφαρμόσουμε την τεχνική επαλήθευσης με 10-πλή κατάτμηση: 1. Στην αρχή έχουμε 5000 μεταβλητές και 50 δείγματα. Θέλουμε να βρούμε τις 100 καλύτερες μεταβλητές που έχουν την μεγαλύτερη προβλεψιμότητα σε σχέση με την κλάση στην οποία ανήκει η εξαρτημένη μεταβλητή μας. 2. Στην συνέχεια εφαρμόζουμε τη λογιστική παλινδρόμηση στις 100 ανεξάρτητες μεταβλητές. Σε ποιο βήμα εφαρμόζουμε την τεχνική επαλήθευσης με 10-πλή κατάτμηση; Μόνο στο βήμα 1 Μόνο στο βήμα 2 Και στα δύο βήματα Και στα δύο βήματα Δεν μπορεί να εφαρμοστεί σε κανένα βήμα.

Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation) Αν εφαρμόσουμε τη διαδικασία μόνο στο βήμα 2, τότε αγνοούμε παντελώς το γεγονός ότι στο βήμα 1, η διαδικασία επιλογής των 100 καλύτερων μεταβλητών έχει ήδη εφαρμοστεί στα δεδομένα εκμάθησης. Επειδή αυτό είναι μια μορφή εκμάθησης, θα πρέπει να εφαρμόσουμε και εδώ το μέρος ελέγχου για να έχουμε μια ακριβή εκτίμηση του λάθους ελέγχου Αν κάνουμε μια προσομοίωση ώστε το πραγματικό λάθος να είναι ίσο 50%, βρίσκουμε ότι το εκτιμώμενο λάθος ελέγχου όταν η τεχνική επαλήθευσης δεν περιλαμβάνει το βήμα 1, είναι μηδέν!

Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation)

Κ-πλη κατατετμημένη επαλήθευση (K-fold Cross-validation)

Ευχαριστώ Πασχάλης Θρήσκος PhD pthriskos@mnec.gr