Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σχετικά έγγραφα
Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Αναγνώριση Προτύπων Ι

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

HMY 795: Αναγνώριση Προτύπων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

5. Έλεγχοι Υποθέσεων

ΔΙΑΓΝΩΣΤΙΚΈΣ ΔΟΚΙΜΑΣΊΕΣ

Στατιστική λήψη αποφάσεων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

3. Κατανομές πιθανότητας

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

HMY 795: Αναγνώριση Προτύπων

Κεφάλαιο 9. Έλεγχοι υποθέσεων

HMY 795: Αναγνώριση Προτύπων

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Στατιστική. Εκτιμητική

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Διαστήματα Εμπιστοσύνης

HMY 795: Αναγνώριση Προτύπων

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Αναγνώριση Προτύπων Ι

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ

ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ

Μέθοδος μέγιστης πιθανοφάνειας

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 3 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Δειγματοληψία στην Ερευνα. Ετος

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΣΑΣΙΣΙΚΗ. Ακαδ. Έτος Βασίλης ΚΟΤΣΡΑ. Διδάσκων: Διδάσκων επί Συμβάσει Π.Δ 407/80.

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test

Στατιστική Συμπερασματολογία

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2011 για τα Τμήματα Ε.Τ.Τ. και Γ.Β. στη Στατιστική 25/02/2011

ΦΡΟΝΤΙΣΤΗΡΙΑ 7 ΚΑΙ 8

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Τμήμα Μαθηματικό & Τμήμα Μηχανικών Η/Υ & Πληροφορικής ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ. «Τα Μαθηματικά των Υπολογιστών και των Αποφάσεων»

Επιλογή χαρακτηριστικών

Μέθοδος μέγιστης πιθανοφάνειας

HMY 795: Αναγνώριση Προτύπων

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

X = = 81 9 = 9

Εισαγωγή στην Εκτιμητική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Στατιστικοί πίνακες. Δημιουργία κλάσεων

ΚΕΦΑΛΑΙΟ 4ο ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΑΠΟ ΣΥΝΕΧΕΙΣ ΚΑΙ ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΚΕΦΑΛΑΙΟ 4 Η ΑΡΧΗ ΕΓΚΛΕΙΣΜΟΥ ΑΠΟΚΛΕΙΣΜΟΥ

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Στατιστική Συμπερασματολογία

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Στατιστική Επιχειρήσεων ΙΙ

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΕΛΕΓΧΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ. Επαγωγική στατιστική (Στατιστική Συμπερασματολογία) Εκτιμητική Έλεγχος Στατιστικών Υποθέσεων

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Στατιστική Συμπερασματολογία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις στο μάθημα ΠΙΘΑΝΟΤΗΤΕΣ Ι

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ

Αριθμητική Ολοκλήρωση της Εξίσωσης Κίνησης

Α Ν Α Λ Τ Η Α Λ Γ Ο Ρ Ι Θ Μ Ω Ν Κ Ε Υ Α Λ Α Ι Ο 5. Πως υπολογίζεται ο χρόνος εκτέλεσης ενός αλγορίθμου;

HMY 795: Αναγνώριση Προτύπων

Transcript:

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2 1

M = 1 N = N prob k N k { k n ω wrongly classfed} = (1 ) N k 2

Η συνάρτηση πιθανοφάνειας L(p) μεγιστοποιείται όταν =k/n. 3

Αφού τα s είναι άγνωστα, εκτιμούνται μέσω της μεγιστοποίησης συνάρτησης πιθανοφάνειας της παραπάνω διωνυμικής κατανομής και προκύπτει ότι k ˆ = N Δηλ. είναι ο αριθμός των λανθασμένα ταξινομημένων διανυσμάτων προς τον αριθμό των διανυσμάτων δοκιμής της εν λόγω κλάσης. Συνολική πιθανότητα λάθους ˆ = M = 1 ( ω ) k N

5 N k E = ] [ = = = Ε M p E 1 ) ( ˆ] [ τσι, ω k N ) (1 2 = σ = = M p N 1 2 2 ˆ ) (1 (ω ) σ N 100 3000 0.03, 10000. 0.01,, Γ Ε N N ια για τσι

Εκμεταλλευόμενοι το πεπερασμένου μεγέθους σύνολο δοκιμής. Μέθοδος επανατοποθέτησης (Resubsttuton method): Χρησιμοποίησε τα ίδια δεδομένα για εκπαίδευση και δοκιμή. Έχουμε υποεκτίμηση του σφάλματος. Η εκτίμηση βελτιώνεται για μεγάλες τιμές του N και μεγάλες τιμές του λόγου Ν/l. Holdout Method: Δοθέντος συνόλου N διανυσμάτων χώρισέ τα σε: N 1 : διανύσματα εκπαίδευσης N 2 : διανύσματα δοκιμής N=N 1 +N 2 Πρόβλημα: Λιγότερα δεδομένα τόσο για εκπαίδευση, όσο και γα δοκιμή.

Leave-one-out Method Τα βήματα: ΑΞΙΟΛΟΓΗΣΗ ΤΑΞΙΝΟΜΗΤΗ Επέλεξε ένα από τα Ν δείγματα. Εκπαίδευσε τον ταξινομητή χρησιμοποιώντας τα υπόλοιπα N-1 δείγματα. Έλεγξε την απόδοση του ταξινομητή χρησιμοποιώντας το επιλεγμένο δείγμα. Αν είναι λανθασμένα ταξινομημένο μέτρα ένα επιπλέον λάθος. Επανέλαβε το παραπάνω βήμα εξαιρώντας ένα διαφορετικό δείγμα κάθε φορά. Υπολόγισε την πιθανότητα λάθους παίρνοντας το μέσο όρο των καταμετρημένων λαθών. Πλεονεκτήματα: Χρήση όλων των διαθέσιμων δεδομένων για εκπαίδευση και δοκιμή Διασφάλιση ανεξαρτησίας ανάμεσα στα διανύσματα εκπαίδευσης και δοκιμής. Μειονεκτήματα: Υψηλές υπολογιστικές απαιτήσεις. Παραλλαγές της μεθόδου εξαιρούν k>1 σημεία κάθε φορά, προκειμένου να μειώσουν την υπολογιστική πολυπλοκότητα (k-fold cross valdaton).

Διασταυρούμενη επικύρωση (Cross-Valdaton): Πιθανόν η πιο συχνά χρησιμοποιούμενη τεχνική στην πράξη. Πώς δουλεύει: Διαιρεί το διαθέσιμο σύνολο δεδομένων σε K (περίπου) ίσου μεγέθους μέρη. Πραγματοποιεί εκπαίδευση K φορές, κάθε φορά χρησιμοποιώντας ένα μέρος για έλεγχο και τα υπόλοιπα K-1 μέρη για εκπαίδευση. Κάθε φορά τα δεδομένα που χρησιμοποιούνται για έλεγχο δεν χρησιμοποιούνται για εκπαίδευση (υψηλός βαθμός ανεξαρτησίας μεταξύ δεδομένων εκπαίδευσης και ελέγχου). Από την άλλη μεριά, τελικά, όλα τα δεδομένα χρησιμοποιούνται τόσο για εκπαίδευση, όσο και για έλεγχο. Test Test Test

Διασταυρούμενη επικύρωση (Cross-Valdaton): Μετά την ολοκλήρωση της διαδικασίας της διασταυρούμενης επικύρωσης, τα σφάλματα πάνω στα σύνολα ελέγχου μπορούν να συνδυαστούν ώστε να έχουμε πιο αξιόπιστη εκτίμηση του σφάλματος γενίκευσης (K-fold cross valdaton). Π.χ., μπορούμε να εκτιμήσουμε στο σφάλμα γενίκευσης ως το μέσο όρο των επιμέρους εκτιμηθέντων σφαλμάτων, ενώ η διασπορά, μας δίνει ένα μέτρο συνέπειας του αποτελέσματος. Μπορούμε να κρατήσουμε την εκτίμηση της διασποράς και να επανεκπαιδεύσουμε τον ταξινομητή μας χρησιμοποιώντας όλο το σύνολο δεδομένων. Η ακραία περίπτωση όπου K=N είναι η μέθοδος Leave one out (LOO) που αναφέρθηκε προηγουμένως. Στην πράξη, το K επιλέγεται μεταξύ 5-10.

Πίνακας Σύγχυσης (Confuson matrx) Πρόκειται για έναν MxM πίνακα, όπου το (,j) στοιχείο του ισούται με το πλήθος των σημείων που, ενώ προέρχονται από την κλάση, καταχωρούνται στην κλάση j. Δίνει πληροφορίες σχετικά με το αν κάποιες κλάσεις έχουν τη τάση να συγχέονται με άλλες κλάσεις. Παράδειγμα: Έστω ένα πρόβλημα Μ=5 κλάσεων και σύνολο δεδομένων Ν=700 σημείων, με τα πλήθη των σημείων κάθε κλάσης να είναι Ν 1 =100, Ν 2 =150, Ν 3 =200, Ν 4 =100, Ν 5 =150 Ένας ταξινομητής χρησιμοποιείται για την ταξινόμησή τους σε κάποια από τις πέντε κλάσεις και τα αποτελέσματα φαίνονται στον ακόλουθο πίνακα σύγχυσης. Εκτ-ω 1 Εκτ-ω 2 Εκτ-ω 3 Εκτ-ω 4 Εκτ-ω 5 Συν. ω 1 98 0 2 0 0 100 ω 2 0 135 0 10 5 150 ω 3 0 1 198 0 1 200 ω 4 35 0 25 40 0 100 ω 5 0 0 0 0 150 150 Συν. 133 136 225 50 156 700 Παρατήρηση: Όλες οι κλάσεις είναι καλώς ταυτοποιημένες, εκτός της ω 4, η οποία συγχέεται με την ω 1 και την ω 3.

Εκτ-ω 1 Εκτ-ω 2 Εκτ-ω 3 Εκτ-ω 4 Εκτ-ω 5 Συν. ω 1 98 0 2 0 0 100 ω 2 0 135 0 10 5 150 ω 3 0 1 198 0 1 200 ω 4 35 0 25 40 0 100 ω 5 0 0 0 0 150 150 Συν. 133 136 225 50 156 700 Παρατήρηση: Η ιδιαιτερότητα της ω 4 (η οποία συγχέεται με την ω 1 και την ω 3 ) δεν μπορεί να εκφραστεί από έναν μόνο αριθμό που προκύπτει από το συγκερασμό διαφόρων στοιχείων του πίνακα σύγχυσης.

Ανάκληση (Recall) Ακρίβεια (recson) Παράδειγμα: Για το προηγούμενο παράδειγμα η τιμές R και για κάθε κλάση φαίνονται παρακάτω Εκτ-ω 1 Εκτ-ω 2 Εκτ-ω 3 Εκτ-ω 4 Εκτ-ω 5 Συν. R ω 1 98 0 2 0 0 100 98/100 ω 2 0 135 0 10 5 150 135/150 ω 3 0 1 198 0 1 200 198/200 ω 4 35 0 25 40 0 100 40/100 ω 5 0 0 0 0 150 150 150/150 Συν. 133 136 225 50 156 700 98/133 135/136 198/225 40/50 150/156

Ανάκληση (Recall) Ακρίβεια (recson) Η περίπτωση των δύο κλάσεων Τις περισσότερες φορές οι παραπάνω έννοιες χρησιμοποιούνται για την περίπτωση δύο κλάσεων όπου (συνήθως) η μία (κλάση ενδιαφέροντος) είναι πολύ μικρότερη της άλλης (πρόβλημα μη σταθμισμένων κλάσεων class mbalance problem). Εδώ εστιάζουμε στα R και της κλάσης ενδιαφέροντος. Η πιθανότητα σφάλματος σε τέτοιες περιπτώσεις δεν είναι καλό μέτρο της απόδοσης του ταξινομητή. Ο πίνακας σύγχυσης γίνεται: ω 1 ω 2 Εκτ-ω 1 Εκτ-ω 2 R Αληθώς θετικά (true postves -T) Ψευδώς θετικά (false postves - F) T/(T+F) Ψευδώς αρνητικά (false negatves - FN) Αληθώς αρνητικά (true negatves - TN) T/(T+FN)

Ανάκληση (Recall) Ακρίβεια (recson) Η περίπτωση των δύο κλάσεων Παράδειγμα: Το πρόβλημα της ταξινόμησης ανθρώπων σε «θετικούς» (κλάση ω 1 ) και «αρνητικούς» (κλάση ω 2 ) σε μια σπάνια ασθένεια. Το δείγμα μας αποτελείται από Ν=100000 ανθρώπους, από τους οποίους οι 10 μόνο είναι θετικοί στην ασθένεια (ανήκουν στην ω 1 ). Σενάριο 1: Έστω ο ταξινομητής που ταξινομεί όλους τους ανθρώπους στην κλάση ω 2. Ο πίνακας σύγχυσης γίνεται: Εκτ-ω 1 Εκτ-ω 2 R ω 1 T=0 FN=10 T/(T+FN)=0 ω 2 F=0 TN=99990 T/(T+F)=0 Η ΟΑ για έναν ταξινομητή που ταξινομεί όλους τους ανθρώπους ως «αρνητικούς» είναι 99990/100000=99,99%.!! Ωστόσο ο ταξινομητής αυτός δεν θα ανιχνεύσει ποτέ έναν ασθενή. Είναι =0 και R=0.

Ανάκληση (Recall) Ακρίβεια (recson) Η περίπτωση των δύο κλάσεων Παράδειγμα: Το πρόβλημα της ταξινόμησης ανθρώπων σε «θετικούς» (κλάση ω 1 ) και «αρνητικούς» (κλάση ω 2 ) σε μια σπάνια ασθένεια. Το δείγμα μας αποτελείται από Ν=100000 ανθρώπους, από τους οποίους οι 10 μόνο είναι θετικοί στην ασθένεια (ανήκουν στην ω 1 ). Σενάριο 2: Έστω ο ταξινομητής που ταξινομεί όλους τους ανθρώπους στην κλάση ω 2 εκτός από 1 της ω 1 που τον ταξινομεί σωστά. Ο πίνακας σύγχυσης τώρα γίνεται: Εκτ-ω 1 Εκτ-ω 2 R ω 1 T=1 FN=9 T/(T+FN)=1/9 ω 2 F=0 TN=99990 T/(T+F)=1 Η ΟΑ για έναν ταξινομητή που ταξινομεί όλους τους ανθρώπους ως «αρνητικούς» είναι 99991/100000=99,99%.!! Είναι =1 και R=1/9.

Ανάκληση (Recall) Ακρίβεια (recson) Η περίπτωση των δύο κλάσεων Παράδειγμα: Το πρόβλημα της ταξινόμησης ανθρώπων σε «θετικούς» (κλάση ω 1 ) και «αρνητικούς» (κλάση ω 2 ) σε μια σπάνια ασθένεια. Το δείγμα μας αποτελείται από Ν=100000 ανθρώπους, από τους οποίους οι 10 μόνο είναι θετικοί στην ασθένεια (ανήκουν στην ω 1 ). Σενάριο 3: Έστω ο ταξινομητής που ταξινομεί όλους τους ανθρώπους στην κλάση ω 1. Ο πίνακας σύγχυσης τώρα γίνεται: Εκτ-ω 1 Εκτ-ω 2 R ω 1 T=10 FN=0 T/(T+FN)=1 ω 2 F=99990 TN=0 T/(T+F)=1/10000 Η ΟΑ για έναν ταξινομητή που ταξινομεί όλους τους ανθρώπους ως «αρνητικούς» είναι 10/100000=0.01%.!! Είναι =0.0001 και R=1.

ω 1 ω 2 Εκτ-ω 1 Εκτ-ω 2 R Αληθώς θετικά (true postves -T) Ψευδώς θετικά (false postves - F) T/(T+F) Ψευδώς αρνητικά (false negatves - FN) Αληθώς αρνητικά (true negatves - TN) T/(T+FN)

Διασταυρούμενη επικύρωση (cross valdaton) για επιλογή τιμών παραμέτρων: Έστω ένας ταξινομητής που περιλαμβάνει σύνολο παραμέτρων που πρέπει να καθοριστούν από το χρήστη. Η διασταυρούμενη επικύρωση μπορεί να χρησιμοποιηθεί για τον βέλτιστο προσδιορισμό των τιμών αυτών των παραμέτρων, ως εξής: Διαιρεί το διαθέσιμο σύνολο εκπαίδευσης σε K (περίπου) ίσου μεγέθους μέρη. Για κάθε συνδυασμό τιμών παραμέτρων πραγματοποιεί K εκπαιδεύσεις, χρησιμοποιώντας κάθε φορά ένα διαφορετικό μέρος για επικύρωση και τα υπόλοιπα K-1 μέρη για εκπαίδευση. Εκτιμά το σφάλμα γενίκευσης με βάση τα αποτελέσματα των παραπάνω K εκπαιδεύσεων, για κάθε συνδυασμό τιμών των παραμέτρων. Επιλέγει το συνδυασμό τιμών που δίνει το μικρότερο σφάλμα γενίκευσης. Για το συνδυασμό αυτών των τιμών εκπαιδεύει τον ταξινομητή χρησιμοποιώντας όλο το σύνολο εκπαίδευσης και ελέγχει χρησιμοποιώντας το σύνολο ελέγχου.