11. ΣΤΑΤΙΣΤΙΚΕΣ ΑΠΟΤΕΛΕΣΜΑΤΩΝ 1
ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ/ΑΝΑΓΝΩΡΙΣΗΣ Ακρίβεια αναγνώρισης: (Αριθμός δεδομένων που ταξινομήθηκαν στη σωστή ομάδα) / (Συνολικός αριθμός δεδομένων που ανήκουν στην ομάδα) x 100% π.χ. Από τα 150 δεδομένα που ανήκουν στην ομάδα Α, τα 125 αναγνωρίστηκαν σωστά ως μέλη της ομάδας Α Ακρίβεια 125/150 x 100% = 83.33% Λάθος αναγνώρισης: (Αριθμός δεδομένων που ταξινομήθηκαν στη λάθος ομάδα) / (Συνολικός αριθμός δεδομένων που ταξινομήθηκαν στην ομάδα) x 100% π.χ. Από τα 150 δεδομένα που ταξινομήθηκαν στην ομάδα Α, τα 15 δεν ανήκουν στην ομάδα Α Λάθος 15/150 x 100% = 10% 2
Ακρίβεια αναγνώρισης, Acc = μέσος όρος ακρίβειας για Β διαφορετικές ομάδες εκπαίδευσης και αναγνώρισης. Δηλ. έχουμε Ν συνολικά σήματα. Τα διαχωρίζουμε σε ομάδες εκπαίδευσης (π.χ. 80% των σημάτων) και αναγνώρισης (το υπόλοιπο 20% των σημάτων). Ο συγκεκριμένος διαχωρισμός θα δώσει μια τιμή ακρίβειας, η οποία μπορεί να μην είναι αντιπροσωπευτική. Άρα: επαναλαμβάνουμε τη διαδικασία Β φορές, όπου κάθε φορά επιλέγουμε διαφορετικά σήματα στις δύο ομάδες, και: Τελική ακρίβεια = 1 Β Β ι= 1 Acci 3
ΑΝΤΕΠΙΚΥΡΩΣΗ (CROSS-VALIDATION) Leave 1 out : 1 2 3 4 5 6 7 8 9 10 Acc 1 : { 1 2 3 4 5 6 7 8 9 } { 10 } Acc : 2 { 1 2 3 4 5 6 7 8 10 } { 9 } M Acc : 10 { 2 3 4 5 6 7 8 9 10 } { 1 } Ακρίβεια = (Acc 1 + Acc 2 + + Acc 10 )/10 4
Δειγματοληψία χωρίς επανάθεση: 1 2 3 4 5 6 7 8 9 10 Acc 1 : Acc 2 : Acc B : { 1 3 5 6 7 8 4 } { 2 9 10 } { 1 2 4 9 7 8 10 } { 3 5 6 } M { 6 2 5 9 7 3 10 } { 1 4 8 } Ακρίβεια = (Acc 1 + Acc 2 + + Acc B )/B 5
BOOTSTRAP Δειγματοληψία με επανάθεση: 1 2 3 4 5 6 7 8 9 10 Acc 1 : Acc 1 : Acc B : { 1 3 5 6 7 8 4 } { 2 9 10 } { 2 3 5 6 7 8 9 } { 1 4 10 } M { 1 2 4 3 7 8 10 } { 9 5 6 } Ακρίβεια = (Acc 1 + Acc 2 + + Acc B )/B 6
ΔΙΑΣΤΗΜΑΤΑ ΑΞΙΟΠΙΣΤΙΑΣ, ΔΑ (CONFIDENCE INTERVALS, CIS) Ερμηνεία: μπορούμε να είμαστε [(1-α)x100]% σίγουροι ότι η πραγματική τιμή της στατιστικής που μας ενδιαφέρει συμπεριλαμβάνεται στα όρια με επίπεδο α (α<1), βάση των συγκεκριμένων δεδομένων και την υπολογισμένη ΣΚΠ, και αν η διαδικασία από την οποία έχουν παρθεί τα δεδομένα επαναληφθεί. Κλασσική μέθοδος υπολογισμού: χρησιμοποίηση της τυπικής απόκλισης ως ±error bars γύρω από την υπολογισμένη τιμή. εύκολος τρόπος Παραμετρικές μεθόδοι Μη-παραμετρικές μεθόδοι: bootstrap 7
Δημιουργία Β νέων δεδομένων, Χ β*, μέσω δειγματοληψίας με επανάθεση των δεδομένων Χ={x 1,...,x Ν }. Υπολογισμός της τιμής που μας ενδιαφέρει για τα νέα δεδομένα, με αποτέλεσμα να έχουμε Β νέες τιμές, θ β * Κατατάσσουμε τις τιμές από τη μικρότερη στη μεγαλύτερη Τα ΔΑ ορίζονται ως οι τιμές των θ αx(β+1)* και θ (1-α)x(Β+1) * Για υπολογισμό των 90-95% ΔΑ συστήνεται η επιλογή 1000 Β 2000, επειδή όμως χρησιμοποιούμε Β+1 επιλέγουμε Β=999 ή 1999. 8
Π.Χ. ΔΑ ΓΙΑ ΤΙΜΕΣ ΑΠ ΑΝΕΞΑΡΤΗΤΩΝ ΔΕΔΟΜΕΝΩΝ 9
ΣΤΑΤΙΣΤΙΚΗ ΣΗΜΑΝΤΙΚΟΤΗΤΑ Κατά πόσο οι τιμές που παίρνουμε μπορούν να θεωρηθούν σημαντικές από στατιστικής πλευράς. Έλεγχος στατιστικής υπόθεσης: θέτουμε δύο στατιστικές υποθέσεις και μέσω στατιστικών μεθόδων μπορούμε να απορρίψουμε τη μια και να δεχτούμε την άλλη Δημιουργία υποκατάστατων δεδομένων ανάλογα με τη στατιστική υπόθεση χρησιμοποιούμε διαφορετικό τρόπο δημιουργίας τους Το επίπεδο σημαντικότητας, α, προσδιορίζει τον αριθμό των υποκατάστατων δεδομένων, Μ: Μ=1/α-1 10
Π.χ. Αν θέλουμε να δούμε κατά πόσο η τιμή της ΑΠ μεταξύ δύο σημάτων είναι στατιστικά σημαντική με επίπεδο 0.05 τότε έχουμε τις δύο στατιστικές υποθέσεις: Η1: τα δεδομένα είναι ανεξάρτητα Η2: τα δεδομένα είναι εξαρτώμενα (άρα και η τιμή της ΑΠ είναι σημαντική) Δημιουργούμε Μ=1/0.05-1=19 υποκατάστατα σήματα Υπολογίζουμε την ΑΠ για αυτά τα 19 σήματα Από αυτές τις 19 τιμές επιλέγουμε τη μεγαλύτερη Αν η αρχική τιμή της ΑΠ για το σήμα μας υπερβαίνει τη μεγαλύτερη τιμή της ΑΠ από τα 19 υποκατάστατα σήματα τότε μπορούμε να απορρίψουμε την υπόθεση Η1, και επομένως η τιμή της ΑΠ είναι σημαντική. Αν όχι, τότε δεν μπορούμε να πούμε με σιγουριά ότι η τιμή είναι σημαντική. 11
Π.Χ. ΔΑ ΓΙΑ ΤΙΜΕΣ ΑΠ ΑΝΕΞΑΡΤΗΤΩΝ ΔΕΔΟΜΕΝΩΝ 12
13 ΕΠΟΜΕΝΟ ΜΑΘΗΜΑ: Μέτρηση απόδοσης Προβλήματα Το μέλλον