Αναγνώριση Προτύπων Σημερινό Μάθημα Bias (απόκλιση) και variance (διακύμανση) Ελεύθεροι Παράμετροι Ελεύθεροι Παράμετροι Διαίρεση dataset Μέθοδος holdout Cross Validation Bootstrap
Bias (απόκλιση) και variance (διακύμανση) Έστω α(g) η εκτιμώμενη παράμετρος α μιας άγνωστης κατανομής G Έστω α =α(g ) η στατιστική εκτίμηση του στατιστική εκτίμηση του α(g) από Ν δείγματα X={x, x 2,, x N } της κατανομής G, που ορίζουν τη διακριτή κατανομή G Η καταλληλότητα της εκτίμησης ορίζεται από τα μεγέθη BIAS: πόσο αποκλίνει από την πραγματική τιμή VARIANCE: πόσο ποικίλει για διάφορα δείγματα Ελεύθεροι Παράμετροι Σχεδόν όλες οι τεχνικές αναγνώρισης προτύπων έχουν ελεύθερες παραμέτρους: Το πλήθος των γειτόνων στον k NN Κανόνα Ταξινόμησης Το πλήθος των χαρακτηριστικών στο πρόβλημα επιλογής χαρακτηριστικών Προκύπτουν δύο προβλήματα Επιλογή παραμέτρου (βέλτιστη) Αξιολόγηση Λύση: Αν έχουμε άπειρα δείγματα επιλέγουμε την παράμετρο που δίνει το μικρότερο σφάλμα σε όλο τον πληθυσμό. 2
Ελεύθεροι Παράμετροι Αν χρησιμοποιήσουμε όλα τα δεδομένα για να εκτιμήσουμε τις παραμέτρους και μετά υπολογίσουμε το σφάλμα, προκύπτουν δύο προβλήματα: Το αποτέλεσμα θα είναι υπερπροσαρμοσμένο στα δεδομένα εκπαίδευσης Το σφάλμα θα είναι μικρότερο από το πραγματικό ποσοστό λάθους. Διαίρεση dataset Αν η επιλογή παραμέτρων και η εκτίμηση σφάλματος πρέπει να γίνουν ταυτόχρονα τα δεδομένα πρέπει να διαιρεθούν σε 3 ανεξάρτητα μέρη: Training set: χρησιμοποιείται για εκπαίδευση και προσαρμογή των παραμέτρων Validation set: χρησιμοποιείται όπου είναι απαραίτητο για ρύθμιση των παραμέτρων (εκπαίδευση by steps) Test set: χρησιμοποιείται για να εκτιμηθεί η απόδοση του εκπαιδευμένου συστήματος. 3
Διαίρεση dataset Διαδικασία. Χωρίζουμε τα δεδομένα σε training, validation και test set 2. Επιλέγουμε αρχιτεκτονική και παραμέτρους για εκπαίδευση 3. Εκπαιδεύουμε το σύστημα με το training set 4. Αξιολογούμε το σύστημα με το validation set 5. Επαναλαμβάνουμε τα βήματα 2 4 για διαφορετικές αρχιτεκτονικές και παραμέτρους ρ 6. Επιλέγουμε το καλύτερο μοντέλο και το εκπαιδεύουμε με τα training και validation sets 7. Αξιολογούμε το σύστημα με το test set Διαίρεση dataset 4
Μέθοδος holdout Χωρίζουμε το σύνολο δεδομένων σε δύο υποσύνολα: Training set: χρησιμοποιείται για την εκπαίδευση του ταξινομητή Test set: χρησιμοποιείται για την εκτίμηση του σφάλματος Μειονεκτήματα μεθόδου holdout Η μέθοδος holdout έχει δύο βασικά μειονεκτήματα: Στην περίπτωση που έχουμε μικρό σύνολο δεδομένων, δεν είναι δυνατό να κρατήσουμε δείγματα για δοκιμή. Μπορεί ο χωρισμός στις δύο ομάδων να είναι τέτοιος που να παραπλανήσει το σφάλμα. 5
Επίλυση μειονεκτημάτων μεθόδου holdout Τα προβλήματα της μεθόδου holdout μπορούν να ξεπεραστούν με κάποιες άλλες μεθόδους, αυξάνοντας το υπολογιστικό κόστος: Cross Validation (διασταυρωμένη επικύρωση) Random Subsampling (τυχαία υποδειγματοληψία) Fold Cross Validation (διασταυρωμένη επικύρωση σε Κ μέρη) Leave one out Cross Validation (εξαίρεσε ένα) Bootstrap Random Subsampling Τυχαία Υποδειγματοληψία Η τυχαία υποδειγματοληψία εκτελεί Κ επαναλήψεις στο σύνολο δεδομένων Κάθε δειγματοληψία επιλέγει τυχαία ένα συγκεκριμένο αριθμό παραδειγμάτων δοκιμής (test set) χωρίς αντικατάσταση. Για κάθε νέα διαίρεση i ο ταξινομητης εκπαιδεύεται με τα υπόλοιπα δείγματα και μετά εκτιμάται το σφάλμα E i στο test set 6
Random Subsampling Τυχαία Υποδειγματοληψία Το συνολικό ποσοστό λάθους υπολογίζεται ως ο μέσος όρος των E i E = i= E i Fold Cross Validation Διασταυρωμένη Επικύρωση σε Κ μέρη Χώρισε το σύνολο δεδομένων σε Κ μέρη Για καθένα από τα Κ πειράματα χρησιμοποίησε τα Κ μέρη για training και για testing. Το πλεονέκτημα του Fold Cross validation σε σχέση με το Random Subsampling είναι ότι όλα τα δείγματα χρησιμοποιούνται κάποια στιγμή και στην εκπαίδευση και στη δοκιμή. 7
Fold Cross Validation Διασταυρωμένη Επικύρωση σε Κ μέρη E = i= E i Το συνολικό ποσοστό λάθους υπολογίζεται ως ο μέσος όρος όλων των πειραμάτων: E = E i i= Fold Cross Validation Πόσα μέρη; Για μεγάλο Κ Η εκτίμηση του σφάλματος είναι αρκετά ακριβής αλλά με μεγάλες αποκλίσεις. Αυξάνει το υπολογιστικό κόστος Για μικρό Κ Μειώνεται το πλήθος των πειραμάτων και το υπολογιστικό κόστος Το εκτιμώμενο σφάλμα θα είναι μεγαλύτερο από το πραγματικό αλλά με μικρότερες αποκλίσεις. Μια τυπική τιμή είναι Κ=0 8
Leave one out Cross Validation (εξαίρεσε ένα) Η Leave one out είναι ειδική περίπτωση της Fold Cross Validation Το επιλέγεται ίσο με το πλήθος των δειγμάτων Για σύνολο δεδομένων με N δείγματα θα γίνουν Ν πειράματα. Σε κάθε πείραμα Ν δείγματα χρησιμοποιούνται για training και για testing. Leave one out Cross Validation (εξαίρεσε ένα) E = i= E i Το συνολικό ποσοστό λάθους υπολογίζεται ως ο μέσος όρος όλων των πειραμάτων: N E = E i N i= 9
Bootstrap Από ένα σετ δεδομένων με Ν στοιχεία επιλέγουμε Ν τυχαία δείγματα (με αντικατάσταση) για training Τα στοιχεία που δεν επιλέχθηκαν καθόλου θα χρησιμοποιηθούν για testing. Το πλήθος ενδέχεται να αλλάζει σε κάθε πείραμα. Η διαδικασία επαναλαμβάνεται Κ φορές Bootstrap Το συνολικό ποσοστό λάθους υπολογίζεται ως ο μέσος όρος όλων των πειραμάτων 0