Υπερπροσαρμογή (Overfitting) (1)



Σχετικά έγγραφα
Ευφυής Προγραμματισμός

Δέντρα Απόφασης (Decision(

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ευφυής Προγραμματισμός

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Πελάτες φθάνουν στο ταμείο μιας τράπεζας Eνα μόνο ταμείο είναι ανοικτό Κάθε πελάτης παρουσιάζεται με ένα νούμερο - αριθμός προτεραιότητας Όσο ο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Ουρές Προτεραιότητας. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

3 ο Εργαστήριο Μεταβλητές, Τελεστές

27-Ιαν-2009 ΗΜΥ (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Επεξεργασία Ερωτήσεων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Διάλεξη 17: O Αλγόριθμος Ταξινόμησης HeapSort

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Όρια Αλγόριθμων Ταξινόμησης. Εισαγωγή στην Ανάλυση Αλγορίθμων Μάγια Σατρατζέμη

Ευφυής Προγραμματισμός

Βασικές έννοιες. Χρησιμότητα Πιθανότητα Προσδοκώμενο κέρδος Δένδρα αποφάσεων Ανάλυση ευαισθησίας Πιθανότητα υπό όρους Μεταβλητές κατάστασης

Σχεδίαση & Ανάλυση Αλγορίθμων

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Κατανεμημένα Συστήματα Ι

Διδάσκουσα: Χάλκου Χαρά,

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Κατανεμημένα Συστήματα Ι

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο

Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού Πολυπλοκότητα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Εισαγωγή στη Στατιστική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ασκήσεις μελέτης της 16 ης διάλεξης

Ουρά Προτεραιότητας: Heap

Union Find, Λεξικό. Δημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κατανεμημένα Συστήματα Ι

ΕΠΑΛΗΘΕΥΣΗ (VERIFICATION) ΚΑΙ ΕΓΚΥΡΟΠΟΙΗΣΗ (VALIDATION) ΒΚ

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα).

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Κεφάλαιο 5ο: Εντολές Επανάληψης

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Αλγόριθµοι και Πολυπλοκότητα

Αλγόριθμοι και πολυπλοκότητα: 4 η σειρά ασκήσεων ΣΗΜΜΥ - Ε.Μ.Π.

Μέθοδος μέγιστης πιθανοφάνειας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ. Διάλεξη 7: Εξίσωση μη-μόνιμης διάχυσης (συνέχεια)

Ανάλυση αλγορίθμων. Χρόνος εκτέλεσης: Αναμενόμενη περίπτωση. - απαιτεί γνώση της κατανομής εισόδου

Scheduling on Unrelated Parallel Machines

Λεξικό, Union Find. ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Λήψη αποφάσεων υπό αβεβαιότητα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

Προγραμματισμός Ι (ΗΥ120)

I. ΑΛΓΟΡΙΘΜΟΣ II. ΠΡΑΞΕΙΣ - ΣΥΝΑΡΤΗΣΕΙΣ III. ΕΠΑΝΑΛΗΨΕΙΣ. 1. Τα πιο συνηθισμένα σενάρια παραβίασης αλγοριθμικών κριτηρίων είναι:

Ουρές προτεραιότητας

Τεχνητή Νοημοσύνη. 4η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ. Εξετάσεις Προσομοίωσης 10/04/2018

ΔΙΕΡΕΥΝΗΣΗ ΚΛΙΜΑΤΙΚΩΝ ΑΛΛΑΓΩΝ ΓΙΑ ΤΟ ΝΗΣΙ ΤΗΣ ΝΑΞΟΥ

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Δυαδικά Δένδρα Αναζήτησης, Δένδρα AVL

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Δέντρα Αναζήτησης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Διακριτά Μαθηματικά. Διαλέξεις : Άγγελος Κιαγιάς. Ασκήσεις : Ολγα Φουρτουνέλλη.

Λήψη αποφάσεων υπό αβεβαιότητα

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για εξαρτημένα δείγματα)

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ Γ' ΛΥΚΕΙΟΥ ΤΕΧΝΟΛΟΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΚΥΚΛΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΥΠΗΡΕΣΙΩΝ 2005

9. Κόκκινα-Μαύρα Δέντρα

Αλγόριθμοι Ταξινόμησης Μέρος 4

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Υπολογισμός της δύναμης z=x b modn

Κατανεμημένα Συστήματα Ι

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

έντρα ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

Ταξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar

Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών

Επεξεργασία Ερωτήσεων

ΠΛΕ075: Προηγμένη Σχεδίαση Αλγορίθμων και Δομών Δεδομένων. Λουκάς Γεωργιάδης

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Λεξικό, Union Find. ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Μάθηση με παραδείγματα Δέντρα Απόφασης

Transcript:

Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης Χειρισμός συνόλου εκπαίδευσης με ελλιπείς τιμές Χειρισμός χαρακτηριστικών με διαφορετικά κόστη Βελτίωση υπολογιστικής απόδοσης 1

Υπερπροσαρμογή (Overfitting) (1) Ορισμός Δεδομένου ενός χώρου υποθέσεων H, μια υπόθεση h H λέγεται υπερπροσαρμόζει τα δεδομένα εκπαίδευσης, αν υπάρχει κάποια εναλλακτική υπόθεση h H, τέτοια ώστε η h έχει μικρότερο λάθος (δηλ. καλύτερα αποτελέσματα) κατηγοριοποίησης από την h ως προς τα δεδομένα εκπαίδευσης, αλλά η h έχει μικρότερο λάθος από την h ως προς το σύνολο των δεδομένων. (Mitchell, 1997) 2

Υπερπροσαρμογή (Overfitting) (2) 0.9 0.85 Accuracy 0.8 0.75 0.7 0.65 0.6 0.55 0.5 Training data Test data 0 10 20 30 40 50 60 70 80 90 100 Size of tree (No of nodes) 3

Υπερπροσαρμογή (Overfitting) (3) Πιθανοί λόγοι Τα δεδομένα εκπαίδευσης περιέχουν τυχαία λάθη ή θόρυβο Κάποια φύλλα αντιπροσωπεύουν μικρό αριθμό δεδομένων Πιθανές λύσεις Πρόωρο σταμάτημα (πριν την πλήρη κατηγοριοποίηση) (Δυσκολία στον προσδιορισμό του σημείου σταματήματος) Εκ των υστέρων κλάδεμα του δέντρου (pruning) (Πιο αποτελεσματική λύση) 4

Υπερπροσαρμογή (Overfitting) (4) Ερώτημα-κλειδί Ποιο είναι το κριτήριο για τον προσδιορισμό του σωστού μεγέθους του τελικού δέντρου; Πιθανές απαντήσεις 1. Χρήση δύο συνόλων: εκπαίδευσης (training set) και εγκυροποίησης (validation set) 2. Όλα τα δεδομένα ως σύνολο εκπαίδευσης και χρήση στατιστικού τεστ για την απόφαση αποκοπής ή ανάπτυξης ενός κόμβου 3. Χρήση εμφανούς μετρικής της πολυπλοκότητας για κωδικοποίηση του συνόλου εκπαίδευσης και του δέντρου και σταμάτημα όταν το μέγεθος της κωδικοποίησης ελαχιστοποιείται. 5

Υπερπροσαρμογή (Overfitting) (5) Η πρώτη είναι η συνήθως χρησιμοποιούμενη προσέγγιση και αναφέρεται ως training and validation set approach: Διαιρούμε τα διαθέσιμα δεδομένα σε δύο σύνολα, ξένα μεταξύ τους (training set, validation set) Το validation set πρέπει να είναι αρκετά μεγάλο Σύνηθες ευρετικό: 2/3 των δεδομένων για training set, 1/3 για validation set. Δύο αντιπρόσωποι: reduced error pruning, rule postpruning 6

Reduced Error Pruning (Κλάδεμα Ελαττωμένου Λάθους) Χρησιμοποιεί σύνολο εγκυροποίησης Το κλάδεμα ξεκινά αφού δημιουργηθεί το δέντρο Κάθε κόμβος θεωρείται υποψήφιος για κλάδεμα Κλάδεμα ενός κόμβου σημαίνει διαγραφή του υποδέντρου που τον έχει ως ρίζα και μετατροπή του σε φύλλο, στο οποίο προσάπτεται η πιο κοινή κλάση των παραδειγμάτων εκπαίδευσης που σχετίζονται με τον κόμβο Ένας κόμβος κλαδεύεται μόνο αν προκύπτει δέντρο που δεν είναι χειρότερο από το αρχικό (με βάση την ακρίβεια ως προς το σύνολο εγκυροποίησης) Το κλάδεμα συνεχίζεται μέχρις ότου διαπιστωθεί μείωση της ακρίβειας 7

Rule Post-Pruning (1) Μια παραλλαγή του χρησιμοποιείται στον C4.5 Διαδικασία 1. Δημιούργησε το ΔΑ από το training set αναπτύσσοντάς το μέχρις ότου ικανοποιούνται όσο το δυνατόν περισσότερα παραδείγματα, επιτρέποντας υπερπροσαρμογή 2. Μετάτρεψε το ΔΑ σ ένα ισοδύναμο σύνολο κανόνων δημιουργώντας ένα κανόνα για κάθε μονοπάτι από τη ρίζα σε φύλλο 3. Κλάδεψε/Γενίκευσε κάθε κανόνα διαγράφοντας κάθε συνθήκη που έχει σαν αποτέλεσμα τη βελτίωση της εκτιμώμενης ακρίβειας 4. Διάταξε τους κλαδεμένους κανόνες με βάση την εκτιμώμενη ακρίβεια και θεώρησέ τους μ αυτή τη σειρά όταν κατηγοριοποιείς παραδείγματα 8

Rule Post-Pruning (2) Π.χ. Από το ΔΑ του παραδείγματος PlayTennis έχουμε: IF (Outlook=Sunny) (Humidity=High) THEN PlayTennis=yes 1. Δοκιμάζουμε να αφαιρέσουμε τις συνθήκες μια-μια. 2. Για κάθε συνθήκη που αφαιρούμε εκτιμούμε την ακρίβεια του κανόνα. Η αφαίρεση εκτελείται αν οδηγεί σε μεγαλύτερη ακρίβεια. 3. Η εκτίμηση της ακρίβειας γίνεται 1. Με τη χρήση validation set ξένου προς το training set 2. Με τη χρήση του training set χρησιμοποιώντας μια απαισιόδοξη εκτίμηση, για να εξισορροπηθεί το γεγονός ότι το training set δίνει μια εκτίμηση που ευνοεί τους κανόνες (C4.5) 9

Rule Post-Pruning (3) Πιο συγκεκριμένα (βήμα 3.2) Υπολογίζεται η ακρίβεια του κανόνα με βάση τα παραδείγματα εκπαίδευσης Υπολογίζεται η τυπική απόκλιση (standard deviation: std) της ακρίβειας υποθέτοντας δυωνιμική κατανομή Με δεδομένο το επίπεδο βεβαιότητας, σαν το χαμηλότερο όριο της εκτίμησης λαμβάνεται η απόδοση του κανόνα (π.χ. για βεβαιότητα 95%, η ακρίβεια του κανόνα εκτιμάται απαισιόδοξα ως η παρατηρηθείσα ακρίβεια-1,96*std) 10

Χαρακτηριστικά με Συνεχείς Τιμές (1) Ο ID3 περιορίζεται σε χαρακτηριστικά στόχου και διάσπασης με διακριτές τιμές. Όταν έχουμε χαρακτηριστικά με συνεχείς τιμές, τότε το πρόβλημα λύνεται σχετικά απλά. Για κάθε χαρακτηριστικό Χ που παίρνει συνεχείς τιμές δημιουργούμε μια δυαδική μεταβλητή Χc που είναι αληθής για Χc < C και ψευδής αλλού. Το πρόβλημα είναι η επιλογή της τιμής C. Διατάσουμε τα παραδείγματα με βάση τις τιμές του χαρακτηριστικού Χ και προσδιορίζουμε γειτονικά παραδείγματα, όπου έχουμε αλλαγή στην ταξινόμηση. Τότε παίρνουμε σαν C την ενδιάμεση τιμή της «καλύτερης» περίπτωσης, δηλ. της περίπτωσης με το μεγαλύτερο κέρδος πληροφορίας. 11

Χαρακτηριστικά με Συνεχείς Τιμές (2) Παράδειγμα Έστω ότι υπάρχει ένα χαρακτηριστικό Temperature που παίρνει συνεχείς τιμές και το S σ ένα κόμβο περιέχει παραδείγματα με τιμές (διατεταγμένα) Temperature 40 48 60 72 80 90 PlayTennis no no yes yes yes no Υποψήφια κατώφλια: (48+60)/2 = 54, (80+90)/2 = 85 Υπολογίζουμε τα G(S, Temp >54 ) και G(S, Temp >85 ) Επειδή G(S, Temp >54 ) > G(S, Temp >85 ), επιλέγεται το C=54 Η προσέγγιση αυτή μπορεί να επεκταθεί και για διακριτοποίηση με περισσότερες από δύο τιμές. 12

Εναλλακτικές Μετρικές Το κέρδος πληροφορίας ευνοεί χαρακτηριστικά με πολλές τιμές σε βάρος αυτών με λίγες. Π.χ. το χαρακτηριστικό ημερομηνία λόγω των πολλών τιμών θα είχε το μεγαλύτερο κέρδος πληροφορίας δέντρο με πολλές διασπάσεις (πλατύ δέντρο), αλλά βάθος 1: τέλεια ταξινόμηση, αλλά όχι καλό δέντρο στη συνέχεια. Ένας τρόπος να το διορθώσουμε είναι να αλλάξουμε την μετρική: GainRatio(S, X) = Gain(S, X)/SplitInfo(S, X) (λόγος κέρδους) SplitInfo(S, X)= - Σ ( Si / S )*log ( Si / S ) (πληροφορία διάσπασης) i {x1, x2,, xk} Τιμωρούνται χαρακτηριστικά με πολλές τιμές μέσω της «πληροφορίας διάσπασης» 13

Ελλιπείς Τιμές Μπορεί να λείπουν τιμές σε ορισμένα παραδείγματα για συγκεκριμένο χαρακτηριστικό. Συνήθως εκτιμούμε τις τιμές που λείπουν με βάση τις υπάρχουσες σε άλλα παραδείγματα. Στρατηγικές Δίνουμε την τιμή που είναι πιο κοινή σε όλα τα παραδείγματα του κόμβου Δίνουμε την τιμή που είναι πιο κοινή στα παραδείγματα του κόμβου που έχουν τιμή χαρακτηριστικού στόχου ίδια με το υπό εξέταση παράδειγμα. Συσχετίζουμε με κάθε τιμή του Χ μια πιθανότητα. Οι πιθανότητες αυτές εκτιμώνται από τις παρατηρούμενες συχνότητες των τιμών του Χ στο σύνολο εκπαίδευσης του κόμβου. (C4.5) 14