Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): <Ηλικία: 27, Οικ. Κατ.: Έγγαμος, Φύλο: Α, Καλός_Πελάτης: ΝΑΙ> Επιλογή ενός χαρακτηριστικού ως κατηγορία. π.χ. Καλός_Πελάτης. Είδαμε Στατιστική Ταξινόμηση κατά Bayes: υπολογισμός P( C c X x), π.χ. P(Καλός_Πελάτης: ΝΑΙ Ηλικία: 27, Οικ. Κατ.: Έγγαμος, Φύλο: Α). Εκμάθηση ταξινομητή: υπολογισμός του «βέλτιστου» ταξινομητή με βάση τα δεδομένα. 1
Δέντρα Ταξινόμησης/Απόφασης Classification /Decision Trees (DT) Χαρακτηριστικά: Διακριτά ή Διακριτοποιημένα Εσωτερικός Κόμβος (και Ρίζα): Χαρακτηριστικό (δυαδικό ή όχι) Όλα binary Binary DT Τερματικοί κόμβοι (φύλλα): Κατηγορίες. Εδώ: 2: ΝΑΙ / ΌΧΙ (καλός πελάτης). Δεν υπάρχει περιορισμός στο πλήθος Έγγαμος Ηλικία>=30 Οικογ. κατ. ΟΧΙ Άγαμος Με παιδιά Φύλο ΝΑΙ ΟΧΙ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ 2
Διαδικασία Ταξινόμησης με DT Δεδομένα: Ένα Δέντρο Απόφασης βάσει ενός συνόλου χαρακτηριστικών S Αντικείμενο προς ταξινόμηση με τιμές για όλα τα χαρακτηριστικά του S. Ξεκινάμε από τη ρίζα, ελέγχουμε την τιμή του αντίστοιχου χαρακτηριστικού στο προς ταξινόμηση στιγμιότυπο, και ακολουθούμε το μονοπάτι στο οποίο μας οδηγεί αυτή η τιμή. Μεταβαίνουμε στον επόμενο κόμβο και επαναλαμβάνουμε τη διαδικασία. Όταν φθάσουμε σε τερματικό κόμβο αναθέτουμε το άγνωστο στιγμιότυπο στην αντίστοιχη κατηγορία. 3
Διαδικασία Ταξινόμησης με Decision Trees π.χ. X = < 20, 'Εγγαμος, Γ, Σπάρτη > αριθμητικά χαρ/κά κατώφλι Έγγαμος Ηλικία>=30 Οικογ. κατ. ΟΧΙ Άγαμος Με τέκνα Φύλο ΝΑΙ ΟΧΙ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ 4
Δέντρα Αποφάσεων (Decision Trees) To προς εκμάθηση μοντέλο αναπαριστάται με μία δενδρική δομή. Ένα μονοπάτι απόφασης, Ρίζα Φύλλο μπορεί να μην περιλαμβάνει όλα τα χαρακτηριστικά Το ίδιο ισχύει και για ολόκληρο το Δέντρο Υπάρχουν δύο τύποι κόμβων: Εσωτερικός Κόμβος: Διαιρεί το χώρο του προβλήματος (στιγμιότυπα) σε ομάδες, ανάλογα με την τιμή του χαρακτηριστικού με το οποίο αντιστοιχίζεται ο κόμβος (π.χ. «Φύλο» = {Α, Γ}). Τερματικός Κόμβος (leaf - φύλλο): Αναθέτει τα στιγμιότυπα που καταλήγουν σε αυτόν σε μια συγκεκριμένη κατηγορία. 5
Αυτόματη Εκμάθηση Δέντρων Απόφασης Decision Tree Learning Αλγόριθμος εξειδίκευσης για την εκμάθηση δέντρων απόφασης (ID3, C4.5, See5, CART, ): 1. Επέλεξε το χαρακτηριστικό που πετυχαίνει τον καλύτερο διαχωρισμό μεταξύ των κατηγοριών. 2. Χώρισε τα δεδομένα σε υποσύνολα με βάση της τιμές του χαρακτηριστικού αυτού. 3. Για κάθε υποσύνολο που περιέχει περισσότερες από μία κατηγορίες, επανέλαβε τη διαδικασία. 4. Σταμάτησε εφόσον δεν υπάρχουν υποσύνολα που περιέχουν περισσότερες από μία κατηγορίες ή έχουν χρησιμοποιηθεί όλα τα χαρακτηριστικά. 6
Επιλέγοντας το καλύτερο κριτήριο διαχωρισμού: Ξυράφι του Ockham: Από όλες τις πιθανές εξηγήσεις/αναπαραστάσεις, επέλεξε την απλούστερη Decision Tree Learning: Βρες το μικρότερο δέντρο που ταξινομεί τα δεδομένα σωστά Πρόβλημα! Υπολογιστικός φόρτος (Σύγκριση όλων των δυνατών δέντρων) Λύση: Κατασκευή δέντρου αυξητικά Επιλογή βέλτιστου χαρακτηριστικού ανά κόμβο (τοπικά βέλτιστη λύση) Διακριτοποίηση συνεχούς χαρακτηριστικού (ανά κόμβο) Εναλλακτικά κριτήρια: Ελαχιστοποίηση λαθών κατηγοριοποίησης Μεγιστοποίηση Κέρδους Πληροφορίας (Information Gain) Information Gain Ratio Ελαχιστοποίηση Gini impurity
Δέντρα Ταξινόμησης/Απόφασης Classification /Decision Trees Χαρακτηριστικά: Διακριτά ή Διακριτοποιημένα ανά κόμβο Κατώφλι: Συνάρτηση του τρέχοντος μονοπατιού Οποιοδήποτε DT μπορεί να γίνει binary tree. Πώς; Έγγαμος Ηλικία>=30 Οικογ. κατ. ΟΧΙ Άγαμος Με παιδιά Ηλικία>=35 ΝΑΙ ΟΧΙ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ 8
Παράδειγμα Συνόλου Παραδειγμάτων Εκπαίδευσης Ελπίζουμε ότι καποια από τα χαρακτηριστικά συσχετίζονται με τις κατηγορίες Εδώ: λίγα δεδομένα (sparse data) Ηλικία Οικ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ 9
Επιλογή βέλτιστου χαρακτηριστικού τρέχοντος κόμβου Τρέχων κόμβος: Αρχικός Πόσα λάθη κατηγοριοποίησης δίνει κάθε χαρακτηριστικό (μόνο του)? Ηλικία (~συνεχές!?) Οικογ. Κατ. Φύλο Περιοχή Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ
Επιλογή βέλτιστου χαρακτηριστικού τρέχοντος κόμβου Τρέχων κόμβος: Αρχικός Χαρακτηριστικό: Οικογ. Κατ. (ORDER BY για εύκολη εύρεση) Πόσα λάθη, βάσει συνάρτησης πλειοψηφίας; Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ 11
Επιλογή βέλτιστου χαρακτηριστικού τρέχοντος κόμβου Τρέχων κόμβος: Αρχικός Χαρακτηριστικό: Οικογ. Κατ. (ORDER BY για εύκολη εύρεση) Πόσα λάθη, βάσει συνάρτησης πλειοψηφίας; 2 λάθη Οικογ. Κατ. Άγαμος Άγαμος Έγγαμος Έγγαμος Έγγαμος Με παιδιά Με παιδιά Με παιδιά Απόφαση ΟΧΙ ΟΧΙ ΟΧΙ ΝΑΙ ΝΑΙ ΟΧΙ ΝΑΙ ΝΑΙ 12
Επιλογή βέλτιστου χαρακτηριστικού τρέχοντος κόμβου Τρέχων κόμβος: Αρχικός Λάθη κατηγοριοποίησης για το χαρακτηριστικό "Ηλικία" (~συνεχές!): Έστω δυαδικός κόμβος Επιλογή ενός βέλτιστου κατωφλίου: βέλτιστος διαχωρισμός παραδειγμάτων sorting για εύκολη εύρεση 1. ποιο το βέλτιστο κατώφλι? 2. πόσα λάθη? βάσει πλειοψηφικής συνάρτησης απόφασης Ηλικία Απόφαση 25 ΟΧΙ 26 ΝΑΙ 27 ΟΧΙ 30 ΝΑΙ 32 ΟΧΙ 35 ΝΑΙ 38 ΝΑΙ 40 ΟΧΙ 13
Επιλογή βέλτιστου χαρακτηριστικού τρέχοντος κόμβου Τρέχων κόμβος: Αρχικός Λάθη κατηγοριοποίησης για το χαρακτηριστικό "Ηλικία" (~συνεχές!): Έστω δυαδικός κόμβος Επιλογή ενός βέλτιστου κατωφλίου: βέλτιστος διαχωρισμός παραδειγμάτων sorting για εύκολη εύρεση 1. ποιο το βέλτιστο κατώφλι? 33.5 2. πόσα λάθη? 3 βάσει πλειοψηφικής συνάρτησης απόφασης 3. Το 33.5 είναι το μόνο «βέλτιστο»; Ηλικία Απόφαση 25 ΟΧΙ 26 ΝΑΙ 27 ΟΧΙ 30 ΝΑΙ 32 ΟΧΙ 35 ΝΑΙ 38 ΝΑΙ 40 ΟΧΙ 14
Επιλογή βέλτιστου χαρακτηριστικού τρέχοντος κόμβου Τρέχων κόμβος: Αρχικός: Λάθη κατηγοριοποίησης ανά χαρακτηριστικό - Συνολικά Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ 3 2 3 3 15
Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ Θα μπορούσαμε να σταματήσουμε εδώ και να χρησιμοποιήσουμε τη συνάρτηση πλειοψηφίας για την απόφαση (forward pruning = πρόωρο κλάδεμα), για μικρό δέντρο, βλ. παρακάτω Έγγαμος Οικογ. κατ. Άγαμος Με παιδιά ΟΧΙ ΝΑΙ-ΟΧΙ: 2-1 ΝΑΙ-ΟΧΙ: 0-2 ΝΑΙ-ΟΧΙ: 2-1 16
2ο χαρ/κό - 2ο επίπεδο του DT Για κάθε κόμβο του 2ου επιπέδου ο οποίος δεν είναι τερματικός ("φύλλο"-"leaf"): Ποιο από τα υπόλοιπα χαρακτηριστικά κάνει καλύτερο διαχωρισμό; Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ Έγγαμος Ηλικία>30 ΝΑΙ: 3-0 Οικογ. κατ. ΟΧΙ Άγαμος Με παιδιά Φύλο=Γ ΝΑΙ: 3-0 17
Τελικό Δέντρο Ταξινόμησης/Απόφασης Οικογ. κατ. Έγγαμος Με παιδιά Άγαμος Ηλικία>=30 ΟΧΙ Φύλο Ναι Οχι Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ 18
Εύρεση βέλτιστου χαρακτηριστικού (IG) Καλύτερη μετρική από τη συνάρτηση πλειοψηφίας: Κέρδος πληροφορίας (Information Gain). Βασίζεται στην αβεβαιότητα <==> Εντροπία Στον τρέχοντα κόμβο (πριν το διαχωρισμό): Αρχική «αβεβαιότητα» (εντροπία πληροφορίας) στον γονικό κόμβο: Αβεβαιότητα πριν: H ( C) ( C) j j P( C P( c j c j ) log ) log P( c j P( C ) c j ) ή C 1 C n C j Έστω 2 κατηγορίες (n=2): Α) 0%-100% Β) 50%-50% Υπολογίστε την αβεβαιότητα 19
Εύρεση βέλτιστου χαρακτηριστικού - IG Eντροπία / Αβεβαιότητα μετά το διαχωρισμό βάσει του χαρακτηριστικού Χ: x 1 c 1 x i c n c j x m c 1 c j c 1 c j c 1 c j c n c n c n Για κάθε κόμβο - τέκνο "x i ", η εντροπία (αβεβαιότητά) του γίνεται: H ( C x ) P( C c X x ) log P( C c X x i i i j Συνολικά, η μέση (σταθμισμένη) εντροπία των κόμβων τέκνων είναι: H ( C X ) P( x ) P( C c X x ) log P( C c X x j j j i i j j i i ) 20 )
Εύρεση βέλτιστου χαρακτηριστικού βάσει IG Κριτήριο: "Μέγιστη Μείωση Αβεβαιότητας" δηλ. "Μέγιστο Κέρδος Πληροφορίας": Information Gain(C,X) = H(κόμβος-γονέας) Average(H(κόμβοι-τέκνα)) IG( C, X ) j P( c j ) log P( c j ) i P( x i ) j P( c j x i ) log P( c j x i ) Υπολογισμός για όλα τα χαρακτηριστικά: Χ, Υ, Ζ, Επιλογή του χαρακτηριστικού που μεγιστοποιεί το IG O πρώτος όρος, δηλ. το Η(C) είναι ανεξάρτητος του Χ άρα δεν χρειάζεται να υπολογιστεί για τη μεγιστοποίηση 21
Παράδειγμα: Αναμονή σε εστιατόριο Σύνολο διανυσμάτων χαρακτηριστικών, Καταστάσεις στις οποίες θα περιμένω σε ένα εστιατόριο για τραπέζι Ποιά είναι η εντροπία (αβεβαιότητα) του συνόλου αυτού; p = 6, n = 6 P(p)=0.5, P(n)=0.5 I(0.5,0.5) = 0.5 log2(0.5) 0.5 log2(0.5) = 1 bit (Χρειάζεται 1 bit πληροφορίας για να αρθεί η αβεβαιότητα)
Information gain - Παράδειγμα Στον γονικό κόμβο: p = 6, n = 6, I(6/12, 6/12) = 1 bit Χαρακτηριστικά: Type, Patrons Info gain? 0.541 bits IG(Patrons) > IG(Type), άρα το Patrons επιλέγεται για τον κόμβο
Αβεβαιότητα για κάθε χαρακτηριστικό Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ 0.95 0.86 0.68 0.95 1 bit πώς προέκυψαν οι 2 εναλλακτικές τιμές? 24
ΠΡΟΒΛΗΜΑΤΑ ΣΤΟΥΣ ΤΑΞΙΝΟΜΗΤΕΣ (ΔΕΝΤΡΩΝ ΑΠΟΦΑΣΗΣ, και όχι μόνο) Πόλωση του ταξινομητή στα δεδομένα (overfitting) - Έλλειψη γενικότητας Αντιφατικά Δεδομένα non deterministic data Ίδια παραδείγματα - διαφορετικές κατηγορίες Ενθόρυβα Δεδομένα (noisy data) Λανθασμένες τιμές χαρακτηριστικών ή κατηγορίας Ελλιπή Δεδομένα sparse data ανεπαρκής αριθμός παραδειγμάτων missing data: απουσία τιμών χαρακτηριστικών learning testing/classification 25
Άγνωστες τιμές χαρακτηριστικών στα παραδείγματα προς ταξινόμηση (Αν δεν έχουμε κλάδο "Unknown : περίπτωση 1 στην επόμενη διαφάνεια): Σύγκριση του πλήθους των καταληκτικών υποδείξεων π.χ. X = < 20,?, Γ, Σπάρτη > Έγγαμος Ηλικία>=30 Οικογ. κατ. ΟΧΙ Άγαμος Με τέκνα Φύλο ΝΑΙ ΟΧΙ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ Τελική απόφαση: ΌΧΙ (2-1) 26
Άγνωστες τιμές χαρακτηριστικών στα παραδείγματα εκπαίδευσης Σε περίπτωση άγνωστης τιμής (missing value) του υπό ελέγχου χαρακτηριστικού, σε ποιό κλάδο εκχωρείται το παράδειγμα; Διάφορες προσεγγίσεις: 1. H άγνωστη τιμή καταχωρείται ως ξεχωριστή τιμή του χαρακτηριστικού (όμως η αβεβαιότητα παραμένει η ίδια στον κλάδο) 2. Συμπλήρωση της άγνωστης τιμής ως x i =argmax(p(x i /C), δηλ. πιθανότερη τιμή με βάση την κατηγορία του 3. Εκχώρηση του παραδείγματος στον κλάδο με τη μεγαλύτερη πιθανότητα / συχνότητα 4. Διαμελισμός του παραδείγματος εκχώρηση τμημάτων του σε κάθε κλάδο, με στάθμιση ανάλογη της συχνότητας κάθε κλάδου στα παραδείγματα εκπαίδευσης Ποιά ή ποιες προσεγγίσεις σας φαίνονται ορθότερες; Συγκρίνετε με το αντίστοιχο πρόβλημα σε ταξινόμηση κατά Bayes 27
ΑΣΚΗΣΗ: Εκπαίδευση με παράδειγμα με Άγνωστο χαρακτηριστικό Τρέχων κόμβος: Αρχικός. Χαρ/κό: Οικ/κή Κατάσταση Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 26 33 Με παιδιά? Γ Γ Πάτρα Σπάρτη ΝΑΙ ΟΧΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ Υπολογίστε το IG(Οικ.Κατ.) για κάθε μια από τις 4 πιθανές προσεγγίσεις για την αντιμετώπιση άγνωστων χαρακτηριστικών. 28
Πρόβλημα στο Information Gain Προτιμά χαρακτηριστικά με πολλές τιμές έναντι αυτών με λίγες Σχολιάστε την ακραία περίπτωση όπου έχουμε το χαρακτηριστικό «γενέθλια» (ημέρα & μήνας). Πόσο θα προκύψει το IG; Λύση: Χρησιμοποιούμε το IG Ratio (C,X)=IG(C,X)/SplitInfo(X) Το Split Information εκφράζει το πόσο πλατιά και ομοιόμορφα το Χαρακτηριστικό μοιράζει τα δεδομένα: SplitInfo ( X ) P( x ) log P( ) Άσκηση: Υπολογίστε το SplitInfo και το IGRatio για τo χαρακτηριστικό «γενέθλια» (θεωρείστε ότι δεν υπάρχει κοινή ημερομηνία γενεθλίων στα δεδομένα μας) και για το «Οικογενειακή Κατάσταση» και δείξτε ότι συμπεριφέρεται καλύτερα από το IG. i i x i 30
Θόρυβος στα δεδομένα Ενθόρυβα Δεδομένα: Αλλοίωση τιμών χαρακτηριστικών ή/και κατηγορίας (στόχου) Έντονο το πρόβλημα overfitting! Ηλικία Οικ. Κατ. Φύλο Περιοχή Απόφαση 37 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΝΑΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ 31
Υπερεστιασμένο δέντρο (overfitting) Ναι Ηλικία=<37 Οχι Άγαμος Οικογ. κατ. Έγγαμος Με παιδιά ΝΑΙ ΟΧΙ Φύλο Φύλο Α Γ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ 32
Πόλωση του ταξινομητή στα δεδομένα (overfitting) Αύξηση αριθμού κομβων Μείωση απόδοσης! 33
Κλαδεμένο δέντρο Ναι Ηλικία=<37 Οχι Άγαμος Οικογ. κατ. Έγγαμος Με παιδιά ΝΑΙ ΟΧΙ Φύλο ΝΑΙ Α Γ ΝΑΙ ΟΧΙ 34
Τεχνικές κλαδέματος δέντρων DT Πρόωρο σταμάτημα ανάπτυξης (pre-pruning): Σε κάθε μη τερματικό κόμβο λαμβάνεται απόφαση με κάποιο κριτήριο για το αν θα επεκεταθεί ή όχι Αν όχι πλειοψηφική συνάρτηση απόφασης/κατηγοριοποίησης Κριτήρια: Επιβολή Κατωφλίου σε Ποσοστό των παραδειγμάτων που έχουν μείνει για διαχωρισμό > Κατώφλι (π.χ. 5%) Information Gain ή information Gain Ratio Rule post-pruning Υλοποιείται πρώτα το πλήρες δέντρο To Δέντρο μετατρέπεται σε κανόνες προτασιακής λογικής: Α 1 Α 2... Α n C j Τόσοι κανόνες όσα τα φύλλα του δέντρου Εφαρμόζεται κλάδεμα στους κανόνες: Για κάθε κανόνα: Για κάθε όρο της υπόθεσης (Α i ): Αν παραλειφθεί, υπολόγισε την ακρίβεια του κανόνα. Αν βελτιώνεται η ακρίβεια, αντικατέστησε τον παλιό κανόνα με το νέο. Κατάταξε τους κανόνες με φθίνουσα απόδοση (ακρίβεια) και χρησιμοποίησε αυτή τη σειρά για την ταξινόμηση) Μετέπειτα κλάδεμα (post-pruning) με επικύρωση 35
κλάδεμα εκ των υστέρων (postpruning) με επικύρωση: Τυχόν στατιστικές ανωμαλίες στο σώμα εκπαίδευσης (αίτιο overfitting), πιθανότατα δεν θα προκύψουν και στο σώμα ελέγχου Αλγόριθμος Για κάθε εσωτερικό κόμβο: Έλεγχος για το αν η απομάκρυνσή του από το δένδρο, μαζί με το υποδένδρο του οποίου αποτελεί ρίζα, και η ανάθεση της συχνότερα εμφανιζόμενης κατηγορίας σε αυτό δε βλάπτει την ακρίβεια που μετράται σε κάποιο ανεξάρτητο σώμα επικύρωσης. Επιλογή του κόμβου που υπόσχεται την καλύτερη απόδοση, και αποκοπή του υποδένδρου του. Επιστροφή στο βήμα 1, όσο το δένδρο επιδέχεται βελτίωση, σύμφωνα με κάποιο δεδομένο κατώφλι. 36
Εκμάθηση DT - Σύνοψη Η εκμάθηση δενδρικών ταξινομητών αποτελεί μια από τις δημοφιλέστερες μεθόδους εκμάθησης ταξινομητών. Αναζήτηση στο χώρο όλων των δυνατών δένδρων απόφασης, με βάση τα συγκεκριμένα χαρακτηριστικά. Οι περισσότεροι αλγόριθμοι διατηρούν ένα μόνο δέντρο σε κάθε βήμα χωρίς οπισθοδρομήσεις. Επιλέγεται η καλύτερη εναλλακτική για την ανάπτυξη κάθε κόμβου του δένδρου. Προτιμώνται δένδρα, στα οποία τα χαρακτηριστικά μικρότερης εντροπίας τοποθετούνται κοντά στη ρίζα. Προτιμώνται τα απλούστερα (μικρότερα) δένδρα. Το φαινόμενο του υπερταιριάσματος αποτελεί ιδιαίτερα σημαντικό ζήτημα στην κατασκευή δενδρικών ταξινομητών. Αντιμετώπισή του με μεθόδους κλαδέματος, προ και μετά της πλήρους ανάπτυξης του δένδρου. 37