Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Σχετικά έγγραφα
Υπερπροσαρμογή (Overfitting) (1)

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες εδομένων και Εξόρυξη εδομένων:

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Δέντρα Απόφασης (Decision(

Ασκήσεις μελέτης της 16 ης διάλεξης

Μηχανική Μάθηση: γιατί;

Ευφυής Προγραμματισμός

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Μάθηση με παραδείγματα Δέντρα Απόφασης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Αναγνώριση Προτύπων Ι

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Πελάτες φθάνουν στο ταμείο μιας τράπεζας Eνα μόνο ταμείο είναι ανοικτό Κάθε πελάτης παρουσιάζεται με ένα νούμερο - αριθμός προτεραιότητας Όσο ο

Εξόρυξη Γνώσης στον Τομέα του Αθλητισμού

Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Αναγνώριση Προτύπων Ι

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Το μοντέλο Perceptron

Διδάσκων: Κωνσταντίνος Κώστα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Αλγόριθµοι και Πολυπλοκότητα

Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα).

Κεφ.11: Ευρετήρια και Κατακερματισμός

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ισορροπημένα Δένδρα. για κάθε λειτουργία; Ισορροπημένο δένδρο : Διατηρεί ύψος κάθε εισαγωγή ή διαγραφή

Εισαγωγή ενός νέου στοιχείου. Επιλογή i-οστoύ στοιχείου : Εύρεση στοιχείου με το i-οστό μικρότερο κλειδί

Δομές Δεδομένων (Εργ.) Ακ. Έτος Διδάσκων: Ευάγγελος Σπύρου. Εργαστήριο 10 Δυαδικά Δένδρα Αναζήτησης

Θέματα Υπολογισμού στον Πολιτισμό - Δένδρα. Δένδρα

Ουρές προτεραιότητας

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Ταξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Αλγόριθμοι Ταξινόμησης Μέρος 4

Διάλεξη 18: B-Δένδρα

Ενότητα 3 Επιτηρούµενος διαχωρισµός

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Δομές Δεδομένων και Αλγόριθμοι

Θεωρήστε ένα puzzle (παιχνίδι σπαζοκεφαλιάς) με την ακόλουθη αρχική διαμόρφωση : b b b w w w e

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΣΥΣΤHΜΑΤΑ ΑΠΟΦAΣΕΩΝ ΣΤΗΝ ΠΑΡΑΓΩΓH

Διάλεξη 14: Δέντρα IV - B-Δένδρα

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Εφαρμόζονται σε προβλήματα στα οποία δεν υπάρχει πληροφορία που να επιτρέπει την αξιολόγηση των καταστάσεων του χώρου αναζήτησης.

Δομές Δεδομένων & Αλγόριθμοι

Θέματα Συστημάτων Πολυμέσων

Ψηφιακές Τηλεπικοινωνίες

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Το Πρόβλημα του Περιοδεύοντος Πωλητή - The Travelling Salesman Problem

Τεχνητή Νοημοσύνη. 2η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Δίαυλος Πληροφορίας. Η λειτουργία του περιγράφεται από:

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ανακάλυψη Γνώσης στον Τομέα του Αθλητισμού

HMY 795: Αναγνώριση Προτύπων

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

ΕΑΠ/ΠΛΗ22/ΑΘΗ.4/4η ΟΣΣ/ Ν.Δημητρίου 1

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

Διαδικασιακός Προγραμματισμός

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ (ΠΑΤΡΑ) ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

Ανάλυση και Σχεδιασμός Μεταφορών Ι Ανάλυση Διακριτών Επιλογών

ΕΑΠ/ΠΛΗ22/ΑΘΗ.4/4η ΟΣΣ/ Κώδικες ελέγχου Σφαλμάτων /

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ

Κωδικοποίηση Πηγής. Η λειτουργία ενός συστήματος επικοινωνίας (γενικό διάγραμμα):

Υπολογιστικό Πρόβληµα

Κατανεμημένα Συστήματα Ι

Διάλεξη 22: Δυαδικά Δέντρα. Διδάσκων: Παναγιώτης Ανδρέου

Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων

Λογική Δημήτρης Πλεξουσάκης Φροντιστήριο 6: Προτασιακός Λογισμός: Μέθοδος Επίλυσης Τμήμα Επιστήμης Υπολογιστών

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Διάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου

Ισορροπημένα Δένδρα. για κάθε λειτουργία; Ισορροπημένο δένδρο : Διατηρεί ύψος κάθε εισαγωγή ή διαγραφή

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Τηλεπικοινωνιακά Συστήματα ΙΙ

ΑΛΓΟΡΙΘΜΟΙ ΜΕ C. ΝΙΚΟΛΑΟΣ ΣΑΜΑΡΑΣ Αναπληρωτής Καθηγητής. CMOR Lab. Computational Methodologies and Operations Research

Συμπίεση Δεδομένων

Συμπίεση Δεδομένων

ΣΥΣΤHΜΑΤΑ ΑΠΟΦAΣΕΩΝ ΣΤΗΝ ΠΑΡΑΓΩΓH

ΠΛΗ21 Κεφάλαιο 2. ΠΛΗ21 Ψηφιακά Συστήματα: Τόμος Α Κεφάλαιο: 2 Δυαδική Κωδικοποίηση

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Transcript:

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): <Ηλικία: 27, Οικ. Κατ.: Έγγαμος, Φύλο: Α, Καλός_Πελάτης: ΝΑΙ> Επιλογή ενός χαρακτηριστικού ως κατηγορία. π.χ. Καλός_Πελάτης. Είδαμε Στατιστική Ταξινόμηση κατά Bayes: υπολογισμός P( C c X x), π.χ. P(Καλός_Πελάτης: ΝΑΙ Ηλικία: 27, Οικ. Κατ.: Έγγαμος, Φύλο: Α). Εκμάθηση ταξινομητή: υπολογισμός του «βέλτιστου» ταξινομητή με βάση τα δεδομένα. 1

Δέντρα Ταξινόμησης/Απόφασης Classification /Decision Trees (DT) Χαρακτηριστικά: Διακριτά ή Διακριτοποιημένα Εσωτερικός Κόμβος (και Ρίζα): Χαρακτηριστικό (δυαδικό ή όχι) Όλα binary Binary DT Τερματικοί κόμβοι (φύλλα): Κατηγορίες. Εδώ: 2: ΝΑΙ / ΌΧΙ (καλός πελάτης). Δεν υπάρχει περιορισμός στο πλήθος Έγγαμος Ηλικία>=30 Οικογ. κατ. ΟΧΙ Άγαμος Με παιδιά Φύλο ΝΑΙ ΟΧΙ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ 2

Διαδικασία Ταξινόμησης με DT Δεδομένα: Ένα Δέντρο Απόφασης βάσει ενός συνόλου χαρακτηριστικών S Αντικείμενο προς ταξινόμηση με τιμές για όλα τα χαρακτηριστικά του S. Ξεκινάμε από τη ρίζα, ελέγχουμε την τιμή του αντίστοιχου χαρακτηριστικού στο προς ταξινόμηση στιγμιότυπο, και ακολουθούμε το μονοπάτι στο οποίο μας οδηγεί αυτή η τιμή. Μεταβαίνουμε στον επόμενο κόμβο και επαναλαμβάνουμε τη διαδικασία. Όταν φθάσουμε σε τερματικό κόμβο αναθέτουμε το άγνωστο στιγμιότυπο στην αντίστοιχη κατηγορία. 3

Διαδικασία Ταξινόμησης με Decision Trees π.χ. X = < 20, 'Εγγαμος, Γ, Σπάρτη > αριθμητικά χαρ/κά κατώφλι Έγγαμος Ηλικία>=30 Οικογ. κατ. ΟΧΙ Άγαμος Με τέκνα Φύλο ΝΑΙ ΟΧΙ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ 4

Δέντρα Αποφάσεων (Decision Trees) To προς εκμάθηση μοντέλο αναπαριστάται με μία δενδρική δομή. Ένα μονοπάτι απόφασης, Ρίζα Φύλλο μπορεί να μην περιλαμβάνει όλα τα χαρακτηριστικά Το ίδιο ισχύει και για ολόκληρο το Δέντρο Υπάρχουν δύο τύποι κόμβων: Εσωτερικός Κόμβος: Διαιρεί το χώρο του προβλήματος (στιγμιότυπα) σε ομάδες, ανάλογα με την τιμή του χαρακτηριστικού με το οποίο αντιστοιχίζεται ο κόμβος (π.χ. «Φύλο» = {Α, Γ}). Τερματικός Κόμβος (leaf - φύλλο): Αναθέτει τα στιγμιότυπα που καταλήγουν σε αυτόν σε μια συγκεκριμένη κατηγορία. 5

Αυτόματη Εκμάθηση Δέντρων Απόφασης Decision Tree Learning Αλγόριθμος εξειδίκευσης για την εκμάθηση δέντρων απόφασης (ID3, C4.5, See5, CART, ): 1. Επέλεξε το χαρακτηριστικό που πετυχαίνει τον καλύτερο διαχωρισμό μεταξύ των κατηγοριών. 2. Χώρισε τα δεδομένα σε υποσύνολα με βάση της τιμές του χαρακτηριστικού αυτού. 3. Για κάθε υποσύνολο που περιέχει περισσότερες από μία κατηγορίες, επανέλαβε τη διαδικασία. 4. Σταμάτησε εφόσον δεν υπάρχουν υποσύνολα που περιέχουν περισσότερες από μία κατηγορίες ή έχουν χρησιμοποιηθεί όλα τα χαρακτηριστικά. 6

Επιλέγοντας το καλύτερο κριτήριο διαχωρισμού: Ξυράφι του Ockham: Από όλες τις πιθανές εξηγήσεις/αναπαραστάσεις, επέλεξε την απλούστερη Decision Tree Learning: Βρες το μικρότερο δέντρο που ταξινομεί τα δεδομένα σωστά Πρόβλημα! Υπολογιστικός φόρτος (Σύγκριση όλων των δυνατών δέντρων) Λύση: Κατασκευή δέντρου αυξητικά Επιλογή βέλτιστου χαρακτηριστικού ανά κόμβο (τοπικά βέλτιστη λύση) Διακριτοποίηση συνεχούς χαρακτηριστικού (ανά κόμβο) Εναλλακτικά κριτήρια: Ελαχιστοποίηση λαθών κατηγοριοποίησης Μεγιστοποίηση Κέρδους Πληροφορίας (Information Gain) Information Gain Ratio Ελαχιστοποίηση Gini impurity

Δέντρα Ταξινόμησης/Απόφασης Classification /Decision Trees Χαρακτηριστικά: Διακριτά ή Διακριτοποιημένα ανά κόμβο Κατώφλι: Συνάρτηση του τρέχοντος μονοπατιού Οποιοδήποτε DT μπορεί να γίνει binary tree. Πώς; Έγγαμος Ηλικία>=30 Οικογ. κατ. ΟΧΙ Άγαμος Με παιδιά Ηλικία>=35 ΝΑΙ ΟΧΙ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ 8

Παράδειγμα Συνόλου Παραδειγμάτων Εκπαίδευσης Ελπίζουμε ότι καποια από τα χαρακτηριστικά συσχετίζονται με τις κατηγορίες Εδώ: λίγα δεδομένα (sparse data) Ηλικία Οικ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ 9

Επιλογή βέλτιστου χαρακτηριστικού τρέχοντος κόμβου Τρέχων κόμβος: Αρχικός Πόσα λάθη κατηγοριοποίησης δίνει κάθε χαρακτηριστικό (μόνο του)? Ηλικία (~συνεχές!?) Οικογ. Κατ. Φύλο Περιοχή Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ

Επιλογή βέλτιστου χαρακτηριστικού τρέχοντος κόμβου Τρέχων κόμβος: Αρχικός Χαρακτηριστικό: Οικογ. Κατ. (ORDER BY για εύκολη εύρεση) Πόσα λάθη, βάσει συνάρτησης πλειοψηφίας; Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ 11

Επιλογή βέλτιστου χαρακτηριστικού τρέχοντος κόμβου Τρέχων κόμβος: Αρχικός Χαρακτηριστικό: Οικογ. Κατ. (ORDER BY για εύκολη εύρεση) Πόσα λάθη, βάσει συνάρτησης πλειοψηφίας; 2 λάθη Οικογ. Κατ. Άγαμος Άγαμος Έγγαμος Έγγαμος Έγγαμος Με παιδιά Με παιδιά Με παιδιά Απόφαση ΟΧΙ ΟΧΙ ΟΧΙ ΝΑΙ ΝΑΙ ΟΧΙ ΝΑΙ ΝΑΙ 12

Επιλογή βέλτιστου χαρακτηριστικού τρέχοντος κόμβου Τρέχων κόμβος: Αρχικός Λάθη κατηγοριοποίησης για το χαρακτηριστικό "Ηλικία" (~συνεχές!): Έστω δυαδικός κόμβος Επιλογή ενός βέλτιστου κατωφλίου: βέλτιστος διαχωρισμός παραδειγμάτων sorting για εύκολη εύρεση 1. ποιο το βέλτιστο κατώφλι? 2. πόσα λάθη? βάσει πλειοψηφικής συνάρτησης απόφασης Ηλικία Απόφαση 25 ΟΧΙ 26 ΝΑΙ 27 ΟΧΙ 30 ΝΑΙ 32 ΟΧΙ 35 ΝΑΙ 38 ΝΑΙ 40 ΟΧΙ 13

Επιλογή βέλτιστου χαρακτηριστικού τρέχοντος κόμβου Τρέχων κόμβος: Αρχικός Λάθη κατηγοριοποίησης για το χαρακτηριστικό "Ηλικία" (~συνεχές!): Έστω δυαδικός κόμβος Επιλογή ενός βέλτιστου κατωφλίου: βέλτιστος διαχωρισμός παραδειγμάτων sorting για εύκολη εύρεση 1. ποιο το βέλτιστο κατώφλι? 33.5 2. πόσα λάθη? 3 βάσει πλειοψηφικής συνάρτησης απόφασης 3. Το 33.5 είναι το μόνο «βέλτιστο»; Ηλικία Απόφαση 25 ΟΧΙ 26 ΝΑΙ 27 ΟΧΙ 30 ΝΑΙ 32 ΟΧΙ 35 ΝΑΙ 38 ΝΑΙ 40 ΟΧΙ 14

Επιλογή βέλτιστου χαρακτηριστικού τρέχοντος κόμβου Τρέχων κόμβος: Αρχικός: Λάθη κατηγοριοποίησης ανά χαρακτηριστικό - Συνολικά Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ 3 2 3 3 15

Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ Θα μπορούσαμε να σταματήσουμε εδώ και να χρησιμοποιήσουμε τη συνάρτηση πλειοψηφίας για την απόφαση (forward pruning = πρόωρο κλάδεμα), για μικρό δέντρο, βλ. παρακάτω Έγγαμος Οικογ. κατ. Άγαμος Με παιδιά ΟΧΙ ΝΑΙ-ΟΧΙ: 2-1 ΝΑΙ-ΟΧΙ: 0-2 ΝΑΙ-ΟΧΙ: 2-1 16

2ο χαρ/κό - 2ο επίπεδο του DT Για κάθε κόμβο του 2ου επιπέδου ο οποίος δεν είναι τερματικός ("φύλλο"-"leaf"): Ποιο από τα υπόλοιπα χαρακτηριστικά κάνει καλύτερο διαχωρισμό; Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ Έγγαμος Ηλικία>30 ΝΑΙ: 3-0 Οικογ. κατ. ΟΧΙ Άγαμος Με παιδιά Φύλο=Γ ΝΑΙ: 3-0 17

Τελικό Δέντρο Ταξινόμησης/Απόφασης Οικογ. κατ. Έγγαμος Με παιδιά Άγαμος Ηλικία>=30 ΟΧΙ Φύλο Ναι Οχι Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ 18

Εύρεση βέλτιστου χαρακτηριστικού (IG) Καλύτερη μετρική από τη συνάρτηση πλειοψηφίας: Κέρδος πληροφορίας (Information Gain). Βασίζεται στην αβεβαιότητα <==> Εντροπία Στον τρέχοντα κόμβο (πριν το διαχωρισμό): Αρχική «αβεβαιότητα» (εντροπία πληροφορίας) στον γονικό κόμβο: Αβεβαιότητα πριν: H ( C) ( C) j j P( C P( c j c j ) log ) log P( c j P( C ) c j ) ή C 1 C n C j Έστω 2 κατηγορίες (n=2): Α) 0%-100% Β) 50%-50% Υπολογίστε την αβεβαιότητα 19

Εύρεση βέλτιστου χαρακτηριστικού - IG Eντροπία / Αβεβαιότητα μετά το διαχωρισμό βάσει του χαρακτηριστικού Χ: x 1 c 1 x i c n c j x m c 1 c j c 1 c j c 1 c j c n c n c n Για κάθε κόμβο - τέκνο "x i ", η εντροπία (αβεβαιότητά) του γίνεται: H ( C x ) P( C c X x ) log P( C c X x i i i j Συνολικά, η μέση (σταθμισμένη) εντροπία των κόμβων τέκνων είναι: H ( C X ) P( x ) P( C c X x ) log P( C c X x j j j i i j j i i ) 20 )

Εύρεση βέλτιστου χαρακτηριστικού βάσει IG Κριτήριο: "Μέγιστη Μείωση Αβεβαιότητας" δηλ. "Μέγιστο Κέρδος Πληροφορίας": Information Gain(C,X) = H(κόμβος-γονέας) Average(H(κόμβοι-τέκνα)) IG( C, X ) j P( c j ) log P( c j ) i P( x i ) j P( c j x i ) log P( c j x i ) Υπολογισμός για όλα τα χαρακτηριστικά: Χ, Υ, Ζ, Επιλογή του χαρακτηριστικού που μεγιστοποιεί το IG O πρώτος όρος, δηλ. το Η(C) είναι ανεξάρτητος του Χ άρα δεν χρειάζεται να υπολογιστεί για τη μεγιστοποίηση 21

Παράδειγμα: Αναμονή σε εστιατόριο Σύνολο διανυσμάτων χαρακτηριστικών, Καταστάσεις στις οποίες θα περιμένω σε ένα εστιατόριο για τραπέζι Ποιά είναι η εντροπία (αβεβαιότητα) του συνόλου αυτού; p = 6, n = 6 P(p)=0.5, P(n)=0.5 I(0.5,0.5) = 0.5 log2(0.5) 0.5 log2(0.5) = 1 bit (Χρειάζεται 1 bit πληροφορίας για να αρθεί η αβεβαιότητα)

Information gain - Παράδειγμα Στον γονικό κόμβο: p = 6, n = 6, I(6/12, 6/12) = 1 bit Χαρακτηριστικά: Type, Patrons Info gain? 0.541 bits IG(Patrons) > IG(Type), άρα το Patrons επιλέγεται για τον κόμβο

Αβεβαιότητα για κάθε χαρακτηριστικό Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ 0.95 0.86 0.68 0.95 1 bit πώς προέκυψαν οι 2 εναλλακτικές τιμές? 24

ΠΡΟΒΛΗΜΑΤΑ ΣΤΟΥΣ ΤΑΞΙΝΟΜΗΤΕΣ (ΔΕΝΤΡΩΝ ΑΠΟΦΑΣΗΣ, και όχι μόνο) Πόλωση του ταξινομητή στα δεδομένα (overfitting) - Έλλειψη γενικότητας Αντιφατικά Δεδομένα non deterministic data Ίδια παραδείγματα - διαφορετικές κατηγορίες Ενθόρυβα Δεδομένα (noisy data) Λανθασμένες τιμές χαρακτηριστικών ή κατηγορίας Ελλιπή Δεδομένα sparse data ανεπαρκής αριθμός παραδειγμάτων missing data: απουσία τιμών χαρακτηριστικών learning testing/classification 25

Άγνωστες τιμές χαρακτηριστικών στα παραδείγματα προς ταξινόμηση (Αν δεν έχουμε κλάδο "Unknown : περίπτωση 1 στην επόμενη διαφάνεια): Σύγκριση του πλήθους των καταληκτικών υποδείξεων π.χ. X = < 20,?, Γ, Σπάρτη > Έγγαμος Ηλικία>=30 Οικογ. κατ. ΟΧΙ Άγαμος Με τέκνα Φύλο ΝΑΙ ΟΧΙ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ Τελική απόφαση: ΌΧΙ (2-1) 26

Άγνωστες τιμές χαρακτηριστικών στα παραδείγματα εκπαίδευσης Σε περίπτωση άγνωστης τιμής (missing value) του υπό ελέγχου χαρακτηριστικού, σε ποιό κλάδο εκχωρείται το παράδειγμα; Διάφορες προσεγγίσεις: 1. H άγνωστη τιμή καταχωρείται ως ξεχωριστή τιμή του χαρακτηριστικού (όμως η αβεβαιότητα παραμένει η ίδια στον κλάδο) 2. Συμπλήρωση της άγνωστης τιμής ως x i =argmax(p(x i /C), δηλ. πιθανότερη τιμή με βάση την κατηγορία του 3. Εκχώρηση του παραδείγματος στον κλάδο με τη μεγαλύτερη πιθανότητα / συχνότητα 4. Διαμελισμός του παραδείγματος εκχώρηση τμημάτων του σε κάθε κλάδο, με στάθμιση ανάλογη της συχνότητας κάθε κλάδου στα παραδείγματα εκπαίδευσης Ποιά ή ποιες προσεγγίσεις σας φαίνονται ορθότερες; Συγκρίνετε με το αντίστοιχο πρόβλημα σε ταξινόμηση κατά Bayes 27

ΑΣΚΗΣΗ: Εκπαίδευση με παράδειγμα με Άγνωστο χαρακτηριστικό Τρέχων κόμβος: Αρχικός. Χαρ/κό: Οικ/κή Κατάσταση Ηλικία Οικογ. Κατ. Φύλο Περιοχή Απόφαση 27 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΟΧΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 26 33 Με παιδιά? Γ Γ Πάτρα Σπάρτη ΝΑΙ ΟΧΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ Υπολογίστε το IG(Οικ.Κατ.) για κάθε μια από τις 4 πιθανές προσεγγίσεις για την αντιμετώπιση άγνωστων χαρακτηριστικών. 28

Πρόβλημα στο Information Gain Προτιμά χαρακτηριστικά με πολλές τιμές έναντι αυτών με λίγες Σχολιάστε την ακραία περίπτωση όπου έχουμε το χαρακτηριστικό «γενέθλια» (ημέρα & μήνας). Πόσο θα προκύψει το IG; Λύση: Χρησιμοποιούμε το IG Ratio (C,X)=IG(C,X)/SplitInfo(X) Το Split Information εκφράζει το πόσο πλατιά και ομοιόμορφα το Χαρακτηριστικό μοιράζει τα δεδομένα: SplitInfo ( X ) P( x ) log P( ) Άσκηση: Υπολογίστε το SplitInfo και το IGRatio για τo χαρακτηριστικό «γενέθλια» (θεωρείστε ότι δεν υπάρχει κοινή ημερομηνία γενεθλίων στα δεδομένα μας) και για το «Οικογενειακή Κατάσταση» και δείξτε ότι συμπεριφέρεται καλύτερα από το IG. i i x i 30

Θόρυβος στα δεδομένα Ενθόρυβα Δεδομένα: Αλλοίωση τιμών χαρακτηριστικών ή/και κατηγορίας (στόχου) Έντονο το πρόβλημα overfitting! Ηλικία Οικ. Κατ. Φύλο Περιοχή Απόφαση 37 Άγαμος Α Πάτρα ΟΧΙ 40 Άγαμος Γ Σπάρτη ΝΑΙ 25 Έγγαμος Γ Καλαμάτα ΟΧΙ 32 Με παιδιά Α Σπάρτη ΟΧΙ 35 Έγγαμος Α Πάτρα ΝΑΙ 38 Έγγαμος Γ Καλαμάτα ΝΑΙ 26 Με παιδιά Γ Πάτρα ΝΑΙ 30 Με παιδιά Γ Σπάρτη ΝΑΙ 31

Υπερεστιασμένο δέντρο (overfitting) Ναι Ηλικία=<37 Οχι Άγαμος Οικογ. κατ. Έγγαμος Με παιδιά ΝΑΙ ΟΧΙ Φύλο Φύλο Α Γ Α Γ ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ 32

Πόλωση του ταξινομητή στα δεδομένα (overfitting) Αύξηση αριθμού κομβων Μείωση απόδοσης! 33

Κλαδεμένο δέντρο Ναι Ηλικία=<37 Οχι Άγαμος Οικογ. κατ. Έγγαμος Με παιδιά ΝΑΙ ΟΧΙ Φύλο ΝΑΙ Α Γ ΝΑΙ ΟΧΙ 34

Τεχνικές κλαδέματος δέντρων DT Πρόωρο σταμάτημα ανάπτυξης (pre-pruning): Σε κάθε μη τερματικό κόμβο λαμβάνεται απόφαση με κάποιο κριτήριο για το αν θα επεκεταθεί ή όχι Αν όχι πλειοψηφική συνάρτηση απόφασης/κατηγοριοποίησης Κριτήρια: Επιβολή Κατωφλίου σε Ποσοστό των παραδειγμάτων που έχουν μείνει για διαχωρισμό > Κατώφλι (π.χ. 5%) Information Gain ή information Gain Ratio Rule post-pruning Υλοποιείται πρώτα το πλήρες δέντρο To Δέντρο μετατρέπεται σε κανόνες προτασιακής λογικής: Α 1 Α 2... Α n C j Τόσοι κανόνες όσα τα φύλλα του δέντρου Εφαρμόζεται κλάδεμα στους κανόνες: Για κάθε κανόνα: Για κάθε όρο της υπόθεσης (Α i ): Αν παραλειφθεί, υπολόγισε την ακρίβεια του κανόνα. Αν βελτιώνεται η ακρίβεια, αντικατέστησε τον παλιό κανόνα με το νέο. Κατάταξε τους κανόνες με φθίνουσα απόδοση (ακρίβεια) και χρησιμοποίησε αυτή τη σειρά για την ταξινόμηση) Μετέπειτα κλάδεμα (post-pruning) με επικύρωση 35

κλάδεμα εκ των υστέρων (postpruning) με επικύρωση: Τυχόν στατιστικές ανωμαλίες στο σώμα εκπαίδευσης (αίτιο overfitting), πιθανότατα δεν θα προκύψουν και στο σώμα ελέγχου Αλγόριθμος Για κάθε εσωτερικό κόμβο: Έλεγχος για το αν η απομάκρυνσή του από το δένδρο, μαζί με το υποδένδρο του οποίου αποτελεί ρίζα, και η ανάθεση της συχνότερα εμφανιζόμενης κατηγορίας σε αυτό δε βλάπτει την ακρίβεια που μετράται σε κάποιο ανεξάρτητο σώμα επικύρωσης. Επιλογή του κόμβου που υπόσχεται την καλύτερη απόδοση, και αποκοπή του υποδένδρου του. Επιστροφή στο βήμα 1, όσο το δένδρο επιδέχεται βελτίωση, σύμφωνα με κάποιο δεδομένο κατώφλι. 36

Εκμάθηση DT - Σύνοψη Η εκμάθηση δενδρικών ταξινομητών αποτελεί μια από τις δημοφιλέστερες μεθόδους εκμάθησης ταξινομητών. Αναζήτηση στο χώρο όλων των δυνατών δένδρων απόφασης, με βάση τα συγκεκριμένα χαρακτηριστικά. Οι περισσότεροι αλγόριθμοι διατηρούν ένα μόνο δέντρο σε κάθε βήμα χωρίς οπισθοδρομήσεις. Επιλέγεται η καλύτερη εναλλακτική για την ανάπτυξη κάθε κόμβου του δένδρου. Προτιμώνται δένδρα, στα οποία τα χαρακτηριστικά μικρότερης εντροπίας τοποθετούνται κοντά στη ρίζα. Προτιμώνται τα απλούστερα (μικρότερα) δένδρα. Το φαινόμενο του υπερταιριάσματος αποτελεί ιδιαίτερα σημαντικό ζήτημα στην κατασκευή δενδρικών ταξινομητών. Αντιμετώπισή του με μεθόδους κλαδέματος, προ και μετά της πλήρους ανάπτυξης του δένδρου. 37