Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Σχετικά έγγραφα
Ασκήσεις μελέτης της 16 ης διάλεξης

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 4η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 2η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 3η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 6η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 14η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 7η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ασκήσεις μελέτης της 19 ης διάλεξης

Τεχνητή Νοημοσύνη. 5η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 8η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Υπερπροσαρμογή (Overfitting) (1)

Τεχνητή Νοημοσύνη. 9η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Ασκήσεις μελέτης της 8 ης διάλεξης

Ασκήσεις μελέτης της 6 ης διάλεξης

Τεχνητή Νοημοσύνη. 5η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Ανάκτηση Πληροφορίας

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Μάθηση με παραδείγματα Δέντρα Απόφασης

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

Τεχνητή Νοημοσύνη. 19η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Πελάτες φθάνουν στο ταμείο μιας τράπεζας Eνα μόνο ταμείο είναι ανοικτό Κάθε πελάτης παρουσιάζεται με ένα νούμερο - αριθμός προτεραιότητας Όσο ο

Τεχνητή Νοημοσύνη ( )

Προγραμματισμός Υπολογιστών με C++

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Εφαρμόζονται σε προβλήματα στα οποία δεν υπάρχει πληροφορία που να επιτρέπει την αξιολόγηση των καταστάσεων του χώρου αναζήτησης.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Κατανεμημένα Συστήματα Ι

Κατανεμημένα Συστήματα Ι

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Μηχανική Μάθηση: γιατί;

Ενότητα 3 Επιτηρούµενος διαχωρισµός

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Επίλυση Προβλημάτων 1

ΑΝΑΚΟΙΝΩΣΗ ΚΑΤΑΤΑΚΤΗΡΙΩΝ ΕΞΕΤΑΣΕΩΝ ΑΚ. ΈΤΟΥΣ

Για παράδειγμα η αρχική και η τελική κατάσταση αναπαριστώνται ως εξής: (ένα λίτρο)

Δυαδικά Δέντρα Αναζήτησης (Binary Search Trees) Ορισμός : Ένα δυαδικό δέντρο αναζήτησης t είναι ένα δυαδικό δέντρο, το οποίο είτε είναι κενό είτε:

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

07/11/2016. Στατιστική Ι. 6 η Διάλεξη (Βασικές διακριτές κατανομές)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 5: Παραδείγματα. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

X = = 81 9 = 9

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

Τεχνητή Νοημοσύνη ΙΙ. Εργαστηριακή Άσκηση 6. Μουστάκας Κωνσταντίνος. Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστων

Μαθηματικά των Υπολογιστών και των Αποφάσεων Τεχνητή Νοημοσύνη 1η Σειρά Ασκήσεων

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Τεχνητή Νοημοσύνη. 12η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

HMY 795: Αναγνώριση Προτύπων

ΥΣ02 Τεχνητή Νοημοσύνη Χειμερινό Εξάμηνο

Δοµές Δεδοµένων. ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Φθινοπωρινό Εξάµηνο Ευάγγελος Μαρκάκης

===========================================================================

Ανάκτηση Πληροφορίας

6 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

ΚΕΦΑΛΑΙΟ 1ο: ΔΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ ΕΝΟΤΗΤΑ 3: ΟΡΙΑ - ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ

4.3 Ορθότητα και Πληρότητα

Διάλεξη 12: Δέντρα ΙΙ Δυαδικά Δέντρα

έντρα ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

Τεχνητή Νοημοσύνη ΙΙ. Εργαστηριακή Άσκηση 5. Μουστάκας Κωνσταντίνος. Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστων

Ανάκτηση Πληροφορίας

ΟιβασικέςπράξειςπουορίζουντονΑΤΔ δυαδικό δέντρο αναζήτησης είναι οι ακόλουθες:

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

1 Αριθμητική κινητής υποδιαστολής και σφάλματα στρογγύλευσης

Θεωρία Υπολογισμού και Πολυπλοκότητα Κανονικές Γλώσσες (1)

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Διακριτά Μαθηματικά. Ενότητα 4: Εισαγωγή / Σύνολα

Συνδυαστική Απαρίθμηση

Πληρότητα της μεθόδου επίλυσης

Διαχρονικές δομές δεδομένων

Λήψη αποφάσεων κατά Bayes

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Δημήτρης Πλεξουσάκης

Διάλεξη 17: O Αλγόριθμος Ταξινόμησης HeapSort

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ιδάσκοντες: Φ. Αφράτη,. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 6: Προβλήματα ικανοποίησης περιορισμών. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Θεωρία Λήψης Αποφάσεων

Δέντρα Απόφασης (Decision(

Μη γράφετε στο πίσω μέρος της σελίδας

Ταχεία Ταξινόμηση Quick-Sort

Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων

Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα).

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

HY Λογική Διδάσκων: Δ. Πλεξουσάκης

Εργαστήριο 1. Βαθμός ΑΜ Εργ1.2 Σχόλια Εργ1.3 Σχόλια (20)

Αριθμοθεωρητικοί Αλγόριθμοι

Transcript:

Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1

Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των S. Russel και P. Norvig, 2η έκδοση, Prentice Hall, 2003, του βιβλίου Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β. Γκιούρδας Εκδοτική, 2006 και του βιβλίου Machine Learning του T. Mitchell, McGraw-Hill, 1997. Τα περισσότερα σχήματα των διαφανειών βασίζονται σε αντίστοιχα σχήματα των διαφανειών που συνοδεύουν τα πρώτα δύο βιβλία. 2

Τι θα ακούσετε σήμερα Αφελείς ταξινομητές Bayes. Αλγόριθμος ID3. Θόρυβος και υπερ-προσαρμογή. 3

Αφελείς ταξινομητές Bayes (Naive Bayes) Παράδειγμα: εισερχόμενο μήνυμα, παριστάνεται ως: X X1 X 2 X m Συνάρτηση ταξινόμησης:,,..., 0,1,...,1 hx ( ) 1, ανν P(C 1 X) P(C 0 X) Με το θεώρημα του Bayes (εδώ c = 0 ή c = 1): P( C c) P( X C c) P( C c X ) PX ( ) Πρέπει να εκτιμηθούν οι πιθανότητες όλων των συνδυασμών x 1, x 2,..., x m c. Πάρα πολλοί και πολλοί είναι σπάνιοι στα δεδομένα μας. 4

Παραδοχή ανεξαρτησίας Οι αφελείς ταξινομητές Bayes κάνουν την παραδοχή ότι οι τιμές των X 1,, X m είναι ανεξάρτητες δεδομένης της τιμής της C. Συνήθως δεν ισχύει, αλλά στην πράξη καλά αποτελέσματα. P( X x, x,..., x C c) 1 2 P( X x X x... X x C c) 1 1 2 2 P( X x C c)... P( X x C c) 1 1 m i 1 m m m m m P( X x C c) i i 5

Αφελείς ταξινομητές Bayes συνέχεια Τότε: P( C 1 X ) m P( C 1) P( X x C 1) i 1 i PX ( ) i P( C 0 X ) m P( C 0) P( X x C 0) i 1 i PX ( ) Τώρα όλες οι πιθανότητες μπορούν να εκτιμηθούν εύκολα από τα παραδείγματα εκπαίδευσης. Οι παρονομαστές δεν μας χρειάζονται, γιατί είναι ίδιοι. i 6

Εξομάλυνση πιθανοτήτων Προσπαθούμε να εκτιμήσουμε την P( X x C c). 1 η προσέγγιση: Σε πόσα μηνύματα εκπαίδευσης της κατηγορίας c εμφανίζεται η λέξη που αντιστοιχεί στη X i ; Τι γίνεται όμως αν η λέξη της X i δεν εμφανίζεται σε κανένα μήνυμα εκπαίδευσης της c; Μηδενική εκτίμηση. m Μηδενίζεται και ολόκληρο το P( X i xi C c). Μηδενική P( C c X ) λόγω μόνο μιας ιδιότητας. Ένας τρόπος εξομάλυνσης: εκτιμήτρια Laplace. P( X x C c) Θεωρούμε κατά την εκτίμηση της i i ότι υπάρχουν δύο ακόμη ψευτο-μηνύματα εκπαίδευσης κατηγορίας c: ένα που περιέχει τη λέξη της X i και ένα που δεν την περιέχει. Επομένως +1 στον αριθμητή της εκτίμησης, +2 στον παρανομαστή. Γενικότερα, κατά την εκτίμηση τυχαίας μεταβλητής με k δυνατές τιμές, +1 στον αριθμητή και +k στον παρανομαστή. i 1 i i

Χαρακτηριστικά Naive Bayes Πολύ μικρό υπολογιστικό κόστος: Ο(mN) κατά την εκπαίδευση για την εκτίμηση των πιθανοτήτων P(X i C), Ο(m) κατά την κατάταξη για τον υπολογισμό του γινομένου των P(X i C), όπου Ν το πλήθος των παραδειγμάτων εκπαίδευσης και m το πλήθος των ιδιοτήτων. Πολύ μικρές απαιτήσεις μνήμης: O(m) για την αποθήκευση των εκτιμήσεων των P(X i C). Δεν μπορούμε να παραστήσουμε άμεσα τη γνώση που απέκτησε με μορφή λογικών κανόνων. Όπως και στην περίπτωση του k-nn. 8

Μάθηση δέντρων απόφασης εισόδημα; υψηλό χαμηλό παντρεμένος; μη δώσεις όχι ναι μη δώσεις δώσε Ο αλγόριθμος ID3 κατασκευάζει δέντρα αυτής της μορφής από τα παραδείγματα εκπαίδευσης. Σε κάθε εσωτερικό κόμβο ελέγχουμε την τιμή μιας ιδιότητας. Τα φύλλα αντιστοιχούν σε αποφάσεις. 9

Χώρος αναζήτησης δέντρων απόφασης κενό δένδρο εισόδημα; υψηλό χαμηλό εισόδημα; υψηλό χαμηλό παντρεμένος; όχι ναι εισόδημα; υψηλό χαμηλό παντρεμένος; όχι ναι μη δώσεις οφειλές; μη δώσεις χαμηλές υψηλές 10

Ο υποχώρος αναζήτησης του ID3 Η ευρετική λέει π.χ. πως είναι καλύτερο το αριστερό παιδί. κενό δένδρο Τα παιδιά αυτής της κατάστασης δεν τα εξερευνούμε ποτέ. εισόδημα; υψηλό χαμηλό παντρεμένος; όχι ναι εισόδημα; υψηλό χαμηλό εισόδημα; υψηλό χαμηλό παντρεμένος; όχι ναι μη δώσεις οφειλές; μη δώσεις χαμηλές υψηλές 11

Καταστάσεις: περισσότερες λεπτομέρειες Σε κάθε κόμβο του δένδρου μετράμε τα παραδείγματα κάθε κατηγορίας και επιλέγουμε μέσω ευρετικής την ιδιότητα που τα διαχωρίζει καλύτερα. Όλα τα παραδείγματα εκπαίδευσης που έχουν μείνει ανήκουν σε μία κατηγορία. Απόφαση: μη δώσεις. Κατάσταση του χώρου αναζήτησης. Τα παραδείγματα εκπαίδευσης δεν ανήκουν όλα σε μία κατηγορία. 12 Επέκτεινε το δέντρο κάτω από αυτόν τον κόμβο.

ID3: επέκταση δένδρου απόφασης Σε κάθε βήμα επεκτείνουμε κατά ένα επίπεδο όλους τους κόμβους του δέντρου που μπορούν να επεκταθούν. 1o βήμα Θεωρούμε επέκταση και την προσθήκη φύλλου-απόφασης. 13

ID3: επέκταση δένδρου απόφασης 1ο βήμα μη δώσεις 2ο βήμα 14

ID3: επέκταση δένδρου απόφασης 1ο βήμα μη δώσεις 2ο βήμα μη δώσεις δώσε 3ο βήμα 15

ID3: Αναρρίχηση λόφου Σε κάθε κατάσταση (ημιτελές δέντρο) του χώρου αναζήτησης, επιλέγει να επεκτείνει κάθε κόμβο του δέντρου απόφασης (που πρέπει να επεκταθεί) με την ιδιότητα που εκτιμά πως είναι η χρησιμότερη. Χρησιμοποιεί ως ευρετική συνάρτηση αξιολόγησης των ιδιοτήτων το κέρδος πληροφορίας (IG). Προκύπτει έτσι μια μοναδική κατάσταση-παιδί (νέο δέντρο απόφασης) στην οποία μεταβαίνουμε. Το μέτωπο περιέχει πάντα μία μόνο κατάσταση. Δεν υπάρχει δυνατότητα εξέτασης εναλλακτικών μονοπατιών. 16

ID3: επιλογή ιδιότητας κενό δένδρο Ιδιότητες που μπορούν να χρησιμοποιηθούν: Οφειλές (X 1 ), εισόδημα (X 2 ), παντρεμένος (X 3 ). Απάντηση: C = 1 (δώσε), C = 0 (μη δώσεις). 2 2 3 3 HC ( ) log 2 log 2 0.97 5 5 5 5 IG( C, X ) H( C) P( X x) H( C X x) 0.02 1 1 1 x {0,1} IG( C, X ) H( C) P( X x) H( C X x) 0.42 2 2 2 x {0,1} IG( C, X ) H( C) P( X x) H( C X x) 0.17 3 3 3 x {0,1} 17

ID3: επιλογή ιδιότητας Προσοχή: οι πιθανότητες εκτιμούνται τώρα από τα παραδείγματα αυτού του κόμβου. π.χ. P(C=1) = 2/3 (Χ 2 ) (1) (0) Ιδιότητες που μπορούν να χρησιμοποιηθούν: o Οφειλές (X 1 ), παντρεμένος (X 3 ). o o Υπολογίζουμε εκ νέου: IG(C, X 1 ) =, IG(C, X 3 ) = IG(C, X 1 ) < IG(C, X 3 ). Άρα επιλέγουμε το X 3 (παντρεμένος). 18

Αρχική κλήση του ID3 ID3(Παραδείγματα, {εισόδημα, οφειλές, παντρεμένος}) Παραδείγματα: 2 καλοί και 3 κακοί. Ιδιότητες = {εισόδημα, οφειλές, παντρεμένος}. Καλύτερη ιδιότητα: εισόδημα. 19

Αναδρομική κλήση του ID3 (Χ 2 ) (1) (0) Παραδείγματα-1 Παραδείγματα-2 ID3(Παραδείγματα-1, {οφειλές, παντρεμένος}) ID3(Παραδείγματα-2, {οφειλές, παντρεμένος}) 20

Αλγόριθμος ID3 συνάρτηση ID3(παραδείγματα, ιδιότητες, προεπιλεγμένη) είσοδοι: παραδείγματα: σύνολο παραδειγμάτων εκπαίδευσης ιδιότητες: σύνολο διαθέσιμων ιδιοτήτων προεπιλεγμένη: προεπιλεγμένη κατηγορία αν παραδείγματα = {} τότε επίστρεψε προεπιλεγμένη κατηγορία διαφορετικά αν όλα τα παραδείγματα ανήκουν στην ίδια κατηγορία τότε επίστρεψε αυτή την κατηγορία διαφορετικά αν ιδιότητες = {} τότε επίστρεψε την κατηγορία που είναι συχνότερη στα παραδείγματα διαφορετικά... 21

Αλγόριθμος ID3 (συνέχεια) Επιλέγουμε την ιδιότητα που παρέχει το μεγαλύτερο κέρδος πληροφορίας. διαφορετικά καλύτερη επιλογή-ιδιότητας(ιδιότητες, παραδείγματα) δέντρο νέο δέντρο που στη ρίζα του ελέγχει την καλύτερη έστω m η συχνότερη κατηγορία μεταξύ των παραδειγμάτων για κάθε δυνατή τιμή v i της καλύτερης παραδείγματα i {π παραδείγματα π.καλύτερη = v i } υποδέντρο ID3(παραδείγματα i, ιδιότητες καλύτερη, m) πρόσθεσε κλαδί με ετικέτα v i στο δέντρο που να οδηγεί από τη ρίζα στο υποδέντρο επίστρεψε το δέντρο 22

Πιθανές αιτίες «θορύβου» Ιδιότητες που δεν έχουν σχέση με την κατηγορία. Π.χ. χρώμα ματιών στην περίπτωση των δανείων. Παραδείγματα εκπαίδευσης με λάθος «ορθή» απόκριση. Ασυνεπή παραδείγματα εκπαίδευσης (ή αξιολόγησης): με ίδιες τιμές ιδιοτήτων αλλά διαφορετική «ορθή» απόκριση. Λάθη κατά την κατασκευή των δεδομένων. Περιπτώσεις όπου οι ειδικοί (π.χ. γιατροί) δεν συμφωνούν. Περιπτώσεις που διαφέρουν στην πραγματικότητα, αλλά οι ιδιότητες που επιλέξαμε τις κάνουν να φαίνονται ίδιες. Μη αιτιοκρατικά φαινόμενα. Στον ID3, τα ασυνεπή παραδείγματα καταλήγουν στον ίδιο κόμβο του δέντρου. Δεν μπορούμε να τα διαχωρίσουμε με καμία ιδιότητα. Σύμφωνα με τον αλγόριθμο, επιστρέφουμε τη συχνότερη «ορθή» απόκριση μεταξύ των παραδειγμάτων του κόμβου. 23

Ο πλήρης διαχωρισμός μπορεί να βλάπτει χαμηλές Καλός (19) 95% Κακός (1) 5% καστανός; όχι Καλός (19) 100% Κακός (0) 0% οφειλές; ναι... υψηλές... Καλός (0) 0% Κακός (1) 100% Προσπαθούμε να επιτύχουμε πλήρη διαχωρισμό στα φύλλα. Αναγκαζόμαστε να χρησιμοποιήσουμε άσχετες ιδιότητες που τυχαίνει να διαχωρίζουν τα συγκεκριμένα παραδείγματα εκπαίδευσης. Κι αυτό λόγω ενός μόνο κακού πελάτη με χαμηλές οφειλές στα παραδείγματα εκπαίδευσης. (Μπορεί να πρόκειται για λάθος!) 24

Ο πλήρης διαχωρισμός μπορεί να βλάπτει χαμηλές Καλός (19) 95% Κακός (1) 5% καστανός; όχι Καλός (19) 100% Κακός (0) 0% οφειλές; ναι... υψηλές... Καλός (0) 0% Κακός (1) 100% Αν στην πραγματικότητα όλοι οι πελάτες με χαμηλές οφειλές είναι καλοί (ο κακός καστανός ήταν λάθος στα δεδομένα εκπαίδευσης), τότε αν είχαμε σταματήσει σε αυτόν το κόμβο (με απόφαση δώσε) θα είχαμε ένα δέντρο με μεγαλύτερο ποσοστό ορθότητας στο σύνολο του πληθυσμού (καλύτερη ικανότητα γενίκευσης). 25

Υπερ-προσαρμογή (overfitting) Υπερ-προσαρμογή στα δεδομένα εκπαίδευσης: Μάθηση τυχαιοτήτων των παραδειγμάτων εκπαίδευσης. Η παραγόμενη υπόθεση έχει μεγάλη συνέπεια με τα παραδείγματα εκπαίδευσης αλλά μικρή ικανότητα γενίκευσης. Πρόβλημα σε όλους τους αλγορίθμους μηχανικής μάθησης. Στον ID3, προσπαθώντας να διαχωρίσουμε πλήρως τα παραδείγματα εκπαίδευσης: Μεγαλώνουμε το δέντρο εξετάζοντας περισσότερες ιδιότητες. Αν δεν υπάρχουν ασυνεπή παραδείγματα και υπάρχουν αρκετές ιδιότητες, καταλήγουμε σε ένα δέντρο που είναι απολύτως συνεπές με τα δεδομένα εκπαίδευσης. Μπορεί, όμως, το δέντρο να εξετάζει ιδιότητες που είναι άσχετες με το πρόβλημα (π.χ. χρώμα ματιών στα δάνεια), αλλά που στα λίγα εναπομείναντα παραδείγματα εκπαίδευσης ενός κόμβου τυχαίνει να «προβλέπουν» σωστά την κατηγορία. 26

Κλάδεμα του παραγόμενου δέντρου Αν κλαδέψουμε το δέντρο που παράγει ο ID3, ενδέχεται να έχει καλύτερη ικανότητα γενίκευσης. Παράγουμε το δέντρο από τα παραδείγματα εκπαίδευσης. Εξετάζουμε μήπως αφαιρώντας ένα υποδέντρο έχουμε υψηλότερο ποσοστό ορθότητας σε ξεχωριστά παραδείγματα επικύρωσης (validation data). Αφού καταλήξουμε στο «καλύτερο» δέντρο, το αξιολογούμε σε παραδείγματα ελέγχου (test data). Ή σταματάμε πρόωρα την επέκταση του δέντρου. Π.χ. όταν το 95% των παραδειγμάτων κάθε κόμβου ανήκει στην ίδια κατηγορία. δώσε 27

Άλλες βελτιώσεις του ID3 Ιδιότητες με πάρα πολλές τιμές. Στην ακραία περίπτωση, πρόβλημα αν υπάρχει ιδιότητακλειδί: προβλέπει πλήρως τη σωστή απόκριση στα δεδομένα εκπαίδευσης, αλλά ένα δέντρο που βασίζεται σε αυτή δεν έχει καμία ικανότητα γενίκευσης. Υπάρχουν συναρτήσεις αξιολόγησης ιδιοτήτων που τιμωρούν ιδιότητες που οδηγούν σε υπερβολικό κατακερματισμό των παραδειγμάτων εκπαίδευσης (π.χ. gain ratio: κέρδος πληροφορίας που παρέχει η ιδιότητα / εντροπία ιδιότητας). Ιδιότητες με μη διακριτές τιμές. Π.χ. ιδιότητες με τιμές πραγματικούς αριθμούς. Μετατροπή σε ιδιότητες διακριτών τιμών. π.χ. Χ = 1 ανν 0 Χ < 1.2, Χ = 2 ανν 1.2 Χ < 2.7, Υπάρχουν αλγόριθμοι που εντοπίζουν τα καλύτερα σημεία διαχωρισμού των πεδίων τιμών συνεχών ιδιοτήτων. 28

Άλλες βελτιώσεις του ID3 C4.5: Η πιο γνωστή μορφή του ID3, με βελτιώσεις όπως κλάδεμα. Υλοποίηση σε C διατίθεται ελεύθερα (βλ. http://www.rulequest.com/personal/c4.5r8.tar.gz). Αντίστοιχη μορφή στο Weka (σε Java): J48. 29

Βιβλιογραφία Russel & Norvig: κεφάλαιο 18 μέχρι και ενότητα 18.3, υποενότητα «Απλοϊκά μοντέλα Bayes» της ενότητας 20.2. Όσοι ενδιαφέρονται μπορούν να διαβάσουν προαιρετικά (εκτός εξεταστέας ύλης) και τις υπόλοιπες ενότητες του κεφαλαίου 18. Το κεφάλαιο 13 παρέχει βασικές γνώσεις θεωρίας πιθανοτήτων. Καλό θα ήταν να το διαβάσετε ως επανάληψη. Βλαχάβας κ.ά: ενότητες 18.1.2, 18.1.5. Όσοι ενδιαφέρονται μπορούν να διαβάσουν προαιρετικά (εκτός εξεταστέας ύλης) και τις υπόλοιπες ενότητες του κεφαλαίου 18. Οι ενότητες 13.1 και 13.2 συνοψίζουν βασικές γνώσεις θεωρίας πιθανοτήτων.

Βιβλιογραφία συνέχεια Υπάρχουν πολλές μορφές του αφελούς ταξινομητού Bayes. Η μορφή που εξετάσαμε χρησιμοποιεί δίτιμες (Boolean) ιδιότητες και λέγεται «πολυμεταβλητή μορφή Bernoulli» (multivariate Bernoulli Naive Bayes). Η πολυωνυμική (multinomial) μορφή μπορεί να λάβει υπόψη της και τη συχνότητα εμφάνισης των λέξεων σε κάθε κείμενο κατά την κατάταξη κειμένων. Περισσότερες πληροφορίες για τις μορφές του NB και άλλα θέματα που αναφέραμε (π.χ. κέρδος πληροφορίας, λέγεται και mutual information) δίνονται στο κεφάλαιο 13 του εξαιρετικού βιβλίου «An introduction to Information Retrieval» των C.D. Manning, P. Raghavan και H. Schütze. Διατίθεται ελεύθερα (βλ. συνδέσμους μαθήματος). 31