Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Σχετικά έγγραφα
Ασκήσεις μελέτης της 19 ης διάλεξης

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 19η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 14η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη ( )

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Τεχνητή Νοημοσύνη. 4η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 5η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 2η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 5η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 3η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Ασκήσεις μελέτης της 16 ης διάλεξης

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Τεχνητή Νοημοσύνη. 6η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

HMY 795: Αναγνώριση Προτύπων

ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ

Το μοντέλο Perceptron

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

HMY 795: Αναγνώριση Προτύπων

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Γραµµικοί Ταξινοµητές

HMY 795: Αναγνώριση Προτύπων

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2)

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Τεχνητή Νοημοσύνη. 9η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ανάκτηση Πληροφορίας

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Αναγνώριση Προτύπων Ι

HMY 795: Αναγνώριση Προτύπων

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Υπολογιστική Νοημοσύνη. Μάθημα 6: Μάθηση με Οπισθοδιάδοση Σφάλματος Backpropagation Learning

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Πληροφοριακά Συστήματα & Περιβάλλον

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων

Τεχνητή Νοημοσύνη. 7η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 13-14

HMY 795: Αναγνώριση Προτύπων

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Ζωντανό Εργαστήριο Thessaloniki Active and Healthy Ageing Living Lab Παρακολούθηση ατόμων στο σπίτι σε πραγματικό χρόνο

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Εισόδημα Κατανάλωση

Μηχανική Μάθηση: γιατί;

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Περιεχόμενα. 2.1 Εισαγωγή Προγενέστερη έρευνα Ανάπτυξη υποδειγμάτων παραποίησης Πρόλογος... 11

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

HMY 795: Αναγνώριση Προτύπων

Οικονομετρία. Απλή Παλινδρόμηση Βασικές έννοιες και τυχαίο σφάλμα. Τμήμα: Αγροτικής Οικονομίας & Ανάπτυξης. Διδάσκων: Λαζαρίδης Παναγιώτης

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON

Υπολογιστική Νοημοσύνη. Μάθημα 13: Αναδρομικά Δίκτυα - Recurrent Networks

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

«Αναγνώριση και Κατάταξη Ονομάτων Οντοτήτων σε Ελληνικά Κείμενα με Χρήση Μηχανών ιανυσμάτων Υποστήριξης»

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

Επιχειρησιακή Έρευνα. Εισαγωγική Διάλεξη

Συγκριτική Μελέτη Μεθόδων Κατηγοριοποίησης σε Ιατρικά Δεδομένα

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 5: Παραδείγματα. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Πανεπιστήμιο Ιωαννίνων Ακαδ. Έτος Τμήμα Μηχανικών Η/Υ & Πληροφορικής. Παρασκευάς Τσανταρλιώτης Α.Μ. 318

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

HMY 799 1: Αναγνώριση Συστημάτων

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Ανάλυση και Σχεδιασμός Μεταφορών Ι Ανάλυση Διακριτών Επιλογών

α n z n = 1 + 2z 2 + 5z 3 n=0

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

Ανάκτηση Πληροφορίας

Lecture Notes for Chapter 5. (cont.)

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μελέτη κατηγοριοποίησης δεδομένων με Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines) και υλοποίηση εφαρμογής.

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Transcript:

Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1

Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997, σε ύλη των διαλέξεων του μαθήματος Μηχανικής Μάθησης του A. Ng στο Πανεπιστήμιο Stanford (βλ. http://cs229.stanford.edu/). 2

Τι θα ακούσετε σήμερα Γραμμικοί διαχωριστές. Ταξινομητές λογιστικής παλινδρόμησης. Μεγιστοποίηση πιθανοφάνειας με κατάβαση κλίσης. Διαγνωστικοί έλεγχοι κατά τη χρήση επιβλεπόμενης μηχανικής μάθησης. 3

Γραμμικοί διαχωριστές Για δύο ιδιότητες x 1, x 2, προσπαθούμε να μάθουμε ευθεία που διαχωρίζει τις δύο κατηγορίες. w2 x2 w1 x1 w0 0 Γενικότερα, για ιδιότητες x 1, x 2,, x n προσπαθούμε να μάθουμε ένα υπερ-επίπεδο που να διαχωρίζει τις δύο κατηγορίες. w x w x w w x w x n n 1 1 0 l l l0 Απόφαση κατάταξης: C n Τα σημεία πάνω από την ευθεία έχουν: wx 0 Τα σημεία κάτω από την ευθεία έχουν: wx 0 Θεωρούμε πάλι ότι x 0 = 1. sign( wx) 0

Γραμμικοί διαχωριστές συνέχεια Συχνά θέλουμε ο ταξινομητής να επιστρέφει και ένα βαθμό βεβαιότητας. Π.χ. πόσο πιθανό θεωρεί να ανήκει ένα προς κατάταξη κείμενο με διάνυσμα Ԧx στη μία ή την άλλη κατηγορία. Η προσημασμένη απόσταση από το υπερ-επίπεδο διαχωρισμού δεν είναι καλός βαθμός βεβαιότητας. d ( ) w x Δεν είναι περιορισμένη στο [0, 1]. wx w Για μεγάλες (θετικές ή αρνητικές) αποστάσεις θέλουμε η βεβαιότητα να τείνει στο 1. d ( ) w x Χωρίς το w 0. Για μικρές αποστάσεις θέλουμε η βεβαιότητα να τείνει στο 0.

Σιγμοειδής συνάρτηση (logistic function) Στην περίπτωσή μας το t θα είναι η προσημασμένη (και μη κανονικοποιημένη) απόσταση από το υπερεπίπεδο διαχωρισμού: t wx Πιθανότητα το x να ανήκει στη θετική κατηγορία: P( c x) 1 1 e wx Πιθανότητα να ανήκει στην αρνητική κατηγορία: g(t) gt () 1 1 e P( c x) 1 P( c x) t t Πηγή εικόνας: http://en.wikipedia.org/wiki/ Logistic_function

Ταξινομητές λογιστικής παλινδρόμησης (logistic regression classifiers) 1 P( c x), wx 1 e P( c x) 1 P( c x) Κατά την εκπαίδευση, επιλέγουν το w που κάνει τον ταξινομητή πιο βέβαιο ότι τα παραδείγματα εκπαίδευσης ανήκουν στις σωστές κατηγορίες. Μεγιστοποιούν τη (δεσμευμένη) «πιθανοφάνεια» των παραδειγμάτων. L w P y y x x w e 1 e (1) ( m) (1) ( m) ( ) (,,,, ; ) wx wx Οι σωστές κατηγορίες των παραδειγμάτων εκπαίδευσης. Τα παραδείγματα εκπαίδευσης.

Μεγιστοποίηση πιθανοφάνειας Θεωρώντας ότι τα παραδείγματα εκπαίδευσης έχουν επιλεγεί από τον ίδιο πληθυσμό και είναι ανεξάρτητα: L w P y y x x w (1) ( m) (1) ( m) ( ) (,,,, ; ) m i1 P y x w ( i) ( i) ( ; ) Lw ( ) Αντί να μεγιστοποιήσουμε την, βολεύει να μεγιστοποιήσουμε τη (γνησίως αύξουσα): m ( i) ( i) ( ) log ( ) log ( ; ) l w L w P y x w i1

Μεγιστοποίηση πιθανοφάνειας συνέχεια Αν παραστήσουμε τις κατηγορίες με y = 1 (θετική κατηγορία) και y = 0 (αρνητική κατηγορία), τότε: P( y x; w) P( c x; w) y P( c x; w) Για y = 1 (θετική κατηγορία), ο 2 ος όρος εξαφανίζεται. Για y = 0 (αρνητική), ο 1 ος όρος εξαφανίζεται. Οπότε: (1 y) m ( i) ( i) ( i) y ( i) (1 y ) i1 ( i) ( i) ( i) ( i) log ( ; ) (1 )log ( ; ) l( w) log P( c x ; w) log P( c x ; w) m y P c x w y P c x w i1

Μεγιστοποίηση πιθανοφάνειας συνέχεια Με ανάβαση κλίσης: w w l( w) καταλήγουμε στον κανόνα ενημέρωσης: m ( i) ( i) ( i) l l [ ( )] l i1 w w y P c x x Εναλλακτικά μπορούμε να χρησιμοποιήσουμε π.χ. στοχαστική ανάβαση κλίσης. Δεν υπάρχει κλειστή λύση. lw ( ) Τώρα μεγιστοποιούμε το, αντί να ελαχιστοποιούμε το Ew ( ).

Κανονικοποίηση (regularization) Στην πράξη αντί για το: m ( i) ( i) ( ) log ( ; ) l w P y x w i1 συνήθως μεγιστοποιούμε το: δηλ. επιβραβεύουμε υποψήφια 2 n 2 l l0 l( w) w l( w) w με πολλά μικρά βάρη. Υπάρχει έτσι μικρότερος κίνδυνος υπερ-εφαρμογής. w l Π.χ. αν πολλά βάρη είναι πολύ μικρά, οι αντίστοιχες ιδιότητες ουσιαστικά δεν χρησιμοποιούνται. Με λιγότερες ιδιότητες έχουμε μικρότερο κίνδυνο υπερ-εφαρμογής. λ > 0. Η τιμή του επιλέγεται με δοκιμές σε ξεχωριστά δεδομένα. w

Πολυωνυμική λογιστική παλινδρόμηση (multinomial logistic regression) Επέκταση για πολλές κατηγορίες c 1, c 2,, c Κ. Ουσιαστικά μαθαίνουμε έναν ξεχωριστό γραμμικό διαχωριστή για κάθε κατηγορία c i, ο οποίος αποφασίζει αν η περίπτωση που κατατάσσουμε ανήκει ή όχι στη c i. πιθανότητα να ανήκει στην c j P( c x) σταθερά κανονικοποίησης j j ' 1 w x Εκπαιδεύουμε πάλι μεγιστοποιώντας τη (δεσμευμένη) πιθανοφάνεια των παραδειγμάτων εκπαίδευσης. Τύποι/μέθοδοι αντίστοιχοι με της περίπτωσης δύο κατηγοριών. K e e j w j ' x διαφορετικό διάνυσμα βαρών ανά κατηγορία

Συμβουλές χρήσης επιβλεπόμενης ΜΜ (βασισμένες σε συμβουλές του A. Ng) Στους περισσότερους αλγορίθμους επιβλεπόμενης μηχανικής μάθησης το συνολικό σφάλμα στα δεδομένα εκπαίδευσης είναι χαμηλότερο από το συνολικό σφάλμα στα δεδομένα αξιολόγησης. Σφάλμα εκπαίδευσης: Πόσο καλά τα πάμε στα ίδια δεδομένα που χρησιμοποιήσαμε για εκπαίδευση. Σφάλμα αξιολόγησης: Πόσο καλά τα πάμε σε διαφορετικά δεδομένα από εκείνα που χρησιμοποιήσαμε για εκπαίδευση. Το σφάλμα εκπαίδευσης συχνά είναι μια χρήσιμη ένδειξη του πόσο καλά μπορούμε να ελπίζουμε ότι θα τα πάμε κατά την αξιολόγηση. Παραστάσεις των δύο ειδών σφαλμάτων συχνά βοηθούν να διαγνώσουμε τι δεν πάει καλά με το σύστημά μας.

Διαγνωστικοί έλεγχοι: υπερ-εφαρμογή συνολικό σφάλμα αξιολόγησης περίπτωση high variance συνολικό σφάλμα εκπαίδευσης αριθμός παραδειγμάτων εκπαίδευσης

Διαγνωστικοί έλεγχοι: υπερ-εφαρμογή Αν παρατηρούμε τα εξής: Το συνολικό σφάλμα εκπαίδευσης αυξάνεται (χειροτερεύει) απότομα όσο προσθέτουμε παραδείγματα εκπαίδευσης. Το συνολικό σφάλμα αξιολόγησης μειώνεται (βελτιώνεται) απότομα όσο προσθέτουμε παραδείγματα εκπαίδευσης. Κυρίως: υπάρχει μεγάλη διαφορά μεταξύ των δύο σφαλμάτων. Μπορεί το σύστημα να πάσχει από υπερ-εφαρμογή: Τα πηγαίνει πολύ καλύτερα στα δεδομένα εκπαίδευσης από ό,τι στα δεδομένα αξιολόγησης, γιατί μαθαίνει ιδιαιτερότητες των παραδειγμάτων αξιολόγησης. Ευκολότερο να συμβεί με λίγα δεδομένα εκπαίδευσης. Όσο αυξάνονται τα δεδομένα εκπαίδευσης, τόσο δυσκολότερο γίνεται να μάθει ιδιαιτερότητές τους. Πετυχαίνει καλύτερη γενίκευση, οπότε τα πηγαίνει και καλύτερα στα δεδομένα αξιολόγησης.

Διαγνωστικοί έλεγχοι: υπερ-εφαρμογή Τι μπορεί να βοηθήσει: Περισσότερα δεδομένα εκπαίδευσης. Λιγότερες (και καλύτερες) ιδιότητες (π.χ. επιλογή ιδιοτήτων, PCA). Απλούστερο μοντέλο υποθέσεων (π.χ. γραμμικές αντί για πολυωνυμικές υποθέσεις υψηλότερου βαθμού ή αντί για μη παραμετρικό μοντέλο όπως ο k-nn). Μεγαλύτερο λ στη λογιστική παλινδρόμηση. Τι δεν θα βοηθήσει μάλλον: Περισσότερες ιδιότητες. Πιο περίπλοκο μοντέλο υποθέσεων (π.χ. μη γραμμικό SVM, πιο περίπλοκο νευρωνικό δίκτυο). Περισσότερες επαναλήψεις στον AdaBoost.

Διαγνωστικοί έλεγχοι: πολύ περιορισμένος χώρος αναζήτησης συνολικό σφάλμα αξιολόγησης περίπτωση high bias συνολικό σφάλμα εκπαίδευσης επιθυμητό σφάλμα αξιολόγησης αριθμός παραδειγμάτων εκπαίδευσης

Διαγνωστικοί έλεγχοι: περιορισμένος χώρος αναζήτησης Αν παρατηρούμε τα εξής: Το συνολικό σφάλμα εκπαίδευσης αυξάνεται (χειροτερεύει) πολύ λίγο όσο προσθέτουμε παραδείγματα εκπαίδευσης. Το συνολικό σφάλμα αξιολόγησης μειώνεται (βελτιώνεται) πολύ λίγο όσο προσθέτουμε παραδείγματα εκπαίδευσης. Κυρίως: υπάρχει πολύ μικρή διαφορά μεταξύ των δύο σφαλμάτων (και δεν έχουμε φτάσει στο επιθυμητό επίπεδο σφάλματος). Ίσως ο χώρος αναζήτησης είναι υπερβολικά περιορισμένος: Το σύστημα ίσως δεν μπορεί να μάθει αυτό που θέλουμε, γιατί δεν περιλαμβάνεται στο χώρο αναζήτησης. Οι υποθέσεις του χώρου ίσως είναι υπερβολικά απλοϊκές, για να γενικεύσουν τα δεδομένα εκπαίδευσης.

Διαγνωστικοί έλεγχοι: περιορισμένος χώρος αναζήτησης Τι μπορεί να βοηθήσει: Περισσότερες ιδιότητες (π.χ. νέες πληροφορίες ή προσθήκη συνδυασμών ιδιοτήτων, όπως λογικό ΚΑΙ ζευγών ιδιοτήτων στη λογιστική παλινδρόμηση). Πιο περίπλοκο μοντέλο υποθέσεων (π.χ. μη γραμμικό SVM, πιο περίπλοκο νευρωνικό δίκτυο). Περισσότερες επαναλήψεις στον AdaBoost. Μικρότερο λ στη λογιστική παλινδρόμηση. Τι δεν θα βοηθήσει μάλλον: Περισσότερα δεδομένα εκπαίδευσης. Λιγότερες ιδιότητες (π.χ. με επιλογή ιδιοτήτων, PCA).

Από την παρουσίαση «Introduction to Machine Learning» του P. Vincent στο Deep Learning Summer School 2015 (βλ. http://videolectures.net/deeplearning2015_montreal/).

Βιβλιογραφία Δεν υπάρχουν ενότητες στα βιβλία των R&N και Βλαχάβα κ.ά. που να αντιστοιχούν στην ύλη αυτής της διάλεξης. Συμβουλευτείτε τις σημειώσεις «Linear regression, classification and logistic regression, generalized linear models» του A. Ng του Πανεπιστημίου Stanford. Βλ. http://cs229.stanford.edu/notes/cs229-notes1.pdf, σελ. 1 7, 16 21. Όσοι ενδιαφέρονται μπορούν να διαβάσουν προαιρετικά (εκτός εξεταστέας ύλης) και τις υπόλοιπες ενότητες. Το Perceptron της ενότητας 6 θα το συναντήσουμε και στην επόμενη διάλεξη. Οι ταξινομητές λογιστικής παλινδρόμησης περιγράφονται και σε πρόσθετο (ηλεκτρονικό) κεφάλαιο του βιβλίου «Machine Learning» του T. Mitchell. Το κεφάλαιο διατίθεται ελεύθερα (βλ. συνδέσμους μαθήματος). Βλ. εισαγωγή ενότητας 3 και υπο-ενότητα 3.2 του κεφαλαίου.

Βιβλιογραφία συνέχεια Οι Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines, SVM) είναι μια από τις κορυφαίες μεθόδους επιβλεπόμενης μάθησης. Μπορείτε να μάθετε για τα SVM στα μαθήματα «Μηχανική Μάθηση» και «Συστήματα Ανάκτησης Πληροφοριών». Περιγράφονται συνοπτικά στην ενότητα 20.6 των Russel & Norvig και στις διαφάνειες του μεταπτυχιακού μαθήματος «Γλωσσική Τεχνολογία» (βλ. e-class). Περιγράφονται επίσης στο κεφάλαιο 15 του βιβλίου «An Introduction to Information Retrieval» των C.D. Manning, P. Raghavan και H. Schütze, το οποίο διατίθεται ελεύθερα (βλ. http://www-nlp.stanford.edu/ir-book/).