HMY 795: Αναγνώριση Προτύπων

Σχετικά έγγραφα
HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 9-10

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 13-14

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

HMY 795: Αναγνώριση Προτύπων

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 799 1: Αναγνώριση Συστημάτων

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

HMY 795: Αναγνώριση Προτύπων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Αναγνώριση Προτύπων Ι

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 799 1: Αναγνώριση Συστημάτων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 799 1: Αναγνώριση Συστημάτων

Το μοντέλο Perceptron

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON

Μπεϋζιανή Στατιστική και MCMC Μέρος 2 ο : MCMC

Κεφάλαιο 2: Θεωρία Απόφασης του Bayes 2.1 Εισαγωγή

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)


HMY 799 1: Αναγνώριση Συστημάτων

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 17-18

Στατιστική Συμπερασματολογία

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Μπεϋζιανή Στατιστική και MCMC Μέρος 2 ο : MCMC

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ασκήσεις μελέτης της 19 ης διάλεξης

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Εφαρμοσμένα Μαθηματικά ΙΙ Εξέταση Σεπτεμβρίου 25/9/2017 Διδάσκων: Ι. Λυχναρόπουλος

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

4.3. Γραµµικοί ταξινοµητές

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

Μέθοδος μέγιστης πιθανοφάνειας

Lecture Notes for Chapter 5. (cont.)

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Τμήμα Επιστήμης Φυσικής Αγωγής και Αθλητισμού Πρόγραμμα Διδακτορικών Σπουδών ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

HMY 220: Σήματα και Συστήματα Ι

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 1. Σταύρος Παπαϊωάννου

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

Παραδείγματα (2) Διανυσματικοί Χώροι

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Τετραγωνικά μοντέλα. Τετραγωνικό μοντέλο συνάρτησης. Παράδειγμα τετραγωνικού μοντέλου #1. Παράδειγμα τετραγωνικού μοντέλου #1

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

HMY 799 1: Αναγνώριση Συστημάτων

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - 02/07/08) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 2

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΜΑΘΗΜΑΤΙΚΗ ΔΙΑΤΥΠΩΣΗ, Διαλ. 2. Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 8/4/2017

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Εφαρμοσμένη Στατιστική

7. ΕΠΕΞΕΡΓΑΣΊΑ ΣΗΜΆΤΩΝ

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Μέθοδος μέγιστης πιθανοφάνειας

ΣΥΣΤHΜΑΤΑ ΑΠΟΦAΣΕΩΝ ΣΤΗΝ ΠΑΡΑΓΩΓH

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Stochastic Signals Class Estimation Theory. Andreas Polydoros University of Athens Dept. of Physics Electronics Laboratory

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ

HY213. ΑΡΙΘΜΗΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΑΧΙΣΤΑ ΤΕΤΡΑΓΩΝΑ AΝΑΛΥΣΗ ΙΔΙΑΖΟΥΣΩΝ ΤΙΜΩΝ

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις περιόδου στο μάθημα ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

!n k. Ιστογράμματα. n k. x = N = x k

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

Transcript:

HMY 795: Αναγνώριση Προτύπων Διαλέξεις 11-12 Γραμμική παλινδρόμηση συνέχεια Γραμμική παλινδρόμηση συνέχεια Γραμμικές διαχωριστικές συναρτήσεις

Γραμμική παλινδρόμηση (Linear regression) y = w + wx + + w x = ( xw, ) 0 1 1... D D Συναρτήσεις βάσης Τ w x φ 1 ϕ... ϕ 1 = w= M 1,... [ w w w ] 0 1 M 1 Γενικά ελαχιστοποίηση της διαφοράς t y( x,w) = t yˆ Ελάχιστα τετράγωνα LS = arg min V w w N ( w ) Τ ( ) 1 Τ w = Φ Φ Φ t= Φt N N 1 2 1 T N ( ) = [ k k ( )] = k k Ν k= 1 Ν k= 1 V w t y x,w t φ w 2 ˆ LS

Γραμμική παλινδρόμηση και μέγιστη πιθανοφάνεια Μέγιστη πιθανοφάνεια, σύνολο παρατηρήσεων όπου Γκαουσιανός θόρυβος ε: Κανονικοποίηση: Ακρίβεια + όρος κανονικοποίησης Για Γενικά:

Μέση τετραγωνική απώλεια: y(x) που ελαχιστοποιεί την Ε{L}: Βias-variance tradeoff

The bias-variance tradeoff

p( w t) p( t w) p( w) Πιθανοφάνεια: Conjugate prior Posterior Bayesian linear regression Προγνωστική κατανιομή:

Επιλογή μοντέλου Έστω ότι θέλουμε να συγκρίνουμε ένα σύνολο πιθανών μοντέλων (i=1,2, L) χρησιμοποιώντας το σύνολο δεδομένων. Πως επιλέγουμε το πιο «κατάλληλο» μοντέλο, ή ισοδύναμα την πολυπλοκότητα ενός μοντέλου γραμμικής παλινδρόμησης? Δεδομένα επικύρωσης δοκιμάζουμε μοντέλα αυξανόμενης πολυπλοκότητας και διαλέγουμε αυτό με το μικρότερο σφάλμα επικύρωσης Κανονικοποίηση: Εφαρμόζουμε συνάρτηση κόστους μορφής Το πρόβλημα μετασχηματίζεται στο να επιλέξουμε την σταθερά κανονικοποίησης λ και πάλι μπορούμε να χρησιμοποιήσουμε δεδομένα επικύρωσης Στατιστικός έλεγχος υποθέσεων (ΗΜΥ636) Στατιστικά κριτήρια AIC, BIC/MDL: όρος ακρίβειας + όρος ποινής m= arg min W = arg min (Fit+Complexity Penalty) ˆ 2p AIC( p) = VN ( θn ){1 + } N m Μ N m Μ ˆ p lnn MDL( p) = VN ( θn ){1 + } N

Επιλογή μοντέλου

Κανόνας Bayes για το μοντέλο Μπεϋζιανή επιλογή μοντέλου Η σταθερά κανονικοποίησης στον παρονομαστή δίνεται από: Η ποσότητα αυτή ονομάζεται τεκμήριο μοντέλου (model evidence) Αντιστοιχεί στην πιθανότητα παρατήρησης του συνόλου παρατηρήσεων για το μοντέλο αφού πάρουμε υπόψην την αβεβαιότητα στις παραμέτρους, καθώς περιθωριοποιούμε ως προς το w Το πιο πιθανό μοντέλο είναι αυτό με το υψηλότερο τεκμήριο μοντέλου Μπορούμε λοιπόν να συγκρίνουμε την τιμή του τεκμηρίου για διάφορα μοντέλα και να επιλέξουμε με βάση αυτό Επιλογή μοντέλου μόνο από τα δεδομένα εκπαίδευσης

Μπεϋζιανή σύγκριση μοντέλων Μπορούμε να γενικεύσουμε ως εξής: Έστω και πάλι ότι θέλουμε να συγκρίνουμε ένα σύνολο πιθανών μοντέλων (i=1,2, L) χρησιμοποιώντας το σύνολο δεδομένων. Υποθέτουμε ότι τα δεδομένα μας έχουν δημιουργηθεί από ένα από αυτά τα μοντέλα, αλλά δεν είμαστε σίγουροι από ποιο: priors Θέλουμε να υπολογίσουμε την εκ των υστέρων πιθανότητα κάθε μοντέλου, δηλ. Posterior Prior Model evidence or marginal likelihood Αν γνωρίζουμε την εκ των υστέρων κατανομή για όλα τα πιθανά μοντέλα μπορούμε να υπολογίσουμε την προγνωστική κατανομή (predictive distribution) ως εξής: Αρκετά περίπλοκη διαδικασία Συνήθως χρησιμοποιούμε την προηγούμενη διαδικασία, θεωρώντας μόνο το πιο πιθανό μοντέλο

Μπεϋζιανή σύγκριση μοντέλων Έστω ένα μοντέλο με μια παράμετρο w και ότι η εκ των υστέρων κατανομή για το μοντέλο M i παρουσιάζει μια οξεία κορυφή στο w MAP και είναι επίπεδη γύρω από αυτή την κορυφή με πλάτος Δw posterior Το ολοκλήρωμα μπορεί να προσεγγιστεί από το γινόμενο της μέγιστης τιμής του p(d w MAP)με την εκ των προτέρων κατανομή p(w) Αν επιπλέον υποθέσουμε ότι και η εκ των προτέρων κατανομή είναι επίσης επίπεδη με πλάτος w prior (άρα p(w)=1/ w prior ):

Ισοδύναμα: Μπεϋζιανή σύγκριση μοντέλων Ακρίβεια για w=w MAP Αρνητικός όρος Για μοντέλο με Μ παραμέτρους, παρομοίως με τον ίδιο λόγο για όλες: Αυξάνει για πιο πολύπλοκα µοντέλα Αρνητικός όρος, γραµµικός ως προς M µειώνεται για πιο πολύπλοκα µοντέλα Ψάχνουμε το μοντέλο που επιτυγχάνει το βέλτιστο συμβιβασμό μεταξύ των 2

Μπεϋζιανή σύγκριση μοντέλων Απλά μοντέλα: χαμηλή μεταβλητότητα των πιθανών συνόλων δεδομένων Dπου μπορεί να δημιουργήσει το μοντέλο (παράμετροι: τ.μ., θόρυβος) Πολύπλοκα μοντέλα: υψηλή μεταβλητότητα Η Μπεϋζιανή σύγκριση με βάση το τεκμήριο μοντέλου μπορεί να δειχθεί ότι κατά μέσο όρο θα δίνει πλεονέκτημα στο σωστό μοντέλο.

Μπεϋζιανή σύγκριση μοντέλων Επιστρέφουμε στο βασικό πρόβλημα γραμμικής παλινδρόμησης, δηλ. όπου Το τεκμήριο μοντέλου (model evidence), θεωρώντας τα α, β σταθερά, ορίζεται ως: Το ολοκλήρωμα αυτό μπορεί να υπολογιστεί αναλυτικά (παρ. 3.5.1- Bishop): όπου και Πολυπλοκότητα Ακρίβεια

Μπεϋζιανή σύγκριση μοντέλων Παράδειγμα: Πολυωνυμική παλινδρόμηση Model evidence, α=5x10-3 Βέλτιστο Μ=3 Μ=2 μείωση: sin περιττή συνάρτηση!

Μπεϋζιανή σύγκριση μοντέλων Συγκρίνοντας με το σφάλμα επικύρωσης (διάλεξη 1)

Μπεϋζιανή σύγκριση μοντέλων Στην προηγούμενη ανάλυση θεωρήσαμε τις (υπερ)παραμέτρους ακαι β, δηλ. την ακρίβεια του θορύβου και της εκ των προτέρων κατανομής, γνωστές Τι συμβαίνει όταν θεωρήσουμε και τα α,β άγνωστα? Η προγνωστική κατανομή θα είναι: Το ολοκλήρωμα αυτό δεν μπορεί να υπολογιστεί αναλυτικά Προσέγγιση: Αν η κατανομή p(α,β t) παρουσιάζει μέγιστο στο τότε μπορούμε να υπολογίσουμε την προγνωστική κατανομή ολοκληρώνοντας ως προς w (μπορεί να γίνει αναλυτικά Διαλέξεις 9-10) θεωρώντας τις τιμές σταθερές: empirical Bayes, generalized maximum likelihood, evidence approximation. Μαθηματικά: : mode της

όπου Τεκμήριο μοντέλου γραμμική παλινδρόμηση και η είναι η περιθωριακή πιθανοφάνεια (marginal likelihood), προκύπτει δηλ. από την ολοκληρώνοντας ως προς w μόνο, δηλ. Η ποσότητα αυτή είναι το τεκμήριο μοντέλου που υπολογίσαμε πριν για σταθερά α,β δηλ: Μπορούμε να βρούμε τα μέγιστα ως προς α,β(άρα ισοδύναμα και τη σταθερά κανονικοποίησης λ! καθώς είδαμε ότι λ=α/β) από τα δεδομένα εκπαίδευσής μας με άλλα λόγια

Μπεϋζιανή σύγκριση μοντέλων Μεγιστοποίηση model evidence ως προς α, β (Bishop 3.5.2): όπου και λ i οι ιδιοτιμές του πίνακα βφ Τ Φ. i Επειδή το γκαι το m N ( λύνονται επαναληπτικά. ) εξαρτώνται από τα α, β οι ανωτέρω σχέσεις

Μπεϋζιανή σύγκριση μοντέλων λi: άξονες της πιθανοφάνειας, θετικές (θετικά ορισμένος πίνακας), άρα μεταξύ 0 και 1 και γ μεταξύ 0 και Μ (διάσταση του w) Likelihood w 1 καθορίζεται από την εκ των προτέρων πιθανότητα w 2 καθορίζεται από την πιθανοφάνεια (well determined) Prior γ: αριθµός των παραµέτρων που είναι well determined

Μπεϋζιανή σύγκριση μοντέλων Παράδειγμα: Επιλογή α δεδομένα προσομοίωσης, Γκαουσιανήβάση με 9 συναρτήσεις (M=10). β γνωστό Test set error

Μπεϋζιανή σύγκριση μοντέλων Παράδειγμα: Επιλογή α δεδομένα προσομοίωσης, Γκαουσιανήβάση με 9 συναρτήσεις (M=10). β γνωστό

Γραμμική παλινδρόμηση Μοντέλα γραμμικά ως προς τις παραμέτρους: Αναλυτική λύση χρησιμοποιώντας ελάχιστα τετράγωνα Μπεϋζιανή ανάλυση δυνατή Μπορούμε να λάβουμε υπόψινμη γραμμικές αλληλεπιδράσεις μεταξύ διαφορετικών εισόδων (features) Target variable: συνεχής στα επόμενα θα δούμε γραμμικά μοντέλα για ταξινόμηση Περιορισμοί Αν χρησιμοποιήσουμε Μ προκαθορισμένες συναρτήσεις βάσης σε κάθε διάσταση και έχουμε πρόβλημα D διαστάσεων, το πρόβλημα εξαρτάται από Μ D (curse of dimensionality) Μπορούμε να διαλέξουμε τις συναρτήσεις βάσης από τα δεδομένα μας (στα επόμενα)

Γραμμικοί ταξινομητές Γενικό πρόβλημα: Ταξινόμηση δείγματος xσε μια από k κλάσεις C k Κάθε δείγμα ταξινομείται σε μια κλάση μόνο: Χωρίζουμε το χώροσε περιοχές αποφάσεων, τα όρια των οποίων ονομάζουμε όρια ή επιφάνειες αποφάσεων Γραμμικά μοντέλα ταξινόμησης Οι επιφάνειες αποφάσεων είναι γραμμικές συναρτήσεις του διανύσματος εισόδου x Γραμμικά διαχωρίσιμα δεδομένα (linearly separable): Πλήρως διαχωρίσιμα με γραμμικό μοντέλο ταξινόμησης Παλινδρόμηση: συνεχής μεταβλητή στόχου, Ταξινόμηση: μεταβλητή στόχου αντιστοιχεί στην ετικέτα της κλάσης (class label), πχ t={0,1} για 2 κλάσεις, t={0,1,0,0,0} για 5 κλάσεις

Γραμμικοί ταξινομητές Δύο βασικές προσεγγίσεις για τη λύση ενός προβλήματος ταξινόμησης Discriminative: Κατασκευή διαχωριστικών συναρτήσεων (discriminant functions) g(x) που ταξινομούν κάθε δείγμα αυτόματα Generative: Μοντελοποίηση των εκ των υστέρων κατανομών πιθανότητας για κάθε κλάση και χρήση του κανόνα Bayes Η τυπική μορφή μιας γραμμικής διαχωριστικής συνάρτησης είναι: Τ y( x) = w x+ w0 άρα τα σύνορα αποφάσεων είναι υπερεπίπεδα(hyperplanes) πχ για 2 κλάσεις: αν y(x)>0: C 1 αν y(x)<0: C 2 Μπορούμε να γενικεύσουμε: Τ y( x) = f ( w x+ w0 ) generalized linear model f(.) συνάρτηση ενεργοποίησης (activation function)

Διαχωριστικές συναρτήσεις (discriminant functions) Δύο κλάσεις Τ g( x) = w x+ w0 w0: bias/threshold g(x)>0:c 1, g(x)<0: C 2 Σύνορο απόφασης y(x)=0: Υπερεπίπεδο D-1 διαστάσεων Έστω 2 σημεία πάνω στο σύνορο απόφασης: Τ g( x ) = g( x ) = 0 w ( x x ) = 0 A B A B w σε κάθε διάνυσµα που βρίσκεται στο υπερεπίπεδο Δύο περιοχές: R 1 (g(x)>0) και R 2 (g(x)<0) Για οποιοδήποτε x ισχύει: r. x= xp+ w w καθώς το διάνυσμα x-x P έχει την ίδια κατεύθυνσημε το w άρα καθώς g(x P )=0 η απόσταση του xαπό την επιφάνεια είναι g( x) r= w

Για x=0, Διαχωριστικές συναρτήσεις (discriminant functions) w 0 r= w επομένως η απόσταση της επιφάνειας από την αρχή των αξόνων καθορίζεται από το κατώφλι w 0 Για Κ>2 κλάσεις Θα μπορούσαμε να σχεδιάσουμε Κ-1 διαχωριστικές συναρτήσεις που διαχωρίζει τα στοιχεία της κλάσης C k από όλες τις υπόλοιπες κλάσεις. Εναλλακτικά θα μπορούσαμε να σχεδιάσουμε K(K-1)/2 για κάθε πιθανό ζευγάρι κλάσεων: Και στις δυο περιπτώσεις προκύπτουν αμφισβητούμενες περιοχές

Διαχωριστικές συναρτήσεις (discriminant functions)

Διαχωριστικές συναρτήσεις (discriminant functions) Για να αποφύγουμε τέτοια φαινόμενα θα πρέπει να σχεδιάσουμε k διαχωριστικές συναρτήσεις της μορφής T g ( x) = w x+ w k k k 0 οι οποίες ταξινομούν ένα διάνυσμα στην κλάση C k αν g k (x)>g j (x) για κάθε k j(linear machine) Σύνορο μεταξύ κλάσεων C k και C j : υπερεπίπεδοd-1 διαστάσεων για το οποίο Το διάνυσμα wk wj είναι κάθετο στο σύνορο H kj και η απόσταση ενός διανύσματος x από το σύνορο είναι gk ( x) gj ( x) d( x, Hkj ) = w w k j

Διαχωριστικές συναρτήσεις (discriminant functions) Οι περιοχές αποφάσεων στην περίπτωση αυτή είναι κυρτές (convex) Για δύο σημεία x A και x B στην περιοχή R k οποιοδήποτε σημείο στην ευθεία που τα ενώνει μπορεί να γραφεί όπου 0 λ 1. Τότε λόγω γραμμικότητας: Όμως, άρα για κάθε j k οπότε το βρίσκεται στην ίδια περιοχή, δηλ. η περιοχή είναι κυρτή

Διαχωριστικές συναρτήσεις (discriminant functions) Είδαμε τη μορφή και κάποιες ιδιότητες των γραμμικών διαχωριστικών συναρτήσεων Πως υπολογίζουμε τα βάρη w? Ελάχιστα τετράγωνα Αναλυτική λύση, μπορούμε να εφαρμόσουμε τη μέθοδο σε προβλήματα ταξινόμησης? Καθώς η μεταβλητή εξόδου παίρνει δυαδικές τιμές, συνήθως δεν επιτυγχάνουμε καλή προσέγγιση y ( x) = w x+ w T k k k 0 Για Κ κλάσεις η έξοδος παίρνει μορφή π.χ. t={0 1 0} Για Ν παρατηρήσεις {x n,t n }, ορίζουμε W τον πίνακα του οποίου η στήλη k είναι (w k0,w kt ) T τον πίνακα Ττου οποίου ηn-οστήγραμμή είναι η παρατήρηση t nt, και τον πίνακα X του οποίου η n-οστήγραμμή είναι (1 x T ) T Η λύση ελάχιστων τετραγώνων είναι κατά τα γνωστά: 1 ( T T + WLS = X X) X T= X T

Διαχωριστικές συναρτήσεις (discriminant functions) Πρόβλημα: Outliers

Διαχωριστικές συναρτήσεις (discriminant functions) Βασικό πρόβλημα: Η μέθοδος ελάχιστων τετραγώνων υποθέτει κανονική υπό συνθήκη κατανομή για τη μεταβλητή εξόδου tενώ τα δυαδικά δεδομένα προφανώς απέχουν πολύ από αυτή την κατανομή. Πιο κατάλληλα πιθανοτικά μοντέλα-> καλύτερα αποτελέσματα