Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson
ΜΙΑ ΣΥΜΒΑΣΗ: Προκειμένου να καταστήσουμε πιο συμπαγή το συμβολισμό H : ορίζουμε Ετσι έχουμε *=[ ] an *=[ ]. H : * * ΣΗΜΕΙΩΣΗ: Στη συνέχεια εκτός αν ορίζεται διαφορετικά θα γράφουμε και εννοώντας τα * και * αντίστοιχα.
Ο αλγόριθμος perceptron Υπόθεση: Τα διανύσματα των δύο κλάσεων ω και ω είναι γραμμικώς διαχωρίσιμα. Έτσι υπάρχει ένα υπερεπίπεδο H*: * = ώστε * * Το κριτήριο στο perceptron: Προσδιόρισε ένα υπερεπίπεδο το οποίο διαχωρίζει τέλεια τα διανύσματα από τις δύο κλάσεις. ΣΗΜΕΙΩΣΗ: Αν οι κλάσεις είναι γραμμικώς διαχωρίσιμες υπάρχουν άπειρα υπερεπίπεδα που ικανοποιούν το κριτήριο perceptron.
Ο αλγόριθμος perceptron Η συνάρτηση κόστους: όπου - Y το σύνολο των λανθασμένα ταξινομημένων διανυσμάτων από το και - ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ f f Σημειώσεις: - Είναι J. J Y Πράγματι αν Y και ω τότε < και δ =-. Επομένως δ >. Επίσης αν Y και ω τότε > και δ =+. Επομένως δ >. - Είναι J= μόνον όταν Y= πράγμα που σημαίνει ότι προσδιορίστηκε μία λύση που ικανοποιεί το κριτήριο perceptron.
Ο αλγόριθμος perceptron Η συνάρτηση κόστους: Η J είναι τμηματικά γραμμική pecese lnear γιατί; Η ελαχιστοποίηση της J επιτυγχάνεται μέσω διαδικασίας που ακολουθεί τη φιλοσοφία της GD. Όπου είναι έγκυρο ορίζουμε J Y Y ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ
Ο αλγόριθμος perceptron -Αρχικοποίησε = -t= -Επανέλαβε -Προσδιόρισε τα λανθασμένα ταξινομημένα διανύσματα του από το t και συσσώρευσέ τα στο Y t. - t t t Y t - t=t+ -Έως ότου επιτευχθεί σύγκλιση Σημειώσεις: Πρόκειται για αλγόριθμο επεξεργασίας κατά δέσμες batch algorthm όπου η ενημέρωση των παραμέτρων σε κάθε επανάληψη πραγματοποιείται μετά την επεξεργασία όλων των διανυσμάτων του. Ο αλγόριθμος perceptron συγκλίνει μόνον όταν οι κλάσεις είναι γραμμικώς διαχωρίσιμες. Διαφορετικά αποτυγχάνει να συγκλίνει. Αν οι κλάσεις είναι γραμμικώς διαχωρίσιμες ο αλγόριθμος συγκλίνει σε πεπερασμένο αριθμό βημάτων αν t t lm lm.. t k k t k k t c t
Ο αλγόριθμος perceptron Παράδειγμα : t t t t t
Ο αλγόριθμος perceptron Παράδειγμα : Σε κάποια επανάληψη t ο αλγόριθμος perceptron δίνει.5 που αντιστοιχεί στην ευθεία.5 Το υπερεπίπεδο της επόμενης επανάληψης είναι t.4..7.5.7.75.5.4.5.5
Παραλλαγές του αλγόριθμου perceptron: -Ο αλγόριθμος τσέπης pocket algorthm. Κρατά την καλύτερη λύση που βρέθηκε κατά την εκτέλεση του αλγόριθμου perceptron για συγκεκριμένο αριθμό επαναλήψεων. Κατάλληλος για προβλήματα μη γραμμικώς διαχωρίσιμων κλάσεων. -Ο on-lne αλγόριθμος perceptron: Η ενημέρωση των παραμέτρων λαμβάνει χώρα μετά την μεμονωμένη επεξεργασία κάθε διανύσματος του Χ. t t t t t t t t t t t t t t otherse
Η δομή perceptron ' s synapsesor synaptceghts threshol Η δομή αυτή καλείται perceptron ή νευρώνας neuron Είναι μια μηχανή που μπορεί να μάθει δηλ. να προσδιορίσει τις τιμές των εμπλεκόμενων παραμέτρων από τα διανύσματα εκπαίδευσης μέσω του αλγόριθμου perceptron.
Μέθοδοι ελαχίστων τετραγώνων Least square methos Αν οι κλάσεις είναι γραμμικώς διαχωρίσιμες το perceptron θα δώσει σαν έξοδο Αν οι κλάσεις ΔΕΝ είναι γραμμικώς διαχωρίσιμες θα υπολογίσουμε τα βάρη παραμέτρους... έτσι ώστε η διαφορά ανάμεσα Στην πραγματική απόκριση του ταξινομητή και Την αντίστοιχη επιθυμητή απόκριση δηλ. f f να είναι όσο το δυνατόν ΜΙΚΡΟΤΕΡΗ για όλα τα διανύσματα του Χ.
ΜΙΚΡΟΤΕΡΑ ως προς το κριτήριο του μέσου τετραγωνικού σφάλματος mean square error - MSE σημαίνει επιλογή του ώστε η συνάρτηση κόστους να ελαχιστοποιηθεί όπου οι αντίστοιχες επιθυμητές αποκρίσεις arg mn ˆ ] [ J E J Μέθοδοι ελαχίστων τετραγώνων μικρά ως προς το MSE Ελαχιστοποιώντας την J ως προς το έχουμε: ] [ ˆ ] [ ] [ ] [ ] [ E R E E E E J ] [ ]... [ ] [......... ] [ ]... [ ] [ ] [ l l l l l E E E E E E E R ] [... ] [ ] [ E E E l R : Πίν. αυτοσυσχέτισης - autocorrelaton matr E[] : Διάν. Ετεροσυσχέτ.-cross-correlaton vector ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ
Μέθοδοι ελαχίστων τετραγώνων μικρά ως προς το MSE: Περ. από κλάσεις Στην περίπτωση που το υπό μελέτη πρόβλημα περιλαμβάνει M κλάσεις λύνουμε M προβλήματα σαν το παραπάνω. Συγκεκριμένα: -Για την j-στή κλάση Θέσε = αν ω j και = διαφορετικά. Λύσε το πρόβλημα δύο κλάσεων που προκύπτει και έστω j το αντίστοιχο διάνυσμα παραμέτρων. Μετά τον προσδιορισμό των j s: -Για δεδομένο : Υπολόγισε τις ποσότητες g j = j j= M. Καταχώρησε το στην κλάση ω q για την οποία g q = ma j= M g j Σημείωση: Το κριτήριο MSE ανήκει σε μια γενικότερη κλάση συναρτήσεων κόστους με την ακόλουθη σημαντική ιδιότητα: Η τιμή g j είναι μια εκτίμηση ως προς το κριτήριο MSE της εκ των υστέρων πιθανότητας Pω j υπό την προϋπόθεση ότι οι επιθυμητές αποκρίσεις που χρησιμοποιούνται κατά την εκπαίδευση είναι = αν ω j και = διαφορετικά.
ΜΙΚΡΟΤΕΡΟ ως προς το κριτήριο του αθροίσματος των τετραγώνων των σφαλμάτων σημαίνει επιλογή του που ελαχιστοποιεί τη συνάρτηση κόστους όπου =+ αν ω και =- αν ω. Μέθοδοι ελαχίστων τετραγώνων μικρά ως προς το SSE Mnmzng J th respect to results n: J J ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ
Ένας εναλλακτικός τρόπος διατύπωσης: Ορίζουμε τα ακόλουθα...... ]... [ ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ Μέθοδοι ελαχίστων τετραγώνων μικρά ως προς το SSE Νl πίνακας Αντίστοιχες επιθυμητές αποκρίσεις l πίνακας
Ένας εναλλακτικός τρόπος διατύπωσης: Τότε Έστω =l. Τότε ο είναι τετραγωνικός και γενικά αντιστρέψιμος. Τότε έχουμε ˆ ˆ ˆ Ψευδοαντίστροφος pseuonverse του ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ Μέθοδοι ελαχίστων τετραγώνων μικρά ως προς το SSE
Μέθοδοι ελαχίστων τετραγώνων μικρά ως προς το SSE Ένας εναλλακτικός τρόπος διατύπωσης: Έστω >l. Τότε γενικά δεν υπάρχει λύση που να ικανοποιεί ταυτόχρονα όλους τους περιορισμούς :... equatons l unknons Σ αυτή την περίπτωση η λύση ελαχιστοποιεί το άθροισμα των τετραγώνων των σφαλμάτων.
Ένα παράδειγμα:.5.7.6.8.4.7..6.6.4 :.3.3.7..4..5.6.5.4 :.5.7.6.8.4.7..6.6.4.3.3.7..4..5.6.5.4.34.4 3.3...6 4.7 4.8 4.7.4.4 4.8.4.8 ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ Μέθοδοι ελαχίστων τετραγώνων μικρά ως προς το SSE
Support vector machnes: Μηχανές διανυσματικής στήριξης ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις Ο στόχος: Δοθέντων δύο γραμμικώς διαχωρίσιμων κλάσεων προσδιόρισε τον ταξινομητή g που αφήνει το μέγιστο περιθώριο από τις δύο κλάσεις.
Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις Περιθώριο Margn: Κάθε υπερεπίπεδο χαρακτηρίζεται από Τον προσανατολισμό του στο χώρο δηλ. το διάνυσμα Τη θέση του χώρο.e. Για ΚΑΘΕ προσανατολισμό επέλεξε το υπερεπίπεδο που αφήνει την ΙΔΙΑ απόσταση από τα εγγύτερα σημεία από κάθε κλάση. Το περιθώριο είναι το διπλάσιο αυτής της απόστασης.
Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις Η απόσταση ενός σημείου από ένα υπερεπίπεδο είναι Διαβάθμισε τα ˆ g ˆ z ˆ ώστε για τα εγγύτερα σημεία από κάθε κλάση να είναι: g g for an g for Τότε το περιθώριο είναι Επίσης ισχύουν και οι ακόλουθοι περιορισμοί δηλ. όλα τα στοιχεία της κλάσης + - βρίσκονται στη θετική αρνητική πλευρά του υπερεπιπέδου
Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις SVM γραμμικός ταξινομητής g Πρόβλημα SVM Ελαχιστοποίησε την J Υπό τους περιορισμούς... Τα παραπάνω δικαιολογούνται από το γεγονός ότι ελαχιστοποιώντας το μεγιστοποιείται το περιθώριο. for for
Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις 8 6 4 - -4-6 -8-8 6 4 - -4-6 -8 - - -5 5 - -5 5 Οι επιπλέον περιορισμοί ισότητας αποθαρρύνουν λύσεις σαν αυτή του ου σεναρίου πιο πάνω.
ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΝΑΡΤΗΣΗΣ ΥΠΟ ΓΡΑΜ. ΑΝΙΣΟΤΙΚΟΥΣ ΠΕΡΙΟΡΙΣΜΟΥΣ Έστω το πρόβλημα Mn Jθ Υπό τους περιορισμούς f θ = m. Ορίζουμε τη συνάρτηση Lagrange Lθλ=Jθ - Σ λ f θ Συνθήκες KK Karush-Kuhn-acker: Για τη θέση του ελαχίστου ισχύουν τα ακόλουθα L... m f... m
ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΝΑΡΤΗΣΗΣ ΥΠΟ ΓΡΑΜ. ΑΝΙΣΟΤΙΚΟΥΣ ΠΕΡΙΟΡΙΣΜΟΥΣ Έστω Αφού λ f θ έχουμε Άρα Θεώρημα: L*θ= ma λ Lθλ = ma λ Jθ - Σ λ f θ L*θ= Jθ mn θ Jθ = mn θ L*θ = mn θ ma λ Lθλ Έστω α η Jθ είναι κυρτή και β οι f θ είναι γραμμικές. Έστω θ* μία θέση ελαχίστου για το πρόβλημα ελαχιστοποίησης και λ* το αντίστοιχο διάνυσμα των πολ/στών Lagrange. Τότε το θ*λ* είναι ένα σαγματικό σημείο sale pont της συνάρτησης Lagrange για το οποίο ισχύει Lθ*λ* = mn θ ma λ Lθλ = ma λ mn θ Lθλ Συνεπώς σύμφωνα με το θεώρημα για τον προσδιορισμό του ελαχίστου δεν παίζει ρόλο η σειρά με την οποία βελτιστοποιούμε την Lθλ ως προς τα θ και λ. Στο SVM πρόβλημα θα βελτιστοποιήσουμε την L. πρώτα ως προς θ και μετά ως προς λ.
Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις Το πρόβλημα SVM είναι μια διαδικασία κυρτής τετραγωνικής βελτιστοποίησης quaratc optmzaton task με γραμμικούς περιορισμούς. Οι συνθήκες Karush- Kuhn-ucker ορίζουν ότι για τη θέση του ελαχίστου ισχύουν τα ακόλουθα: 3 4 L L...... Όπου L είναι η συνάρτηση Lagrange L [ ]
Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις Η λύση: από τα παραπάνω προκύπτει ότι είναι Αντικαθιστώντας τα παραπάνω στην L. τα λ s εκτιμώνται ως οι λύσεις του δυικού SVM προβλήματος: Δυικό SVM Μεγιστοποίησε την Έτσι ώστε j j j j ως προς το λ=[λ λ Ν ] Τ
Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις Παρατηρήσεις: - Οι πολ/στἐς Lagrange λ είναι είτε θετικοί είτε μηδέν. Έτσι s όπου s είναι ο αριθμός των διανυσμάτων με θετικά λ s. - Θετικά λ s έχουν τα διανύσματα που ικανοποιούν τη συνθήκη λόγω των περιορισμών [ ]... Τα διανύσματα αυτά ονομάζονται ΔΙΑΝΥΣΜΑΤΑ ΣΤΗΡΙΞΗΣ SUPPOR VECORS και είναι τα εγγύτερα προς το υπερεπίπεδο του ταξινομητή διανύσματα από κάθε κλάση. Αυτά είναι που καθορίζουν το. - Μετά τον προσδιορισμό του το προσδιορίζεται από τις συνθήκες 4. - Το βέλτιστο υπερεπίπεδο ως προς το κριτήριο της μεγιστοποίησης του περιθωρίου είναι ΜΟΝΑΔΙΚΟ. - Παρότι η λύση είναι μοναδική οι πολ. Lagrange δεν είναι απαραίτητα μοναδικοί.
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις - Στην περίπτωση αυτή δεν υπάρχει υπερεπίπεδο έτσι ώστε - Υπενθυμίζεται ότι το περιθώριο ορίζεται ως το διπλάσιο της απόστασης μεταξύ των ακόλουθων δύο υπερεπιπέδων an Για τα διανύσματα εκπαίδευσης έχουμε ένα από τα ακόλουθα τρία δυνατά σενάρια Διανύσματα εκτός της ζώνης των δύο επιπέδων που είναι ορθἀ ταξινομημένα Διανύσματα εντός της ζώνης των δύο επιπέδων που είναι ορθἀ ταξινομημένα 3 Διανύσματα τα οποία είναι μη ορθά ταξινομημένα
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις Οι παραπάνω περιπτώσεις μπορούν να παρασταθούν με συμπαγή τρόπο ως εξής Όπου για ο σενάριο ο σενάριο 3 ο σενάριο Οι μεταβλητές είναι γνωστές ως μεταβλητές χαλαρότητας slack varables
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις Ο στόχος της βελτιστοποίησης είναι τώρα διττός Μεγιστοποίηση του περιθωρίου Ελαχιστοποίηση του αριθμού των διανυσμάτων με Ένας τρόπος να επιτύχουμε τον παραπάνω στόχο είναι μέσω της ακόλουθης συνάρτησης κόστους όπου C είναι μια σταθερά και Η συνάρτηση I. ΔΕΝ είναι διαφορίσιμη. Στην πράξη μπορούμε να χρησιμοποιήσουμε μια προσέγγιση I C J I C J
33 Η συνάρτηση Lagrange για την περίπτωση αυτή γίνεται τα λ και μ είναι πολ/στές Lagrange Οι αντίστοιχες KK συνθήκες είναι: y C λ λ... 6... 5... ] [ 4... 3 ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις ] [ C L
Αντικαθιστώντας τα παραπάνω στην L. οι πολ/στές Lagrange προσδιορίζονται ως οι λύσεις του ακόλουθου δυϊκού SVM προβλήματος Μεγιστοποίησε λ υπό τις προϋποθέσεις j j j j ως προς το λ=[λ λ Ν ] Τ C... Σχόλιο: Η μόνη διαφορά με την περίπτωση των διαχωρίσιμων κλάσεων είναι η ύπαρξη του C στους περιορισμούς. 34
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις Η λύση του SVM προβλήματος ακολουθεί βήματα ανάλογα με αυτά της προηγούμενης περίπτωσης. Ωστόσο στην παρούσα περίπτωση η παράμετρος C επηρεάζει την επιλογή της τελικής λύσης. Στο παραπάνω παράδειγμα η C έχει μικρότερη τιμή για το σχήμα a και μεγαλύτερη τιμή για το σχήμα b.
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις.5.5.5 -.5 - C =. Pe_tr =.5 Pe_te =.35 sup_vec =8 marg =.94 - -.5.5.5.5
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις.5.5.5 -.5 - C = Pe_tr =.5 Pe_te =.35 sup_vec =37 marg =.637 - -.5.5.5.5
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις.5.5.5 -.5 - C = Pe_tr =.5 Pe_te =.35 sup_vec =5 marg =.3573 - -.5.5.5.5