Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson
Μέθοδοι ελαχίστων τετραγώνων Least square methos Αν οι κλάσεις είναι γραμμικώς διαχωρίσιμες το perceptron θα δώσει σαν έξοδο ± Αν οι κλάσεις ΔΕΝ είναι γραμμικώς διαχωρίσιμες θα υπολογίσουμε τα βάρη παραμέτρους... έτσι ώστε η διαφορά ανάμεσα Στην πραγματική απόκριση του ταξινομητή και Την αντίστοιχη επιθυμητή απόκριση δηλ. + f f ω ω να είναι όσο το δυνατόν ΜΙΚΡΟΤΕΡΗ για όλα τα διανύσματα του Χ.
3 ΜΙΚΡΟΤΕΡΑ ως προς το κριτήριο του μέσου τετραγωνικού σφάλματος mean square error - MS σημαίνει επιλογή του ώστε η συνάρτηση κόστους να ελαχιστοποιηθεί όπου οι αντίστοιχες επιθυμητές αποκρίσεις arg mn ˆ J J Μέθοδοι ελαχίστων τετραγώνων μικρά ως προς το MS Ελαχιστοποιώντας την J ως προς το έχουμε: ˆ R J............... l l l l l R... l R : Πίν. αυτοσυσχέτισης - autocorrelaton matr : Διάν. Ετεροσυσχέτ.-cross-correlaton vector ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ
Μέθοδοι ελαχίστων τετραγώνων μικρά ως προς το MS: Περ. από κλάσεις Στην περίπτωση που το υπό μελέτη πρόβλημα περιλαμβάνει M κλάσεις λύνουμε M προβλήματα σαν το παραπάνω. Συγκεκριμένα: -Για την j-στή κλάση Θέσε αν ω j και διαφορετικά. Λύσε το πρόβλημα δύο κλάσεων που προκύπτει και έστω j το αντίστοιχο διάνυσμα παραμέτρων. Μετά τον προσδιορισμό των j s: -Για δεδομένο : Υπολόγισε τις ποσότητες g j j j M. Καταχώρησε το στην κλάση ω q για την οποία g q ma j M g j Σημείωση: Το κριτήριο MS ανήκει σε μια γενικότερη κλάση συναρτήσεων κόστους με την ακόλουθη σημαντική ιδιότητα: Η τιμή g j είναι μια εκτίμηση ως προς το κριτήριο MS της εκ των υστέρων πιθανότητας Pω j υπό την προϋπόθεση ότι οι επιθυμητές αποκρίσεις που χρησιμοποιούνται κατά την εκπαίδευση είναι αν ω j και διαφορετικά.
ΜΙΚΡΟΤΕΡΟ ως προς το κριτήριο του αθροίσματος των τετραγώνων των σφαλμάτων σημαίνει επιλογή του που ελαχιστοποιεί τη συνάρτηση κόστους όπου + αν ω και - αν ω. Μέθοδοι ελαχίστων τετραγώνων μικρά ως προς το SS Mnmzng J th respect to results n: J J ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ
Ένας εναλλακτικός τρόπος διατύπωσης: Ορίζουμε τα ακόλουθα......... ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ Μέθοδοι ελαχίστων τετραγώνων μικρά ως προς το SS Νl πίνακας Αντίστοιχες επιθυμητές αποκρίσεις l πίνακας
Ένας εναλλακτικός τρόπος διατύπωσης: Τότε Έστω l. Τότε ο είναι τετραγωνικός και γενικά αντιστρέψιμος. Τότε έχουμε ˆ ˆ ˆ Ψευδοαντίστροφος pseuonverse του ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ Μέθοδοι ελαχίστων τετραγώνων μικρά ως προς το SS
Μέθοδοι ελαχίστων τετραγώνων μικρά ως προς το SS Ένας εναλλακτικός τρόπος διατύπωσης: Έστω >l. Τότε γενικά δεν υπάρχει λύση που να ικανοποιεί ταυτόχρονα όλους τους περιορισμούς :... equatons > l unknons Σ αυτή την περίπτωση η λύση ελαχιστοποιεί το άθροισμα των τετραγώνων των σφαλμάτων.
Ένα παράδειγμα:.5.7.6.8.4.7..6.6.4 :.3.3.7..4..5.6.5.4 : ω ω.5.7.6.8.4.7..6.6.4.3.3.7..4..5.6.5.4.34.4 3.3...6 4.7 4.8 4.7.4.4 4.8.4.8 ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ Μέθοδοι ελαχίστων τετραγώνων μικρά ως προς το SS
Support vector machnes: Μηχανές διανυσματικής στήριξης ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις Ο στόχος: Δοθέντων δύο γραμμικώς διαχωρίσιμων κλάσεων προσδιόρισε τον ταξινομητή g + που αφήνει το μέγιστο περιθώριο από τις δύο κλάσεις.
Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις Περιθώριο Margn: Κάθε υπερεπίπεδο χαρακτηρίζεται από Τον προσανατολισμό του στο χώρο δηλ. το διάνυσμα Τη θέση του χώρο.e. Για ΚΑΘΕ προσανατολισμό επέλεξε το υπερεπίπεδο που αφήνει την ΙΔΙΑ απόσταση από τα εγγύτερα σημεία από κάθε κλάση. Το περιθώριο είναι το διπλάσιο αυτής της απόστασης.
Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις Η απόσταση ενός σημείου από ένα υπερεπίπεδο είναι Διαβάθμισε τα ˆ g ˆ z ˆ ώστε για τα εγγύτερα σημεία από κάθε κλάση να είναι: { g + for ω an g } g for ω Τότε το περιθώριο είναι + Επίσης ισχύουν και οι ακόλουθοι περιορισμοί + + ω δηλ. όλα τα στοιχεία της κλάσης + - βρίσκονται στη θετική αρνητική πλευρά του υπερεπιπέδου
Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις SVM γραμμικός ταξινομητής g + Πρόβλημα SVM Ελαχιστοποίησε την J Υπό τους περιορισμούς +... Τα παραπάνω δικαιολογούνται από το γεγονός ότι ελαχιστοποιώντας το μεγιστοποιείται το περιθώριο. for for ω ω
Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις 8 6 4 - -4-6 -8-8 6 4 - -4-6 -8 - - -5 5 - -5 5 Οι επιπλέον περιορισμοί ισότητας αποθαρρύνουν λύσεις σαν αυτή του ου σεναρίου πιο πάνω.
ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΝΑΡΤΗΣΗΣ ΥΠΟ ΓΡΑΜ. ΑΝΙΣΟΤΙΚΟΥΣ ΠΕΡΙΟΡΙΣΜΟΥΣ Έστω το πρόβλημα Mn Jθ Υπό τους περιορισμούς f θ m. Ορίζουμε τη συνάρτηση Lagrange LθλJθ - Σ λ f θ Συνθήκες KK Karush-Kuhn-acker: Για τη θέση του ελαχίστου ισχύουν τα ακόλουθα L ϑ λ ϑ λ... m λ f ϑ... m
ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΝΑΡΤΗΣΗΣ ΥΠΟ ΓΡΑΜ. ΑΝΙΣΟΤΙΚΟΥΣ ΠΕΡΙΟΡΙΣΜΟΥΣ Έστω Αφού λ f θ έχουμε Άρα Θεώρημα: L*θ ma λ Lθλ ma λ Jθ - Σ λ f θ L*θ Jθ Έστω α η Jθ είναι κυρτή και β οι f θ είναι γραμμικές. Έστω θ* μία θέση ελαχίστου για το πρόβλημα ελαχιστοποίησης και λ* το αντίστοιχο διάνυσμα των πολ/στών Lagrange. Τότε το θ*λ* είναι ένα σαγματικό σημείο sale pont της συνάρτησης Lagrange για το οποίο ισχύει Πρωτογενές prmal πρόβλημα mn θ Jθ mn θ L*θ mn θ ma λ Lθλ Δυϊκό ual πρόβλημα Lθ*λ* mn θ ma λ Lθλ ma λ mn θ Lθλ Συνεπώς σύμφωνα με το θεώρημα για τον προσδιορισμό του ελαχίστου δεν παίζει ρόλο η σειρά με την οποία βελτιστοποιούμε την Lθλ ως προς τα θ και λ. Στο πλαίσιο του SVM λύνουμε το δυϊκό πρόβλημα: θα ελαχιστοποιήσουμε την L. πρώτα ως προς θ και μετά θα την μεγιστοποιήσουμε ως προς λ.
Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις Το πρόβλημα SVM είναι μια διαδικασία κυρτής τετραγωνικής βελτιστοποίησης quaratc optmzaton task με γραμμικούς περιορισμούς. Οι συνθήκες Karush- Kuhn-ucker ορίζουν ότι για τη θέση του ελαχίστου ισχύουν τα ακόλουθα: 3 4 L λ L λ λ... λ +... Όπου L είναι η συνάρτηση Lagrange
Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις Η λύση: από τα παραπάνω προκύπτει ότι είναι Αντικαθιστώντας τα παραπάνω στην L. τα λ s εκτιμώνται ως οι λύσεις του ακόλουθου προβλήματος: Μεγιστοποίησε την Έτσι ώστε λ λ λ λλ j λ λ j j j ως προς το λλ λ Ν Τ ΣΗΜ.:Το πρόβλημα λύνεται συνήθως με χρήση τεχνικών τετραγωνικού προγραμματισμού quaratc programmng QP
Support vector machnes η γραμμική περίπτωση γραμ. διαχ. κλάσεις Παρατηρήσεις: - Οι πολ/στἐς Lagrange λ είναι είτε θετικοί είτε μηδέν. Έτσι λ s όπου s είναι ο αριθμός των διανυσμάτων με θετικά λ s. - Θετικά λ s έχουν τα διανύσματα που ικανοποιούν τη συνθήκη λόγω των περιορισμών λ +... Τα διανύσματα αυτά ονομάζονται ΔΙΑΝΥΣΜΑΤΑ ΣΤΗΡΙΞΗΣ SUPPOR VCORS και είναι τα εγγύτερα προς το υπερεπίπεδο του ταξινομητή διανύσματα από κάθε κλάση. Αυτά είναι που καθορίζουν το. - Μετά τον προσδιορισμό του το προσδιορίζεται από τις συνθήκες 4. + ± - Το βέλτιστο υπερεπίπεδο ως προς το κριτήριο της μεγιστοποίησης του περιθωρίου είναι ΜΟΝΑΔΙΚΟ. - Παρότι η λύση είναι μοναδική οι πολ. Lagrange δεν είναι απαραίτητα μοναδικοί.
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις - Στην περίπτωση αυτή δεν υπάρχει υπερεπίπεδο έτσι ώστε + >< - Υπενθυμίζεται ότι το περιθώριο ορίζεται ως το διπλάσιο της απόστασης μεταξύ των ακόλουθων δύο υπερεπιπέδων + an + Για τα διανύσματα εκπαίδευσης έχουμε ένα από τα ακόλουθα τρία δυνατά σενάρια Διανύσματα εκτός της ζώνης των δύο επιπέδων που είναι ορθἀ ταξινομημένα + > Διανύσματα εντός της ζώνης των δύο επιπέδων που είναι ορθἀ ταξινομημένα + < 3 Διανύσματα τα οποία είναι μη ορθά ταξινομημένα + <
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις Οι παραπάνω περιπτώσεις μπορούν να παρασταθούν με συμπαγή τρόπο ως εξής Όπου για ο σενάριο ο σενάριο 3 ο σενάριο ξ < ξ + ξ < ξ Οι μεταβλητές ξ είναι γνωστές ως μεταβλητές χαλαρότητας slack varables
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις Ο στόχος της βελτιστοποίησης είναι τώρα διττός Μεγιστοποίηση του περιθωρίου Ελαχιστοποίηση του αριθμού των διανυσμάτων με Ένας τρόπος να επιτύχουμε τον παραπάνω στόχο είναι μέσω της ακόλουθης συνάρτησης κόστους όπου C είναι μια σταθερά και Η συνάρτηση I. ΔΕΝ είναι διαφορίσιμη. Στην πράξη μπορούμε να χρησιμοποιήσουμε μια προσέγγιση > ξ + I C J ξ ξ > I ξ ξ ξ + C J ξ ξ
4 Η συνάρτηση Lagrange για την περίπτωση αυτή γίνεται τα λ και μ είναι πολ/στές Lagrange Οι αντίστοιχες KK συνθήκες είναι: y C λ λ... 6... 5... 4... 3 + + µ ξ λ µ ξ λ λ µ ΓΡΑΜΜΙΚΟΙ ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΕΠΙΦΑΝΕΙΩΝ ΑΠΟΦΑΣΗΣ Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις C L ξ λ µ ξ ξ µ λ ξ + + +
Αντικαθιστώντας τα παραπάνω στην L. οι πολ/στές Lagrange προσδιορίζονται ως οι λύσεις του ακόλουθου δυϊκού SVM προβλήματος Μεγιστοποίησε λ υπό τις προϋποθέσεις λ λλ j j j j ως προς το λλ λ Ν Τ λ C λ... Σχόλιο: Η μόνη διαφορά με την περίπτωση των διαχωρίσιμων κλάσεων είναι η ύπαρξη του C στους περιορισμούς. 5
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις Η λύση του SVM προβλήματος ακολουθεί βήματα ανάλογα με αυτά της προηγούμενης περίπτωσης. Ωστόσο στην παρούσα περίπτωση η παράμετρος C επηρεάζει την επιλογή της τελικής λύσης. Στο παραπάνω παράδειγμα η C έχει μικρότερη τιμή για το σχήμα a και μεγαλύτερη τιμή για το σχήμα b.
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις C. Pe_tr.5 Pe_te.35 sup_vec 8 marg.94
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις C Pe_tr.5 Pe_te.35 sup_vec 37 marg.637
Support vector machnes η γραμμική περίπτωση μη γραμ. διαχ. κλάσεις C Pe_tr.5 Pe_te.35 sup_vec 5 marg.3573