Αναγνώριση Προτύπων (Pern Recognon) Γραµµικές Συναρτήσεις ιάκρισης (Lner Dscrmnn Funcons) Π. Τσακαλίδης ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ
Γραµµικές Συναρτήσεις ιάκρισης Στόχος: Η σχεδίαση γραµµικών ως προς το διάνυσµα χαρακτηριστικών x συναρτήσεων διάκρισης που ορίζουν υπερεπίπεδα ως επιφάνειες απόφασης. Γιατί; Απλή µορφή, εύκολη υλοποίηση, βέλτιστες για Γκαουσσιανές σ.π.π. Πώς: ιατυπώνοντας το πρόβληµα εύρεσης των παραµέτρων (βαρών) ως πρόβληµα βελτιστοποίησης µιας συνάρτησης κριτηρίου (κόστους). Τι είναι η συνάρτηση κριτηρίου; Μια βαθµωτή συνάρτηση των βαρών που θα πρέπει να ελαχιστοποιηθεί, π.χ. η πιθανότητα λάθος ταξινόµησης κατά την εκπαίδευση. Είναι δύσκολο να επιτευχθεί; Ναί, γενικώς είναι δύσκολη η σχεδίαση ενός γραµµικού ταξινοµητή που να ελαχιστοποιεί το ρίσκο. Εποµένως; Χρησιµοποιούµε εναλλακτικά κριτήρια (απλές συναρτήσεις των βαρών) και επαναληπτικές µεθόδους βελτιστοποίησης (καθόδου κατά την κλίση του κριτηρίου grden descen).
Συναρτήσεις και Επιφάνειες ιάκρισης T g( x) w x + w ιάνυσµα βαρών (wegh vecor) Βάρος κατωφλίου (bs, hrehold wegh) Το διάνυσµα βαρών, w, καθορίζει τον προσανατολισµό του υπερεπιπέδου απόφασης και το βάρος κατωφλίου, w, καθορίζει τη σχετική θέση του ως προς την αρχή των αξόνων. g( x) w T x + w x w x + r, όπου r w p g ( x) w
ΗΠερίπτωση Πολλών Κλάσεων Γραµµική Μηχανή (lner mchne): x n ω αν g (x)>g j (x) Σύνορα Απόφασης: H j : g (x)g j (x) (w -w j ) x + (w -w j ) - τµήµα υπερεπιπέδου κάθετο στο διάνυσµα w -w j. Απόσταση του x από το H j : (g (x)-g j (x)) / w -w j Κυρτές περιοχές απόφασης. - σηµαντικές είναι οι διαφορές των διανυσµάτων βαρών.
Γραµµικά ιαχωρίσιµες Κλάσεις: ιανύσµατα και Περιοχές Λύσης x w, x x x x w w w w w d d T T g από H : απόσταση ) ( : H Κανονικοποίηση: αντικαθιστώντας όλα τα δείγµατα εκπαίδευσης της κλάσης ω µε τα αρνητικά τους, ζητούµε τα διαχωριστικά διανύσµατα (seprng vecors) που πρέπει να ικανοποιούν την σχέση: T > T > b T > Επαυξηµένα διανύσµατα χαρακτηριστικών και βαρών (Augmened Vecors):
ιαδικασίες Βελτιστοποίησης Πρόβληµα: Εύρεση του που ικανοποιεί το σύνολο των γραµµικών ανισοτήτων > για κάθε,,n. Πώς βρίσκουµε την κατάλληλη λύση; Ορίζουµε µια συνάρτηση κριτηρίου, J(), και την ελαχιστοποιούµε ώστε το να είναι ένα διάνυσµα λύσης. Με αυτό τον τρόπο µετασχηµατίζουµε το πρόβληµα της εξαντλητικής αναζήτησης σε πρόβληµα ελαχιστοποίησης µιας βαθµωτής συνάρτησης. Πώς ελαχιστοποιούµε την J(); Επιλέγουµε κάποιο αρχικό σηµείο και υπολογίζουµε την τιµή J( ). Υπολογίζουµε την κλίση στο J( ): J( ). Παίρνουµε το επόµενο σηµείο κινούµενοι στην κατεύθυνση αρνητικής κλίσης (seepes descen), - J( ), κατά µια ποσότητα η(), τον λεγόµενο ρυθµό µάθησης (lernng re) ήτοβήµα (sepsze).
Αλγόριθµος της Πιο Απότοµης Καθόδου (Seepes Descen) J() J( ) * Αλγόριθµος. Πιο Απότοµη Κάθοδος (Seepes Descen) begn nlze, hreshold θ, η()>, do + 3 -η() J() 4 unl η() J() < θ 5 reurn 6 end - J( * J( ) ) - J( ) * J( 3) Ζητήµατα: J ( + η Πώς επιλέγουµε την συνάρτηση κριτηρίου; Πώς επιλέγουµε τον ρυθµό µάθησης η(); Σύγκλιση σε τοπικό/ολικό ελάχιστο; Πόσο γρήγορα συγκλίνουµε, πόσο οµαλά; Πότε σταµατάµε; ) 3 η η
Αλγόριθµος Καθόδου Newon (Newon Descen) Αλγόριθµος. Κάθοδος Newon (Newon Descen) begn nlze, hreshold θ -H - J() 3 unl H - J() < θ 4 reurn 5 end + H J ( ) H [ J ] ( ) j Κόκκινο: Seepes Descen Μαύρο: Newon Descen Newon: µεγαλύτερη βελτίωση σε κάθε βήµα πληρώνοντας το υπολογιστικό κόστος της αντιστροφής του Hessn πίνακα H.
To Κριτήριο Percepron Ποια µπορεί να είναι η συνάρτηση κριτηρίου; Μία πρώτη επιλογή: Πλήθος των λάθος ταξινοµηµένων δειγµάτων εκπαίδευσης. Αλλά: Aυτή η συνάρτηση είναι ασυνεχής οπότε δεν είναι διαφόρισιµη. Μια καλύτερη επιλογή: Η συνάρτηση κριτηρίου percepron: J ( ) p ( ) Y όπου Y() είναι το σύνολο των δειγµάτων που δεν έχουν ταξινοµηθεί σωστά από το. Αν το Y() είναι κενό, τότε J p (). Αφού < όταν το δεν είναι σωστά ταξινοµηµένο, η J p () δεν είναι ποτέ αρνητική και µηδενίζεται όταν το είναι διάνυσµα λύσης. Γεωµετρικά, η J p () είναι ανάλογη του αθροίσµατος των αποστάσεων των λάθος ταξινοµηµένων δειγµάτων από το σύνορο απόφασης.
Ο Αλγόριθµος Bch Percepron Το διάνυσµα κλίσεων είναι: Αναδροµική σχέση: J p () J όπου Y είναι το σύνολο των δειγµάτων που έχουν ταξινοµηθεί λάθος από το. Το επόµενο διάνυσµα βάρους (δ.β.) προκύπτει ως το άθροισµα του τρέχοντος δ.β. και ενός πολλαπλασίου του αθροίσµατος των λάθος ταξινοµηµένων δειγµάτων. Αλγόριθµος 3. Bch Percepron p Y ( + ) ( ) + η( ) Y begn nlze, κριτήριο θ, η()>, do + 3 4 unl 5 reurn 6 end + η( ) Y Y η ( ) < θ
Βήµατα του Bch Percepron () Επιφάνεια συνάρτησης κόστους (γνωστή και ως επιφάνεια λάθους error surfce) Βάση της επιφάνειας λάθους
Τέσσερις Συναρτήσεις Κόστους Πλήθος εσφαλµένων ταξινοµήσεων Bd J ( ) p Κριτήριο Percepron ( ) Y Good! Συνολικό τετραγωνικό λάθος - Tol squre error (TSE) J q ( ) ( ) Y Beer* J r ( ) TSE wh mrgn Bes* ( b) Y * Αλλά θα µπορούσε να έχει µεγάλο υπολογιστικό κόστος
Fxed-Incremen Sngle-Smple Percepron Αντί να δοκιµάζουµε το διάνυσµα βαρών () σε όλα τα δείγµατα και να το διορθώνουµε βάσει του συνόλου Y των λάθος ταξινοµηµένων δειγµάτων, χρησιµοποιούµε τα δείγµατα ένα κάθε φορά και ανάλογα µε την ταξινόµηση του ανανεώνουµε ή όχι το διάνυσµα βαρών. Αν επιπλέον, χρησιµοποιήσουµε ένα σταθερό βήµα η(), τότε προκύπτει ο αλγόριθµος: Αλγόριθµος 4. Fxed-Incremen Sngle-Smple Percepron begn nlze, do (+) mod n 3 If s msclssfed b, hen + 4 unl ll perns properl clssfed 5 reurn 6 end Κυκλική Σειρά εδοµένων (µε πράσινο υποδηλώνονται τα λάθος ταξινοµηµένα δείγµατα): 3 4 3 4 3 4 3 3 4
Σύγκλιση Πεπερασµένος αριθµός βηµάτων,, για σύγλιση στη λύση : mx mn [ ] Ο παρονοµαστής δηλώνει ότι η δυσκολία στη σύγκλιση καθορίζεται από τα δείγµατα εκπαίδευσης τα οποία είναι σχεδόν κάθετα στο διάνυσµα λύσης : Γραµµικά διαχωρίσιµα προβλήµατα είναι δύσκολα επιλύσιµα όταν τα πρότυπα είναι σχεδόν οµοεπίπεδα.
Vrble-Incremen Percepron wh rgn Χρησιµοποιούµε τα δείγµατα ένα κάθε φορά και διορθώνουµε το διάνυσµα βαρών () όταν το εσωτερικό γινόµενό του µε το δείγµα είναι µικρότερο από κάποιο προκαθορισµένο θετικό όριο b: () < b. Αν επιπλέον, χρησιµοποιήσουµε ένα µεταβαλλόµενο βήµα η(), τότε προκύπτει ο αλγόριθµος: Αλγόριθµος 5. Vrble-Incremen Percepron w. rgn begn nlze, hreshold θ, mrgn b, η(), do (+) mod n 3 f <b, hen + η() 4 unl >b for ll 5 reurn 6 end Συνθήκες Σύγκλισης: η ( ), lm η( ) m m η ( ) ( ( )) m η, lm m m
Μέθοδοι Χαλάρωσης (Relxon Procedures) Συνάρτηση κριτηρίου: όπου Y() είναι το σύνολο των δειγµάτων για τα οποία <b. Αν το Y() είναι κενό, τότε J r (). Η J r () δεν είναι ποτέ αρνητική και µηδενίζεται αν και µόνο αν >b για όλα τα δείγµατα εκπαίδευσης. Το διάνυσµα κλίσεων είναι: Αναδροµική σχέση: ( ) Y ) ( b J r Y r r b J J ) ( + + b Y ) ( ) ( ) ( η
Bch Relxon wh rgn Αλγόριθµος 6. Bch Relxon wh rgn begn nlze, mrgn b, η(), do (+) mod n 3 Y {} 4 j 5 do j j+ 6 f <b, hen ppend j o Y 7 unl jn 8 + η( ) Y 9 unl Y {} reurn end b
Sngle-Smple Relxon wh rgn Αλγόριθµος 7. Sngle-Smple Relxon wh rgn begn nlze, mrgn b, η(), do (+) mod n 3 f <b, hen b + η( ) 4 unl >b for ll 5 reurn 6 end Σε κάθε βήµα, το διάνυσµα βαρών (), µετατοπίζεται προς το υπερεπίπεδο b κατά ένα ποσοστό, η(), της απόστασής του, r(), από αυτό. η()< underrelxon η()> overrelxon <η()< για σύγκλιση
Μέθοδοι Ελαχίστων Τετραγώνων (nmum Squre-Error SE) Στόχος: Καλή απόδοση τόσο στις γραµµικά διαχωρίσιµες όσο και στις µη γραµµικά διαχωρίσιµες περιπτώσεις. Πώς: Κριτήριο που περιλαµβάνει όλα τα πρότυπα. Επίσης, Πρίν: Βρες έτσι ώστε > για κάθε πρότυπο. Τώρα: Βρες έτσι ώστε b για κάθε πρότυπο.(b θετικές σταθερές). ηλαδή; Μετατρέπουµε το πρόβληµα επίλυσης ενός συνόλου γραµµικών ανισοτήτων σε πρόβληµα επίλυσης γραµµικών εξισώσεων. Συµβολισµοί: Πρόβληµα: Εύρεση έτσι ώστε: Yb. d d ˆ ιάνυσµα βαρών n d n Y ˆ Πίνακας Προτύπων n n b b b b ιάνυσµα θετικών παραµέτρων
Μέθοδοι Ελαχίστων Τετραγώνων (nmum Squre-Error SE) Συνήθως n>d+, περισσότερα πρότυπα από διαστάσεις σύστηµα υπερπροσδιορισµένο, δεν έχει ακριβή λύση. Εποµένως; Ελαχιστοποίηση του τετραγώνου του µήκους του διανύσµατος σφάλµατος, ey-b: Κλασσικό Πρόβληµα: ( ) J s ( ) Y b b n J ( ) Y Y s Y b Κανονικές Εξισώσεις Norml Equons Αν ο Υ Υ είναι οµαλός, ( ) Y Y Y b 443 ψευδοαντίστροφος
Wdrow-Hoff (Les-men squres-ls) H J s () µπορεί να ελαχιστοποιηθεί µέσω αναδροµικών αλγορίθµων που δεν απαιτούν την αντιστροφή πινάκων. ιάνυσµα κλίσεων: Βασική αναδροµική σχέση: J ( ) Y s ( Y b) Χρησιµοποιώντας ένα δείγµα σε κάθε βήµα, προκύπτει ο αλγόριθµος Wdrow-Hoff (LS): ( + ) ( ) + η( ) Y Αλγόριθµος 8. Wdrow-Hoff (LS) begn nlze, b, κριτήριο θ, η(), do (+) mod n 3 4 unl 5 reurn 6 end + η( ) ( b ) ( ) θ η ( ) < b ( b Y( ) )
Μέθοδος Ho-Kshp To percepron και οι τεχνικές χαλάρωσης βρίσκουν διαχωριστικά διανύσµατα βαρών αν τα δείγµατα είναι γραµµικά διαχωρίσιµα, αλλά δεν συγκλίνουν για µη διαχωρίσιµες κλάσεις. Οι τεχνικές ελαχίστων τετραγώνων δίνουν πάντα ένα διάνυσµα λύσης (αυτό που ελαχιστοποιεί το Y-b ) το οποίο όµως δεν είναι απαραίτητα διαχωριστικό στην διαχωρίσιµη περίπτωση. Ο αλγόριθµος Ho-Kshp λύνει αναδροµικά το εξής πρόβληµα ελαχιστοποίησης: mn,b J s (, b) Y b s.. Είναι ένας αλγόριθµος που φροντίζει ώστε το b να µην συγκλίνει στο, θέτοντας όλες τις θετικές συνιστώσες του διανύσµατος κλίσης b J s ίσες µε το µηδέν. b >
Αλγόριθµος Ho-Kshp Αλγόριθµος 9. Ho-Kshp begn nlze, b, η()<, hreshold b mn, mx do (+) mod n 3 e Y-b 4 e + (e+ e )/ 5 b b + η()e + 6 (Y Y) - Yb 7 f Abs(e)< b mn hen reurn, b nd ex 8 unl mx 9 prn No soluon found end
Πολλαπλές Κλάσεις οµή του Kesler Στόχος: Γραµµικός διαχωρισµός πολλαπλών κλάσεων: Αν ~ ω, τότε - j > για κάθε j,,c. Αυτό το σύστηµα των c- ανισοτήτων µπορεί να περιγραφεί ως εξής: Το διάνυσµα βαρών ταξινοµεί ορθά όλα τα c- πρότυπα η, η 3,..., η c : όπου: Γενικότερα: D d c ˆ αˆ D d c ˆ η c cd α ˆ ˆ η 3 η c,l, c j j,, ˆ K > η α οµή Kesler > η η α j j j όπου, ˆ j
Ταξινόµηση Πολλαπλών Κλάσεων Percepron Έστω,, n πρότυπα από c κλάσεις, γραµµικά διαχωρίσιµα. Έστω L µία γραµµική µηχανή (),, c (). Θέλουµε να κατασκευάσουµε µία ακολουθία γρ. µηχ. L,,L, που να συγκλίνει σε µία διαχωριστική µηχανή L. Έστω το -στό δείγµα που ζητά διόρθωση (σωστή ταξινόµηση). Αν ~ ω, σηµαίνει ότι υπάρχει τουλάχιστον ένα για το οποίο ι () < j (). Ο κανόνας διόρθωσης του L (percepron µε σταθερό µοναδιαίο βήµα) λέει: ηλαδή: ( ) ( ) ( ) ( ) ( ) ( ) + + j c j j η α η α η α α και µε όπου j j j l l l l j j + + + + και ) ( ) ( ) ( ) ( ) ( ) (