Νευρωνικά Δίκτυα
Νευρωνικά Δίκτυα (Ν.Δ) Τα Τεχνητά Νευρωνικά ίκτυα (ΤΝ ) αποτελούν μια προσπάθεια προσέγγισης της λειτουργίας του ανθρώπινου εγκεφάλου Η αρχιτεκτονική τους βασίζεται στην αρχιτεκτονική των Βιολογικών Νευρωνικών ικτύων. Τα Νευρωνικά Δίκτυα (Ν.Δ.) εκπαιδεύονται με τη βοήθεια παραδειγμάτων, έτσι ώστε να μαθαίνουν το περιβάλλον τους. Υπάρχουν πολλές κατηγορίες Ν.., ανάλογα με την αρχιτεκτονική τους και τον τρόπο εκπαίδευσής τους.
Από τα Βιολογικά Νευρωνικά Δίκτυα στα Τεχνητά Κατά τη γέννησή του ο εγκέφαλος κατασκευάζει τους δικούς του κανόνες, εμπειρία, ηοποία μεγαλώνει με την πάροδο του χρόνου. Κατά τα 2 πρώτα χρόνια ζωής, έχουμε τη μέγιστη ανάπτυξη, όπου δημιουργούνται περίπου 1 εκατομμύριο συνάψεις (synapses) στο δευτερόλεπτο. Οι συνάψεις είναι οι βασικές δομικές και λειτουργικές μονάδες που μεσολαβούν στην ενδοεπικοινωνία των νευρώνων.
Από τα Βιολογικά Νευρωνικά Δίκτυα στα Τεχνητά Η κατανάλωση ενέργειας στον εγκέφαλο είναι 20 Watt,ενώ ένας υπολογιστής χρειάζεται χιλιάδες Watt.
Από τα Βιολογικά Νευρωνικά Δίκτυα στα Τεχνητά Οι συνδέσεις των νευρώνων, με τους άξονες και τους δενδρίτες, ονομάζονται συνάψεις.
Από τα Βιολογικά Νευρωνικά Δίκτυα στα Τεχνητά Ένα Τ.Ν.Δ. μοιάζει με τον εγκέφαλο στα εξής: Η γνώση αποκτάται από το δίκτυο μέσα από διαδικασία μάθησης. Οι δυνάμεις σύνδεσης των νευρώνων, γνωστές σαν συναπτικά (synaptic) )βάρη, χρησιμοποιούνται για την αποθήκευση γνώσης.
Το μοντέλο του τεχνητού νευρώνα Ένας νευρώνας είναι μια μονάδα επεξεργασίας πληροφορίας. Τα τρία βασικά στοιχεία αυτού του μοντέλου είναι : Ένα σύνολο από συνάψεις ή συνδετικούς κρίκους Ένας αθροιστής Μια συνάρτηση ρηη ενεργοποίησης a 0 w 0 w i a i w n Outgoing activation a n
Νευρωνικά Δίκτυα νευρώνας Τα ΤΝ είναι μια συλλογή από νευρώνες (Processing Units PUs) που συνδέονται μεταξύ τους Κάθε νευρώνας έχει πολλές εισόδους αλλά μόνο μία έξοδο η οποία αποτελεί είσοδο για άλλους νευρώνες H συνδέσεις διαφέρουν ως προς τη σημαντικότητά τους που προσδιορίζεται ρ από το συντελεστή ήβάρους (σύναψη). Η επεξεργασία κάθε νευρώνα καθορίζεται από τη συνάρτηση μεταφοράς, η οποία καθορίζει την κάθε έξοδο σε σχέση με τις εισόδους και τους συντελεστές βάρους.
TαΝΔ Ν.Δ. σαν κατευθυνόμενoι γράφοι Ένα νευρωνικό δίκτυο είναι ένας κατευθυνόμενος γράφος, που αποτελείται από κόμβους με συναπτικές διασυνδέσεις και συνδέσεις ενεργοποίησης και έχει τις ιδιότητες : Κάθε νευρώνας, παριστάνεται από ένα σύνολο γραμμικών συναπτικών συνδέσεων, ένα εξωτερικά εφαρμοζόμενο κατώφλι και μια μη γραμμική σύνδεση ενεργοποίησης. Το κατώφλι παριστάνεται από συναπτικές συνδέσεις με σήμα εισόδου τιμής 1. Οι συναπτικές συνδέσεις ενός νευρώνα ζυγίζουν τα αντίστοιχα σήματα εισόδου. Το άθροισμα των βαρών των σημάτων εισόδου καθορίζει το συνολικό εσωτερικό επίπεδο ενεργοποίησης του νευρώνα που ζητείται. Η σύνδεση ενεργοποίησης ης συνθλίβει (περιορίζει) ρ ρ ζ το εσωτερικό επίπεδο ενεργοποίησης, για την παραγωγή της εξόδου που παριστάνει την κατάσταση του νευρώνα.
Tα Ν.Δ. σαν κατευθυνόμενoι γράφοι
Πολλαπλών Επιπέδων Εμπρός Τροφοδότησης Δίκτυα Εδώ έχουμε περισσότερα του ενός κρυφά επίπεδα, των οποίων οι κόμβοι υπολογισμού ονομάζονται κρυφοί νευρώνες. Τυπικά, οι νευρώνες σε κάθε επίπεδο έχουν σαν εισόδους τα σήματα εξόδου του προηγούμενου μόνο επιπέδου.
Πολλαπλών Επιπέδων Εμπρός Τροφοδότησης Δίκτυα Input Hidden Output Layer Layers Layer
Αναδρομικά Δίκτυα Έχουν ένα τουλάχιστον βρόχο ανάδρασης. Input Layer Hidden Layers Output Layer
Επιβλεπόμενη Μάθηση
Νευρωνικά Δίκτυα Εκπαίδευση Για να χρησιμοποιηθεί ίένα ΤΝ πρέπει πρώτα να εκπαιδευτεί Η μάθηση συνίσταται στον προσδιορισμό των κατάλληλων συντελεστών βάρους Η μάθηση πραγματοποιείται με τη βοήθεια αλγορίθμων που είναι γνωστοί ως κανόνες μάθησης ή αλγόριθμοι εκπαίδευσης. Με τη μάθηση τα Ν.. μαθαίνουν το περιβάλλον τους
Στοιχεία της Θεωρίας Μάθησης Το ΝΔ έχει την ικανότητα να μαθαίνει από το περιβάλλον του και να βελτιώνει την απόδοσή του μέσω της μάθησης. Η βελτίωση γίνεται σταδιακά, σύμφωνα με κάποιο καθορισμένο μέτρο. Η μάθηση επιτυγχάνεται μέσω μιας επαναληπτικής διαδικασίας ρυθμίσεων της τιμής των συναπτικών βαρών και των κατωφλίων. Το δίκτυο αποκτά περισσότερη γνώση μετά από κάθε επανάληψη.
Στοιχεία της Θεωρίας Μάθησης Σύμφωνα με τους Mendel dlκαι McClaren, με σημείο αναφοράς τα νευρωνικά δίκτυα: Mάθηση είναι μια διαδικασία δ με την οποία προσαρμόζονται oι ελεύθερες παράμετροι ενός νευρωνικού δικτύου μέσω μίας συνεχούς διαδικασίας διέγερσης από το περιβάλλον στο οποίο βρίσκεται το δίκτυο. Το είδος της μάθησης καθορίζεται από τον τρόπο με τον οποίο πραγματοποιούνται oι αλλαγές των παραμέτρων.
Στοιχεία της Θεωρίας Μάθησης Ο ορισμός της διαδικασίας μάθησης υπονοεί την ακόλουθη σειρά βημάτων: 1. Tο νευρωνικό δίκτυο ʺδιεγείρεταιʺ από ένα περιβάλλον. 2. Το νευρωνικό δίκτυο υφίσταται αλλαγές σαν συνέπεια αυτής της διέγερσης. 3. Το νευρωνικό δίκτυο ʺαπαντάʺ με ένα καινούργιο τρόπο στο περιβάλλον, λόγω των αλλαγών που συνέβησαν στην εσωτερική του δομή.
Perceptron (Αισθητήρας) Το Perceptron είναι η απλούστερη μορφή Νευρωνικού δικτύου. Χρησιμοποιείται για την ταξινόμηση γραμμικά διαχωριζόμενων προτύπων
Γραμμικά Διαχωριζόμενα πρότυπα Είναι τα πρότυπα που χωρίζονται στο δειγματοχώρο Είναι τα πρότυπα που χωρίζονται στο δειγματοχώρο με γραμμικές συναρτήσεις (γραμμές ή επίπεδα)
To Perceptron σαν ταξινομητής Για d-διάστατα δά δδ δεδομένα το perceptron αποτελείται λί από d βάρη, ένα κατώφλι και μία συνάρτηση. x 1 x 2 w 1 w 2 a = -θ + w 1 x 1 + w 2 x 2 υ=g(a) {-1, +1} -1 θ g(a)= -1 if a < 0 g(a)= 1 if a >= 0 Αν ομαδοποιήσουμε τα βάρη σε διάνυσμα w έχουμε: υ = g(w.x- θ)
Aλγόριθμος μάθησης του Perceptron Ηέξ έξοδος του γραμμικού συνδυαστή είναι: p wx i i 1 i Σκοπός του Perceptron είναι να ταξινομήσει ένα σύνολο εισόδων σε μία από τις κλάσεις l 1 και l 2. Ο κανόνας απόφασης για την ταξινόμηση είναι: ανάθεσε το σημείο που αναπαριστούν τα x 1, x 2 στην κλάση l 1, αν y = +1 και στην κλάση l 2 αν y = 1. Οι περιοχές απόφασης διαχωρίζονται από το υπερεπίπεδο που ορίζεται από τη σχέση: p i 1 w x i i = 0 w 1 x 1 + w 2 x 2 θ = 0
Aλγόριθμος μάθησης του Perceptron Το κατώφλι μετατοπίζει το όριο απόφασης από την αρχή των αξόνων. Τα συναπτικά άβάρη του Perceptron, μπορούν να προσαρμοσθούν επαναληπτικά. Για την προσαρμογή του διανύσματος βαρών w, χρησιμοποιούμε τον κανόνα σύγκλισης του Perceptron. l 2 θ l 1
Κανόνας σύγκλισης του Perceptron Αν, τα διανύσματα εισόδου και βαρών είναι: x(n) = [ 1, x 1 (n), x 2 (n),, x p (n) ] T w(n) = [ θ(n), w 1 (n), w 2 (n),, w p (n) ] T H έξοδος του γραμμικού συνδυαστή είναι: υ(n) = w T (n) x(n) τότε υπάρχει ένα διάνυσμα βαρών, που T w x 0 x 1 T w x 0 x 2
Aλγόριθμος μάθησης του Perceptron 1. ΔΕΝ γίνεται διόρθωση στο w(n) όταν: αν w T (n) x(n) 0 & x(n) l1 w(n + 1) = w(n) αν w T (n) x(n) ( ) 0 & x(n) ( ) l2 w(n ( + 1) = w(n) ( ) 2. ΑΛΛΙΩΣ, το διάνυσμα βαρών του Perceptron, ενημερώνεται σύμφωνα με τον κανόνα: αν w T (n) x(n) 0 & x(n) l2 w(n + 1) = w(n) η(n) x(n) αν w T (n) x(n) 0 & x(n) l1 w(n + 1) = w(n) + η(n) x(n)
Tα Δίκτυα εμπρός τροφοδότησης πολλών επιπέδων Ένα τέτοιο δίκτυο αποτελείται από: ένα σύνολο αισθητήρων (πηγαίοι κόμβοι), που αποτελούν το επίπεδο εισόδου, ένα ή περισσότερα κρυφά επίπεδα (hidden layers) υπολογιστικών κόμβων και ένα επίπεδο υπολογιστικών κόμβων εξόδου. Το σήμα εισόδου διαδίδεται μέσα στο δίκτυο σε μία προς τα εμπρός κατεύθυνση, από επίπεδο σε επίπεδο. Αυτά τα νευρωνικά δίκτυα αναφέρονται σαν Perceptrons πολλών επιπέδων (MLPs)
Δίκτυο Τριών Επιπέδων x 1 x 2 Input Output x n Hidden layers
Perceptron Πολλών επιπέδων ιδιότητες αρχιτεκτονικής Δεν υπάρχουν συνδέσεις στο ίδιο επίπεδο Δεν υπάρχουν απευθείας συνδέσεις μεταξύ εισόδου και εξόδου Πλήρως συνδεδεμένα μεταξύ επιπέδων Το πλήθος των εξόδων ανεξάρτητο από το πλήθος των εισόδων Ανεξάρτητο πλήθος κόμβων ανά επίπεδο. Κάθε μονάδα είναι ένα perceptron
Χρησιμότητα επιπέδων Ένα επίπεδο Δύο επίπεδα Τρία επίπεδα δημιουργεί συνδυάζουν δημιουργούν πιο γραμμικά όρια γραμμές πολύπλοκα σχήματα
Tα Δίκτυα εμπρός τροφοδότησης πολλών επιπέδων Σ αυτό το δίκτυο αναγνωρίζονται δυο είδη σημάτων: Λειτουργικά σήματα Σήματα λάθους
Λειτουργικά σήματα Ενα λειτουργικό σήμα (function signal) είναι ένα σήμα εισόδου (ερέθισμα) που διαδίδεται προς τα εμπρός διαμέσου του δικτύου και εξέρχεται από την έξοδο του δικτύου σαν ένα σήμα εξόδου. Καλείται λειτουργικό γιατί: Πρώτον, υποτίθεται ότι επιτελεί μια χρήσιμη συνάρτηση στην έξοδο του δικτύου. Δεύτερον, σε κάθε νευρώνα του δικτύου, μέσω του οποίου περνά ένα λειτουργικό σήμα, το σήμα υπολογίζεται σαν μία συνάρτηση των εισόδων και των συσχετιζόμενων βαρών, που εφαρμόζονται στο νευρώνα.
Σήματα λάθους Ένα σήμα λάθους (error signal) δημιουργείται σε έναν νευρώνα εξόδου του δικτύου και διαδίδεται προς τα πίσω (layer by layer) διαμέσου του δικτύου. Αναφερόμαστε σ αυτό σαν error signal επειδή ο υπολογισμός του από κάθε νευρώνα του δικτύου εμπεριέχει μια συνάρτηση εξαρτώμενη από το λάθος.
Αλγόριθμος Πίσω Διάδοσης Λάθους Back Propagation Algorithm Τα MLPs εκπαιδεύονται με έναν επιβλεπόμενο τρόπο (supervised manner), με το γνωστό σαν αλγόριθμο πίσω διάδοσης του λάθους (error Back Propagation algorithm BP). Αυτός ο αλγόριθμος βασίζεται στον κανόνα μάθησης διόρθωσης του λάθους (error correction learning rule). Η διαδικασία της πίσω διάδοσης του λάθους αποτελείται από δυο περάσματα διαμέσου των διαφορετικών επιπέδων του δικτύου ένα προς τα εμπρός πέρασμα (forward pass) και ένα προς τα πίσω πέρασμα (backward pass).
Αλγόριθμος Πίσω Διάδοσης Λάθους Back Propagation Algorithm Στο εμπρός πέρασμα: Ένα διάνυσμα εισόδου (input vector) εφαρμόζεται στους νευρώνες εισόδου του δικτύου Η επίδραση του διαδίδεται μέσα στο δίκτυο από επίπεδο σε επίπεδο (layer by layer). Ένα σύνολο από εξόδους παράγεται ως η πραγματική απόκριση του δικτύου. Κατά τη διάρκεια του εμπρός περάσματος τα βάρη του δικτύου είναι σταθερά.
Αλγόριθμος Πίσω Διάδοσης Λάθους Back Propagation Algorithm Κατά την πίσω διάδοση: Η πραγματική απόκριση του δικτύου αφαιρείται από την επιθυμητή απόκριση για την παραγωγή ενός σήματος λάθους Το σήμα λάθους διαδίδεται προς τα πίσω στο δίκτυο. Τα βάρη προσαρμόζονται σε συμφωνία με τον κανόνα διόρθωσης λάθους.
Αλγόριθμος Back propagation
Backpropagation: Πλεονεκτήματα Εύκολο στη χρήση Λίγες παράμετροι προς ρύθμιση Αλγόριθμος εύκολος σε υλοποίηση Μπορεί να εφαρμοστεί σε ευρεία περιοχή δεδομένων Πολύ δημοφιλής
Backpropagation: Μειονεκτήματα Η εκμάθηση είναι αργή Τα νέα στοιχεία θα υπερκαλύψουν τα παλαιά εκτός αν συνεχίσουν να παρέχονται Δύσκολο να διατηρηθεί το δίκτυο ενημερωμένο Το δίκτυο είναι ουσιαστικά black box Δεν μπορεί να υπάρξει εγγύηση γενίκευσης ακόμα και με ελάχιστο σφάλμα
Εφαρμογές των Ν.Δ. Αεροπορία: Υψηλής απόδοσης αυτόματοι πιλότοι αεροπλάνων, προσομοιωτές πτήσης, συστήματα αυτομάτου ελέγχου αεροπλάνων, συστήματα ανίχνευσης βλαβών. Αυτοκίνηση: Αυτοκινούμενα συστήματα αυτόματης πλοήγησης. Τραπεζικές εφαρμογές: Αναγνώστες επιταγών και άλλων παραστατικών, συστήματα αξιολόγησης αιτήσεων δανειοδότησης δό. Άμυνα: Πλοήγηση όπλων, ανίχνευση στόχων, νέα είδη αισθητήρων,, σόναρ, ραντάρ, ρ, ψηφιακή επεξεργασία σημάτων, συμπίεση δεδομένων, εξαγωγή χαρακτηριστικών, αναγνώριση σήματος / εικόνας.
Εφαρμογές των Ν.Δ. Ηλεκτρονική: Πρόβλεψη ακολουθίας κωδίκων, μορφοποίηση ολοκληρωμένων κυκλωμάτων, έλεγχος διεργασιών, διάγνωση βλαβών β ολοκληρωμένων κυκλωμάτων, μηχανική όραση. Οικονομία: Οικονομική ανάλυση, πρόβλεψη τιμών συναλλάγματος. Βιομηχανία: Βιομηχανικός έλεγχος διεργασιών, ανάλυση και σχεδίαση προϊόντων, συστήματα ποιοτικού ελέγχου, διάγνωση βλαβών διεργασιών και μηχανών, ανάλυση σχεδιασμού χημικών προϊόντων, δυναμικό μοντελάρισμα μ συστημάτων χημικών διεργασιών.
Εφαρμογές των Ν.Δ. Ιατρική: Ανάλυση καρκινικών κυττάρων,, ανάλυση Ηλεκτροεγκεφαλογραφήματος και Ηλεκτροκαρδιογραφήματος. Γεωλογικές έρευνες: Εντοπισμός πετρελαίου και φυσικού αερίου. Ρομποτική: Έλεγχος τροχιάς και σύστημα όρασης ρομπότ. Επεξεργασία φωνής: Αναγνώριση φωνής, συμπίεση φωνής, σύνθεση φωνής από κείμενο. Χρηματιστηριακές εφαρμογές: Ανάλυση αγοράς, πρόβλεψη τιμών μετοχών. Τηλεπικοινωνίες: Συμπίεση εικόνας και δεδομένων, αυτοματοποιημένες υπηρεσίες πληροφοριών, μετάφραση πραγματικού χρόνου, συστήματα επεξεργασίας πληρωμών.
Support Vector Machines
Support Vector Machines Η επιφάνεια απόφασης είναι ένα υπερεπίπεδο στο χώρο χαρακτηριστικών (παρόμοια με το Perceptron) Με λίγα λόγια: Παρουσίαστε τα δεδομένα σε ένα προκαθορισμένο πιο υψηλό διαστάσεων χώρο μέσω μιας συνάρτησης kernel Βρείτε το υπερεπίπεδο που μεγιστοποιεί το περιθώριο μεταξύ των δύο κατηγοριών Εάν τα δεδομένα δεν μπορούν να αποσπαστούν βρείτε το υπερεπίπεδο που μεγιστοποιεί το περιθώριο και να ελαχιστοποιεί τις εσφαλμένες ταξινομήσεις
Support Vector Machines 1. Ορισμός τι είναι το βέλτιστο υπερεπίπεδο (με υπολογιστικά αποτελεσματικό τρόπο): μεγιστοποίηση του περιθώριου 2. Επέκταση των παραπάνω ορισμού για τα μη γραμμικά διαχωρίσιμα προβλήματα: ποινή εσφαλμένων ταξινομήσεων 3. Απεικόνιση δεδομένων σε χώρο πιο υψηλών διαστάσεων όπου είναι ευκολότερο να ταξινομούνται με γραμμικές επιφάνειες απόφασης
Πιο υπερεπίπεδο να χρησιμοποιήσουμε; Var 1 Var 2
Μεγιστοποιήστε το διάστημα Var 1 ιάστημα ιάστημα Var 2
Support Vectors Var 1 Support Vectors Var 2
Το πρόβλημα βελτιστοποίησης Var 1 w x b 1 max 2 w w x b 1 1 1 w x b Var 2 0 st.. ( w x b ) 1, x of class 1 ( w x b) 1, x of class 2
Το πρόβλημα βελτιστοποίησης Αν η κλάση 1 αντιστοιχεί στην τιμή 1 και η κλάση 2 στο 1: ( w xi b) 1, xi with yi 1 ( w x b) 1, x with y 1 i i i άρα y ( w x b) 1, x Το πρόβλημα γίνεται: i i i 2 max w st.. y ( w x b) 1, x i i i or 1 2 min w 2 st.. y( w x b) 1, x i i i
Γραμμικός, Hard SVM Βρείτε w,b ώστε 1 2 min w 2 st.. y( w x b) 1, x i i i
Μη γραμμικά διαχωρίσιμα δεδομένα Var 1 i w i w x b 1 w x b 1 1 1 w x b 0 Var 2
Το πρόβλημα βελτιστοποίησης Ο Περιορισμός γίνεται: yi( w xi b) 1 i, xi i 0 Η αντικειμενική συνάρτηση τιμωρεί για εσφαλμένες ταξινομήσεις και περιπτώσεις εντός του περιθωρίου 1 min 2 2 w C i i Var 1 w i w x b 1 1 i 1 w x w x b 1 b 0 Var 2
Γραμμικός, Soft SVMs min 2 1 2 w C i ( ) 1, i y w x b x 0 i i i i i Ο αλγόριθμος προσπαθεί να διατηρήσει i στο μηδέν μεγιστοποιώντας παράλληλα το περιθώριο Ο αλγόριθμος δεν ελαχιστοποιεί τον αριθμό των εσφαλμένων ταξινομήσεων (NP complete πρόβλημα) αλλά το άθροισμα των αποστάσεων από τα υπερεπίπεδα. Όταν C, ερχόμαστε πιο κοντά στο σκληρό SVM
Soft vs Hard SVM Var 1 Var 1 i i Var 2 x b 0 Var 2 w x b 0 w Soft Margin SVN Hard Margin SVN
Soft vs Hard SVM O Soft έχει πάντα μια λύση Ο Soft είναι πιο ανθεκτικός στις ακραίες τιμές Ομαλότερη επιφάνειες (σε μη γραμμική περίπτωση) Ο Hardδεν απαιτεί εκτίμηση του κόστους
Μειονεκτήματα των γραμμικών Var 1 επιφανειών απόφασης Var 2
Πλεονεκτήματα των μη γραμμικών Var 1 επιφανειών Var 2
Γραμμικοί Classifiers σε χώρους υψηλής διάστασης Var 1 Constructed Feature 2 Var 2 Constructed Feature 1
Αντιστοίχιση δεδομένων σε υψηλής διάστασης χώρο Βρείτε συνάρτηση Φ(x) ) που αντιστοιχεί τα δεδομένα δ σε υψηλότερης διάστασης χώρο, στη συνέχεια, η SVM διατύπωση γίνεται: 1 min 2 2 w C s. t. yi ( w ( x) b) 1 i, xi i i i 0 Τα δεδομένα δ εμφανίζονται ως Φ( (x), τα βάρη w είναι πλέον στο νέο χώρο Η Ρητή ηήχαρτογράφηση φηηείναι ανέφικτη σε χώρο πολύ υψηλών διαστάσεων Η επίλυση του προβλήματος χωρίς ρητή χαρτογράφηση των δεδομένων είναι επιθυμητή
Το Kernel τρυκ (x( i ) (x( j ): σημαίνει αντιστοίχιση δεδομένων δ σε νέο χώρο, εσωτερικό γινόμενο των νέων φορέων Μπορούμε να βρούμε μια συνάρτηση ητέτοια ώστε: K(x i x j ) = (x i ) (x j ) δηλαδή, η εικόνα του εσωτερικού του προϊόντος των δδ δεδομένων είναι το εσωτερικό γινόμενο των εικόνων των δεδομένων Τότε,, δεν χρειάζεται ρητή απεικόνιση των δεδομένων στο υψηλό διαστάσεων χώρο για την επίλυση του προβλήματος βελτιστοποίησης
Σύγκριση με Νευρωνικά Νευρωνικά άδίκτυα SVMs Κρυμμένα στρώματα χάρτη Οι Kernel συναρτήσεις για τη ημείωση διαστάσεων αντιστοιχούν τα δεδομένα σε χώρους χώρο πιο υψηλής διάστασης Ο χώρος αναζήτησης έχει Ο χώρος αναζήτησης έχει πολλαπλά τοπικά ελάχιστα ένα μοναδικό ελάχιστο Η εκπαίδευση είναι ακριβή Κατάταξη εξαιρετικά αποδοτική Απαιτεί πλήθος κρυφών μονάδων και επιπέδων Πολύ καλή ακρίβεια σε συγκεκριμένους τομείς Η εκπαίδευση είναι εξαιρετικά αποδοτική Κατάταξη εξαιρετικά αποδοτική Kernel και κόστος, δύο παραμέτροι για να επιλέξετε Πολύ καλή ακρίβεια σε συγκεκριμένους τομείς Ιδιαίτερα ευέλικτος
Συμπεράσματα Ο SVM εκφράζει τη μάθηση ως ένα μαθηματικό πρόγραμμα εκμεταλλευόμενος την πλούσια θεωρία βελτιστοποίησης Ο SVM χρησιμοποιεί το τέχνασμα του πυρήνα (Kernel) για να αντιστοιχίσει τα δεδομένα έμμεσα σε πιο υψηλό διαστάσεων χώρο Ο SVM είναι εξαιρετικά επιτυχής, ισχυρό, αποτελεσματικό και ευέλικτος, ενώ υπάρχουν καλές θεωρητικές ενδείξεις ως προς το γιατί γενικεύει καλά
Adaboost
Πλεονεκτήματα Adaboost Μπορεί να χρησιμοποιηθεί με πολλούς διαφορετικούς ταξινομητές Βλ Βελτιώνει την ακρίβεια της ταξινόμησης Χρησιμοποιείται σε πολλούς τομείς Απλός στην εφαρμογή Δεν είναι επιρρεπής σε overfitting
Adaboost Adaptive Boosting Ο AdaBoost είναι ένας αλγόριθμος για την κατασκευή ενός ʺισχυρούʺ ταξινομητής ως γραμμικό συνδυασμό ʺαδύναμωνʺ ταξινομητών Η τελική κατάταξη γίνεται με βάση το σταθμισμένο ψήφο των αδύναμων ταξινομητών h t (x) αδύναμος classifier Βάσης Αδύναμος Classifier: < 50% σφάλμα σε κάθε κατανομή
Αρχή Adaboost Η αποτυχία είναι η μητέρα της επιτυχίας υνατός classifier Feature vector Βάρος Αδύναμος classifier
Παράδειγμα Κάθε σημείο έχει μια ετικέτα κλάσης y t = +1 ( ) -1 ( ) Και ένα βάρος w t =1 h => p(error) = 0.5 τυχαίο
Παράδειγμα Κάθε σημείο έχει μια ετικέτα κλάσης y t = +1 ( ) -1 ( ) Και ένα βάρος w t =1 weak classifier : Ελαφρώς καλύτερο του τυχαίου.
Παράδειγμα Κάθε σημείο έχει μια ετικέτα κλάσης y t = +1 ( ) -1 ( ) Προσαρμόζουμε τα βάρη w t w t exp{-y t H t } Θέτουμε νέο πρόβλημα για τον προηγούμενος αδύναμος ταξινομητή.
Παράδειγμα Κάθε σημείο έχει μια ετικέτα κλάσης y t = +1 ( ) -1 ( ) Προσαρμόζουμε τα βάρη w t w t exp{-y t H t } Θέτουμε νέο πρόβλημα για τον προηγούμενος αδύναμος ταξινομητή.
Παράδειγμα Κάθε σημείο έχει μια ετικέτα κλάσης y t = +1 ( ) -1 ( ) Προσαρμόζουμε τα βάρη w t w t exp{-y t H t } Θέτουμε νέο πρόβλημα για τον προηγούμενος αδύναμος ταξινομητή.
Παράδειγμα Κάθε σημείο έχει μια ετικέτα κλάσης y t = +1 ( ) -1 ( ) Προσαρμόζουμε τα βάρη w t w t exp{-y t H t } Θέτουμε νέο πρόβλημα για τον προηγούμενος αδύναμος ταξινομητή.
Παράδειγμα f 1 f 2 f 4 f 3 Ο δυνατός (μη γραμμικός) ταξινομητής είναι χτισμένο σαν συνδυασμός όλων των αδυνάτων (γραμμικών) ταξινομητών.
Formal Procedure of AdaBoost