Κεφάλαιο 4: Επεκτάσεις της Κλασικής Υπολογιστικής Νοημοσύνης

Σχετικά έγγραφα
Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HY213. ΑΡΙΘΜΗΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΑΧΙΣΤΑ ΤΕΤΡΑΓΩΝΑ AΝΑΛΥΣΗ ΙΔΙΑΖΟΥΣΩΝ ΤΙΜΩΝ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

Το μοντέλο Perceptron

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Ασκήσεις μελέτης της 19 ης διάλεξης

Αριθμητική Ανάλυση και Εφαρμογές

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Αριθμητική Ανάλυση και Εφαρμογές

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

21 a 22 a 2n. a m1 a m2 a mn

ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΤΗΣ ΜΕΘΟΔΟΥ SIMPLEX

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

HMY 795: Αναγνώριση Προτύπων

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2)

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Αναγνώριση Προτύπων Ι

Γραφική Λύση & Πρότυπη Μορφή Μαθηματικού Μοντέλου

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

min f(x) x R n b j - g j (x) = s j - b j = 0 g j (x) + s j = 0 - b j ) min L(x, s, λ) x R n λ, s R m L x i = 1, 2,, n (1) m L(x, s, λ) = f(x) +

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΚΑΙ ΜΕΘΟΔΟΣ SIMPLEX, διαλ. 3. Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 29/4/2017

Αναγνώριση Προτύπων Ι

Κεφ. 3: Παρεμβολή. 3.1 Εισαγωγή. 3.2 Πολυωνυμική παρεμβολή Παρεμβολή Lagrange Παρεμβολή Newton. 3.3 Παρεμβολή με κυβικές splines

Γραμμικός Προγραμματισμός Μέθοδος Simplex

5.1 Δραστηριότητα: Εισαγωγή στο ορισμένο ολοκλήρωμα

Αριθμητική Ανάλυση και Εφαρμογές

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

HMY 795: Αναγνώριση Προτύπων

E[ (x- ) ]= trace[(x-x)(x- ) ]

z = c 1 x 1 + c 2 x c n x n

HMY 795: Αναγνώριση Προτύπων

ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

3 η ΕΝΟΤΗΤΑ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΝΟΣ ΚΡΙΤΗΡΙΟΥ

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

HMY 799 1: Αναγνώριση Συστημάτων

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Υπολογιστική Νοημοσύνη. Μάθημα 6: Μάθηση με Οπισθοδιάδοση Σφάλματος Backpropagation Learning

6. Στατιστικές μέθοδοι εκπαίδευσης

Πιο συγκεκριμένα, η χρήση του MATLAB προσφέρει τα ακόλουθα πλεονεκτήματα.

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΗΣ & ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ ΛΥΜΕΝΕΣ & ΑΛΥΤΕΣ ΑΣΚΗΣΕΙΣ. Επιμέλεια: Γ. Π. Βαξεβάνης (Γ. Π. Β.

Εισαγωγικές έννοιες. Κατηγορίες προβλημάτων (σε μια διάσταση) Προβλήματα εύρεσης μεγίστου. Συμβολισμοί

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Project 1: Principle Component Analysis

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Μέθοδος μέγιστης πιθανοφάνειας

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

Κεφ. 3: Παρεμβολή. 3.1 Εισαγωγή. 3.2 Πολυωνυμική παρεμβολή Παρεμβολή Lagrange Παρεμβολή Newton. 3.3 Παρεμβολή με κυβικές splines

2.1 Αριθμητική επίλυση εξισώσεων

HMY 795: Αναγνώριση Προτύπων

ΜΑΘΗΜΑΤΑ ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ

Παράδειγμα 14.2 Να βρεθεί ο μετασχηματισμός Laplace των συναρτήσεων

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΚΕΦΑΛΑΙΟ 1ο: ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ ΕΝΟΤΗΤΑ 2: ΜΕΤΡΟ ΜΙΓΑΔΙΚΟΥ ΑΡΙΘΜΟΥ - ΙΔΙΟΤΗΤΕΣ ΤΟΥ ΜΕΤΡΟΥ [Κεφ. 2.3: Μέτρο Μιγαδικού Αριθμού σχολικού βιβλίου].

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 5: Εύρεση σημείων ισορροπίας σε παίγνια μηδενικού αθροίσματος. Ε. Μαρκάκης. Επικ. Καθηγητής

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ Ι

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο

Σειρά: Επεξεργασία Δεδομένων Εκδοση/Ημ.νία: #3.1/ Συγγραφέας: Μίχος Θεόδωρος, Φυσικός

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Approximation Algorithms for the k-median problem

M. J. Lighthill. g(y) = f(x) e 2πixy dx, (1) d N. g (p) (y) =

ΤΕΤΥ Εφαρμοσμένα Μαθηματικά 1. Τελεστές και πίνακες. 1. Τελεστές και πίνακες Γενικά. Τι είναι συνάρτηση? Απεικόνιση ενός αριθμού σε έναν άλλο.

ΘΕΩΡΙΑ Β ΓΥΜΝΑΣΙΟΥ. Μια παράσταση που περιέχει πράξεις με μεταβλητές (γράμματα) και αριθμούς καλείται αλγεβρική, όπως για παράδειγμα η : 2x+3y-8

ΣΗΜΕΙΩΣΕΙΣ. Από προηγούμενες τάξεις γνωρίζουμε ότι το τετράγωνο οποιουδήποτε πραγματικού αριθμού

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.


Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

V. Διαφορικός Λογισμός. math-gr

Μέθοδος Ελαχίστων Τετραγώνων (για την προσαρμογή (ή λείανση) δεδομένων/μετρήσεων)

E [ -x ^2 z] = E[x z]

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

5 η ΕΝΟΤΗΤΑ ΠΟΛΥΚΡΙΤΗΡΙΑΚΟΣ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12) ΕΡΓΑΣΙΑ 2 η Ημερομηνία Αποστολής στον Φοιτητή: 28 Νοεμβρίου 2011

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

Αριθμητική Ανάλυση και Εφαρμογές

Transcript:

Κεφάλαιο 4: Επεκτάσεις της Κλασικής Υπολογιστικής Νοημοσύνης Η κλασική ΥΝ διευρύνθηκε κατ αρχάς σε μια προσπάθεια να ξεπεραστούν κάποια από τα επιμέρους μειονεκτήματα τεχνολογιών της κλασικής ΥΝ, όπως εξηγείται στη συνέχεια. 4.1 Νευρο-ασαφή Συστήματα Από τη μια μεριά, τα κλασικά ΤΝΔ, παρά την ικανότητά τους να μαθαίνουν γρήγορα (κάνοντας παράλληλη επεξεργασία των αριθμητικών τους δεδομένων εισόδου) μια συνάρτηση f: R R M από δείγματά της, εντούτοις δεν μπορούν να αιτιολογήσουν ικανοποιητικά τις απαντήσεις τους. Δηλαδή, όπως λέγεται, τα κλασικά ΤΝΔ λειτουργούν ως «μαύρα κουτιά», μέσα στα οποία δεν μπορούμε να δούμε, ώστε να αιτιολογήσουμε τις απαντήσεις τους. Από τη άλλη μεριά, τα κλασικά ασαφή συστήματα μπορούν μεν να εξηγήσουν ικανοποιητικά τις απαντήσεις τους, αλλά δεν μπορούν να μαθαίνουν. Μια από τις πρώτες επεκτάσεις αλγόριθμων της κλασικής ΥΝ ήταν ο συνδυασμός τεχνητών νευρωνικών δικτύων και ασαφών συστημάτων, ώστε να ξεπεραστούν μειονεκτήματα της κάθε τεχνολογίας συνδυάζοντας τα πλεονεκτήματα των δύο. Έτσι, προέκυψαν τα νευρο-ασαφή συστήματα (ΝΑΣ) (neurofuzzy systems (FSs)) σε διάφορες μορφές (Mitra & Hayashi, 000). Η πλέον δημοφιλής μορφή ΝΑΣ είναι τα προσαρμοστικά νευρο-ασαφή συστήματα συμπερασμού (ΠΝΑΣΣ) (adaptive neuro-fuzzy inference systems (AFISs)) (Jang κ.ά., 1997 Kaburlasos & Kehagias, 014), κάθε ένα από τα οποία αποτελεί μια νευρωνική υλοποίηση ενός ασαφούς συστήματος συμπερασμού, όπως φαίνεται στο Σχήμα 4.1. Συγκεκριμένα, ένας νευρώνας του στρώματος εξόδου στο Σχήμα 4.1 σε συνδυασμό με όλους τους νευρώνες του στρώματος εισόδου αντιστοιχεί σε ένα ΑΣΣ τύπου Mamdani (βλ. παράδειγμα ενότητας.5.3). Δοθέντος ενός συνόλου ζευγών (x 1,f(x 1 )),,(x n,f(x n )) μιας άγνωστης συνάρτησης f: R R M το τυπικό πρόβλημα είναι να υπολογιστεί μια ικανοποιητική προσέγγιση ˆf : R R M της συνάρτησης f, ώστε για x 0 R, με x 0 x i, i{1,,n}, το εκτιμώμενο f ˆ( x 0 ) να είναι όσο το δυνατόν πιο «κοντά», υπό κάποια έννοια, στο πραγματικό f(x 0 ), δηλαδή η υπολογισθείσα συνάρτηση ˆf να έχει καλή ικανότητα γενίκευσης. Συναρτήσεις συμμετοχής υπάρχουν αποθηκευμένες: (1) στα βάρη που συνδέουν τους νευρώνες του στρώματος εισόδου με εκείνους του στρώματος εξόδου και () στους νευρώνες του στρώματος εξόδου. Οι μηχανισμοί ασαφοποίησης /συμπερασμού /από-ασαφοποίησης είναι σταθεροί και γνωστοί από τα ΑΣΣ. Εκείνο το οποίο προσαρμόζεται κατά τη διαδικασία της μάθησης είναι τόσο το σχήμα, όσο και η θέση των συναρτήσεων συμμετοχής που εμπλέκονται στους υπολογισμούς, ώστε να ελαχιστοποιείται μια καλώς ορισμένη συνάρτηση σφάλματος. 1 Μ Στρώμα εξόδου Στρώμα εισόδου 1 Ν Σχήμα 4.1 Νευρο-ασαφές σύστημα το οποίο υλοποιεί ένα ασαφές σύστημα συμπερασμού τύπου Mamdani. Κάθε νευρώνας του στρώματος εξόδου αντιστοιχεί σε έναν ασαφή κανόνα. 4-1

Επεκτάσεις του ΠΝΑΣΣ, ώστε να υλοποιεί ένα ΑΣΣ τύπου Sugeno, υλοποιούνται με την αντικατάσταση των συναρτήσεων συμμετοχής στους νευρώνες του στρώματος εξόδου με αλγεβρικές (π.χ. γραμμικές) εξισώσεις. Σ αυτήν την περίπτωση η προσαρμογή κατά τη διαδικασία της μάθησης επίσης περιλαμβάνει τη βέλτιστη εκτίμηση των παραμέτρων των αλγεβρικών εξισώσεων στους νευρώνες του στρώματος εξόδου. 4. Δίκτυα Ακτινωτής Βάσης Μία αρχιτεκτονική ΤΝΔ μεταγενέστερη των ΤΝΔ με οπισθόδρομη μάθηση είναι η αρχιτεκτονική των δικτύων ακτινωτής βάσης (ΔΑΒ) (radial basis function (RBF) networ). Τα δίκτυα αυτά είναι προσωτροφοδοτούμενα και περιλαμβάνουν ένα στρώμα νευρώνων εισόδου, ένα κρυφό στρώμα και ένα στρώμα εξόδου. Κύριο χαρακτηριστικό των ΔΑΒ είναι η εφαρμογή ακτινωτών συναρτήσεων ενεργοποίησης στους νευρώνες του κρυφού στρώματος, ενώ οι έξοδοι των κρυφών νευρώνων αθροίζονται σταθμισμένα στο στρώμα εξόδου. Η αρχιτεκτονική ενός τυπικού ΔΑΒ απεικονίζεται στο Σχήμα 4.. Σχήμα 4. Ένα τυπικό δίκτυο ακτινωτής βάσης. Σύμφωνα με το παραπάνω ΔΑΒ ένα διάνυσμα εισόδων x x1, x, x3,..., x εφαρμόζεται στο στρώμα εισόδου, ένα σύνολο συναρτήσεων ενεργοποίησης ακτινωτής βάσης F f, f, f,..., f 1 3 K χρησιμοποιείται στους νευρώνες του κρυφού στρώματος και τελικά κάθε νευρώνας εξόδου (γραμμικός νευρώνας) υπολογίζει το σταθμισμένο άθροισμα των εξόδων των κρυφών νευρώνων, υπολογίζοντας μία έξοδο ως εξής: Στην Εξ.(4.1) η συνάρτηση ενεργοποίησης, K i ji j j i j1 y w f x c b (4.1) w ji είναι το βάρος σύνδεσης του j κρυφού νευρώνα με τον i νευρώνα εξόδου, f j είναι c j το διάνυσμα των κέντρων του j κρυφού νευρώνα και b i είναι η σταθερά πόλωσης του i νευρώνα εξόδου. Σημειώστε ότι ως συναρτήσεις ενεργοποίησης συνήθως χρησιμοποιούνται συναρτήσεις με Gaussian βάση της μορφής 4-

f xc xc exp (4.) όπου η παράμετρος ελέγχει το εύρος (spread) της συνάρτησης, ώστε η τιμή της να μειώνεται καθώς το x απομακρύνεται από το c, δηλ. καθώς αυξάνεται το x c. Για τον υπολογισμό της νόρμας (. ) στην Εξ.(4.) συνήθως χρησιμοποιείται η Ευκλείδεια απόσταση, όμως και άλλες αποστάσεις (π.χ. Minowsi, Mahalanobis) είναι δυνατόν να εφαρμοστούν. Συνήθως για την επιλογή του αριθμού των νευρώνων του κρυφού στρώματος, εφαρμόζεται ένας απλός κανόνας σύμφωνα με τον οποίο ο αριθμός των νευρώνων είναι ίσος με τον αριθμό των δεδομένων εκπαίδευσης (Looney, 1997). Αυτός ο κανόνας έχει το μειονέκτημα να δημιουργεί μεγάλα δίκτυα σε προβλήματα με πολλά δεδομένα εκπαίδευσης. Όπως έχει αποδειχθεί, ένα ΔΑΒ αποτελεί καθολικό προσεγγιστή (universal approximator) (Poggio & Girosi, 1990 Par & Sandberg, 1991), δηλ. έχοντας τον κατάλληλο αριθμό κρυφών νευρώνων, ένα ΤΝΔ είναι ικανό να προσεγγίσει οποιαδήποτε συνάρτηση. Η λειτουργία των ΔΑΒ βασίζεται στην αρχή του μετασχηματισμού του προβλήματος από το χώρο των εισόδων στο χώρο των χαρακτηριστικών πολύ μεγαλύτερης διάστασης όπως προτάθηκε από τον Cover (1965): Ένα μη-γραμμικώς διαχωρίσιμο πρόβλημα κατηγοριοποίησης μπορεί να μετασχηματιστεί σε γραμμικώς διαχωρίσιμο σε ένα χώρο αρκετά μεγάλης διάστασης. Σημειώστε ότι ο ίδιος μετασχηματισμός (δηλ. στο χώρο των χαρακτηριστικών πολύ μεγαλύτερης διάστασης) αποτελεί την αρχή λειτουργίας και των μη-γραμμικών Μηχανών Διανυσμάτων Στήριξης. 4..1 Εκπαίδευση Επισημαίνουμε ότι ένα ΔΑΒ αποτελείται από δύο τμήματα που λειτουργούν εντελώς διαφορετικά μεταξύ τους. Επομένως, η εκπαίδευση των κρυφών νευρώνων και των νευρώνων εξόδου θα μπορούσε να γίνει με διαφορετικό τρόπο και σε διαφορετικό χρόνο. Σε ένα ΔΑΒ οι παράμετροι που θα πρέπει να βελτιστοποιηθούν ως προς μία αντικειμενική C c, c,..., c των κρυφών στρωμάτων όπως και τα βάρη συνάρτηση είναι τα διανύσματα κέντρων M 1j, j,..., Kj j1 1 K W w w w των συνδέσεων με το στρώμα εξόδου. Συγκεκριμένα, από τη μια μεριά, τα κέντρα 1 K C c, c,..., c των κρυφών νευρώνων μπορούν να επιλεγούν με τους εξής τρόπους: (1) τυχαία από το σύνολο των δεδομένων εκπαίδευσης, () με την εφαρμογή μίας μεθόδου ομαδοποίησης στα δεδομένα εκπαίδευσης, π.χ. με τον αλγόριθμο κ-μέσων (-means algorithm), ώστε τα κέντρα να τοποθετηθούν σε περιοχές μεγάλης συγκέντρωσης δεδομένων και (3) με την εφαρμογή μίας μεθόδου εκπαίδευσης με εποπτεία, π.χ. με τη μέθοδο κατάβασης βαθμίδας. Από την άλλη μεριά, για την εύρεση των βαρών M 1j, j,..., Kj j1 W w w w έχουν προταθεί διάφοροι αλγόριθμοι εκπαίδευσης (Looney, 1997 Hayin, 1999). Η μέθοδος του ψευδο-αντίστροφου (pseudo-inverse) (Broomhead & Lowe, 1988), αποτελεί μία συνηθισμένη επιλογή για την εύρεση των βαρών. Σύμφωνα με την προαναφερθείσα μέθοδο τα βάρη υπολογίζονται ως εξής: w F t (4.3) όπου t είναι το διάνυσμα των επιθυμητών εξόδων του συνόλου εκπαίδευσης και F είναι ο ψευδο- F που περιγράφει τις χρησιμοποιούμενες συναρτήσεις ενεργοποίησης. Για αντίστροφος του πίνακα f ji τον υπολογισμό του ψευδοαντίστροφου μπορούν να χρησιμοποιηθούν διάφορες μέθοδοι παραγοντοποίησης, π.χ. η μέθοδος της ανάλυσης ίδιων τιμών (singular value decomposition). Τέλος, για την εύρεση των βαρών του στρώματος εξόδου μπορεί εναλλακτικά να εφαρμοστεί ένας συνηθισμένος αλγόριθμος μάθησης με εποπτεία, με χρήση του κανόνα δέλτα όπως και στα δίκτυα οπισθόδρομης εκμάθησης. 4-3

4.3 Μοντέλα κ Πλησιέστερων Γειτόνων Ένα απλό στη χρήση, αλλά με υψηλή απόδοση, μη-γραμμικό μοντέλο υπολογιστικής νοημοσύνης που εφαρμόζεται σε προβλήματα κατηγοριοποίησης και παλινδρόμησης, είναι το λεγόμενο μοντέλο των κ Πλησιέστερων Γειτόνων (κπγ) ( nearest neighbors () model). Το βασικό χαρακτηριστκό της λειτουργίας του κπγ αποτελεί ο υπολογισμός των αποστάσεων μεταξύ του προς επεξεργασία δεδομένου με το σύνολο των δεδομένων εκπαίδευσης. Στη συνέχεια της ανάλυσής μας θα περιοριστούμε στην εφαρμογή του κπγ μοντέλου για αναγνώριση προτύπων. Έστω, ένα σύνολο Ν δεδομένων εκπαίδευσης x,t και t 1, 1 j j j j1, όπου j n x είναι το διάνυσμα εισόδου η ετικέτα της κατηγορίας του j δείγματος. Έστω ότι το σύνολο των δεδομένων περιγράφει ένα πρόβλημα δυο κατηγοριών, οι ετικέτες των οποίων πρέπει να είναι εκ των προτέρων γνωστές. Επομένως το κπγ μοντέλο κατηγοριοποίησης αποτελεί μία μέθοδο μηχανικής μάθησης με επίβλεψη. Όταν ένα νέο δεδομένο x 0 εμφανιστεί στην είσοδο του μοντέλου κπγ για να κατηγοριοποιηθεί, τότε θα πρέπει να υπολογιστούν οι αποστάσεις με τη χρήση μίας προ-επιλεγμένης συνάρτησης απόστασης dist(.,.) του δεδομένου x 0 από κάθε ένα από τα δεδομένα εκπαίδευσης, ως ακολούθως: i 0 i d dist x, x, i 1,,..., (4.4) Το δεδομένο x 0 θα κατηγοριοποιηθεί σε εκείνη την κατηγορία που ανήκουν τα περισσότερα από τα κ δεδομένα με τη μικρότερη απόσταση από το x 0. Ένα παράδειγμα (Wiipedia, 015) δυο κατηγοριών (βλ. κόκκινα τρίγωνα και μπλε τετράγωνα) στο οποίο ένα νέο δεδομένο (βλ. πράσινο κύκλο στο κέντρο) ζητείται να κατηγοριοποιηθεί με το μοντέλο κπγ για κ=3 και κ=5 απεικονίζεται στο Σχήμα 4.3. Συγκεκριμένα, στο παράδειγμα αυτό, το νέο δεδομένο θα κατηγοριοποιηθεί στην κατηγορία των τριγώνων στην περίπτωση που κ=3, διότι από τα τρία πιο κοντινά δεδομένα τα δύο ανήκουν στην κατηγορία των τριγώνων. Αντίθετα, για κ=5 το νέο δεδομένο θα κατηγοριοποιηθεί στην κατηγορία των τετραγώνων. Σχήμα 4.3 Γραφική απεικόνιση της λειτουργίας του κπγ μοντέλου για ένα πρόβλημα δυο κατηγοριών και για τις περιπτώσεις κ=3 (συμπαγής γραμμή) και κ=5 (διακεκκομένη γραμμή). Από το παραπάνω παράδειγμα γίνεται φανερή η εξάρτηση της απόδοσης του κπγ μοντέλου από την επιλογή της παραμέτρου κ. Μία μεγάλη τιμή στην παράμετρο κ έχει ως αποτέλεσμα το μοντέλο κπγ να είναι πιο εύρωστο στο θόρυβο (δεδομένα τα οποία δεν ακολουθούν τη γενική συμπεριφορά της κατηγορίας στην οποία ανήκουν). Επίσης, η απόδοση του κπγ επηρρεάζεται σημαντικά από την ύπαρξη δεδομένων με 4-4

διαφορετική δυναμική περιοχή ή ακόμη και δεδομένων που δεν περιγράφουν με την ίδια ακρίβεια την ίδια κατηγορία. Για το σκοπό αυτό έχουν προταθεί διάφορες μέθοδοι προ-επεξεργασίας των δεδομένων, ώστε δεδομένα τις ίδιας κατηγορίας να κείνται σχετικά κοντά μεταξύ τους. Υπάρχουν πολλές συναρτήσεις για τη μέτρηση της απόστασης των δεδομένων (Paredes & Vidal, 006), με τις ακόλουθες συναρτήσεις να είναι οι πιο δημοφιλείς: n i i x 0, x 0 dist x x (4.5) Euclidean j j i1 n i i CityBloc x0, xj 0 j i1 dist x x (4.6) i i x, xj max j dist x x (4.7) Chebyshev 0 0 i Αξίζει να σημειωθεί ότι η πιθανότητα του σφάλματος κατηγοριοποίησης (heodoridis & Koutroumbas, 003) του κπγ μοντέλου είναι: P P P B B 1 e (4.8) όπου P B είναι το βέλτιστο Bayesian σφάλμα. Το παραπάνω σφάλμα του κπγ μοντέλου είναι μικρότερο από το αντίστοιχο σφάλμα των προσωτροφοδοτούμενων ΤΝΔ, ενώ αυτό το σφάλμα μηδενίζεται καθώς. 4.4 Μηχανές Διανυσμάτων Στήριξης Σε προηγούμενα κεφάλαια μελετήσαμε διάφορες δομές νευρωνικών δικτύων, π.χ. προσωτροφοδοτούμενα νευρωνικά δίκτυα, δίκτυα ακτινωτής βάσης κ.ά., που εφαρμόζονται τόσο σε προβλήματα παλινδρόμησης, όσο και σε προβλήματα αναγνώρισης προτύπων. Και στα δύο αυτά προβλήματα το κύριο ζητούμενο είναι η δημιουργία ενός μοντέλου με υψηλή ικανότητα γενίκευσης. Αυτή η ιδιότητα των μοντέλων είναι πολύ σημαντική, διότι επιτρέπει τον υπολογισμό εξόδων για άγνωστες εισόδους που δεν είχαν παρουσιαστεί κατά τη διαδικασία της εκπαίδευσης. Σε μία προσπάθεια ανάπτυξης ενός νευρωνικού μοντέλου με ικανότητα γενίκευσης και στα δυο προαναφερθέντα προβλήματα προτάθηκαν οι μηχανές διανυσμάτων στήριξης (ΜΔΣ) (support vector machines (SVMs)) από τoν ερευνητική ομάδα του Vapni (Boser κ.ά., 199 Cortes & Vapni, 1995 Vapni, 1995). 4.4.1 Γενικά Η βασική λειτουργία των ΜΔΣ εντοπίζεται στην κατασκευή ενός υπερ-επίπεδου που παίζει το ρόλο επιφάνειας λήψης απόφασης, ώστε το περιθώριο διαχωρισμού των κατηγοριών να μεγιστοποιείται (Hayin, 1999), όπως εξηγείται παρακάτω. Αξίζει να σημειωθεί ότι οι ΜΔΣ αρχικά προτάθηκαν σε προβλήματα δύο κατηγοριών, ενώ με την εφαρμογή κατάλληλων τεχνικών αργότερα επεκτάθηκαν και σε προβλήματα πολλών κατηγοριών. Ένα χαρακτηριστικό των ΜΔΣ που προσδιορίζει τη λειτουργία τους είναι τα λεγόμενα διανύσματα στήριξης (support vectors), τα οποία αποτελούν ένα μικρό υποσύνολο των χρησιμοποιούμενων δεδομένων εκπαίδευσης όπως εξηγείται στη συνέχεια. Για να γίνει καλύτερα κατανοητή η λειτουργία των ΜΔΣ ας θεωρήσουμε το πρόβλημα κατηγοριοποίησης δύο κατηγοριών, όπως περιγράφεται στο επίπεδο στο Σχήμα 4.4(α). Είναι φανερό ότι οι δύο κατηγορίες που σημειώνονται με τις ετικέτες και «ο» είναι γραμμικώς διαχωρίσιμες. Αυτό σημαίνει ότι μία ευθεία γραμμή είναι ικανή να διαχωρίσει τη μία κατηγορία από την άλλη. Ωστόσο, όπως φαίνεται και από το Σχήμα 4.4(α), υπάρχουν πολλές ευθείες (ε 1, ε, ε 3,...) οι οποίες μπορούν να πετύχουν το ίδιο αποτέλεσμα. Οι ΜΔΣ αναζητούν τη μοναδική ευθεία (ε) που διαχωρίζει τις κατηγορίες με τέτοιο τρόπο, ώστε το περιθώριο μεταξύ των κατηγοριών να μεγιστοποιείται, όπως φαίνεται στο Σχήμα 4.4(β). 4-5

(α) (β) Σχήμα 4.4 Πρόβλημα δύο γραμμικώς διαχωρίσιμων κατηγοριών (α) πολλαπλές ενδεχόμενες επιφάνειες απόφασης ε 1, ε, ε 3 κ.λπ. και (β) η βέλτιστη επιφάνεια απόφασης ε. Στη συνέχεια θα αναφερθούμε μόνο στην εφαρμογή των ΜΔΣ σε πρόβλημα κατηγοριοποίησης. Για την επίλυση αυτού του προβλήματος διακρίνουμε τις γραμμικές ΜΔΣ και τις μη-γραμμικές ΜΔΣ (Suyens κ.ά., 00) οι οποίες περιγράφονται στη συνέχεια. 4.4. Γραμμικές ΜΔΣ Η απλούστερη μορφή μίας ΜΔΣ είναι αυτή ενός γραμμικού κατηγοριοποιητή. Έστω, ένα σύνολο Ν δεδομένων εκπαίδευσης n x,t, όπου x 1 είναι το διάνυσμα εισόδου και t 1, 1 η αντίστοιχη ετικέτα της κατηγορίας του δείγματος. Ανάλογα με τη φύση των προς κατηγοριοποίηση δεδομένων διακρίνουμε τις εξής δύο περιπτώσεις: γραμμικώς διαχωρίσιμα ή μη-γραμμικώς διαχωρίσιμα δεδομένα. Α. Γραμμικώς Διαχωρίσιμα Δεδομένα Αποτελεί την πιο απλή περίπτωση κατηγοριοποίησης προτύπων, διότι η επιφάνεια λήψης απόφασης έχει την παρακάτω απλή μορφή: wx b0 (4.9) όπου x είναι το διάνυσμα εισόδου, w και b είναι το διάνυσμα των βαρών και η σταθερά πόλωσης, αντίστοιχα, που θα πρέπει να υπολογιστούν. Επειδή τα δεδομένα είναι γραμμικώς διαχωρίσιμα, ο κατηγοριοποιητής περιγράφεται από τις παρακάτω εξισώσεις: w x w x b 1, t 1 b 1, t 1 (4.10) Οι δύο παραπάνω εξισώσεις μπορούν να περιγραφούν μαζί από την εξίσωση: t wx b 1, 1,, 3,..., (4.11) Όπως έχει ήδη αναφερθεί, ο βασικός στόχος των ΜΔΣ είναι η εύρεση της επιφάνειας λήψης απόφασης μέσω της μεγιστοποίησης του περιθωρίου (το οποίο ισούται με / w ) που χωρίζει τις κατηγορίες. Τα διανύσματα για τα οποία ισχύει η ισότητα στην Εξ.(4.11) αποτελούν τα λεγόμενα διανύσματα 4-6

στήριξης και είναι εκείνα τα διανύσματα που βρίσκονται πιο κοντά στην επιφάνεια λήψης απόφασης και επομένως εκείνα που κατηγοριοποιούνται πιο δύσκολα από το σύνολο των διανυσμάτων εκπαίδευσης. Επομένως, το πρόβλημα της κατηγοριοποίησης ανάγεται σε πρόβλημα βελτιστοποίησης, κατά το οποίο επιδιώκεται η εύρεση της βέλτιστης επιφάνειας b 1 w, η οποία μειώνει το κόστος J w w w, ικανοποιώντας κάποιους περιορισμούς και το οποίο ορίζεται ως εξής: 1 min J w w w, έτσι ώστε w, b t w x b 1, 1,, 3,..., (4.1) Στο παραπάνω πρόβλημα βελτιστοποίησης, το οποίο ονομάζεται πρωταρχικό (primal), η συνάρτηση κόστους είναι κυρτή και οι περιορισμοί είναι γραμμικοί ως προς το w (Suyens κ.ά., 00). Η επίλυση επιτυγχάνεται με τη μέθοδο των πολλαπλασιαστών Lagrange, βάσει της οποίας σχηματίζεται η παρακάτω συνάρτηση Lagrange: 1 Lw, b, w w t w x b 1 (4.13) όπου οι συντελεστές 0, 1,...,, ονομάζονται πολλαπλασιαστές Lagrange. Η λύση του αρχικού προβλήματος βελτιστοποίησης με περιορισμούς ανάγεται σε πρόβλημα L w, b,. Συγκεκριμένα, το σημείο αυτό θα βελτιστοποίησης του σαγματικού σημείου (saddle point) της πρέπει να μεγιστοποιηθεί ως προς το α και να ελαχιστοποιηθεί ως προς το w και το b (Hayin, 1999 Suyens κ.ά., 00), δηλ.: w, b 1 maxmin L w, b, (4.14) Λαμβάνοντας τις παραγώγους της Εξ.(4.13) και θέτοντάς τες ίσες με μηδέν, προκύπτουν οι δύο παρακάτω συνθήκες: L L w, b, 0 w w, b, 0 b (4.15) Από τις δύο συνθήκες της Εξ.(4.15) προκύπτουν οι ακόλουθες χρήσιμες εξισώσεις: w 1 1 t t x 0 (4.16) Αντικαθιστώντας την παραπάνω τιμή του w στην Εξ.(4.13) προκύπτει το δυϊκό πρόβλημα (dual problem) βελτιστοποίησης, το οποίο ορίζεται ως εξής: 1 1 m mxxm 1 1 m1 min Q t t, έτσι ώστε t 0, 0, 1,...,. (4.17) 4-7

Το παραπάνω είναι ένα πρόβλημα τετραγωνικού προγραμματισμού (quadratic programming), το οποίο καταλήγει σε αρκετές μη-μηδενικές λύσεις που είναι τα ζητούμενα διανύσματα στήριξης. Με την εύρεση των βέλτιστων πολλαπλασιαστών Lagrange, το σύνολο βαρών w υπολογίζεται από την Εξ.(4.16), ενώ η αντίστοιχη πόλωση b υπολογίζεται από μία εκ των εξισώσεων (4.10). Β. Μη-γραμμικώς Διαχωρίσιμα Δεδομένα Η γραμμική διαχωρισιμότητα των δεδομένων εγγυάται τη χωρίς λάθη κατηγοριοποίηση των δεδομένων. Ωστόσο, η περίπτωση των γραμμικώς διαχωρίσιμων δεδομένων είναι σπάνια, αφού τα περισσότερα προβλήματα είναι μη-γραμμικώς διαχωρίσιμα λόγω αβεβαιότητας, ανακρίβειας αναπαράστασης και θορύβου. Στην περίπτωση που τα δεδομένα δεν είναι διαχωρίσιμα, υπεισέρχεται κάποιο λάθος στην κατηγοριοποίηση των δεδομένων και σκοπός μας είναι η ελαχιστοποίηση αυτού του λάθους. Για αυτό τον σκοπό εισάγεται ένα νέο σύνολο θετικών αριθμών που ονομάζονται χαλαρές παράμετροι (slac parameters) (Cortes & Vapni, 1995), οι οποίες μετράνε την απόκλιση των δεδομένων από την ορθή κατηγοριοποίηση. Σε αυτή την περίπτωση η επιφάνεια λήψης απόφασης έχει την μορφή: t wx b 1, 1,, 3,..., (4.18) όπου 0 είναι οι χαλαρές παράμετροι, ενώ το αντίστοιχο πρωταρχικό πρόβλημα βελτιστοποίησης της Εξ.(4.1) μετασχηματίζεται ως εξής: 1 min Jw, w w c, έτσι ώστε w, b 1 w x t b 1, 0, 1,, 3,..., (4.19) όπου c είναι μία θετική σταθερά που συνήθως υπολογίζεται πειραματικά. Η αντίστοιχη συνάρτηση Lagrange θα έχει την μορφή: 1,,, L w b w w c t w x b 1 v (4.0) 1 1 1 όπου v 0, 1,...,, είναι ένα δεύτερο σύνολο πολλαπλασιαστών Lagrange, πέραν των. Σε αυτή την περίπτωση το πρόβλημα βελτιστοποίησης περιγράφεται ως ακολούθως:, v w,, b Τέλος, το δυικό πρόβλημα ορίζεται ως εξής: maxmin L w, b,,, v (4.1) 1 1 m mxxm 1 1 m1 min Q t t, έτσι ώστε t 0, 0 c, 1,..., (4.) και είναι ίδιο με αυτό της Εξ.(4.17) με τον επιπλέον περιορισμό c. Το σύνολο των βέλτιστων βαρών w υπολογίζεται από την Εξ.(4.16), ενώ η αντίστοιχη πόλωση b υπολογίζεται για εκείνα τα c οποία ισχύει 0 (Hayin, 1999). για τα 4-8

4.4.3 Μη-γραμμικές ΜΔΣ Μεγάλη ώθηση στην εφαρμογή των ΜΔΣ σε πραγματικά προβλήματα αποτέλεσε η ανάπτυξη των μηγραμμικών ΜΔΣ από τον Vapni (1995). Η βασική αρχή λειτουργίας των μη-γραμμικών ΜΔΣ βασίζεται στο θεώρημα του Cover (1965) περί της διαχωρισιμότητας των κατηγοριών Το θεώρημα του Cover αναφέρει ότι: «Ένα μη-γραμμικώς διαχωρίσιμο πρόβλημα αναγνώρισης προτύπων μπορεί να μετασχηματιστεί σε γραμμικώς διαχωρίσιμο σε ένα χώρο περισσότερων διαστάσεων». Ο μετασχηματισμός από έναν χώρο λίγων διαστάσεων (χώρος εισόδων) σε έναν χώρο πολλών διαστάσεων (χώρος χαρακτηριστικών) μπορεί να επιτευχθεί με την εφαρμογή μίας μη-γραμμικής απεικόνισης x. Σε αυτή την περίπτωση η επιφάνεια λήψης απόφασης ορίζεται ως εξής (Cristianini & Shawe-aylor, 000): m wiix b 0 (4.3) όπου m είναι η διάσταση του συνόλου των μη-γραμμικών μετασχηματισμών i1 x, δηλ. η διάσταση του χώρου των χαρακτηριστικών η οποία τυπικά είναι πολύ μεγαλύτερη από τη διάσταση n του χώρου των εισόδων. Υποθέτοντας ότι 0 x 1, x, w0 b και φx 0 x, 1 x,..., m x, η Εξ.(4.3) μπορεί να γραφτεί με την παρακάτω μορφή: m wiix w φx 0 (4.4) i0 Θεωρώντας ότι με τη χρήση των συναρτήσεων απεικόνισης φx το πρόβλημά μας έχει αναχθεί σε γραμμικό με διαχωρίσιμα δεδομένα στο χώρο των χαρακτηριστικών και εργαζόμενοι με παρόμοιο τρόπο με την περίπτωση Α, θα έχουμε τη λύση της συνάρτησης Lagrange για το σύνολο των βαρών με τη μορφή: w tφx (4.5) 1 Η Εξ.(4.4) με τη βοήθεια της Εξ.(4.5) μετασχηματίζεται ως εξής: t φ x φ x 0 (4.6) 1 Στην Εξ.(4.6) η ποσότητα φ x φ x περιγράφει το εσωτερικό γινόμενο δύο διανυσμάτων στο χώρο των χαρακτηριστικών. Η ποσότητα αυτή ονομάζεται πυρήνας (ernel) (Herbrich, 00 Schölopf & Smola, 00) και συμβολίζεται, K x, x φ x φ x (4.7) Με βάση το θεώρημα του Mercer (1909) ο πυρήνας μπορεί να αναπαρασταθεί ως: m i i i0 K x, x x x, 1,,..., (4.8) που ονομάζεται τρικ του πυρήνα (ernel tric). Επομένως, με τη βοήθεια της Εξ.(4.8) η επιφάνεια λήψης απόφασης θα έχει την μορφή: 4-9

tk x, x 0 (4.9) 1 Το αντίστοιχο δυικό πρόβλημα βελτιστοποίησης τετραγωνικού προγραμματισμού ορίζεται ως εξής: 1 1 min Q t t K,, έτσι ώστε x x m m m 1 1 m1 t 0, 0, 1,...,. (4.30) Με την εύρεση των πολλαπλασιαστών Lagrange από το παραπάνω πρόβλημα βελτιστοποίησης το σύνολο των βέλτιστων βαρών w υπολογίζεται από την εξίσωση, t 1 w x (4.31) όπου το πρώτο βάρος του διανύσματος w αντιστοιχεί στη βέλτιστη πόλωση b. Αξίζει να σημειωθεί ότι σημαντικό ρόλο στην απόδοση των ΜΔΣ παίζει η επιλογή του κατάλληλου πυρήνα. Οι μόνοι περιορισμοί που θα πρέπει να ικανοποιούνται από έναν πυρήνα είναι o περιορισμός που σχετίζεται με το θεώρημα του Mercer (1909) σύμφωνα με το οποίο ο πυρήνας θα πρέπει να είναι συμμετρικός. Συνήθεις πυρήνες που χρησιμοποιούνται στη βιβλιογραφία είναι οι εξής: K x, x xx 1 K x, x exp x x K x, x tanh1x x d (4.3) Ο πρώτος πυρήνας της Εξ.(4.3) είναι πολυωνυμικής μορφής με βαθμό d και μετατόπιση τ, ο δεύτερος είναι μορφής δικτύου ακτινωτής βάσης με τυπική απόκλιση σ και ο τρίτος είναι μορφής perceptron πολλαπλών στρωμάτων. Σημειώστε ότι ενώ οι δύο πρώτοι πυρήνες ικανοποιούν τον περιορισμό του Mercer για όλο το σύνολο των ελεύθερων παραμέτρων (d, τ, σ), δεν ισχύει το ίδιο για τον τρίτο πυρήνα και το σύνολο των παραμέτρων,. 1 4.4.4 Διάσταση VC Μηχανές (βλ. αλγόριθμοι) μάθησης σε κάποιες περιπτώσεις χαρακτηρίζονται από έναν ακέραιο αριθμό, ο οποίος καλείται διάσταση Vapni-Chervonenis (διαvc) (VC dimension (VCdim)). Η διαvc μιας μηχανής συνήθως οριοθετεί, με όρους στατιστικής (Vapni, 1995), την ικανότητα μηχανής για μάθηση όπως εξηγείται παρακάτω. Ορίζουμε τη διαvc μιας μηχανής στη βάση της έννοιας του θρυμματισμού στη συνέχεια. Χρησιμοποιούμε την ορολογία που εν μέρει παρουσιάζεται στην ενότητα 5.1.3. Συγκεκριμένα, έστω X το σύνολο των δεδομένων ενδιαφέροντος. Μία έννοια c πάνω στο Χ ορίζεται ως ένα υποσύνολο του Χ, δηλ. cx. Έστω C το σύνολο όλων των εννοιών τις οποίες δυνητικά μπορεί να μάθει μια συγκεκριμένη μηχανή μάθησης. Εστιάζουμε το ενδιαφέρον μας σε διακριτά υποσύνολα S του Χ. Έστω D X το σύνολο των διακριτών D υποσυνόλων του Χ. Δοθέντος του συνόλου C εννοιών ορίζουμε τη συνάρτηση Π C : D X X με τον τύπο Π C (S)= {cs cc}. Κάθε στοιχείο του συνόλου Π C (S) καλείται διχοτόμηση (dichotomy) του S. Εάν ισχύει η ισότητα Π C (S) = S, τότε λέμε ότι το υποσύνολο S θρυμματίζεται (shattered) από το σύνολο C. Με άλλα λόγια, λέμε ότι το υποσύνολο S θρυμματίζεται από το C, εάν το C μπορεί να υλοποιήσει όλες τις δυνατές διχοτομήσεις του S. 4-10

Η διαvc ορίζεται ως η μεγαλύτερη πληθικότητα (cardinality) ενός συνόλου SX το οποίο μπορεί να θρυμματιστεί από το C. Προκειμένου να δείξουμε ότι η διαvc ενός συνόλου C είναι τουλάχιστον d, αρκεί να παρουσιάσουμε ένα θρυμματισμένο σύνολο πληθικότητας d. Περαιτέρω, προκειμένου να δείξουμε ότι η διαvc ενός συνόλου C είναι το πολύ d, αρκεί να δείξουμε ότι κανένα σύνολο πληθικότητας d1 δεν μπορεί να θρυμματιστεί (Kearns & Vazirani, 1994). Τα ακόλουθα παραδείγματα είναι ενδεικτικά. Παράδειγμα Α Ως σύνολο X δεδομένων θεωρήστε την ευθεία των πραγματικών αριθμών, ενώ ως σύνολο C εννοιών θεωρήστε το σύνολο των (κλειστών) διαστημάτων της μορφής [a,b]. Το σύνολο C μπορεί να θρυμματίσει ένα οποιοδήποτε σύνολο σημείων, αλλά δεν μπορεί ποτέ να θρυμματίσει ένα σύνολο 3 σημείων, διότι δεν μπορεί να πραγματοποιήσει τη διχοτόμηση που φαίνεται στο Σχήμα 4.5. Συνεπώς, η διάσταση VC σ αυτό το πρόβλημα είναι διαvc =. - Σχήμα 4.5 Ένα σύνολο τριών σημείων δεν μπορεί να θρυμματιστεί από το σύνολο C των διαστημάτων διότι η διχοτόμηση του σχήματος δεν μπορεί να πραγματοποιηθεί. Παράδειγμα Β Ως σύνολο X δεδομένων θεωρήστε το σύνολο των σημείων στον Ευκλείδειο χώρο R d, ενώ ως σύνολο C εννοιών θεωρήστε τους γραμμικούς ημιχώρους, οι οποίοι ορίζονται από υπερ-επίπεδα στο χώρο R d. Συγκεκριμένα, για d= (βλ. επίπεδο) ο αντίστοιχος γραμμικός ημιχώρος είναι ένα ημι-επίπεδο, όπως φαίνεται στο Σχήμα 4.6(α). Παρατηρήστε ότι, από τη μια μεριά, υπάρχει τουλάχιστον ένα σύνολο τριών σημείων στο επίπεδο το οποίο μπορεί να θρυμματιστεί χρησιμοποιώντας ημι-επίπεδα, όπως φαίνεται στο Σχήμα 4.6(α). Από την άλλη μεριά, δεν υπάρχει ούτε ένα σύνολο τεσσάρων σημείων στο επίπεδο το οποίο να μπορεί να θρυμματιστεί χρησιμοποιώντας ημι-επίπεδα, όπως φαίνεται στο Σχήμα 4.6 (β) και (γ). Συνεπώς, η διάσταση VC σ αυτό το πρόβλημα είναι διαvc = 3. Το Παράδειγμα Β μπορεί να επεκταθεί σε γενικό χώρο R d, όπου προκύπτει διαvc= d1. Συνεπώς, ένα γραμμικό ΤΝΔ τύπου Perceptron με d εισόδους και 1 έξοδο αποτελεί μια μηχανή μάθησης με VC διάσταση ίση με d1. - - - - (α) (β) (γ) Σχήμα 4.6 (α) Τουλάχιστον ένα σύνολο τριών σημείων στο επίπεδο μπορεί να θρυμματιστεί με τη χρήση του συνόλου C των ημι-επιπέδων. (β) και (γ) Καμιά από τις διχοτομήσεις των τεσσάρων σημείων που φαίνονται δεν μπορεί να πραγματοποιηθεί χρησιμοποιώντας το σύνολο των ημι-επίπεδων. 4-11

Παράδειγμα Γ Ως σύνολο X δεδομένων θεωρήστε το σύνολο των σημείων στο επίπεδο, ενώ ως σύνολο C εννοιών θεωρήστε το σύνολο των ορθογώνιων παραλληλογράμμων. Παρατηρήστε ότι από τη μια μεριά υπάρχει τουλάχιστον ένα σύνολο τεσσάρων σημείων στο επίπεδο το οποίο μπορεί να θρυμματιστεί χρησιμοποιώντας ορθογώνια παραλληλόγραμμα, όπως φαίνεται στο Σχήμα 4.7(α). Από την άλλη μεριά δεν υπάρχει ούτε ένα σύνολο πέντε σημείων στο επίπεδο το οποίο να μπορεί να θρυμματιστεί χρησιμοποιώντας ορθογώνια παραλληλόγραμμα. Συγκεκριμένα, θεωρήστε το ελάχιστο ορθογώνιο παραλληλόγραμμο π το οποίο περιλαμβάνει όλα τα πέντε σημεία στο επίπεδο, όπως φαίνεται στο Σχήμα 4.7 (β). Στη γενική περίπτωση, θα υπάρχει τουλάχιστον ένα σημείο εντός του π στο οποίο τοποθετούμε την ετικέτα πλην (-), ενώ σε όλα τα άλλα τέσσερα σημεία τοποθετούμε την ετικέτα συν (). Η διχοτόμηση που προκύπτει δεν μπορεί να πραγματοποιηθεί. Συνεπώς η VC διάσταση σ αυτήν την περίπτωση είναι διαvc = 4. - - - π (α) (β) Σχήμα 4.7 (α) Τουλάχιστον ένα σύνολο τεσσάρων σημείων στο επίπεδο μπορεί να θρυμματιστεί χρησιμοποιώντας το σύνολο των ορθογώνιων παραλληλογράμμων. (β) Η διχοτόμηση των πέντε σημείων που φαίνονται δεν μπορεί να πραγματοποιηθεί χρησιμοποιώντας το σύνολο των ορθογώνιων παραλληλογράμμων. Η VC διάσταση χρησιμοποιείται στη στατιστική θεωρία μάθησης, διότι υπολογίζει ένα πιθανοτικό άνω όριο στο σφάλμα εξέτασης ενός μοντέλου κατηγοριοποίησης σύμφωνα με την ακόλουθη εξίσωση: h(log( / h) 1) - log( / 4) P ά έ ά ί 1 όπου h είναι η VC διάσταση του μοντέλου κατηγοριοποίησης, 0 η 1 και είναι το μέγεθος του υποσυνόλου εκπαίδευσης (θεωρούμε ότι h << ). 4.5 Σύγχρονες Τάσεις Όταν ένα μοντέλο της κλασικής ΥΝ υλοποιείται σε λογισμικό για εφαρμογή σε ένα συγκεκριμένο πρόβλημα, τότε συχνά γίνονται επεκτάσεις, με αποτέλεσμα να εμφανίζονται νέοι αλγόριθμοι στο πλαίσιο της ΥΝ (Domingos,1996 Jain κ.ά., 1999 Kolodner, 1993 Mitchell, 1997 Mitra κ.ά., 00 Pearl, 000). Συγκεκριμένα, αναφορικά με τα ΤΝΔ, η διάδοσή τους οφείλεται κυρίως στην ικανότητά τους να μαθαίνουν πολύπλοκες, μη-γραμμικές συναρτήσεις. Ωστόσο, ένα σημαντικό πρόβλημα παραμένει η υπολογιστική πολυπλοκότητα των ΤΝΔ, δηλ. ο αριθμός των πράξεων που απαιτούνται για μάθηση, διότι χρησιμοποιούνται αλγόριθμοι κατάβασης βαθμίδας οι οποίοι υπολογιστικά είναι πολύ αργοί και, επιπλέον, συχνά παγιδεύονται σε τοπικά ελάχιστα. Είναι γνωστό ότι ένα ΤΝΔ τριών στρωμάτων με Ν κρυμμένους νευρώνες και σχεδόν οποιαδήποτε συνάρτηση συμμετοχής μπορεί να μάθει ακριβώς Ν δεδομένα εκπαίδευσης. Ωστόσο, σε πολλές εφαρμογές εμφανίζονται πολύ περισσότερα δεδομένα, ακόμα και τεράστια δεδομένα. Το ερώτημα αν μπορεί μια μικρή αρχιτεκτονική ΤΝΔ να μάθει πολλά, ακόμη και τεράστια δεδομένα εκπαίδευσης απαντήθηκε καταφατικά από τις μηχανές ακραίας μάθησης (ΜΑΜ) (extreme learning machines (ELMs)) (Cambria, 013 Huang κ.ά., 006). Η ΜΑΜ είναι ένα προσωτροφοδοτούμενο ΤΝΔ τριών στρωμάτων με Ν νευρώνες στο κρυμμένο στρώμα, τυχαία επιλεγμένα βάρη εισόδου και τυχαίες 4-1

τιμές σταθερών πόλωσης στους νευρώνες του κρυμμένου στρώματος, ενώ τα βάρη στην έξοδο του ΤΝΔ υπολογίζονται με έναν μόνο πολλαπλασιασμό πινάκων. Μια ΜΑΜ μπορεί να μάθει με ακρίβεια Ν δείγματα (Huang, 003), ενώ η ταχύτητα μάθησης μπορεί να είναι ακόμα και χιλιάδες φορές μεγαλύτερη από την ταχύτητα των συμβατικών ΤΝΔ τριών στρωμάτων με οπισθόδρομη μάθηση. Πέρα από τα κλασικά μοντέλα ΥΝ, τα οποία λαμβάνουν ως εισόδους διανύσματα πραγματικών αριθμών, έχουν προταθεί ΤΝΔ με εισόδους διανύσματα μιγαδικών αριθμών (Hirose, 003), με σκοπό να βελτιώσουν την αναπαράσταση των εισόδων τους. Παρά τα οριακά πλεονεκτήματα της αναπαράστασης με μιγαδικούς αριθμούς τα συνηθισμένα μειονεκτήματα των ΤΝΔ, όπως είναι η ερμηνεία των απαντήσεών τους, παραμένουν. Αναφορικά με τα ασαφή συστήματα, έχουν προταθεί πολλές επεκτάσεις της έννοιας ασαφές σύνολο, όπως για παράδειγμα τραχιά σύνολα (rough sets) (Pawla, 1991), διαισθητικά ασαφή σύνολα (Atanassov, 01) κ.ά. με μαθηματικό κυρίως ενδιαφέρον. Ερωτήσεις Κατανόησης και Ασκήσεις 4.1) Θεωρήστε το πρόβλημα της προσέγγισης της συνάρτησης του ημιτόνου με την χρήση ενός ΔΑΒ κατάλληλης δομής. Να μελετήσετε την επίδραση των αποστάσεων Ευκλείδεια, Minosi, Mahalanobis, στην ακρίβεια προσέγγισης του ΔΑΒ. Για τις ανάγκες της παραπάνω υλοποίησης να γίνει χρήση του περιβάλλοντος προγραμματισμού MALAB. 4.) Θεωρήστε τα σημεία δύο κατηγοριών που σημειώνονται με ετικέτες και «ο» στο παρακάτω Σχήμα. Πρώτα να υποδείξετε όλα τα διανύσματα στήριξης και μετά να υπολογίσετε την βέλτιστη επιφάνεια απόφασης (ευθεία). 6 ο 5 ο 4 ο ο 3 1 4 6 8 10 4.3) Ως σύνολο X δεδομένων θεωρήστε το σύνολο των σημείων μιας ευθείας, ενώ ως σύνολο C εννοιών θεωρήστε όλες τις ημι-ευθείες. Υπολογίστε την διάσταση VC σ αυτό το πρόβλημα. 4.4) Βρείτε τον ορισμό του διαισθητικού συνόλου από τη βιβλιογραφία. Σχολιάστε πλεονεκτήματα και μειονεκτήματα του διαισθητικού συνόλου σε σύγκριση με τα συνηθισμένα ασαφή σύνολα. 4.5) Να αναπτυχθεί στο MALAB ο κατάλληλος κώδικας ο οποίος να υλοποιεί το κπγ μοντέλο. Εφαρμόστε τον προκύπτοντα κώδικα για την κατηγοριοποίηση των δεδομένων του Iris dataset. 4.6) Η συζήτηση για τις ΜΔΣ περιορίστηκε σε προβλήματα κατηγοριοποίησης δυο κατηγοριών. Προτείνετε τον τρόπο με τον οποίο οι ΜΔΣ μπορούν να εφαρμοστούν σε προβλήματα κατηγοριοποίησης πολλών κατηγοριών (>). 4.7) Να αναπτυχθεί στο MALAB ο κατάλληλος κώδικας ο οποίος να υλοποιεί τη λειτουργία και την εκπαίδευση μίας ΜΔΣ για την κατηγοριοποίηση διαχωρίσιμων δεδομένων δυο κατηγοριών. 4-13

Βιβλιογραφία Κεφαλαίου Atanassov, Κ.Τ. (01). On Intuitionistic Fuzzy Sets heory. Berlin, Germany: Springer. Boser, B.E., Guyon, I.M. & Vapni, V.. (199). A training algorithm for optimal margin classifiers. In 5th Annual Worshop on Computational Learning heory (COL'9), 144-15. Broomhead, D.S. & Lowe, D. (1988). Multivariable functional interpolation and adaptive networs. Complex Systems,, 31 355. Cambria, E. (013). Extreme learning machines. IEEE Intell. Syst., 8(6), 30-59. Cortes, C. & Vapni, V. (1995). Support-vector networs. Machine Learning, 0, 73-97. Cover,.M. (1965). Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition. IEEE ransactions on Electronic Computers, EC-14, 36-334. Cristianini,. & Shawe-aylor, J. (000). An Introduction to Support Vector Machines and Other Kernelbased Learning Methods. Cambridge, UK: Cambridge University Press. Domingos, P. (1996). Unifying instance-based and rule-based induction. Machine Learning, 4(), 141-168. Hayin, S. (1999). eural etwors - A Comprehensive Foundation. nd Ed., ew Jersey, USA: Prentice- Hall. Herbrich, R. (00). Learning Kernel Classifiers: heory and Algorithms. Cambridge, MA: he MI Press. Hirose A. (Ed.). (003). Complex-Valued eural etwors: heories and Applications (Series on Innovative Intelligence, 5). Singapore: World Scientific. Huang, G.-B. (003). Learning capability and storage capacity of two-hidden-layer feedforward networs. IEEE ransactions on eural etwors, 14(), 74-81. Huang, G.-B., Chen L. & Siew, C.-K. (006). Universal approximation using incremental constructive feedforward networs with random hidden nodes. IEEE ransactions on eural etwors, 17(4), 879-89. Jain, A.K., Murty, M.. & Flynn, P.J. (1999). Data clustering: a review. ACM Computing Surveys, 31(3), 64-33. Jang, J.S.R., Sun, C.. & Mizutani, E. (1997). euro-fuzzy and Soft Computing A Computational Approach to Learning and Machine Intelligence. Upper Saddle River, J: Prentice Hall. Kaburlasos, V.G. & Kehagias, Α. (014). Fuzzy inference system (FIS) extensions based on lattice theory. IEEE ransactions on Fuzzy Systems, (3), 531-546. Kearns, M.J. & Vazirani, U.V. (1994). An Introduction to Computational Learning heory. Cambridge, MA: he MI Press. Kolodner, J. (1993). Case-Based Reasoning. San Mateo, CA: Morgan Kaufmann. Looney, C.G. (1997). Pattern Recognition Using eural etwors. ew Yor, USA: Oxford University Press. Mercer, J. (1909). Functions of positive and negative type and their connection with the theory of integral equations. Philos. rans. Roy. Soc. London A, 09, 415-446. Mitchell,.M. (1997). Machine Learning. ew Yor, Y: McGraw-Hill. Mitra, S. & Hayashi, Y. (000). euro-fuzzy rule generation: survey in soft computing framewor. IEEE ransactions on eural etwors, 11(3), 748-768. Mitra, S., Pal, S.K. & Mitra, P. (00). Data mining in soft computing framewor: A survey. IEEE ransactions on eural etwors, 13(1), 3-14. Paredes, R. & Vidal, E. (006). Learning weighted metrics to minimize nearest-neighbor classification error. IEEE ransactions on Pattern Analysis and Machine Intelligence, 8(7), 1100-1110. Par, J. & Sandberg, I.W. (1991). Universal approximation using radial-basis-function networs. eural Computation, 3, 46-57. Pawla, Z. (1991). Rough Sets: heoretical Aspects of Reasoning About Data. Boston, MA: Kluwer. Pearl, J. (000). Causality. Cambridge, UK: Cambridge University Press. Poggio,. & Girosi, F. (1990). etwors for approximation and learning. Proc. IEEE, 78(9), 1484-1497. Schölopf, B. & Smola, A.J. (00). Learning with Kernels Support Vector Machines, Regularization, Optimization, and Beyond. Cambridge, MA: he MI Press. Suyens, J.A.K., Gestel,.V., De Brabanter, J., De Moor, B. & Vandewalle, J. (00). Least Squares Support Vector Machines. Singapore: World Scientific Publishing. 4-14

heodoridis, S. & Koutroumbas, K. (003). Pattern Recognition ( nd ed.). Amsterdam, he etherlands: Academic Press - Elsevier. Vapni, V. (1995). he ature of Statistical Learning heory. ew Yor, USA: Springer. Wiipedia, (015). -nearest neighbors algorithm. https://en.wiipedia.org/wii/knearest_neighbors_algorithm. 4-15