Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Σχετικά έγγραφα
Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Ασκήσεις μελέτης της 19 ης διάλεξης

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Το μοντέλο Perceptron

Κεφάλαιο 4: Επεκτάσεις της Κλασικής Υπολογιστικής Νοημοσύνης

Υπολογιστική Νοημοσύνη. Μάθημα 6: Μάθηση με Οπισθοδιάδοση Σφάλματος Backpropagation Learning

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2)

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Αναγνώριση Προτύπων Ι

Υπολογιστική Νοημοσύνη. Μάθημα 12: Παραδείγματα Ασκήσεων 2

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

z = c 1 x 1 + c 2 x c n x n

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Αριθμητική Ανάλυση και Εφαρμογές

HY213. ΑΡΙΘΜΗΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΑΧΙΣΤΑ ΤΕΤΡΑΓΩΝΑ AΝΑΛΥΣΗ ΙΔΙΑΖΟΥΣΩΝ ΤΙΜΩΝ

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

Μηχανολογικό Σχέδιο με τη Βοήθεια Υπολογιστή. Γεωμετρικός Πυρήνας Παραμετρική Σχεδίαση

E[ (x- ) ]= trace[(x-x)(x- ) ]

Αναγνώριση Προτύπων Ι

ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Ι

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Ι

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Ι

Αριθμητική Ανάλυση και Εφαρμογές

HMY 795: Αναγνώριση Προτύπων

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Δειγματοληψία στην Ερευνα. Ετος

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Τοπογραφικά Δίκτυα & Υπολογισμοί

3 η ΕΝΟΤΗΤΑ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΝΟΣ ΚΡΙΤΗΡΙΟΥ

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

6. Στατιστικές μέθοδοι εκπαίδευσης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Αριθμητικές Μέθοδοι σε Προγραμματιστικό Περιβάλλον

Εισόδημα Κατανάλωση

Αριθμητική Ανάλυση και Εφαρμογές

Μεθοδολογίες παρεµβολής σε DTM.

Υπολογιστική Νοημοσύνη. Μάθημα 10: Ομαδοποίηση με Ανταγωνιστική Μάθηση - Δίκτυα Kohonen

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

5.1 Δραστηριότητα: Εισαγωγή στο ορισμένο ολοκλήρωμα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Τεχνητή Νοημοσύνη. 19η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Αριθμητική Ανάλυση και Εφαρμογές

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ. Καραγιώργου Σοφία

HMY 795: Αναγνώριση Προτύπων

Αναγνώριση Προτύπων Ι

ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ Ι

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανυσματικοί Χώροι (1) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

(1) L{a 1 x 1 + a 2 x 2 } = a 1 L{x 1 } + a 2 L{x 2 } (2) x(t) = δ(t t ) x(t ) dt x[i] = δ[i i ] x[i ] (3) h[i, i ] x[i ] (4)

Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

Στατιστική περιγραφή τουπεδίουβαρύτητας

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

4.3. Γραµµικοί ταξινοµητές

Γραµµικοί Ταξινοµητές

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

HMY 799 1: Αναγνώριση Συστημάτων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων


Transcript:

Μάθημα 4 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017

Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες Στατιστικές, Πιθανοτήτων, Δυνατοτήτων. Μεθοδολογίες με Γράφους. 2

o Νευρο-Ασαφή Συστήματα. o Δίκτυα Ακτινωτής Βάσης. o Μοντέλα k Πλησιέστερων Γειτόνων. o Μηχανές Διανυσμάτων Στήριξης. o Σύγχρονες Τάσεις.

Η κλασική ΥΝ διευρύνθηκε κατ αρχήν για να ξεπεραστούν κάποια από τα επιμέρους μειονεκτήματα τεχνολογιών της κλασικής ΥΝ. 4

Από τη μια μεριά, τα κλασικά ΤΝΔ μπορούν να μαθαίνουν γρήγορα, αλλά λειτουργούν ως «μαύρα κουτιά» μέσα στα οποία δεν μπορούμε να δούμε ώστε να αιτιολογήσουμε τις απαντήσεις τους. Από τη άλλη μεριά, τα κλασικά ασαφή συστήματα μπορούν μεν να εξηγήσουν ικανοποιητικά τις απαντήσεις τους, αλλά δεν μπορούν να μαθαίνουν. 5

Συνδυασμός τεχνητών νευρωνικών δικτύων και ασαφών συστημάτων ώστε να ξεπεραστούν μειονεκτήματα της κάθε τεχνολογίας αποτελεί η νευρωνική υλοποίηση ενός ασαφούς συστήματος συμπερασμού που συνδυάζει πλεονεκτήματα των δύο. Έτσι προέκυψαν τα νευρο-ασαφή συστήματα (ΝΑΣ) με την πλέον δημοφιλή μορφή ΝΑΣ να είναι τα Προσαρμοστικά Νευρο-Ασαφή Συστήματα Συμπερασμού που αποτελούν μια νευρωνική υλοποίηση ενός ασαφούς συστήματος συμπερασμού. 6

1 M Στρώμα εξόδου Στρώμα εισόδου 1 N 7

Δοθέντος ενός συνόλου ζευγών (x 1,f(x 1 )),,(x n,f(x n )) μιας άγνωστης συνάρτησης f: R N R M, το τυπικό πρόβλημα είναι να υπολογιστεί μια ικανοποιητική προσέγγιση f : R N R M της συνάρτησης f, ώστε για x 0 R N, με x 0 x i, i {1,,n}, το εκτιμώμενο f (x 0 ) να είναι όσο το δυνατόν πιο κοντά στο πραγματικό f(x 0 ), δηλ. η υπολογισθείσα συνάρτηση f να έχει καλή ικανότητα γενίκευσης. 8

Συναρτήσεις συμμετοχής είναι αποθηκευμένες: (1) Στα βάρη που συνδέουν τους νευρώνες εισόδου - εξόδου, και (2) Στους νευρώνες εξόδου. Οι μηχανισμοί ασαφοποίησης /συμπερασμού /απόασαφοποίησης είναι δεδομένοι. Προσαρμόζεται τόσο το σχήμα όσο και η θέση των συναρτήσεων συμμετοχής ώστε να ελαχιστοποιείται μια καλώς ορισμένη συνάρτηση σφάλματος 9

Τα δίκτυα αυτά είναι προσωτροφοδοτούμενα και περιλαμβάνουν ένα στρώμα νευρώνων εισόδου, ένα κρυφό στρώμα και ένα στρώμα εξόδου. Κύριο χαρακτηριστικό των ΔΑΒ είναι η εφαρμογή ακτινωτών συναρτήσεων ενεργοποίησης στους νευρώνες του κρυφού στρώματος, ενώ οι έξοδοι των κρυφών νευρώνων αθροίζονται σταθμισμένα στο στρώμα εξόδου. 10

11

Έξοδος K y w f ( x c ) b i ji j j i j 1 Συναρτήσεις ενεργοποίησης (Gaussian): f x c ( x c ) exp 2 j 2 2 12

Τα ΔΑΒ αποτελούν έναν καθολικό προσεγγιστή. Η λειτουργία των ΔΑΒ βασίζεται στην αρχή του μετασχηματισμού του προβλήματος από τον χώρο των εισόδων στον χώρο των χαρακτηριστικών πολύ μεγαλύτερης διάστασης: Ένα μη-γραμμικώς διαχωρίσιμο πρόβλημα κατηγοριοποίησης μπορεί να μετατραπεί σε γραμμικώς διαχωρίσιμο αν μετασχηματιστεί σε ένα χώρο αρκετά μεγάλης διάστασης. 13

Ένα ΔΑΒ αποτελείται από δύο τμήματα που λειτουργούν εντελώς διαφορετικά μεταξύ τους. Επομένως, η εκπαίδευση των κρυφών νευρώνων και των νευρώνων εξόδου, θα μπορούσε να γίνει με διαφορετικό τρόπο και σε διαφορετικό χρόνο. Βελτιστοποίηση (α) των κέντρων c 1,c 2,,c K των κρυφών νευρώνων, (β) των βαρών {w 1j,w 2j,,w Kj }, j=1,,m των συνδέσεων με το στρώμα εξόδου. 14

Τα κέντρα c 1,c 2,,c K των κρυφών νευρώνων υπάρχουν μπορούν να επιλεγούν ως ακολούθως : να επιλεγούν τυχαία από το σύνολο των δεδομένων εκπαίδευσης, να υπολογιστούν με μια μέθοδο ομαδοποίησης (π.χ. με τον αλγόριθμο κ-μέσων), να υπολογιστούν με εκπαίδευση εποπτείας, π.χ. με την μέθοδο κατάβασης βαθμίδας. 15

Μια συνηθισμένη επιλογή για την εύρεση των βαρών {w 1j,w 2j,,w Kj }, j=1,,m είναι η μέθοδος του ψευδο-αντίστροφου: w = F + t, όπου t είναι το διάνυσμα των επιθυμητών εξόδων του συνόλου εκπαίδευσης και F + είναι ο ψευδοαντίστροφος (μπορεί να υπολογιστεί με την μέθοδο της ανάλυσης ίδιων τιμών) του πίνακα που περιγράφει τις χρησιμοποιούμενες συναρτήσεις ενεργοποίησης. 16

Ένα απλό και συνήθως υψηλής απόδοσης μοντέλο ΥΝ που εφαρμόζεται τόσο σε προβλήματα κατηγοριοποίησης και παλινδρόμησης. 17

Το κπγ υπολογίζει τις αποστάσεις του νέου δεδομένου από τα δεδομένα εκπαίδευσης. Στη συνέχεια θεωρούμε ένα πρόβλημα κατηγοριοποίησης. 18

Υπολογίζονται οι αποστάσεις dist(.,.) ενός δεδομένου x 0 εισόδου από κάθε ένα από τα δεδομένα εκπαίδευσης: d i = dist(x 0, x i ), i= 1,2,,N Το x 0 κατηγοριοποιείται σε εκείνη την κατηγορία που ανήκουν τα περισσότερα από τα κ δεδομένα με την μικρότερη απόσταση από το x 0. 19

Το νέο δεδομένο (βλ. πράσινη τελεία) θα κατηγοριοποιηθεί στην κατηγορία των τριγώνων εάν κ=3, ενώ για κ=5 θα κατηγοριοποιηθεί στην κατηγορία των τετραγώνων. 20

Η απόδοση του κπγ μοντέλου εξαρτάται από την επιλογή της παραμέτρου κ. Μεγάλη τιμή κ έχει σαν αποτέλεσμα ευρωστία στον θόρυβο. Έχουν προταθεί μέθοδοι προ-επεξεργασίας των δεδομένων ώστε δεδομένα τις ίδιας κατηγορίας να βρεθούν σχετικά κοντά μεταξύ τους. 21

Έχουν προταθεί διάφορες συναρτήσεις dist(.,.) για την μέτρηση της απόστασης των δεδομένων με τις ακόλουθες να είναι οι πιο δημοφιλείς: dist Euclidean 0 j 0 i 1 i i 2 j ( x, x ) x x n dist CityBlock n i 0 j 0 i 1 ( x, x ) x x i j dist ( x, x ) max x x Chebyshev i 0 j i 0 i j 22

Αρχικά προτάθηκαν για δύο κατηγορίες. Επιδιώκουν τον υπολογισμό ενός υπερ-επίπεδου, που παίζει τον ρόλο επιφάνειας λήψης απόφασης, ώστε το περιθώριο διαχωρισμού των κατηγοριών να μεγιστοποιείται όπως εξηγείται στη συνέχεια. 23

24

25

Διαχωρίσιμα Δεδομένα Η ευθεία ε* υπολογίζεται έτσι ώστε το περιθώριο διαχωρισμού των κατηγοριών να μεγιστοποιείται. Η ευθεία ε* καθορίζεται από τα λεγόμενα διανύσματα στήριξης τα οποία βρίσκονται πιο κοντά στην ευθεία ε*. 26

Διατύπωση του προβλήματος Ζητούνται το διάνυσμα w και η σταθερά πόλωσης b που επαληθεύουν την εξίσωση w T x+b = 0 ώστε να ελαχιστοποιείται η ακόλουθη συνάρτηση J( w) T w w όπου t k (w T x k +b) +1 με t k {-1,+1}, k {1,,N} και x k R n είναι τα δεδομένα εκπαίδευσης. 1 2 27

Η επίλυση βρίσκεται με την συνάρτηση Lagrange 1 L b a b N T T ( w,, a) w w - k t k( k ) 1 2 w x k 1 όπου οι συντελεστές α k 0, k=1,,n ονομάζονται πολλαπλασιαστές Lagrange. 28

Το πρόβλημα μετασχηματίζεται στο πρόβλημα ελαχιστοποίησης της ακόλουθης συνάρτησης N 1 Q( a) a a a t t N N N T k - m mx xm k 1 2 1 m 1 όπου a t 0 με 0 α k, k=1,,n. k 1 k k Οι μη-μηδενικές λύσεις α k 0, k=1,,n (πολλαπλασιαστές Lagrange) που προκύπτουν είναι τα ζητούμενα διανύσματα στήριξης. 29

Το πρόβλημα μετασχηματίζεται στο πρόβλημα ελαχιστοποίησης της ακόλουθης συνάρτησης N 1 Q( a) a a a t t N N N T k - m mx xm k 1 2 1 m 1 όπου a t 0 με 0 α k c, k=1,,n. k 1 k k Ίδιο πρόβλημα όπως προηγουμένως με τον επιπλέον περιορισμό α k c, όπου η σταθερά c υπολογίζεται πειραματικά. 30

«Ένα μη-γραμμικώς διαχωρίσιμο πρόβλημα αναγνώρισης προτύπων, μπορεί να μετασχηματιστεί σε γραμμικώς διαχωρίσιμο σε ένα χώρο περισσότερων διαστάσεων» (Cover, 1965) 31

Χρησιμοποιείται μια μη-γραμμική συνάρτηση φ: R n R m από τον χώρο εισόδων R n στο χώρο R m των χώρο των χαρακτηριστικών με n << m. Έτσι, αντί της εξίσωσης w T x+b = 0 έχουμε την m i 1 w ( x) b 0 i i 32

Το αντίστοιχο πρόβλημα είναι η ελαχιστοποίηση της ακόλουθης συνάρτησης N N N 1 Q( a) a - a a t t K (x, x ) N k m m m k 1 2 1 m 1 όπου a t 0 με 0 α k, k=1,,n. k 1 k k Η ποσότητα K(x l,x m ) καλείται πυρήνας και η επιλογή του παίζει σημαντικό ρόλο. 33

Μηχανές (βλ. αλγόριθμοι) μάθησης, σε κάποιες περιπτώσεις, χαρακτηρίζονται από έναν ακέραιο αριθμό ο οποίος καλείται διάσταση Vapnik- Chervonenkis ή διαvc για συντομία. Η διαvc μιας μηχανής μπορεί να οριοθετήσει την ικανότητα μιας μηχανής για μάθηση. Ορίζουμε την διαvc στη βάση της έννοιας του θρυμματισμού όπως εξηγείται στη συνέχεια. 34

Έστω X το σύνολο των δεδομένων ενδιαφέροντος. Μία έννοια c πάνω στο Χ ορίζεται ως ένα υποσύνολο του Χ, δηλ. c X. Έστω C το σύνολο όλων των εννοιών τις οποίες δυνητικά μπορεί να μάθει μια συγκεκριμένη μηχανή μάθησης. 35

Το ενδιαφέρον μας εστιάζεται σε διακριτά υποσύνολα S του Χ. Έστω D το σύνολο των διακριτών υποσυνόλων του Χ. Δοθέντος του συνόλου C εννοιών, ορίζουμε την συνάρτηση Π C : D 2 D, με τον ακόλουθο τύπο Π C (S)= {c S c C}. Κάθε στοιχείο του συνόλου Π C (S) καλείται διχοτόμηση του S. Εάν Π C (S) = 2 S τότε λέμε ότι το υποσύνολο S θρυμματίζεται από το σύνολο C. 36

Η διάσταση Vapnik-Chervonenkis (διαvc) ορίζεται ως η μεγαλύτερη πληθικότητα συνόλου S X το οποίο μπορεί να θρυμματιστεί από το C. Τα ακόλουθα παραδείγματα είναι ενδεικτικά. 37

Παράδειγμα Α X είναι η ευθεία των πραγματικών αριθμών, ενώ C είναι το σύνολο των διαστημάτων της μορφής [a,b]. Το C μπορεί να θρυμματίσει οποιοδήποτε σύνολο 2 σημείων, αλλά κανένα σύνολο 3 σημείων διότι δεν μπορεί να πραγματοποιήσει τη διχοτόμηση που φαίνεται στο ακόλουθο Σχήμα. Συνεπώς, διαvc = 2. + - + 38

Παράδειγμα Β X είναι το σύνολο των σημείων στο επίπεδο, ενώ C είναι οι γραμμικοί ημιχώροι (ημι-επίπεδα). Συνεπώς, διαvc = 3. + + + + + - - - - + + (α) (β) (γ) 39

Το Παράδειγμα Β μπορεί να επεκταθεί σε γενικό χώρο R d, όπου προκύπτει διαvc= d+1. Συνεπώς, ένα γραμμικό ΤΝΔ τύπου Perceptron με d εισόδους και 1 έξοδο αποτελεί μια μηχανή μάθησης με VC διάσταση ίση με d+1. 40

Παράδειγμα Γ X είναι το σύνολο των σημείων στο επίπεδο, ενώ C είναι το σύνολο των ορθογώνιων παραλληλογράμμων. Συνεπώς, διαvc = 4. + + + - - + - + (α) + (β) 41

Η VC διάσταση υπολογίζει ένα πιθανοτικό άνω όριο στο σφάλμα εξέτασης ενός μοντέλου κατηγοριοποίησης ως ακολούθως P σφεξέτ σφεκπ + h(log(2 N / h) 1) log( / 4) 1 όπου h είναι η VC διάσταση του μοντέλου κατηγοριοποίησης, 0 η 1, και N το μέγεθος του υποσυνόλου εκπαίδευσης (θεωρούμε ότι h << N). 42

Όταν ένα μοντέλο της κλασικής ΥΝ υλοποιείται σε λογισμικό για εφαρμογή σε ένα συγκεκριμένο πρόβλημα τότε συχνά γίνονται επεκτάσεις με αποτέλεσμα να εμφανίζονται νέοι αλγόριθμοι όπως αλγόριθμοι instance-based, στατιστικοί, case-based reasoning, machine learning, data mining, causality. 43

Ένα σημαντικό πρόβλημα των κλασικών ΤΝΔ είναι η υπολογιστική τους πολυπλοκότητα, δηλ. ο αριθμός των πράξεων για μάθηση, διότι χρησιμοποιούνται αλγόριθμοι κατάβασης βαθμίδας οι οποίοι υπολογιστικά είναι πολύ αργοί και, επιπλέον, συχνά παγιδεύονται σε τοπικά ελάχιστα. 44

Μια Μηχανή Ακραίας Μάθησης (ΜΑΜ) είναι ένα προσωτροφοδοτούμενο ΤΝΔ τριών στρωμάτων με Ν νευρώνες στο κρυμμένο στρώμα, τυχαία επιλεγμένα βάρη εισόδου και τυχαίες τιμές σταθερών πόλωσης στους νευρώνες του κρυμμένου στρώματος, ενώ τα βάρη στην έξοδο υπολογίζονται με έναν πολλαπλασιασμό πινάκων. 45

Μια ΜΑΜ μπορεί να μάθει με ακρίβεια Ν δείγματα, ενώ η ταχύτητα μάθησης μπορεί να είναι ακόμα και χιλιάδες φορές μεγαλύτερη από την ταχύτητα των συμβατικών ΤΝΔ τριών στρωμάτων με οπισθόδρομη μάθηση. 46

Πέρα από τα κλασικά μοντέλα ΥΝ, τα οποία λαμβάνουν ως εισόδους διανύσματα πραγματικών αριθμών έχουν προταθεί ΤΝΔ με εισόδους διανύσματα μιγαδικών αριθμών με σκοπό να βελτιώσουν την αναπαράσταση των εισόδων τους. Παρά τα οριακά πλεονεκτήματα της αναπαράστασης με μιγαδικούς αριθμούς τα συνηθισμένα μειονεκτήματα των ΤΝΔ, όπως είναι η ερμηνεία των απαντήσεών τους, παραμένουν. 47

Αναφορικά με τα ασαφή συστήματα, έχουν προταθεί πολλές επεκτάσεις της έννοιας ασαφές σύνολο όπως τραχιά σύνολα, διαισθητικά ασαφή σύνολα, κ.ά. με μαθηματικό κυρίως ενδιαφέρον. 48

vgkabs@teiemt. gr Τηλ. 6945224802 Γραφείο B122 (Κτήριο βιβλιοθήκης) 49