Επιβλεπόμενη Μηχανική Εκμάθηση ΙI

Σχετικά έγγραφα
Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

HMY 795: Αναγνώριση Προτύπων

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

4.3. Γραµµικοί ταξινοµητές

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Το μοντέλο Perceptron

Επαγωγικές Μηχανές Διανυσμάτων Στήριξης και εφαρμογή σε προβλήματα ταξινόμησης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ

Σημειώσεις διαλέξεων: Βελτιστοποίηση πολυδιάστατων συνεχών συναρτήσεων 1 / 20

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

3 η ΕΝΟΤΗΤΑ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΝΟΣ ΚΡΙΤΗΡΙΟΥ

Ζωντανό Εργαστήριο Thessaloniki Active and Healthy Ageing Living Lab Παρακολούθηση ατόμων στο σπίτι σε πραγματικό χρόνο

HMY 795: Αναγνώριση Προτύπων

Αναγνώριση Προτύπων Ι

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)


Ασκήσεις μελέτης της 19 ης διάλεξης

Διακριτικές Συναρτήσεις

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

HMY 795: Αναγνώριση Προτύπων

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 3ο Φροντιστήριο

HMY 795: Αναγνώριση Προτύπων

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

HMY 799 1: Αναγνώριση Συστημάτων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μελέτη κατηγοριοποίησης δεδομένων με Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines) και υλοποίηση εφαρμογής.

HMY 795: Αναγνώριση Προτύπων

ΧΡΗΣΗ ΤΩΝ ΜΗΧΑΝΩΝ ΔΙΑΝΥΣΜΑΤΩΝ ΥΠΟΣΤΗΡΙΞΗΣ ΣΤΗΝ ΕΚΤΙΜΗΣΗ ΤΙΜΩΝ ΑΚΙΝΗΤΩΝ

Ανάκτηση Πληροφορίας

HMY 795: Αναγνώριση Προτύπων

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 13-14

Other Test Constructions: Likelihood Ratio & Bayes Tests

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων

Εισαγωγικές έννοιες. Κατηγορίες προβλημάτων (σε μια διάσταση) Προβλήματα εύρεσης μεγίστου. Συμβολισμοί

Μοντελοποίηση προβληµάτων

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Πρόβλεψη Αιολικής Ισχύος με χρήση Μηχανών Διανυσμάτων Υποστήριξης και Τεχνητών Νευρωνικών Δικτύων

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Kernel Methods and their Application for Image Understanding

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 5: Εύρεση σημείων ισορροπίας σε παίγνια μηδενικού αθροίσματος. Ε. Μαρκάκης. Επικ. Καθηγητής

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι

ΜΕΘΟΔΟΙ ΑΕΡΟΔΥΝΑΜΙΚΗΣ

Αναγνώριση Προσώπου Με Χρήση Πυρήνων. Παπαχαρίση Μαρίας

Local Approximation with Kernels

z = c 1 x 1 + c 2 x c n x n

21 a 22 a 2n. a m1 a m2 a mn

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - 02/07/08) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Contents. Preface. 4 Support Vector Machines Linearclassification SVMs separablecase... 64

Gaussian Processes Classification Combined with Semi-supervised Kernels

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Περιεχόμενα. 2.1 Εισαγωγή Προγενέστερη έρευνα Ανάπτυξη υποδειγμάτων παραποίησης Πρόλογος... 11

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

3.7 Παραδείγματα Μεθόδου Simplex

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Εκμάθηση διαχωριστικών λεξιλογίων για άθροιση τοπικών χαρακτηριστικών

Γραµµικοί Ταξινοµητές

Multicut and Integer Multicomodity Flow in Trees (chap. 18) Αγγελής Γιώργος

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Partial Differential Equations in Biology The boundary element method. March 26, 2013

Τμηματοποίηση με χρήση τυχαίων πεδίων Markov. Κοινή ιδιότητα σημείων τμήματος Εισαγωγή χωρικής πληροφορίας Εξομάλυνση πεδίου κατατάξεων

Αριστοτελειο Πανεπιστημιο Θεσσαλονικης

Ψηφιακές Τηλεπικοινωνίες. Θεωρία Ρυθμού Παραμόρφωσης

Numerical Analysis FMN011

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Optimization, PSO) DE [1, 2, 3, 4] PSO [5, 6, 7, 8, 9, 10, 11] (P)

Κεφάλαιο 5ο: Ακέραιος προγραμματισμός

Εφαρμογές μεθοδολογιών μηχανικής εκμάθησης στο χώρο της παραγωγής υδρογονανθράκων. Βασίλης Γαγάνης

HMY 795: Αναγνώριση Προτύπων

Διπλωματική Εργασία. Φασματική και Χωρική Ταξινόμηση Υπερφασματικών Απεικονίσεων με Χρήση Τεχνικών Μηχανικής Εκμάθησης

Transcript:

Επιβλεπόμενη Μηχανική Εκμάθηση ΙI Ταξινομητές μεγίστου περιθωρίου, Kernel μέθοδοι και ο SVM Δρ. Δημήτρης Καστανιώτης ΔΜΠΣ Ηλεκτρονική και Επεξεργασία Πληροφορίας 2017 Υπολογιστική Όραση και Μηχανική Εκμάθηση This work is licensed under a Creative Commons Attribution-NonCommercial- NoDerivatives 4.0 International License.

Στόχος του μαθήματος Να παρουσιάσει τους ταξινομητές μέγιστου περιθωρίου Να αναδείξει τις Kernel προσεγγίσεις στο χώρο της μηχανικής Να παρουσιάσει τον ταξινομητή Support Vector Machine (SVM) Εύρεση υπερπαραμέτρων- Επιλογή μοντέλου ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 2

Ανασκόπηση προηγούμενου μαθήματος Είδαμε ταξινομητές που προσεγγίζουν το πρόβλημα προσπαθώντας να εκτιμήσουν τη διαδικασία που παράγει τα δεδομένα. Βασίζονται δε, σε Discriminant functions και αναθέτουν το κάθε δείγμα στην κλάση με την μέγιστη απόκριση Η περιοχή απόφασης μπορεί να είναι οποιαδήποτε περιοχή χωρίζει τα δεδομένα- Αυτό μπορεί να επηρεάσει τη γενίκευση Απεικόνιση σε χώρο μεγαλύτερης διάστασης- εξάρτηση διάστασης επίδοσης ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 3

Στο σημερινό μάθημα Πως μπορούμε να βρούμε την «βέλτιστη» περιοχή απόφασης Πως μπορούμε να εξασφαλίσουμε τη γενίκευση όταν χρησιμοποιούμε απεικονίσεις σε μεγάλο αριθμό διαστάσεων Πως μπορούμε να οδηγηθούμε σε μια διατύπωση που θα μας επιτρέψει να ελαχιστοποιήσουμε το περιθώριο λάθους Απεικόνιση σε χώρο μεγαλύτερης διάστασης(ακόμη και άπειρης) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 4

Ένας απλός ταξινομητής Από τη μεσοκάθετο στον ταξινομητή Bayes και τις kernel τεχνικές Έστω ότι μας δίνονται τα : ( x 1, y 1,, x n, y n ) Υπολογίζουμε το μέσο στοιχείο κάθε κλάσης c + = i y i =+1 x i και c = i y i = 1 x i Ένα δειγμα x ανατίθεται στην κλάση -1 ή +1 σύμφωνα με: y = sgn = x c, w = = x (c + c )/2, c + c = = sgn x, c + x, c + b, όπου b = 1 2 ( c 2 c + 2 ) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 5

Dual Representation Στο παρόν μάθημα θα μας απασχολήσει ιδιαίτερα η χρήση της dual αναπαράστασης Αυτή η αναπαράσταση αναφέρεται στην περίπτωση όπου τα δεδομένα μας εκφράζονται αποκλειστικά και μόνο χρησιμοποιώντας εκφράσεις των ίδιων των χαρακτηριστικών Για παραδειγμα, παρατηρήστε ότι η μεταβλητή w εκφράζεται ως συνδυασμός των χαρακτηριστικών διανυσμάτων και των κέντρων των κλάσεων y = sgn = x c, w = sgn x, c + x, c + b ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 6

Εσωτερικά γινόμενα- Δημιουργία Kernel Είδαμε ότι έχουμε μια έκφραση εσωτερικών γινομένων Η έκφραση αυτή συνδέεται με τη δημιουργία των Kernel Οι Kernels που θα μας απασχολήσουν εδώ προκύπτουν αποκλειστικά χρησιμοποιώντας εσωτερικά γινόμενα μεταξύ διανυσμάτων y = sgn = x c, w = sgn x, c + x, c + b ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 7

Kernels 8

Kernels Εκφράζουν ομοιότητες (συγκρίσεις) μεταξύ των χαρακτηριστικών Έστω X = {x 1, x 2, x 3 } τρία διανύσματα στον R 2 x 1 = [0.1 0.2], x 2 = [1.2 0.8] and x 3 = [ 0.2 0.3] k: X X R 0.0500 0.2800 0.0400 0.2800 2.0800 0.0000 0.0400 0.0000 0.1300 Συνεπώς εάν σχεδιάσουμε αλγορίθμους που εργάζονται στον χώρο αυτό μπορούμε να εργαστούμε με δεδομένα οποιουδήποτε τύπου (κείμενο, διανύσματα, πίνακες, Γράφους κ.α.) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 9

Kernels Δημιουργούνται υπολογίζοντας το εσωτερικό γινόμενο μιας συνάρτησης (γραμμικής ή μη) των χαρακτηριστικών του αρχικού χώρου. Απεικονίζει τα διανύσματα στον R Ορίζουμε λοιπόν μια συνάρτηση ως Kernel: k: X X R k x i, x j = φ(x i ), φ(x j ) Ως μια απεικόνιση στο Hilbert Space F k φ(x i ), φ(x j ) = d k=1 φ(x i,k ), φ(x j,k ) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 10

Kernels Δημιουργούνται υπολογίζοντας το εσωτερικό γινόμενο μιας συνάρτησης (γραμμικής ή μη) των χαρακτηριστικών του αρχικού χώρου. Η συνάρτηση αυτή λέγεται kernel συνάρτηση. Μας επιτρέπουν να εκφράσουμε τα δεδομένα ως εσωτερικά γινόμενα Η απεικόνιση των δεδομένων σε πολύ μεγάλη διάσταση με την χρήση των Kernels δεν αυξάνει την υπολογιστική πολυπλοκότητα Μπορούμε να διατυπώσουμε αλγορίθμους στο χώρο των Kernel Gram Matrices, Symmetric Positive Definite, Hilbert Spaces ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 11

Kernels- Mercers Theorem Gram Matrix: Πίνακας συμμετρικός, θετικά ημιορισμένος (θετικές ιδιοτιμές) - Προκύπτει από τα εσωτερικά γινόμενα διανυσμάτων x i, y i - Mercer Theorem: - Έστω k: R d R d R μια συνάρτηση απεικόνισης - Για να είναι αποδεκτός Kernel είναι απαραίτητο και αρκεί ο Kernel που προκύπτει να είναι Symmetric and Positive Semidefinite x T Kx 0 για καθε μη μηδενικό x R d ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 12

Kernel Trick Στο προηγούμενο μάθημα είδαμε ότι μπορούμε να απεικονίσουμε τα δεδομένα μας σε ένα χώρο μεγαλύτερης διάστασης Σε αυτό το χώρο τα δεδομένα μας είναι γραμμικά διαχωρίσιμα Το Kernel Trick μας επιτρέπει να αποφύγουμε την απεικόνιση σε ένα χώρο μεγαλύτερης διάστασης καθώς τα δεδομένα ανεξάρτητα αυτής αναπαρίστανται ως εσωτερικά γινόμενα ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 13

Kernel Functions Τι είναι οι Kernels; Ποιες συναρτήσεις μπορούμε να χρησιμοποιήσουμε; Οι πιο δημοφιλείς είναι: - Radial Basis Function - Polynomial - Sigmoid ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 14

Kernel Functions- Radial Basis Functions K RBF x, x j = exp γ x x j 2 2 exp x x j = exp x 2 exp x 2 j exp 2xx j = = exp x 2 exp x 2 2 k (x k )(x k j ) j k! k=0 Polynomial Kernel of infinite degree exp x = k=0 1 k! xk ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 15

Kernel Functions- Polynomial Επιβεβαιώστε το Έστω: x, y R 2 K P x, x j R K P x, x j = x, y 2 = = x 1 y 1 + x 2 y 2 2 = = x 1 2 y 1 2 + 2x 1 y 1 x 2 y 2 + x 2 2 y 2 2 = = (x 1 2, 2x 1 x 2, x 2 2 ), (y 1 2, 2y 1 y 2, y 2 2 ) = = φ x 1, φ(x 2 ) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 16

Kernel Trick- αξιοποίηση της συνάρτησης απεικόνισης ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 17

Kernel Trick- Διαχωρισμός κλάσεων LAB #2 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 18

Δημιουργία νέων Kernel ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 19

Representer Theorem Η Ελαχιστοποίηση στο Hilbert χώρο ισοδυναμεί με ελαχιστοποίηση στον R n Έστω ότι έχουμε την kernel συνάρτηση k: X X R Ο ταξινομητής SVM επιλύει ένα πρόβλημα βελτιστοποίησης της μορφής: n f = arg min 1 L(y n i, f(x i )) + λ f 2 Fk, λ 0 ι=1 Στο πρόβλημα αυτό η f μπορεί να διατυπωθεί ως: n f x = α i K(x, x i ) ι=1 Tikhonov Regularization- Impose stability ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 20

Dual Representation Γιατί είναι τόσο χρήσιμη η dual αναπαράσταση; Ειδικά για την περίπτωση των Kernel τεχνικών είναι εξαιρετικής σημασίας Αυτό διότι όπως θα δούμε, με το φορμαλισμό των Kernel, μπορούμε να αναπαραστήσουμε το σύνολο των δειγμάτων ως εσωτερικά γινόμενα Τα οφέλη από αυτό το φορμαλισμό είναι πολλά και θα προσπαθήσουμε να τα παρουσιάσουμε στην παρούσα διάλεξη ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 21

Kernel Ridge Regression 22

Dual Representation Ας δούμε λίγο ένα γνωστό σε εμάς πρόβλημα από την προηγούμενη άσκηση (linear regression, polynomial basis expansion) Σε αυτό το πρόβλημα θα χρησιμοποιήσουμε την Dual αναπαράσταση Θα γνωρίσουμε μια τεχνική που ονομάζεται Kernel Ridge Regression ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 23

Dual Representation LAB #1 Ridge Regression Kernel Ridge Regression n Primal w = argmin w i=1 Y i X i Τ W 2 + λ W 2 y est = x Τ w = x Τ λι N + XΧ Τ 1 Χ Τ y Dual Reconstruction error w = λι d + Χ Τ X 1 Χ Τ y Penalty Term a = XΧ Τ + λι N 1 y = XΧ Τ + λι N 1 y n y est = x Τ w y est = x Τ Χ Τ a = a i x, x i i=1 Dual Εκφράζουμε την έξοδο ως συνάρτηση των δειγμάτων ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 24

Dual Representation LAB # 1 Ridge Regression Kernel Ridge Regression w = argmin w n i=1 Διάσταση ίση με την διάσταση των χαρακτηριστικών Y i X i Τ W 2 + λ W 2 Reconstruction error w = λι d + Χ Τ X 1 Χ Τ y y est = x Τ w Penalty Term Primal y est = x Τ w = x Τ λι N + XΧ Τ 1 Χ Τ y Dual Εκφράζουμε την έξοδο ως συνάρτηση των δειγμάτων a = XΧ Τ + λι 1 y = XΧ Τ + λι N 1 y y est = x Τ Χ Τ a = i=1 Διάσταση ίση με τον ΔΜΠΣ "Ηλεκτρονική και αριθμό Επεξεργασία των της δειγμάτων. Πληροφορίας" 25 n a i x, x i

Dual Representation Γενικά: y = w, x + b = n i=1 a i y i x i, x + b Διάσταση ίση με τη διάσταση των διανυσμάτων Άθροισμα γινομένων ίσο με τον αριθμό των δειγμάτων w, x + b = w 0 x 0 + w 1 x 1 + + w d x d Στο σημερινό μάθημα ΔΕΝ θα ενσωματώσουμε το bias term στην έκφραση (w 0 x 0 ), καθώς θα χρειαστεί να κανονικοποιήσουμε το διάνυσμα w ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 26

Kernel Ridge Regression Revisited LAB # 1 K = Χ Τ X Linear Kernel (Inner Product) Kernel Ridge Regression with RBF RBF Kernel K RBF = exp( γd) y est = x Τ w = x Τ λι + Χ Τ X 1 Χ Τ y y est = x Τ w = x Τ λι + K RBF 1 Χ Τ y a = K + λι 1 y = K + λι 1 y a = K + λι 1 y = K RBF + λι 1 y n n y est = a i x, x i y est = a i K RBF (x, x i ) i=1 i=1 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 27

Kernel Ridge Regression Revisited LAB # 1 Kernel Ridge Regression with RBF ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 28

Ταξινομητές μεγίστου περιθωρίου Στοιχεία Statistical Learning Theory 29

Δυαδικός Γραμμικός Ταξινομητής Έστω w R d g w x = w t x = b + w 1 x 1 + + w d x d = w 0 x 0 + w 1 x 1 + + w d x d Όπου x 0 = 1και κατά συνέπεια: w R d+1 Απόφαση: Απόφαση: f g w x = 1 if g x 0 1if g x < 0 y f g w x > 0 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 30

Perceptron Η έξοδος (ανάθεση ενός δείγματος x) δίνεται από την παρακάτω έκφραση y = sing( d i=1 w i x i ) -Online Learning rule -Stochastic gradient descent -Works only for linearly separable cases XOR Problem We need multilayer linear nets ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 31

Δυαδικός Γραμμικός Ταξινομητής Η περιοχή απόφασης μπορεί να είναι οποιαδήποτε ευθεία χωρίζει τα δεδομένα μας ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 32

Δυαδικός Γραμμικός Ταξινομητής x 2 - Ταξινομητές μεγίστου περιθωρίου - Η περιοχή απόφασης έχει τη μέγιστη παρέχει μια ζώνη ασφαλείας μεταξύ των δύο κλάσεων - Το μέγιστο περιθώριο έχει πολλά Πλεονεκτήματα και αποτελεί την καρδιά του SVM ταξινομητή w T x + b = 1 w T x + b = 0 w T x + b = 1 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 33 x 1

Η έννοια του μεγίστου περιθωρίου Η γενίκευση του μοντέλο εξαρτάται από: α. Το πλήθος των δειγμάτων β. Τον αριθμό των ευθείων που μπορούν να διχοτομήσουν τα δεδομένα μας Η εισαγωγή του περιθωρίου κατά μια έννοια περιορίζει τη δυνατότητα τα δεδομένα μας να διχοτομηθούν Ας κρατήσουμε την προηγούμενη φράση και ας δούμε κάποια ενδιαφέροντα στοιχεία ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 34

Model Capacity and VC dimension Statistical Learning theory Περιορισμός του συνόλου των συναρτήσεων ώστε η χωρητικότητα να ταιριάζει με το πλήθος των διαθέσιμων δειγμάτων εκπαίδευσης Η θεωρία των Vapnik-Chevronenkins παρέχει όρια στο σφάλμα δοκιμής Η ελαχιστοποίηση αυτών των ορίων εξαρτάται από το εμπειρικό σφάλμα και την χωρητικότητα του μοντέλου οδηγεί στην αρχή του Structural Risk Minimization (SRM) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 35

Model Capacity and VC dimension VC διάσταση Αφορά την πολυπλοκότητα του μοντέλου/ την ευελιξία του. Για ένα γραμμικό μοντέλο η διάσταση αυτή μπορεί να οριστεί ως η διάσταση των χαρακτηριστικών +1 Διαισθητικά παρατηρώντας το παρακάτω γράφημα Τρία μπορούν να διαχωριστούν Τέσσερα σημεία δεν μπορούν να διαχωριστούν ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 36

Model Capacity and VC dimension O SVM αποτελεί μια ιδιαίτερη περίπτωση Εξαναγκάζοντας το περιθώριο να είναι μέγιστο οδηγούμαστε σε περιορισμό της VC διάστασης γ γ ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 37

Model Capacity and VC dimension O SVM αποτελεί μια ιδιαίτερη περίπτωση Εξαναγκάζοντας το περιθώριο να είναι μέγιστο οδηγούμαστε σε περιορισμό της VC διάστασης h=vc dimension (the maximum number of points that can be separated in all possible ways by the selected set of functions Test Error Training Error + Complexity of set of Models ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 38

Support Vector Machines 39

Support Vector Machines LAB 2 Μόνο μερικά δείγματα Χρησιμοποιούνται ως support vectors Η περιοχή απόφασης ορίζεται από αυτά τα δείγματα Γραμμικά διαχωρίσιμη περίπτωση ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 40

Support Vector Machines- Margins x 2 Ο SVM υπολογίζει την ευθεία για την οποία μεγιστοποιείται το περιθώριο μεταξύ των δύο κατηγοριών ( γραμμικά διαχωρίσιμα δεδομένα) Τώρα θα δείξουμε πως προκύπτουν αυτές οι ευθείες, γιατί τα σημεία εκατέρωθεν της περιοχής απόφασης που βρίσκονται πάνω στις δύο ευθείες (πορτοκαλί ευθείες) w T x + b = 1 w T x + b = 1 w T x + b = 0 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 41 x 1

Functional Margin Ταξινόμηση σε μια κατηγορία -1,1 σύμφωνα με y = 1, όταν: w T x i + b 0 y = 1, όταν w T x i + b < 0 Επιθυμούμε να έχουμε τιμές w T x i + b 0 για τα θετικά και w T x i + b 1 για τα αρνητικά δείγματα αντίστοιχα Functional Margin: γ = min γ i, i = 1,, n γ i = y i (w T x i + b) Πολλαπλασιάζοντας το w με μια τιμή δεν αλλάζει η απόφαση ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 42

Functional Margin Πολλαπλασιάζοντας το w με μια τιμή δεν αλλάζει η απόφαση Functional Margin: γ = min γ i, i = 1,, n, όπου: γ i = y i (w T x i + b) Εισαγωγή περιορισμού: w =1 ή κανονικοποίηση με w. Ποια είναι η απόσταση ενός σημείου x i από την περιοχή απόφασης; w x i γ i (1) w ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 43

Geometric Margin Πολλαπλασιάζοντας το w με μια τιμή δεν αλλάζει η απόφαση Η απόσταση του σημείου είναι η ευθεία προς την περιοχή απόφασης Δίνεται από την προβολή του σημείου πάνω στην περιοχή απόφασης x i γ i w w (1) decision boundary x i w γ i Geometric Margin Εφόσον το σημείο αυτό βρίσκεται στην περιοχή απόφασης ισχύει: w T x i + b = 0 (2) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 44

Geometric Margin w x i γ i (1) w Εφόσον το σημείο αυτό βρίσκεται στην περιοχή απόφασης ισχύει: w T x i + b = 0 (2) Από τις (1) και (2) οδηγούμαστε στο: w T w x i γ i + b = 0 w Λύνοντας ως προς γ i λαμβάνουμε για το σημείο: γ i = ( w T xi + b ) w w ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 45

Geometric Margin Λύνοντας ως προς γ i λαμβάνουμε για το σημείο: γ i = ( w T xi + b ) w w Με μια μικρή τροποποίηση λαμβάνουμε μια έκφραση που περιγράφει τόσο τα θετικά όσο και τα αρνητικά δείγματα: γ i = y i ( w w T x i + b w ) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 46

Geometric Margin Ως Geometric margin έχουμε λοιπόν: γ Αρά καταλήγουμε ότι: = min γ i, i = 1,, n, όπου:γ i = y i ( w w γ = w Και στην περίπτωση που w =1, γ = γ γ T xi + b w ) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 47

Support Vector Machines- Margins Θέλουμε να μεγιστοποιήσουμε το περιθώριο (γ -margin) w.r.t max γ γ,w,b Non Convex- non convenient format s. t. y i (w T x i + b) γ, i = 1,, n w =1 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 48

Support Vector Machines- Margins Θέλουμε να μεγιστοποιήσουμε το περιθώριο (γ -margin) w.r.t max γ γ,w,b Non Convex- non convenient format max γ,w,b γ w Non Convex s. t. y i (w T x i + b) γ, i = 1,, n w =1 s. t. y i (w T x i + b) γ, i = 1,, n γ = γ w ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 49

Support Vector Machines- Margins Θέλουμε να μεγιστοποιήσουμε το περιθώριο (γ -margin) w.r.t max γ γ,w,b Non Convex- non convenient format max γ,w,b γ w Non Convex s. t. y i (w T x i + b) γ, i = 1,, n w =1 Convex We set γ=1 min γ,w,b s. t. w 2 s. t. y i (w T x i + b) γ, i = 1,, n 2 y i (w T x i + b) 1, i = 1,, n ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 50

Support Vector Machines- Margins Θέλουμε να μεγιστοποιήσουμε το περιθώριο (γ -margin) w.r.t x 2 min γ,w,b s. t. w 2 2 y i (w T x i + b) 1, i = 1,, n w T x + b = 1 w T x + b = 0 w T x + b = 1 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 51 x 1

Support Vector Machines Δύο βασικοί φορμαλισμοί: Primal Dual Δύο εκδόσεις του προβλήματος βελτιστοποίησης- διαφορετικές συναρτήσεις κόστους. Η μια θεωρεί πως τα δεδομένα είναι γραμμικά διαχωρίσιμα Hard margin Η άλλη θεωρεί πως τα δεδομένα ΔΕΝ είναι γραμμικά διαχωρίσιμα Soft Margin ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 52

Support Vector Machines- Hard Margin Linear Separable Data min w w 2 s. t. y i (w T x i + b) 1, i = 1,, n 2 Διατυπώνουμε το πρόβλημα με δύο τρόπους χρησιμοποιώντας πολλαπλασιαστές Langrage ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 53

Support Vector Machines- Hard Margin Primal Form f x min w 2 + w R d = w T x + b y i w T x i + b 1 y i w T x i + b - 1 0 n i=1 a i [y i w T x i + b 1] Dual Form f x = n n i=1 a i y i x i T x + b min a i + 1 a a 2 i a j y i y j (x T i x j ) i=1 i,j s. t. i n a i y i = 0 and a i 0 n Karush-Kuhn-Tucker (KKT) Conditions ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 54

Support Vector Machines- Hard Margin Linear Separable Data min w w 2 s. t. y i (w T x i + b) 1, i = 1,, n 2 Τι συμβαίνει στην περίπτωση όπου τα δεδομένα μας δεν είναι γραμμικά διαχωρίσιμα; ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 55

Support Vector Machines- Soft Margin Non-Linear Separable Data min w w 2 n 2 +C i=1 ξ ι s. t. ξ ι 0 and If y i (w T x i + b) 1 then ξ ι =0 y i (w T x i + b) 1 ξ ι, i = 1,, n Κλασσικός φορμαλισμός του SVM If y i (w T x i + b) < 1 then ξ ι = (1 y i (w T x i + b)) max (0,1 y i (w T x i + b))) Hinge Loss ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 56

Support Vector Machines- Soft Margin Hinge: Δεν αρκεί μόνο θετική απόφαση- μόνο πάνω από 1 δεν έχουμε καθόλου κόστος. Διαφορετικά έχουμε γραμμικό penalty ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 57

Support Vector Machines- Optimization Primal Form Dual Form n f x = w T φ(x) + b f x = i=1 a i y i k(x k, x l ) + b n n n min w R d w 2 + C Regularization i=1 max(0,1 y i (f(x i )) Empirical Risk Minimization min a a i + 1 a 2 k a l y k y l (k(x k, x l )) i=1 k,l s. t. i n a i y i = 0 and 0 a i C ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 58

Support Vector Machines- Optimization Primal Form Dual Form n n min w R d w 2 + C n i=1 max(0,1 y i (f(x i )) min a a i + 1 a 2 k a l y k y l (k(x k, x l )) i=1 k,l s. t. i n a i y i = 0 and 0 a i C Regularization Empirical Risk Minimization Representer Theorem n f = arg min 1 n ι=1 L(y i, f(x i )) + λ f Fk 2, λ 0 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 59

Support Vector Machines LAB #2 Οι κλάσεις εμφανίζουν επικάλυψη- μη διαχωρίσιμα δεδομένα Η περιοχή απόφασης μετακινείται ανάλογα με τη σημασία που δίνουμε στα δείγματα που ταξινομήθηκαν λάθος ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 60

Support Vector Machines στην πράξη Δυαδικός ταξινομητής (binary classifier) Υπάρχουν επεκτάσεις βασισμένες στη Hinge Loss για multiclass Στο μάθημα αυτό και συγκεκριμένα στο εργαστήριο θα δούμε την προσέγγιση one-vs-all classifiers Για κάθε κλάση εκπαιδεύουμε ένα ταξινομητή ο οποίος μας διαχωρίζει την κλάση αυτή από τις υπόλοιπες Ωστόσο μπορεί ένα δείγμα να ταξινομείται σε περισσότερες από μια κατηγορίες Αναθέτουμε το δείγμα στην κατηγορία εκείνη για την οποία έχουμε τη μέγιστή ανάθεση ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 61

Support Vector Machines στην πράξη #Homework One-vs-all ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 62

Εκτίμηση παραμέτρων 63

Εύρεση υπερπαραμέτρων LAB #3 Προσδιορισμός της τιμής C: Τα δεδομένα μας είναι σπάνια γραμμικά διαχωρίσιμα. Συνήθως οι κατανομές επικαλύπτονται. Η τιμή αυτή ρυθμίζει το πόσο αυστηροί θέλουμε να είμαστε με τα λάθος ταξινομημένα δείγματα ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 64

Εύρεση παραμέτρων LAB K-Fold validation+ Grid Search Διαδικασία grid search Παίρνουμε διαφορες τιμές της π.χ. 0,01, 0,1 1 10 50 10 150 Ακολουθούμε τη διαδικασία 10-fold validation (train-dev set) Επιλέγουμε την τιμή του C για την οποία λάβαμε το μκρότερο σφάλμα ταξινόμησης. Στη συνέχεια, δοκιμάζουμε τον ταξινομητή στο σύνολο δοκιμής (testset) Με την ίδια λογική αναζητούμε και την τιμή των παραμέτρων της συνάρτησης Kernel ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 65

Διαδικασία k-fold validation LAB K-Fold validation+ Grid Search Χωρίζουμε τα δεδομένα μας σε Κ μέρη. Σε κάθε μια από τις Κ επαναλήψεις χρησιμοποιούμε τα Κ-1 σύνολα ως δεδομένα εκπαίδευσης και το σύνολο που μένει ως δεδομένα development. Εδώ δίνεται ένα παράδειγμα για Κ=10 Dev Error 1 Dev Error 2 Error = 1 10 i=1 10 Dev Error i Dev Error 9 Dev Error 10 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 66

Διαδικασία Holdout Ειδική περίπτωση του K-fold. Χωρίζουμε τα δεδομένα μας σε 2 μέρη. Χρησιμοποιούμε το ένα από τα δύο κάθε φορά για εκπαίδευση και το άλλο για δοκιμή (train and dev set) Χρησιμοποιούμε την μέση τιμή των δύο δοκιμών. Error = 1 2 2 i=1 Dev Error i Dev Error 1 Dev Error 2 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 67

Διαδικασία Cross Validation και Σύνολο αναφοράς Πάντα κραταμε ένα σύνολο δεδομένων εκτός από τη διαδικασία crossvalidation. Αυτό το σύνολο ονομάζεται test-set. Για μικρές βάσεις (μερικές εκατοντάδες ή χιλιάδες εικόνες) χωρίζουμε τα δεδομένα μας σε 80% training+development και 20% test Όταν τα δεδομένα μας είναι πάρα πολλά δεν χρειάζεται να έχουμε μεγάλο ποσοστό development set. Για παράδειγμα για 1.000.000 εικόνες αρκεί να έχουμε 10,000 εικόνες για development set. Σημαντικό: Δεν χρησιμοποιούμε ποτέ το development set για αναφορά. Πάντα κραταμε ένα σύνολο το οποίο χρησιμοποιούμε για να ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 68

Χαρακτηρισμός μοντέλου Γενικά θα συναντήσετε τις παρακάτω κλασικές περιπτώσεις: Υψηλό test error, χαμηλό train Overfit Υψηλό test error, υψηλό train Underfit Χαμηλό test error, χαμηλό train Μάλλον εντάξει Τι ορίζουμε ως χαμηλό train error; Ο ρόλος της εκτίμησης του ανθρώπινου σφάλματος ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 69

Χαρακτηρισμός μοντέλου Υψηλό test error, χαμηλό train Overfit Αυτό σημαίνει ότι θέλουμε πιο απλό μοντέλο; ΌΧΙ απαραίτητα. Μπορεί τα δείγματα Δοκιμής (test-set) να μην είναι Αντιπροσωπευτικά. Πιθανή λύση- δημιουργία dev-test set. Λήψη νέων δεδομένων. ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 70

Advanced topics in Kernel Methods Multiple Kernel Learning Kernel Methods in Sparse Representation Kernel Methods in Riemannian Manifolds Convolutional Kernel Networks ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 71

Multiple Kernel Learning Σύνθεση πιο πολύπλοκων συναρτήσεων Πληροφορία από περισσότερα από ένα συστήματα- Σύνθεση πληροφορίας- Επιλογή χαρακτηριστικών Αξιοποίηση του φορμαλισμού εκπαίδευσης τους SVM για την δημιουργία συνδυασμού ταξινομητών (χαρακτηριστικών) Μια εναλλακτική προσέγγιση των Ensemble Methods F. R. Bach, G. R. G. Lanckriet, and M. I. Jordan. Multiple kernel learning, conic duality, and the SMO algorithm. In Proceedings of the International Conference on Machine Learning (ICML), 2004a ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 72

Kernel Methods in Sparse Representation Sparse Representation problem arg min D,a Da X 2, s. t. a 0 < t L 0 convex Relaxation arg min D,a Da X 2 + λ a 1 L 1 convex Relaxation arg min φ(d)a φ(x) 2 Non-Linear + λ a 1 problem D,a Map data into RKHS arg min D,a K X, X 2aT K X, D + a T K D, D a 2 + λ a 1 M. Harandi, C. Sanderson, R. Hartley and B. Lovell, Sparse Coding and Dictionary Learning for Symmetric Positive Definite Matrices: A Kernel Approach European Conference on Computer Vision (ECCV), Firenze, 2012. ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 73

Kernel Methods in Riemannian Manifolds Επέκταση των Kernel τεχνικών ώστε να δημιουργούνται πίνακες από συναρτήσεις που ενσωματώνουν μετρικές ικανές να περιγράψουν Ρημάνειες επιφάνειες (Δείγματα που δεν βρίσκονται στον Ευκλείδειο χώρο) Έστω ότι οι δύο Sym d + πίνακες S 1 και S 2 αποτελούν δείγματα σε Riemannian manifold D LE x, y = log S 1 log S 2 2 Κ RBF_LE = exp( γd LE x, y ) S. Jayasumana, R. Hartley, M. Salzmann, H. Li and M. Harandi, "Kernel Methods on Riemannian Manifolds with Gaussian RBF Kernels," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, no. 12, pp. 2464-2477, Dec. 1 2015. doi: 10.1109/TPAMI.2015.2414422 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 74

Convolutional Kernel Networks Βελτίωση των συνελικτικών δικτύων επιτρέποντας στα επιπεδα αυτά να είναι ανεξάρτητα κάποιων μετασχηματισμών Αυτό επιτυγχάνεται μαθαίνοντας την απεικόνιση σε ένα Reproducing Kernel Μπορεί να απλοποιήσει σημαντικά, πολύπλοκα δίκτυα Julien Mairal, Piotr Koniusz, Zaid Harchaoui, and Cordelia Schmid. 2014. Convolutional kernel networks. In Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2 (NIPS'14), Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger (Eds.), Vol. 2. MIT Press, Cambridge, MA, USA, 2627-2635. ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" 75

Ανασκόπηση Παρουσιάσαμε ένα νέο τρόπο αναπαράστασης των χαρακτηριστικών διανυσμάτων ως γινόμενα Η αναπαράσταση αυτή μας οδήγησε στη δημιουργία των Kernel Δείξαμε πως αυτή η αναπαράσταση μπορεί να ενσωματώσει με αποδοτικό τρόπο μη γραμμικές συναρτήσεις που απεικονίζουν τα δεδομένα μας σε μια μεγάλη (ακόμη και άπειρη) διάσταση Παρουσιάσαμε τους ταξινομητές μεγίστου περιθωρίου και τον ταξινομητή SVM με έμφαση στις ιδιότητες του Διατυπώσαμε το πρόβλημα βελτιστοποίησης σε δύο μορφές για την περίπτωση όπου τα δεδομένα είναι διαχωρίσιμα ή μη. Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας 76

Άσκηση- Παραδοτέο Παραδοτέο- Κατεβάστε το αρχείο της Άσκησης 2 από εδώ: http://www.upcv.upatras.gr/personal/kastaniotis/mlcourse/index.ht ml Ακολουθήστε τις οδηγίες για να ολοκληρώσετε την άσκηση Αποστολή στο dkastaniotis at[@] upatras dot[.] gr Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας 77

Επιπλέον Υλικό Το υλικό της διάλεξης θα το βρείτε εδώ: http://www.upcv.upatras/personal/kastaniotis/mlcourse/index.html Παραπομπές: 1. Learning with Kernels, Support Vector Machines, Regularization, Optimization, and Beyond, Bernhard Schölkopf and Alexander J. Smola 2. Statistical Learning Theory, Vladimir N. Vapnik, ISBN: 978-0-471-03003-4 3. Kernel Methods for Pattern Analysis, John Shawe-Taylor, Nello Cristianini, Cambridge University Press New York, NY, USA 2004, ISBN:0521813972 4. A Tutorial on Support Vector Machines for Pattern Recognition, Chris J.C. Burges, Data Mining and Knowledge Discovery, pages: 121-167, vol: 2 5. https://see.stanford.edu/materials/aimlcs229/cs229-notes3.pdf Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας 78