Αναγνώριση Προτύπων. Σημερινό Μάθημα



Σχετικά έγγραφα
Ο όρος εισήχθηκε το 1961 από τον Bellman Αναφέρεται στο πρόβλημα της ανάλυσης δεδομένων πολλών μεταβλητών καθώς αυξάνει η διάσταση.

Αναγνώριση Προτύπων. Σημερινό Μάθημα

Αναγνώριση Προτύπων. Σήμερα! Λόγος Πιθανοφάνειας Πιθανότητα Λάθους Κόστος Ρίσκο Bayes Ελάχιστη πιθανότητα λάθους για πολλές κλάσεις

Αναγνώριση Προτύπων. Σημερινό Μάθημα

Αναγνώριση Προτύπων. Σημερινό Μάθημα

Ψηφιακή Εικόνα. Σημερινό μάθημα!

Αναγνώριση Προτύπων 1

{ i f i == 0 and p > 0

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ ΜΑΘΗΜΑ: ΟΙΚΟΝΟΜΙΚΗ ΘΕΩΡΙΑ

Αναγνώριση Προτύπων. Σημερινό Μάθημα

Επίλυση ειδικών μορφών ΣΔΕ

Εισαγωγικά. 1.1 Η σ-αλγεβρα ως πληροφορία

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Γ ΤΑΞΗ

Ταξινόμηση των μοντέλων διασποράς ατμοσφαιρικών ρύπων βασισμένη σε μαθηματικά κριτήρια.

ΜΙΚΡΟΟΙΚΟΝΟΜΙΚΗ Η ΚΑΤΑΝΑΛΩΤΙΚΗ ΑΠΟΦΑΣΗ. Άσκηση με θέμα τη μεγιστοποίηση της χρησιμότητας του καταναλωτή

Ας υποθέσουμε ότι ο παίκτης Ι διαλέγει πρώτος την τυχαιοποιημένη στρατηγική (x 1, x 2 ), x 1, x2 0,

ΜΑΘΗΜΑ: ΟΙΚΟΝΟΜΙΚΗ ΘΕΩΡΙΑ

Ο Ισχυρός Νόμος των Μεγάλων Αριθμών

«ΔΙΑΚΡΙΤΑ ΜΑΘΗΜΑΤΙΚΑ»

Βελτίωση Εικόνας. Σήμερα!

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Εαρινό Εξάμηνο

ΤΑΞΙΝΟΜΗΣΗ ΟΡΓΑΝΙΣΜΩΝ

Εξαναγκασμένες ταλαντώσεις, Ιδιοτιμές με πολλαπλότητα, Εκθετικά πινάκων. 9 Απριλίου 2013, Βόλος

5.1 Μετρήσιμες συναρτήσεις

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Εαρινό Εξάμηνο

όπου ω j η κλάση j και x το διάνυσμα χαρακτηριστικών Ένας τυπικός κανόνας απόφασης είναι να επιλέγουμε την κλάση με τη μέγιστη P[ω j x]

Αποδεικτικές Διαδικασίες και Μαθηματική Επαγωγή.

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΑΡΧΕΣ ΟΙΚΟΝΟΜΙΚΗΣ ΘΕΩΡΙΑΣ ΜΑΘΗΜΑ ΕΠΙΛΟΓΗΣ Γ ΛΥΚΕΙΟΥ

Γραμμική Ανεξαρτησία. Τμήμα Μηχανικών Η/Υ Τηλεπικοινωνιών και ικτύων Πανεπιστήμιο Θεσσαλίας. 17 Μαρτίου 2013, Βόλος

17 Μαρτίου 2013, Βόλος

Προτεινόμενα θέματα στο μάθημα. Αρχές Οικονομικής Θεωρίας ΟΜΑΔΑ Α. Στις προτάσεις από Α.1. μέχρι και Α10 να γράψετε στο τετράδιό σας τον αριθμό της

ιάσταση του Krull Α.Π.Θ. Θεσσαλονίκη Χ. Χαραλαμπους (ΑΠΘ) ιάσταση του Krull Ιανουάριος, / 27

Εφαρμογές στην κίνηση Brown

HY 280. θεμελιακές έννοιες της επιστήμης του υπολογισμού ΑΣΚΗΣΕΙΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ. Γεώργιος Φρ.

21/11/2005 Διακριτά Μαθηματικά. Γραφήματα ΒΑΣΙΚΗ ΟΡΟΛΟΓΙΑ : ΜΟΝΟΠΑΤΙΑ ΚΑΙ ΚΥΚΛΟΙ Δ Ι. Γεώργιος Βούρος Πανεπιστήμιο Αιγαίου

Εστω X σύνολο και A μια σ-άλγεβρα στο X. Ονομάζουμε το ζεύγος (X, A) μετρήσιμο χώρο.

Αναγνώριση Προτύπων. Σημερινό Μάθημα

Συναρτήσεις. Σημερινό μάθημα

Αναγνώριση Προτύπων. Σήμερα! Περιεχόμενο μαθήματος Διαδικαστικά Απαλλακτικές Εργασίες Εισαγωγή στο αντικείμενο του μαθήματος

Ανεξαρτησία Ανεξαρτησία για οικογένειες συνόλων και τυχαίες μεταβλητές

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

1. Εστω ότι A, B, C είναι γενικοί 2 2 πίνακες, δηλαδή, a 21 a, και ανάλογα για τους B, C. Υπολογίστε τους πίνακες (A B) C και A (B C) και

Ανεξαρτησία Ανεξαρτησία για οικογένειες συνόλων και τυχαίες μεταβλητές

602. Συναρτησιακή Ανάλυση. Υποδείξεις για τις Ασκήσεις

Η ανισότητα α β α±β α + β με α, β C και η χρήση της στην εύρεση ακροτάτων.

Σχέσεις και ιδιότητές τους

Παντού σε αυτό το κεφάλαιο, αν δεν αναφέρεται κάτι διαφορετικό, δουλεύουμε σε ένα χώρο πιθανότητας (Ω, F, P) και η G F είναι μια σ-άλγεβρα.

Αναγνώριση Προτύπων. Σημερινό Μάθημα

Ανεξαρτησία Ανεξαρτησία για οικογένειες συνόλων και τυχαίες μεταβλητές

ΣΤΑΤΙΣΤΙΚΗ ΠΟΣΟΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΣΧΟΛΙΚΟ ΕΤΟΣ ΕΥΘΥΓΡΑΜΜΗ ΟΜΑΛΗ ΚΙΝΗΣΗ ΤΡΙΩΡΗ ΓΡΑΠΤΗ ΕΞΕΤΑΣΗ ΣΤΗ ΦΥΣΙΚΗ A ΛΥΚΕΙΟΥ. Ονοματεπώνυμο Τμήμα

Το κράτος είναι φτιαγμένο για τον άνθρωπο και όχι ο άνθρωπος για το κράτος. A. Einstein Πηγή:

Εκφωνήσεις και Λύσεις των Θεμάτων

ΜΑΘΗΜΑ: ΠΟΛΙΤΙΚΗ ΟΙΚΟΝΟΜΙΑ-ΔΗΜΟΣΙΑ ΟΙΚΟΝΟΜΙΚΗ

Επίλυση δικτύων διανομής

Αλγόριθμοι & Βελτιστοποίηση

Το υπόδειγμα IS-LM: Εισαγωγικά

Δ Ι Α Κ Ρ Ι Τ Α Μ Α Θ Η Μ Α Τ Ι Κ Α. 1η σειρά ασκήσεων

Pointers. Σημερινό Μάθημα! Χρήση pointer Τελεστής * Τελεστής & Γενικοί δείκτες Ανάκληση Δέσμευση μνήμης new / delete Pointer σε αντικείμενο 2

Επιλογή Χαρακτηριστικών Feature selection Αντικειμενική συνάρτηση Φίλτρα Wrappers Διαδικασία Αναζήτησης Σειριακοί αλγόριθμοι Εκθετικοί αλγόριθμοι

ΣΤΟ ΦΑΡΜΑΚΕΙΟ. Με την πιστοποίηση του έχει πρόσβαση στο περιβάλλον του φαρμακείου που παρέχει η εφαρμογή.

ΣΥΝΟΛΑ (προσέξτε τα κοινά χαρακτηριστικά των παρακάτω προτάσεων) Οι άνθρωποι που σπουδάζουν ΤΠ&ΕΣ και βρίσκονται στην αίθουσα

Παραβολή ψ=αχ 2 +βχ+γ, α 0. Η παραβολή ψ = αχ 2. Γενικά : Κάθε συνάρτηση της μορφής ψ=αχ 2 + βχ +γ, α 0 λέγεται τετραγωνική συνάρτηση.

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ ΜΑΘΗΜΑ: ΕΡΩΤΗΣΕΙΣ ΟΙΚΟΝΟΜΙΚΗΣ ΘΕΩΡΙΑΣ

Οι γέφυρες του ποταμού... Pregel (Konigsberg)

Κεφάλαιο 1. Πίνακες και απαλοιφή Gauss

ΑΣΕΠ 2000 ΑΣΕΠ 2000 Εμπορική Τράπεζα 1983 Υπουργείο Κοιν. Υπηρ. 1983

(3 ο ) Εξαντλητική αναζήτηση I: μεταθέσεις & υποσύνολα (4 o ) Εξαντλητική αναζήτηση II: συνδυασμοί, διατάξεις & διαμερίσεις

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Εαρινό Εξάμηνο

Εξέταση Ηλεκτρομαγνητισμού Ι 2 Φεβρουαρίου 2018

Ανελίξεις σε συνεχή χρόνο

1. Ας υποθέσουμε ότι η εισοδηματική ελαστικότητα ζήτησης για όσπρια είναι ίση με το μηδέν. Αυτό σημαίνει ότι:

Αντικειμενοστραφής. Προγραμματισμού

Μονάδες α. Να γράψετε στο τετράδιό σας τον παρακάτω πίνακα σωστά συµπληρωµένο.

έγγραφο σε κάθε διάσταση αντιστοιχούν στο πλήθος εμφανίσεων της λέξης (που αντιστοιχεί στη συγκεκριμένη διάσταση) εντός του εγγράφου.

2. Κατάθεσε κάποιος στην Εθνική Τράπεζα 4800 με επιτόκιο 3%. Μετά από πόσο χρόνο θα πάρει τόκο 60 ; α) 90 ημέρες β) 1,5 έτη γ) 5 μήνες δ) 24 μήνες

Η εξίσωση Black-Scholes

Ανάπτυξη και υλοποίηση νέων τεχνικών. αναγνώρισης πραγματικού χρόνου ιδακτορική ιατριβή

Τρίτη, 05 Ιουνίου 2001 ΤΕΧΝΟΛΟΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ Γ ΛΥΚΕΙΟΥ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

Κεφάλαιο 68 Σχεδιασμός κλινικών μελετών και διαχείριση δεδομένων έρευνας

Εργαστηριακή Άσκηση Θερμομόρφωση (Thermoforming)

ΘΕΜΑ: Διαφορές εσωτερικού εξωτερικού δανεισμού. Η διαχρονική κατανομή του βάρους από το δημόσιο δανεισμό.

Εισαγωγικές Διαλέξεις στην Θεωρία των Αλυσίδων Markov και των Στοχαστικών Ανελίξεων. Οικονομικό Πανεπιστήμιο Αθηνών

1. Ο εγγυημένος ρυθμός οικονομικής ανάπτυξης στο υπόδειγμα Harrod Domar εξαρτάται

Martingales. 3.1 Ορισμός και παραδείγματα

Ο τύπος του Itô. f (s) ds (12.1) f (g(s)) dg(s). (12.2) t f (B s ) db s + 1 2

Φροντιστήριο 2: Ανάλυση Αλγόριθμου. Νικόλας Νικολάου ΕΠΛ432: Κατανεμημένοι Αλγόριθμοι 1 / 10

Ελεγχος Στατιστικών Υποθέσεων με τη χρήση του στατιστικού προγραμμάτος SPSS v. 20

Στοχαστικές διαφορικές εξισώσεις

Επιχειρησιακή Ερευνα Ι

14 Φεβρουαρίου 2014, Βόλος

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ

Κεφάλαιο Η εκθετική κατανομή. Η πυκνότητα πιθανότητας της εκθετικής κατανομής δίδεται από την σχέση (1.1) f(x) = 0 αν x < 0.

Συντάκτης: Παναγιώτης Βεργούρος, Οικονομολόγος Συγγραφέας βιβλίων, Μικρο μακροοικονομίας διαγωνισμών ΑΣΕΠ

ΕΚΠΑ, ΠΡΟΓΡΑΜΜΑ ΝΑΥΤΙΛΟΣ

«Διεργασίες μεταφοράς και διασποράς της αέριας ρύπανσης

ΕΦΑΡΜΟΓΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΚΗΣ ΕΝΤΡΟΠΙΑΣ ΣΤΗΝ ΠΥΡΗΝΙΚΗ ΦΥΣΙΚΗ ΚΑΙ ΤΗ ΣΚΕ ΑΣΗ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ

Κατασκευή της κίνησης Brown και απλές ιδιότητες

Συναρτήσεις & Κλάσεις

1. Σε περίπτωση κατά την οποία η τιμή ενός αγαθού μειωθεί κατά 2% και η ζητούμενη

Transcript:

Αναγνώριση Προτύπων Σημερινό Μάθημα Η κατάρα της διαστατικότητας Μείωση διαστάσεων εξαγωγή χαρακτηριστικών επιλογή χαρακτηριστικών Αναπαράσταση έναντι Κατηγοριοποίησης Ανάλυση Κυρίων Συνιστωσών PCA Γραμμική Διαχωριστική Ανάλυση LDA 1

Η κατάρα της διαστατικότητας Ο όρος εισήχθηκε το 1961 από τον Bellman Αναφέρεται στο πρόβλημα της ανάλυσης δεδομένων πολλών μεταβλητών καθώς αυξάνει η διάσταση. Η κατάρα της διαστατικότητας παράδειγμα (1D) Θεωρήστε ένα πρόβλημα αναγνώρισης προτύπων 3 κλάσεων Μια απλή προσέγγιση: Χωρίζουμε το χώρο σε τρεις περιοχές Υπολογίζουμε το ποσοστό των παραδειγμάτων για κάθε περιοχή Για κάθε νέο παράδειγμα βρίσκουμε την περιοχή του και εξετάζουμε ποια κλάση υπερτερεί στην περιοχή. Έστω για μια διάσταση: 2

Η κατάρα της διαστατικότητας παράδειγμα (2D) Αποφασίζουμε ότι χρειαζόμαστε δύο χαρακτηριστικά (features) ανά διάνυσμα (feature vector) Αποφασίζουμε επίσης να κρατήσουμε τον ίδιο βαθμό διάκρισης ανά άξονα Αυτό σημαίνει από 3 περιοχές στο 1D 3 2 =9 (in 2D) Και εδώ τίθεται το ερώτημα: Διατηρούμε ίδια πυκνότητα δειγμάτων ανά περιοχή; (αύξηση δειγμάτων) ) Διατηρούμε σταθερό τον αριθμό των δειγμάτων; (μείωση πληροφορίας) Η κατάρα της διαστατικότητας παράδειγμα (2D) Σταθερή πυκνότητα Σταθερά δείγματα 3

Η κατάρα της διαστατικότητας παράδειγμα (3D) Αν περάσουμε σε 3 διάστατα χαρακτηριστικά,, το πρόβλημα χειροτερεύει Το πλήθος των περιοχών γίνονται 3 3 =27 Για σταθερή πυκνότητα το πλήθος των δειγμάτων γίνονται 81 Για σταθερά δείγματα υπάρχουν περιοχές με μηδαμινή πληροφορία Η κατάρα της διαστατικότητας συμπεράσματα Προφανώς η προσέγγιση να χωρίσουμε το χώρο σε ίσες περιοχές ήταν ανεπαρκής μέθοδος Υπάρχουν μέθοδοι λιγότερο ευαίσθητες στην κατάρα της διαστικότητας Πως αντιμετωπίζεται η κατάρα της διαστατικότητας: Ενσωματώνοντας προηγούμενη γνώση Συμβιβαζόμενοι ββ στην ακρίβεια Μειώνοντας τις διαστάσεις 4

Η κατάρα της διαστατικότητας συμπεράσμα Στην πραγματικότητα η κατάρα της διαστατικότητας σημαίνει ότι για δεδομένο δ αριθμό δειγμάτων, υπάρχει μια μέγιστη διάσταση των χαρακτηριστικών διανυσμάτων πάνω από την οποία η απόδοση του ταξινομητή μας θα μειώνεται Η κατάρα της διαστατικότητας Επιπτώσεις Εκθετική αύξηση στον αριθμό των δειγμάτων που απαιτούνται για να διατηρηθεί η πυκνότητα των δειγμάτων (Ν D ) Εκθετική αύξηση της πολυπλοκότητας της συνάρτησης προς υπολογισμό με αυξημένη διαστατικότητα Ενώ για μία διάσταση υπάρχουν πολλές διαθέσιμες συναρτήσεις, για συναρτήσεις πυκνότητας μεγάλων διαστάσεων μόνο η Gauss πολλών μεταβλητών είναι διαθέσιμη Ο άνθρωπος δυσκολεύεται να καταλάβει προβλήματα με περισσότερες από 3 διαστάσεις. 5

Μείωση διαστάσεων Ορίζουμε ως εξαγωγή χαρακτηριστικών (feature extraction) τη δημιουργία ενός υποσυνόλου χαρακτηριστικών από συνδυασμό των υπαρχουσών Μείωση διαστάσεων Ορίζουμε ως επιλογή χαρακτηριστικών (feature selection) τη διαδικασία επιλογής τω χαρακτηριστικών με την περισσότερη πληροφορία. 6

Μείωση διαστάσεων Για την εξαγωγή χαρακτηριστικών, δεδομένου δειγματοχώρου με x N i R αναζητούμε αντιστοιχία y=f(x):r N R M με M<N Τέτοια ώστε το μετασχηματισμένο διάνυσμα να διατηρεί το μεγαλύτερο μέρος της πληροφορίας Η βέλτιστη μετατροπή δεν θα αυξάνει την πιθανότητα σφάλματος. Μείωση διαστάσεων Γενικά η ιδανική αντιστοιχία y=f(x) είναι μη γραμμική συνάρτηση η Δεν υπάρχει όμως συστηματική μέθοδος μη γραμμικών μετασχηματισμών Για αυτό η εξαγωγή χαρακτηριστικών περιορίζεται σε γραμμικούς μετασχηματισμούς y=wx 7

Αναπαράσταση έναντι Κατηγοριοποίησης Η επιλογή της αντιστοιχίας κατά την εξαγωγή χαρακτηριστικών καθοδηγείται από μία αντικειμενική συνάρτηση Ανάλογα με τα κριτήρια που χρησιμοποιούνται για την αντικειμενική συνάρτηση διακρίνουμε δυο κατηγορίες εξαγωγής χαρακτηριστικών Αναπαράστασης σήματος: Σκοπός είναι η καλύτερη αναπαράσταση των δειγμάτων με ακρίβεια στη μικρότερη δυνατή διάσταση Κατηγοριοποίηση: σκοπός είναι να ενισχυθεί η διακρισιμότητα μεταξύ κλάσεων στη μικρότερη δυνατή διάσταση Αναπαράσταση έναντι Κατηγοριοποίησης Στα πλαίσια της εξαγωγής διανυσμάτων, χρησιμοποιούνται οι τεχνικές: Ανάλυση Κυρίων Συνιστωσών (Principal Components Analysis PCA) κατάλληλη για αναπαράσταση Γραμμική Διαχωριστική Ανάλυση (Linear Discriminant Analysis LDA) κατάλληλη για κατηγοριοποίηση 8

Ανάλυση Κυρίων Συνιστωσών PCA Σκοπός της PCA είναι η μείωση διαστάσεων διατηρώντας τη στατιστική διακύμανση των δειγμάτων Θεωρήστε το Ν διάστατο διάνυσμα x όπως αναπαρίσταται στην ορθοκανονική βάση διανυσμάτων [ϕ 1 ϕ 2... ϕ N ]: N 0 i j x φ ϕiϕ j = = y i i i= 1 1 i = j Ας υποθέσουμε ότι αναπαριστούμε το x με μόνο Μ (Μ<Ν) από τα διανύσματα βάσης, αντικαθιστώντας τις υπόλοιπες συνιστώσες με προ επιλεγμένες σταθερές M N xˆ ( M ) = i= 1 y i ϕ + bϕ i i i= M + 1 i Ανάλυση Κυρίων Συνιστωσών PCA Η ιδανική προσέγγιση ενός τυχαίου διανύσματος x R Ν από γραμμικό συνδυασμό Μ (Μ<Ν) ανεξάρτητων διανυσμάτων πετυχαίνετε με την προβολή του διανύσματος x στα ιδιοδιανύσματα που αντιστοιχούν στις μεγαλύτερες ιδιοτιμές λ i του πίνακα συνδιασποράς Σ x 9

Στατιστικός Χαρακτηρισμός Τυχαίων διανυσμάτων Μέσο διάνυσμα: Covariance matrix πίνακας συνδιασποράς Covariance Matric Πίνακας Συνδιασποράς Ο πίνακας συνδιασποράς δείχνει την τάση των ζευγαριών των διαφόρων στοιχείων του διανύσματος να συν μεταβάλλονται Σημαντικές ιδιότητες του πίνακα είναι: Αν τα x i και x k τείνουν να αυξάνουν μαζί, τότε c ik >0 Αν το x i τείνει να μειώνει όταν το x k αυξάνει, τότε c ik <0 Αν τα x i και x k δεν συσχετίζονται, τότε c ik =0 c ik σ i σ k c ii = σ i2 = VAR(x i ) 10

Ανάλυση Κυρίων Συνιστωσών PCA Συνεπώς, κάνω ανάλυση ιδιοτιμών του Σ T x = Ε{xx } Σ x φ i = λ i φ i Τα φ 1,..., φ M αντιστοιχούν σε λ 1 >... > λ M Θέτοντας U= [φ 1,...,φ Μ ] y = U Τ x Ανάλυση Κυρίων Συνιστωσών PCA Ο κύριος άξονας: έχει την μεγαλύτερη στατιστική διασπορά περιέχει την περισσότερη πληροφορία για το σήμα έχει το μικρότερο σφάλμα 11

Ανάλυση Κυρίων Συνιστωσών PCA Τα κύρια ιδιοδιανύσματα είναι ορθογώνια Οι κύριες συνιστώσες (ΚΣ) είναι ασυσχέτιστες Η διασπορά της i ΚΣ είναι λ i PCA Παράδειγμα Έστω η τρισδιάστατη κατανομή Gauss με παραμέτρους Τα τρία ζευγάρια των κυρίων συνιστωσών είναι: 12

PCA Παράδειγμα Γραμμική Διαχωριστική Ανάλυση LDA Ronald A. Fisher, 1936: ΟΟ μηχανισμός επεξεργασίας που οικοδομήθηκε σε εφαρμογές απείρων δεδομένων, δεν είναι αρκετά ακριβής για απλά εργαστηριακά δεδομένα. Μόνο με συστηματική επιλογή προβλημάτων με λίγα δείγματα, ανάλογα με τα ιδιαίτερα χαρακτηριστικά τους, μπορούμε να έχουμε ακριβή τεστ σε πρακτικά δεδομένα. 13

Γραμμική Διαχωριστική Ανάλυση LDA H Γραμμική Διαχωριστική Ανάλυση ή Linear Discriminant Analysis ή LDA είναι μια τεχνική εξαγωγής χαρακτηριστικών που έχει εφαρμοστεί επιτυχώς σε πολλά στατιστικά προβλήματα αναγνώρισης. Σκοπός της είναι να χωρίσει δείγματα σε ομάδες μεγιστοποιώντας τη μεταξύ κλάσεων διαχωρισιμότητα και την εντός κλάσης μεταβλητότητα. Γραμμική Διαχωριστική Ανάλυση LDA για δύο κλάσεις Σκοπός της LDA είναι να μειώσει τις διαστάσεις ενώ θα διατηρήσεις όσο το δυνατόν πιο διακριτές τις κλάσεις. Υποθέστε το σετ δεδομένων {x (1, x (2,, x (N } όπου N 1 ανήκουν στην κλάση ω 1, και N 2 στην ω 2. 14

Γραμμική Διαχωριστική Ανάλυση LDA για δύο κλάσεις Για να βρούμε ένα καλό διάνυσμα προβολής, πρέπει να ορίσουμε ένα διαχωριστικό μέτρο μεταξύ των προβολών Αν χρησιμοποιήσουμε τα μέσα διανύσματα των κλάσεων στο x και y διανυσματικό χώρο, έχουμε 1 μi = N i x ω i x ˆ μi = 1 y = 1 w N N i y ω i i x ω i Τ x = w μ Τ i Γραμμική Διαχωριστική Ανάλυση LDA για δύο κλάσεις Θα μπορούσαμε να επιλέξουμε την απόσταση μεταξύ των προβολών των μέσων: ˆ1 ˆ2 ( μ ) Τ J ( w) = μ μ = w μ Όμως δεν λαμβάνουμε υπόψη τη διασπορά μεταξύ των κλάσεων 1 2 Καλύτερη διαχωρισιμότητα Μεγαλύτερη απόσταση μέσων 15

Γραμμική Διαχωριστική Ανάλυση LDA για δύο κλάσεις Η λύση που πρότεινε ο Fisher είναι να βρούμε τη συνάρτηση που μεγιστοποιεί την απόσταση μεταξύ των μέσων και κανονικοποιείται από την μεταξύ τάξεων διασπορά: s ˆ2 i = y ˆ μ 2 Και ορίζεται ως ( i ) y ω i J ˆ μ ˆ μ 1 2 ( w) = 2 2 sˆ 1 + sˆ 2 2 Γραμμική Διαχωριστική Ανάλυση LDA για g κλάσεις Έστω ο μεταξύ κλάσεων πίνακας διασποράς: Και ο εντός κλάσης πίνακας διασποράς x ij : είναι το n διάστατο πρότυπο j που ανήκει στην i,j ρ j ή η κλάση π i N i : το πλήθος δειγμάτων εκπαίδευσης από την κλάση π i g:το πλήθος των κλάσεων 16

Γραμμική Διαχωριστική Ανάλυση LDA για g κλάσεις Το μέσο δείγμα ανά κλάση η μέση διασπορά και το ολικό μέσο διάνυσμα είναι: Γραμμική Διαχωριστική Ανάλυση LDA για g κλάσεις Ο κύριος στόχος της LDA είναι να βρει ένα πίνακα προβολής P lda των δειγμάτων που μεγιστοποιεί το λόγο της ορίζουσας του S b προς την ορίζουσα του S w (κριτήριο Fischer): 17

Γραμμική Διαχωριστική Ανάλυση LDA για g κλάσεις Αποδεικνύεται ότι ο ζητούμενος πίνακας είναι η λύση της εξίσωσης: Γραμμική Διαχωριστική Ανάλυση LDA για g κλάσεις Αν ο S w είναι ένας πίνακας με διακρίνουσα, τότε το κριτήριο του Fisher μεγιστοποιείται όταν ο πίνακας P lda συνθέτετε από τα ιδιοδιανύσματα 18

PCA vs LDA PCA vs LDA Διάκριση μεταξύ 5 ειδών καφέ 19

PCA vs LDA Διάκριση μεταξύ ειδών καφέ 20