όπου ω j η κλάση j και x το διάνυσμα χαρακτηριστικών Ένας τυπικός κανόνας απόφασης είναι να επιλέγουμε την κλάση με τη μέγιστη P[ω j x]

Σχετικά έγγραφα
Αναγνώριση Προτύπων. Σημερινό Μάθημα

Αναγνώριση Προτύπων. Σημερινό Μάθημα

Αναγνώριση Προτύπων. Σήμερα! Λόγος Πιθανοφάνειας Πιθανότητα Λάθους Κόστος Ρίσκο Bayes Ελάχιστη πιθανότητα λάθους για πολλές κλάσεις

Αναγνώριση Προτύπων. Σημερινό Μάθημα

Αποδεικτικές Διαδικασίες και Μαθηματική Επαγωγή.

Αναγνώριση Προτύπων. Σημερινό Μάθημα

{ i f i == 0 and p > 0

Εισαγωγικά. 1.1 Η σ-αλγεβρα ως πληροφορία

Ο Ισχυρός Νόμος των Μεγάλων Αριθμών

5.1 Μετρήσιμες συναρτήσεις

Αναγνώριση Προτύπων. Σημερινό Μάθημα

Αναγνώριση Προτύπων. Σημερινό Μάθημα

Εφαρμογές στην κίνηση Brown

Αναγνώριση Προτύπων 1

Ο όρος εισήχθηκε το 1961 από τον Bellman Αναφέρεται στο πρόβλημα της ανάλυσης δεδομένων πολλών μεταβλητών καθώς αυξάνει η διάσταση.

Παντού σε αυτό το κεφάλαιο, αν δεν αναφέρεται κάτι διαφορετικό, δουλεύουμε σε ένα χώρο πιθανότητας (Ω, F, P) και η G F είναι μια σ-άλγεβρα.

Επίλυση ειδικών μορφών ΣΔΕ

Ας υποθέσουμε ότι ο παίκτης Ι διαλέγει πρώτος την τυχαιοποιημένη στρατηγική (x 1, x 2 ), x 1, x2 0,

Ανεξαρτησία Ανεξαρτησία για οικογένειες συνόλων και τυχαίες μεταβλητές

«ΔΙΑΚΡΙΤΑ ΜΑΘΗΜΑΤΙΚΑ»

Μη επιβλεπόμενη εκπαίδευση (Clustering) Μη παραμετρική Μη επιβλεπόμενη εκπαίδευση Μέτρα εγγύτητας Αλγόριθμος k means ISODATA Ιεραρχικό clustering

Αναλυτικές ιδιότητες

Ψηφιακή Εικόνα. Σημερινό μάθημα!

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Γ ΤΑΞΗ

Εξαναγκασμένες ταλαντώσεις, Ιδιοτιμές με πολλαπλότητα, Εκθετικά πινάκων. 9 Απριλίου 2013, Βόλος

Εστω X σύνολο και A μια σ-άλγεβρα στο X. Ονομάζουμε το ζεύγος (X, A) μετρήσιμο χώρο.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Εαρινό Εξάμηνο

Ανεξαρτησία Ανεξαρτησία για οικογένειες συνόλων και τυχαίες μεταβλητές

Η εξίσωση Black-Scholes

Ανεξαρτησία Ανεξαρτησία για οικογένειες συνόλων και τυχαίες μεταβλητές

Αλγόριθμοι & Βελτιστοποίηση

Ταξινόμηση των μοντέλων διασποράς ατμοσφαιρικών ρύπων βασισμένη σε μαθηματικά κριτήρια.

Martingales. 3.1 Ορισμός και παραδείγματα

Κεφάλαιο Η εκθετική κατανομή. Η πυκνότητα πιθανότητας της εκθετικής κατανομής δίδεται από την σχέση (1.1) f(x) = 0 αν x < 0.

Οι γέφυρες του ποταμού... Pregel (Konigsberg)

Ανελίξεις σε συνεχή χρόνο

Μεγάλες αποκλίσεις* 17.1 Η έννοια της μεγάλης απόκλισης

ΣΧΟΛΙΚΟ ΕΤΟΣ ΕΥΘΥΓΡΑΜΜΗ ΟΜΑΛΗ ΚΙΝΗΣΗ ΤΡΙΩΡΗ ΓΡΑΠΤΗ ΕΞΕΤΑΣΗ ΣΤΗ ΦΥΣΙΚΗ A ΛΥΚΕΙΟΥ. Ονοματεπώνυμο Τμήμα

602. Συναρτησιακή Ανάλυση. Υποδείξεις για τις Ασκήσεις

ΜΙΚΡΟΟΙΚΟΝΟΜΙΚΗ Η ΚΑΤΑΝΑΛΩΤΙΚΗ ΑΠΟΦΑΣΗ. Άσκηση με θέμα τη μεγιστοποίηση της χρησιμότητας του καταναλωτή

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ ΜΑΘΗΜΑ: ΕΡΩΤΗΣΕΙΣ ΟΙΚΟΝΟΜΙΚΗΣ ΘΕΩΡΙΑΣ

Μεγάλες αποκλίσεις* 17.1 Η έννοια της μεγάλης απόκλισης

Σχέσεις και ιδιότητές τους

Εκφωνήσεις και Λύσεις των Θεμάτων

Επίλυση δικτύων διανομής

Τρίτη, 05 Ιουνίου 2001 ΤΕΧΝΟΛΟΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ Γ ΛΥΚΕΙΟΥ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

Η ανισότητα α β α±β α + β με α, β C και η χρήση της στην εύρεση ακροτάτων.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Εαρινό Εξάμηνο

Επιχειρησιακή Ερευνα Ι

17 Μαρτίου 2013, Βόλος

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΑΡΧΕΣ ΟΙΚΟΝΟΜΙΚΗΣ ΘΕΩΡΙΑΣ ΜΑΘΗΜΑ ΕΠΙΛΟΓΗΣ Γ ΛΥΚΕΙΟΥ

Κατασκευή της κίνησης Brown και απλές ιδιότητες

1. Εστω ότι A, B, C είναι γενικοί 2 2 πίνακες, δηλαδή, a 21 a, και ανάλογα για τους B, C. Υπολογίστε τους πίνακες (A B) C και A (B C) και

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ ΜΑΘΗΜΑ: ΟΙΚΟΝΟΜΙΚΗ ΘΕΩΡΙΑ

Προτεινόμενα θέματα στο μάθημα. Αρχές Οικονομικής Θεωρίας ΟΜΑΔΑ Α. Στις προτάσεις από Α.1. μέχρι και Α10 να γράψετε στο τετράδιό σας τον αριθμό της

Χαρακτηριστικές συναρτήσεις

Στοχαστικές διαφορικές εξισώσεις

HY 280. θεμελιακές έννοιες της επιστήμης του υπολογισμού ΑΣΚΗΣΕΙΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ. Γεώργιος Φρ.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Εαρινό Εξάμηνο

Το κράτος είναι φτιαγμένο για τον άνθρωπο και όχι ο άνθρωπος για το κράτος. A. Einstein Πηγή:

( ιμερείς) ΙΜΕΛΕΙΣ ΣΧΕΣΕΙΣ Α Β «απεικονίσεις»

Ο τύπος του Itô. f (s) ds (12.1) f (g(s)) dg(s). (12.2) t f (B s ) db s + 1 2

Συναρτήσεις. Σημερινό μάθημα

Μεγάλες αποκλίσεις* 17.1 Η έννοια της μεγάλης απόκλισης

Πιθανότητες ΙΙ 1 o Μέρος. Οικονομικό Πανεπιστήμιο Αθηνών

τους στην Κρυπτογραφία και τα

Γενικό Λύκειο Μαραθοκάμπου Σάμου. Άλγεβρα Β λυκείου. 13 Οκτώβρη 2016

ΣΥΝΟΛΑ (προσέξτε τα κοινά χαρακτηριστικά των παρακάτω προτάσεων) Οι άνθρωποι που σπουδάζουν ΤΠ&ΕΣ και βρίσκονται στην αίθουσα

Εισαγωγικές Διαλέξεις στην Θεωρία των Αλυσίδων Markov και των Στοχαστικών Ανελίξεων. Οικονομικό Πανεπιστήμιο Αθηνών

Μονάδες α. Να γράψετε στο τετράδιό σας τον παρακάτω πίνακα σωστά συµπληρωµένο.

21/11/2005 Διακριτά Μαθηματικά. Γραφήματα ΒΑΣΙΚΗ ΟΡΟΛΟΓΙΑ : ΜΟΝΟΠΑΤΙΑ ΚΑΙ ΚΥΚΛΟΙ Δ Ι. Γεώργιος Βούρος Πανεπιστήμιο Αιγαίου

Συντάκτης: Παναγιώτης Βεργούρος, Οικονομολόγος Συγγραφέας βιβλίων, Μικρο μακροοικονομίας διαγωνισμών ΑΣΕΠ

Βελτίωση Εικόνας. Σήμερα!

ΣΤΟ ΦΑΡΜΑΚΕΙΟ. Με την πιστοποίηση του έχει πρόσβαση στο περιβάλλον του φαρμακείου που παρέχει η εφαρμογή.

Εκφωνήσεις και Λύσεις των Θεμάτων

τεσσάρων βάσεων δεδομένων που θα αντιστοιχούν στους συνδρομητές

ΤΑΞΙΝΟΜΗΣΗ ΟΡΓΑΝΙΣΜΩΝ

Kατάτμηση εικόνας. Σήμερα!

CSE.UOI : Μεταπτυχιακό Μάθημα

ΣΤΑΤΙΣΤΙΚΗ ΠΟΣΟΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Pointers. Σημερινό Μάθημα! Χρήση pointer Τελεστής * Τελεστής & Γενικοί δείκτες Ανάκληση Δέσμευση μνήμης new / delete Pointer σε αντικείμενο 2

ΕΙΣΑΓΩΓΗ ΣΤΟN ΣΤΟΧΑΣΤΙΚΟ ΛΟΓΙΣΜΟ

ΕΙΣΑΓΩΓΗ ΣΤΟN ΣΤΟΧΑΣΤΙΚΟ ΛΟΓΙΣΜΟ

G περιέχει τουλάχιστον μία ακμή στο S. spanning tree στο γράφημα G.

ΣΤΟ ΙΑΤΡΕΙΟ. Με την πιστοποίηση του αποκτά πρόσβαση στο περιβάλλον του ιατρού που παρέχει η εφαρμογή.

Περιγραφή Περιγράμματος

Εισαγωγικές Διαλέξεις στην Θεωρία των Αλυσίδων Markov και των Στοχαστικών Ανελίξεων. Οικονομικό Πανεπιστήμιο Αθηνών

Μία χρονοσειρά (time serie) είναι μια ακολουθία

ιάσταση του Krull Α.Π.Θ. Θεσσαλονίκη Χ. Χαραλαμπους (ΑΠΘ) ιάσταση του Krull Ιανουάριος, / 27

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ Β ΤΑΞΗ. ΘΕΜΑ 1ο

Δημήτρης Χελιώτης ΕΝΑ ΔΕΥΤΕΡΟ ΜΑΘΗΜΑ ΣΤΙΣ ΠΙΘΑΝΟΤΗΤΕΣ

Ελεγχος Στατιστικών Υποθέσεων με τη χρήση του στατιστικού προγραμμάτος SPSS v. 20

Αλγόριθμοι & Βελτιστοποίηση Μεταπτυχιακό Μάθημα ΠΜΣ/ΕΤΥ 2η Ενότητα: Μοντελοποίηση Προβλημάτων ως ΓΠ, Ισοδυναμες Μορφές ΓΠ, Γεωμετρία Χωρου Λύσεων

Διανυσματικές Συναρτήσεις

( ) Π. ΚΡΗΤΗΣ, ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ ΗΥ 380, «ΑΛΓΟΡΙΘΜΟΙ & ΠΟΛΥΠΛΟΚΟΤΗΤΑ» Φ 03: ΑΣΥΜΠΤΩΤΙΚΕΣ ΕΚΦΡΑΣΕΙΣ

2. Κατάθεσε κάποιος στην Εθνική Τράπεζα 4800 με επιτόκιο 3%. Μετά από πόσο χρόνο θα πάρει τόκο 60 ; α) 90 ημέρες β) 1,5 έτη γ) 5 μήνες δ) 24 μήνες

Εξέταση Ηλεκτρομαγνητισμού Ι 2 Φεβρουαρίου 2018

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Περιγραφή Περιοχής. Σήμερα!

ΕΙΣΑΓΩΓΗ. H λογική ασχολείται με δύο έννοιες, την αλήθεια και την απόδειξη. Oι έννοιες αυτές έχουν γίνει

Transcript:

Bayes Classifiers

Θεώρημα Bayes Tο θώ θεώρημα Bayes εκφράζεται ως: όπου ω j η κλάση j και x το διάνυσμα χαρακτηριστικών Ένας τυπικός κανόνας απόφασης είναι να επιλέγουμε την κλάση με τη μέγιστη P[ω j x] P[ω j ] εκ των προτέρων πιθανότητα P[ω j x] εκ των υστέρων πιθανότητα P[x ω j j] πιθανοφάνεια P[x] σταθερά κανονικοποίησης

Λόγος Πιθανοφάνειας Δεδομένου του θεωρήματος Bayes: H P(x) μπορεί να απλοποιηθεί και μετά από ανακατάταξη της σχέσης προκύπτει ο λόγος πιθανοφάνειας Λ(x) και ο κανόνας απόφασης του Bayes:

Κανόνας Απόφασης Bayes Άσκηση Δεδομένου προβλήματος ταξινόμησης με τις πιο κάτω υπό συνθήκη πιθανότητες και υποθέτοντας ίσες εκ των προτέρων πιθανότητες, εξάγετε κανόνα απόφασης.

Κανόνας Απόφασης Bayes Λύση Αντικαθιστώντας στον κανόνα: Απλοποιώντας Λογαριθμόντας

Κανόνας Απόφασης Bayes Λύση

Συμπέρασμα Συμπέρασμα 1 1 in If in If x R x x R x Πθανόηαλάθους in If x R x Πιθανότητα λάθους 0 ) ( ) ( x d d P 0 ) ( ) ( 1 x e dx x p dx x p P 7

Gaussian συνάρτηση πυκνότητας πιθανότητας Σύμφωνα με το θεώρημα κεντρικού ορίου, η συνάρτηση πυκνότητας πιθανότητας του αθροίσματος ενός πλήθους στατιστικώς ανεξάρτητων τυχαίων μεταβλητών, τείνει στη Gaussian συνάρτηση πυκνότητας πιθανότητας, όταν το πλήθος των όρων τείνει στο άπειρο.

Gaussian συνάρτηση πυκνότητας πιθανότητας Gaussian pdf πολλών μεταβλητών όπου Και ο Πίνακας συνδιασποράς 9

Ταξινομητές Ελάχιστης Απόστασης Ο Βέλτιστος Bayesian ταξινομητής, απλοποιείται σημαντικά όταν: Οι κλάσεις είναι ισοπίθανες Τα δεδομένα σε όλες τις κλάσεις ακολουθούν κανονική κατανομή Το μητρώο συνδιασποράς είναι το ίδιο για όλες τις κλάσεις Το μητρώο συνδιασποράς είναι διαγώνιο με όλα τα στοιχεία ίσα S=σ Ι 10

Ταξινομητές Ελάχιστης Απόστασης Αν ισχύουν οι περιορισμοί ο Βayes classifier γίνεται: Euclidean Distance: Αν δεν ισχύει ο τελευταίος περιορισμός γίνεται: Mhl Mahalanobis Distance: 11

Επιβλεπόμενη vs Μη Επιβλεπόμενη Μάθηση Μέχρι τώρα θεωρήσαμε μεθόδους αναγνώρισης με classification όπου το πρότυπο χαρακτηρίζεται από τα μεγέθη {x,ω} Αυτά τα προβλήματα αναγνώρισης ονομάζονται Επιβλεπόμενα (supervised) αφού διατίθενται και το χαρακτηριστικό διάνυσμα και η σωστή απάντηση. Υπάρχουν όμως περιπτώσεις όπου δίνεται το χαρακτηριστικό διάνυσμα χωρίς την κλάση. Αυτές οι μέθοδοι καλούνται Μη Επιβλεπόμενες (unsupervised) λόγω του ότι δεν χρησιμοποιούν τη σωστή απάντηση. η

Επιβλεπόμενη vs Μη Επιβλεπόμενη Μάθηση Αν και η μέθοδοι μη επιβλεπόμενης μάθηση φαίνονται περιορισμένων δυνατοτήτων υπάρχουν πολλές περιπτώσεις που επιβάλλεται η χρήση τους: Ο χαρακτηρισμός πολλών δεδομένων μπορεί να αποβεί δαπανηρός (π.χ. αναγνώριση ομιλίας) Το είδος της κλάσης μπορεί να μην είναι γνωστό εξ αρχής.

Κατηγοριοποιήση των μη επιβλεπόμενων μεθόδων εκμάθησης Παραμετρικές (μείγματα ί κατανομών): Αυτές οι μέθοδοι μοντελοποιούν την υπό συνθήκη πυκνότητα πιθανότητας με ένα μίγμα παραμετρικών πυκνοτήτων με σκοπό να βρουν τις παραμέτρους ρ του μοντέλου. Μη παραμετρικές ρ (clustering): Δεν γίνεται υπόθεση για την πυκνότητα πιθανότητα αλλά επιχειρείται διαχωρισμός των δδ δεδομένων σε clusters.

Μοντέλα Μίξης Θεωρήστε το πρόβλημα μοντελοποίησης συνάρτησης πυκνότητας πιθανότητας δεδομένου ενός συνόλου δεδομένων X={x (1, x (,, x (N } Αν η μορφή πυκνότητας ήταν γνωστή το πρόβλημα θα λύνονταν με το κριτήριο της Μέγιστης Πιθανότητας Αν η μορφή πυκνότητας ήταν άγνωστη, θα μπορούσε να λυθεί με τα παράθυρα Parzen

Μοντέλα Μίξης Εδώ θ θ ή λλ ή έθ δ Εδώ θα θεωρήσουμε μια εναλλακτική μέθοδο εκτίμησης της πυκνότητας, μέσω μείγματος παραμετρικών πυκνοτήτων

Ο αλγόριθμος ΕΜ (Expectation Maximization μεγιστοποίηση αναμονής) Ο ΕΜ είναι γενική μέθοδος για την εκτίμηση της μέγιστης πιθανότητας όταν λείπουν δεδομένα. Χρησιμοποιείται όταν όντως έχουν καταστραφεί ήλείπουν δεδομένα ή ότι ηυπόθεση ότι λείπουν δεδομένα απλοποιεί τη συνάρτηση πιθανότητας Υποθέστε σύνολο δεδομένων που περιέχει δύο είδη χαρακτηριστικών: τα Χ που είναι γνωστά και τα Ζ που είναι άγνωστα

Ο αλγόριθμος ΕΜ (Expectation Maximization μεγιστοποίηση αναμονής) Ορίζουμε μια συνάρτηση κατανομής πιθανότητας όλων των δεδομένων p(x,z θ) όπου θ={μ,σ} Η συνάρτηση είναι τυχαίας μεταβλητής ως προς Ζδηλ δηλ. p(x,z θ) Z θ)=h X,θ θ (Z) Ο ΕΜ έχει δύο λειτουργίες που επαναλαμβάνει: Μια λειτουργία αναμονής (Expectation) Μια λειτουργία μεγιστοποίησης (Maximization)

Ο αλγόριθμος ΕΜ (Expectation Maximization μεγιστοποίηση αναμονής) ANAMONHA Υπολόγισε την αναμενόμενη τιμή της πιθανότητας log[p(x,z θ)] (XZ θ)] ως προς τα άγνωστα δεδομένα Ζ, δεδομένων των Χ και την τρέχουσα τιμή θ (i 1 ΜΕΓΙΣΤΟΠΟΙΗΣΗ Υπολόγισε το όρισμα θ Αποδεικνύεται ότι ο ΕΜ συγκλίνει σε τοπικό μέγιστο της συνάρτησης πιθανότητας

Ο αλγόριθμος ΕΜ (Expectation Maximization μεγιστοποίηση αναμονής) Κατά την Ε λειτουργία τα χαρακτηριστικά Ζ διώχνονται με ολοκλήρωση Κατά την Μλειτουργία υπολογίζονται οι τιμές των παραμέτρων που μεγιστοποιούν την αναμενόμενη τιμή. Αφού το Ζ είναι άγνωστο μεγιστοποιούμε τη Αφού το Ζ είναι άγνωστο μεγιστοποιούμε τη λογαριθμική συνάρτηση πιθανότητας για όλες τις πιθανές τιμές του Ζ

Ο αλγόριθμος ΕΜ και μίγμα μοντέλων Έχοντας ορίσει τον αλγόριθμο ΕΜ μπορούμε να λύσουμε το πρόβλημα μίγματος παραμετρικών κατανομών Για λόγους απλοποίησης θα θεωρήσουμε πρόβλημα μιας μεταβλητής όπου όλα τα μέρη έχουν γνωστή τυπική απόκλιση σ.

Ο αλγόριθμος ΕΜ και μίγμα μοντέλων Δδ Δεδομένου του συνόλου δδ δεδομένων X={x (1, x (,, x (N }, ζητείται να υπολογίσουμε τις παραμέτρους του μοντέλου θ={μ 1, μ, μ C } Θεωρούμε ότι κάθε μεταβλητή x (n δημιουργήθηκε με τον εξής τρόπο: Αρχικά μια κατανομή Gauss επιλέγεται βάσει των συντελεστών του μίγματος P(ω c ) Τότε, το x (n δημιουργείται βάσει της πιθανότητας p(x μ c ) του συγκεκριμένου συστατικού Σε ένα τέτοιο πρόβλημα, οι κρυφές μεταβλητές Z={z (n 1,z (n, z (n C } χρησιμοποιούνται για να δείξουν ποια από τις C κατανομές Gauss παρήγαγε το x (n

Ο αλγόριθμος ΕΜ και μίγμα μοντέλων Η πιθανότητα p(x,z θ) για ένα συγκεκριμένο δείγμα είναι: Μόνο ένα από τα z c (n μπορεί να είναι 1.

Ο αλγόριθμος ΕΜ και μίγμα μοντέλων Η λογαριθμική συνάρτηση πιθανότητας για όλο το σύνολο θα είναι Για να υπολογίσουμε το Q(θ θ(i 1) πρέπει να πάρουμε τη μέση τιμής ως προς Ζ E[z (n c ] είναι η πιθανότητα το παράδειγμα x (n να δημιουργήθηκε από τη c στη κατανομή Gauss δεδομένων των παραμέτρων θ (i 1

Ο αλγόριθμος ΕΜ και μίγμα μοντέλων Αυτές οι δύο εκφράσεις δίνουν την Q συνάρτηση: ρηη

Ο αλγόριθμος ΕΜ και μίγμα μοντέλων Το δεύτερο βήμα (Maximization) είναι ο υπολογισμός των τιμών {μ 1,μ,,μ C } όπου μεγιστοποιεί τη συνάρτηση Q Και υπολογίζοντας τα μηδενικά της μερικής παραγώγισης:

Ιστόγραμμα Η πιο απλή μορφή μη παραμετρικής εκτίμησης πυκνότητας είναι το ιστόγραμμα Χωρίζει το δειγματοχώρο σε μικρές περιοχές και προσεγγίζει την πυκνότητα από το πλήθος των δειγμάτων που εμπίπτουν στην κάθε περιοχή.

Ιστόγραμμα Μειονεκτήματα Το τελικό σχήμα της συνάρτησης πυκνότητας πιθανότητας εξαρτάται από το σημείο εκκίνησης των περιοχών Η φαινομενική συνέχεια στα δεδομένα εξαρτάται από την επιλογή των περιοχών Σε προβλήματα πολλών διαστάσεων θα απαιτούνται πολλά δείγματα αλλιώς ο σχηματισμός θα είναι ελλιπής.

Γενική διατύπωση εκτίμησης Η πιθανότητα ένα διάνυσμα x, με κατανομή p(x), να ανήκει σε μια περιοχή είναι: P p( x') dx' R Αν υποθέσουμε ότι Ν είναι τα δείγματα της κατανομής, η πιθανότητα να ανήκουν k στην περιοχή, είναι: P( k) N k P (1 P) k N k

Γενική διατύπωση εκτίμησης Από τις ιδιότητες των διωνυμικών κατανομών έχουμε: k E N P k k P (1 P ) Var E P N N N Που σημαίνει ότι όταν Ν η κατανομή γίνεται πιο αιχμηρή, άρα μπορούμε να θεωρήσουμε ότι μία καλή εκτίμηση της P είναι το μέσο των σημείων που εμπίπτουν στην : k P N

Γενική διατύπωση εκτίμησης Αν υποθέσουμε ότι η περιοχή είναι τόσο μικρή που η p(x) δεν αλλάζει: R p ( x') dx' p( x) V Και συνδυάζοντας με το προηγούμενο αποτέλεσμα: P p ( x') dx' p ( x ) V R k P N p( x) Ο υπολογισμός είναι πιο ακριβής όσο αυξάνει το πλήθος των δειγμάτων Ν και μικραίνει ο όγκος V k NV

Γενική διατύπωση εκτίμησης Στην προηγούμενη σχέση ο συνολικός αριθμός δειγμάτων Ν είναι σταθερός Για να βελτιωθεί η ακρίβεια στην εκτίμηση του p(x) μπορούμε να ελαχιστοποιήσουμε τον όγκο (σχεδόν 0), αλλά τότε η περιοχή θα γίνει τόσο μικρή που δεν θα περιέχει πρακτικά δείγματα Άρα θα πρέπει να γίνει ένας συμβιβασμός β μ ώστε το V να είναι αρκετά μεγάλο για να περιέχει αρκετά δείγματα και αρκετά μικρό ώστε να στηρίζεται η υπόθεση ότι το p(x) παραμένει σταθερό εντός της

Γενική διατύπωση εκτίμησης Στην πράξη δύο προσεγγίσεις ακολουθούνται: Μπορούμε να επιλέξουμε μια σταθερή τιμή για τον όγκο V και να υπολογίσουμε τα περιεχόμενα δείγματα από τα δεδομένα (Εκτίμηση Πυκνότητας Kernel) Μπορούμε να ορίσουμε σταθερό αριθμό δειγμάτων k και να υπολογίσουμε τον αντίστοιχο όγκο V από τα δεδομένα (k Nearest Neighbours) Αποδεικνύεται ότι και οι δύο πιο πάνω προσεγγίσεις συγκλίνουν στην πραγματική τιμή της συνάρτησης πυκνότητας πιθανότητας όταν N, δεδομένου ότι ο όγκος V συρρικνώνεται και το k μεγαλώνει με το N,

Παράθυρα Parzen Αν υποθέσουμε ότι η περιοχή που περικλείει k δείγματα είναι ένας κύβος πλευράς h κεντραρισμένος στο σημείο εκτίμησης x, ο όγκος είναι V=h D. Για να βρούμε τον αριθμό των δειγμάτων στην περιοχή ορίζουμε την Kernel συνάρτηση: 1 u j j 1/ 1,..., K ( u ) 0 D

Παράθυρα Parzen Αυτή η συνάρτηση, μοναδιαίου υπερκύβου κεντραρισμένο στο x, ονομάζεται παράθυρο Parzen Η ποσότητα K((x x (n )/h) ισούται με τη μονάδα αν το σημείο x (n βρίσκεται μέσα στον κύβο.

Π άθ P Παράθυρα Parzen Ο λ ό θ ό Ο συνολικός αριθμός δειγμάτων μέσα στον κύβο είναι: είναι: N n h x x K k ( Και αν αντικαταστήσουμε n h 1 στην έκφραση εκτίμησης της πυκνότητας πιθανότητας: N n n D h x x K Nh x p 1 1 ) ( n 1

Παράθυρα Parzen Άσκηση Βάσει των δεδομένων που ακολουθούν, χρησιμοποίησε τα παράθυρα Parzen να υπολογίσετε τη συνάρτηση πυκνότητας πιθανότητας στα σημεία y=3,10,15. Χρησιμοποιήστε h=4 X (1 ( ( N x, x,..., x 4,5,5,6,1,14,15,15,16,17

Παράθυρα Parzen Λύση ή έ έ άξ Αν παραστήσουμε τα δεδομένα σε έναν άξονα, έχουμε:

Εκτίμηση Πυκνότητας με k NN Επιλέγοντας σταθερή τιμή για το k και ορίζοντας ελάχιστο όγκο V σοσύνολο στο σύνολο δεδομένων που περικλείει τα k σημεία, εφαρμόζουμε τη μέθοδο του k πλησιέστερου γείτονα (k Nearest Neighbor knn)

Εκτίμηση Πυκνότητας με k NN Στη μέθοδο k NN μεγαλώνουμε τον όγκο που περικλείει το σημείο εκτίμησης x εωσότου περικλείει k σημεία δεδομένων. Τότε η εκτίμηση πυκνότητας γίνεται: P( x) k NV N c Όπου R k (x) είναι η απόσταση μεταξύ του σημείου εκτίμησης και του k στού πλησιέστερου γείτονα. c D είναι ο όγκος της μοναδιαίας σφαίρας στις D διαστάσεις, και είναι: D / c D D /! c 1 =, c =π, π c 3 =4π/3 κλπ D k R D k (x) x

Εκτίμηση Πυκνότητας με k NN Vol R P ( x ) k N R

Εκτίμηση Πυκνότητας με k NN Η εκτίμηση με k NN δεν είναι πολύ ικανοποιητική καθώς: Η προσέγγιση επηρεάζεται από τοπικό θόρυβο Καθώς η συνάρτηση R k (x) δεν είναι παραγωγίσιμη θα υπάρχουν ασυνέχειες. Το αποτέλεσμα θα αποκλίνει σε όλο το δειγματοχώρο

Εκτίμηση Πυκνότητας με knn για δύο Gaussians 0,1 1/ 10,4 P( x) 1/ N N

Ε ί Π ό k NN Εκτίμηση Πυκνότητας με k NN ύ ό Για δύο Gaussians όπου: ), ( 1 ), ( 1 ) ( 1 1 N N x p 1 1 1 1 1 5 0 1 1 4 1 1 1 0 5 Εκτίμηση για k=10 γείτονες και Ν=00 δείγματα

Εκτίμηση Πυκνότητας με k NN Πραγματικά περιγράμματα Eκτίμησης ί με knn

k NN vs Bayes classifier Το μεγαλύτερο πλεονέκτημα της μεθόδου k NN είναι ότι αποτελεί μια πολύ απλή προσέγγιση του Bayes classifier Ας υποθέσουμε ότι έχουμε ένα σύνολο δεδομένων με N δείγματα και N i ανήκουν στην κλάση ω i και θέλουμε να ταξινομήσουμε μ άγνωστο δείγμα x u Θεωρούμε όγκο V γύρω από το x u με k δείγματα συνολικά και έστω k i από ω i.

knn vs Bayes classifier Μπορούμε να προσεγγίσουμε τη συνάρτηση πιθανότητας με k NN ως: ki Px i N i V Παρόμοια η συνάρτηση πυκνότητας θα είναι: P( x) k NV Και οι εκ των προτέρων πιθανότητα Ni P ( i ) N Αν τα βάλουμε όλα μαζί στο ταξινομητή Bayes P i x P N x i P i NiV N k Px k k i NV i i k

Ο κανόνας ταξινόμησης του k πλησιέστερου γείτονα (k NN) Ο κανόνας του k Nearest Neighbor Rule (knn) είναι διαισθητική μέθοδο που ταξινομεί άγνωστα δείγματα με βάσει την ομοιότητα τους με τα δείγματα εκπαίδευσης. Για δεδομένο άγνωστο πρότυπο x u βρες τα k «κοντινότερα» δείγματα από τα δεδομένα εκπαίδευσης και απέδωσε το x u στην κλάση που εμφανίζεται πιο πολύ στο k υποσύνολο

Κανόνας k NN Απαιτεί μόνο: Έναν ακέραιο k Ένα σετ γνωστών δειγμάτων (σύνολο εκπαίδευσης) Ένα μέτρο «απόστασης» ό

Κανόνας k NN Στο παράδειγμα έχουμε 3 κλάσεις και άγνωστο δείγμα x u Χρησιμοποιείται Ευκλείδεια απόσταση και k=5 γείτονες 4 γείτονες ανήκουν στην ω 1 και 1 ανήκει στην ω 3 Το x u κατατάσσεται στην ω 1

k NN παράδειγμα Έχουμε δεδομένα δ για δδά διδιάστατο πρόβλημα 3 κλάσεων όπως φαίνεται στο δείγμα Χρησιμοποιούμε k=5 και Ευκλείδεια Χρησιμοποιούμε k=5 και Ευκλείδεια απόσταση

k NN παράδειγμα Το ίδιο για άλλη διάταξη δεδομένων Χρησιμοποιούμε k=5 και Ευκλείδεια απόσταση

O k NN ως χαλαρός (lazy) αλγόριθμος Ο knn ανήκει στην κατηγορία των χαλαρών αλγορίθμων: Επεξεργάζεται τα δεδομένα εκπαίδευσης αφού ζητηθεί ταξινόμηση Απαντάει στο αίτημα ταξινόμησης συνδυάζοντας τα αποθηκευμένα δεδομένα εκπαίδευσης Δεν λαμβάνει υπόψη λογική ή άλλα αποτελέσματα.

lazy αλγόριθμοι Tradeoffs χαλαρών αλγορίθμων Έχουν μικρότερο υπολογιστικό κόστος κατά την εκπαίδευση Έχουν μεγαλύτερες απαιτήσεις αποθήκευσης και υπολογιστικό κόστος κατά την κλήση τους.

Χαρακτηριστικά του k NN Πλεονεκτήματα Απλή υλοποίηση Πολύ καλά αποτελέσματα για μεγάλο αριθμό δειγμάτων (N ) Μειονεκτήματα Μεγάλη απαίτηση η σε αποθηκευτικό χώρο Υπολογιστικό κόστος στην κλήση Ευάλωτος στην «κατάρα πολυδιάστατων προβλημάτων»

k NN vs1 ΝΝ Μεγάλο k σημαίνει πιο ομαλές περιοχές αποφάσεων Δίνει πιο σωστές πιθανοτικά πληροφορίες Ωστόσο πολύ μεγάλο k μπορεί να χαλάσει την τοπικότητα της απόφασης Αυξάνει το υπολογιστικό κόστος

k NN vs1 ΝΝ

Άσκηση 1 Κατηγοριοποίησε τα σημεία A, B και C χρησιμοποιώντας για κατηγοριοποίηση τον κανόνα 5 ΝΝ και Ευκλείδεια απόσταση

Λύση Για το Α, για κάθε σημείο η Ευκλείδειος απόσταση θα είναι: d i y 1 ( A) y1( i) ( y( A) y( i) )

Άσκηση Αν εφαρμόσουμε τον k NN κανόνα απόφασης στο σχήμα της προηγούμενης άσκηση, θα πάρουμε περιοχές απόφασης και όριο απόφασης για τις δύο κλάσεις. Αν y(i) είναι τα χαρακτηριστικά διανύσματα της κλάσης 1 και s(i) της κλάσης, τότε σύμφωνα με τον ορισμό, κάθε σημείο του ορίου απόφασης θα πρέπει ικανοποιεί τη σχέση: Υποθέστε Ευκλείδεια απόσταση i i i yˆ, y min d yˆ s min d, Α) ποια είναι η σχέση που καθορίζει το όριο απόφασης για μια περιοχή κοντά στο όριο αν ένα διάνυσμα y (i) είναι πιο κοντά στο όριο για την κλάση 1 και το s (j) για την κλάση Β) σχεδιάστε ένα όριο απόφασης για τις δύο κλάσεις Γ) βρείτε τα στοιχεία που η μετακίνηση τους δεν αλλάζει το όριο i

Λύση Για κάθε σημείο στο διάγραμμα ισχύει: j j j y y s s s i i i y 1, 1 yˆ Για σημείο του ορίου απόφασης i ˆ j y, y d yˆ s d, i i yˆ y yˆ y j j yˆ s y s ˆ 1 1 1 1 j i j i s y yˆ s y i j i j y s y s 0 yˆ 1 1 1 1 1

Λύ 0 ˆ ˆ 1 1 1 1 1 j i j i i j i j s y s y y s y y s y Λύση έ Θέτοντας ) ( ) ( 1 ) ( 1 i j y s a ) ( ) ( ) ( i j y s b ) ( ) ( ) ( 1 ) ( 1 ) ( ) ( ) ( ) ( j i j i s y s y c Έχουμε 0 ˆ ˆ c by y a 0 1 c by ay

Λύση

NAIVE BAYES CLASSIFIER x p x i Έστω και ο στόχος είναι να εκτιμηθεί i = 1,,..., Μ. Για μια «καλή» εκτίμηση της κατανομής θα χρειαστούν Ν l σημεία. Έστω x 1, x,..., x l ανεξάρτητες μεταξύ τους μεταβλητές. Τότε p x x i p j i j1 Σε αυτή την περίπτωση, κάποιος θα χρειαστεί, κατά προσέγγιση, Ν σημεία για κάθε pdf. Αρα συνολικά N l θα αρκούσαν. 64