Αναγνώριση Προτύπων. Σημερινό Μάθημα

Σχετικά έγγραφα
Αναγνώριση Προτύπων. Σημερινό Μάθημα

Αναγνώριση Προτύπων. Σημερινό Μάθημα

Αναγνώριση Προτύπων. Σήμερα! Λόγος Πιθανοφάνειας Πιθανότητα Λάθους Κόστος Ρίσκο Bayes Ελάχιστη πιθανότητα λάθους για πολλές κλάσεις

Αναγνώριση Προτύπων. Σημερινό Μάθημα

Αναγνώριση Προτύπων 1

Αναγνώριση Προτύπων. Σημερινό Μάθημα

{ i f i == 0 and p > 0

Ψηφιακή Εικόνα. Σημερινό μάθημα!

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ ΜΑΘΗΜΑ: ΕΡΩΤΗΣΕΙΣ ΟΙΚΟΝΟΜΙΚΗΣ ΘΕΩΡΙΑΣ

όπου ω j η κλάση j και x το διάνυσμα χαρακτηριστικών Ένας τυπικός κανόνας απόφασης είναι να επιλέγουμε την κλάση με τη μέγιστη P[ω j x]

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Γ ΤΑΞΗ

Συναρτήσεις. Σημερινό μάθημα

Ας υποθέσουμε ότι ο παίκτης Ι διαλέγει πρώτος την τυχαιοποιημένη στρατηγική (x 1, x 2 ), x 1, x2 0,

Επίλυση δικτύων διανομής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Εαρινό Εξάμηνο

Ο όρος εισήχθηκε το 1961 από τον Bellman Αναφέρεται στο πρόβλημα της ανάλυσης δεδομένων πολλών μεταβλητών καθώς αυξάνει η διάσταση.

Εισαγωγικά. 1.1 Η σ-αλγεβρα ως πληροφορία

Αποδεικτικές Διαδικασίες και Μαθηματική Επαγωγή.

Κεφάλαιο 68 Σχεδιασμός κλινικών μελετών και διαχείριση δεδομένων έρευνας

Σχέσεις και ιδιότητές τους

ΣΤΑΤΙΣΤΙΚΗ ΠΟΣΟΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΘΕΜΑ 1ο Α. α) Δίνεται η συνάρτηση F(x)=f(x)+g(x). Αν οι συναρτήσεις f, g είναι παραγωγίσιμες, να αποδείξετε ότι: F (x)=f (x)+g (x).

Εξαναγκασμένες ταλαντώσεις, Ιδιοτιμές με πολλαπλότητα, Εκθετικά πινάκων. 9 Απριλίου 2013, Βόλος

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΑΡΧΕΣ ΟΙΚΟΝΟΜΙΚΗΣ ΘΕΩΡΙΑΣ ΜΑΘΗΜΑ ΕΠΙΛΟΓΗΣ Γ ΛΥΚΕΙΟΥ

«ΔΙΑΚΡΙΤΑ ΜΑΘΗΜΑΤΙΚΑ»

ΤΑΞΙΝΟΜΗΣΗ ΟΡΓΑΝΙΣΜΩΝ

Προτεινόμενα θέματα στο μάθημα. Αρχές Οικονομικής Θεωρίας ΟΜΑΔΑ Α. Στις προτάσεις από Α.1. μέχρι και Α10 να γράψετε στο τετράδιό σας τον αριθμό της

1. Ας υποθέσουμε ότι η εισοδηματική ελαστικότητα ζήτησης για όσπρια είναι ίση με το μηδέν. Αυτό σημαίνει ότι:

Δ Ι Α Κ Ρ Ι Τ Α Μ Α Θ Η Μ Α Τ Ι Κ Α. 1η σειρά ασκήσεων

HY 280. θεμελιακές έννοιες της επιστήμης του υπολογισμού ΑΣΚΗΣΕΙΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ. Γεώργιος Φρ.

Αλγόριθμοι & Βελτιστοποίηση

2. Κατάθεσε κάποιος στην Εθνική Τράπεζα 4800 με επιτόκιο 3%. Μετά από πόσο χρόνο θα πάρει τόκο 60 ; α) 90 ημέρες β) 1,5 έτη γ) 5 μήνες δ) 24 μήνες

Εισαγωγικές Διαλέξεις στην Θεωρία των Αλυσίδων Markov και των Στοχαστικών Ανελίξεων. Οικονομικό Πανεπιστήμιο Αθηνών

Ο Ισχυρός Νόμος των Μεγάλων Αριθμών

Περιγραφή Περιγράμματος

τους στην Κρυπτογραφία και τα

ΑΣΕΠ 2000 ΑΣΕΠ 2000 Εμπορική Τράπεζα 1983 Υπουργείο Κοιν. Υπηρ. 1983

Βελτίωση Εικόνας. Σήμερα!

Κληρονομικότητα. Σήμερα! Κλάση Βάσης Παράγωγη κλάση Απλή κληρονομικότητα Protected δεδομένα Constructors & Destructors overloading

Αναγνώριση Προτύπων. Σημερινό Μάθημα

ΜΑΘΗΜΑ: ΠΟΛΙΤΙΚΗ ΟΙΚΟΝΟΜΙΑ-ΔΗΜΟΣΙΑ ΟΙΚΟΝΟΜΙΚΗ

Στοχαστικές διαφορικές εξισώσεις

Αναγνώριση Προτύπων. Σημερινό Μάθημα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ ΜΑΘΗΜΑ: ΟΙΚΟΝΟΜΙΚΗ ΘΕΩΡΙΑ

Ανεξαρτησία Ανεξαρτησία για οικογένειες συνόλων και τυχαίες μεταβλητές

Κεφάλαιο Η εκθετική κατανομή. Η πυκνότητα πιθανότητας της εκθετικής κατανομής δίδεται από την σχέση (1.1) f(x) = 0 αν x < 0.

τεσσάρων βάσεων δεδομένων που θα αντιστοιχούν στους συνδρομητές

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

1. Εστω ότι A, B, C είναι γενικοί 2 2 πίνακες, δηλαδή, a 21 a, και ανάλογα για τους B, C. Υπολογίστε τους πίνακες (A B) C και A (B C) και

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ. Πρώτη Γραπτή Εργασία. Εισαγωγή στους υπολογιστές Μαθηματικά

Εστω X σύνολο και A μια σ-άλγεβρα στο X. Ονομάζουμε το ζεύγος (X, A) μετρήσιμο χώρο.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Εαρινό Εξάμηνο

Επιλογή Χαρακτηριστικών Feature selection Αντικειμενική συνάρτηση Φίλτρα Wrappers Διαδικασία Αναζήτησης Σειριακοί αλγόριθμοι Εκθετικοί αλγόριθμοι

ΘΕΜΑ: Διαφορές εσωτερικού εξωτερικού δανεισμού. Η διαχρονική κατανομή του βάρους από το δημόσιο δανεισμό.

ΣΤΟ ΙΑΤΡΕΙΟ. Με την πιστοποίηση του αποκτά πρόσβαση στο περιβάλλον του ιατρού που παρέχει η εφαρμογή.

Μονάδες α. Να γράψετε στο τετράδιό σας τον παρακάτω πίνακα σωστά συµπληρωµένο.

Επίλυση ειδικών μορφών ΣΔΕ

17 Μαρτίου 2013, Βόλος

Συναρτήσεις ΙΙ. Σημερινό μάθημα

ΣΤΟ ΦΑΡΜΑΚΕΙΟ. Με την πιστοποίηση του έχει πρόσβαση στο περιβάλλον του φαρμακείου που παρέχει η εφαρμογή.

Pointers. Σημερινό Μάθημα! Χρήση pointer Τελεστής * Τελεστής & Γενικοί δείκτες Ανάκληση Δέσμευση μνήμης new / delete Pointer σε αντικείμενο 2

Εκφωνήσεις και Λύσεις των Θεμάτων

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ

CSE.UOI : Μεταπτυχιακό Μάθημα

Ανεξαρτησία Ανεξαρτησία για οικογένειες συνόλων και τυχαίες μεταβλητές

ΜΙΚΡΟΟΙΚΟΝΟΜΙΚΗ Η ΚΑΤΑΝΑΛΩΤΙΚΗ ΑΠΟΦΑΣΗ. Άσκηση με θέμα τη μεγιστοποίηση της χρησιμότητας του καταναλωτή

3. Με βάση τη βραχυχρόνια καμπύλη Phillips η σχέση πληθωρισμού και ανεργίας είναι:

Ανεξαρτησία Ανεξαρτησία για οικογένειες συνόλων και τυχαίες μεταβλητές

Ταξινόμηση των μοντέλων διασποράς ατμοσφαιρικών ρύπων βασισμένη σε μαθηματικά κριτήρια.

Δήμος Σωτήριος Υ.Δ. Εργαστήριο Λογικής & Επιστήμης Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής & Υπολογιστών Σ.Η.Μ.Μ.Υ. Ε.Μ.Π.

1. Ο εγγυημένος ρυθμός οικονομικής ανάπτυξης στο υπόδειγμα Harrod Domar εξαρτάται

ΑΣΚΗΣΕΙΣ ΔΙΚΤΥΑ ΠΡΟΣΒΑΣΗΣ ΑΣΚΗΣΗ 1

Πιθανότητες ΙΙ 1 o Μέρος. Οικονομικό Πανεπιστήμιο Αθηνών

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 3: Στατιστική επαγωγή στο απλό γραμμικό. Αναπληρωτής Καθηγητής. Σχολή Οργάνωσης και ιοίκησης Επιχειρήσεων Πανεπιστήμιο Πατρών

1. Σε περίπτωση κατά την οποία η τιμή ενός αγαθού μειωθεί κατά 2% και η ζητούμενη

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 30 ΜΑΪΟΥ 2000 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΧΗΜΕΙΑ ΣΥΝΟΛΟ ΣΕΛΙ ΩΝ: ΕΞΙ (6)

Η εξίσωση Black-Scholes

Συναρτήσεις & Κλάσεις

Καλλιεργήστε φρέσκα μυρωδικά στο μπαλκόνι

( ιμερείς) ΙΜΕΛΕΙΣ ΣΧΕΣΕΙΣ Α Β «απεικονίσεις»

Εισαγωγικές Διαλέξεις στην Θεωρία των Αλυσίδων Markov και των Στοχαστικών Ανελίξεων. Οικονομικό Πανεπιστήμιο Αθηνών

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 14 ΙΟΥΝΙΟΥ 2000 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ: ΦΥΣΙΚΗ ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΕΞΙ (6)

Συντάκτης: Παναγιώτης Βεργούρος, Οικονομολόγος Συγγραφέας βιβλίων, Μικρο μακροοικονομίας διαγωνισμών ΑΣΕΠ

Παντού σε αυτό το κεφάλαιο, αν δεν αναφέρεται κάτι διαφορετικό, δουλεύουμε σε ένα χώρο πιθανότητας (Ω, F, P) και η G F είναι μια σ-άλγεβρα.

Υπολογιστική Νοημοσύνη

Αναγνώριση Προτύπων. Σήμερα! Περιεχόμενο μαθήματος Διαδικαστικά Απαλλακτικές Εργασίες Εισαγωγή στο αντικείμενο του μαθήματος

Αντικειμενοστραφής. Προγραμματισμού

ΣΥΝΟΛΑ (προσέξτε τα κοινά χαρακτηριστικά των παρακάτω προτάσεων) Οι άνθρωποι που σπουδάζουν ΤΠ&ΕΣ και βρίσκονται στην αίθουσα

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΠΕΜΠΤΗ 22 ΙΟΥΝΙΟΥ 2000 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΠΕΝΤΕ (5)

21/11/2005 Διακριτά Μαθηματικά. Γραφήματα ΒΑΣΙΚΗ ΟΡΟΛΟΓΙΑ : ΜΟΝΟΠΑΤΙΑ ΚΑΙ ΚΥΚΛΟΙ Δ Ι. Γεώργιος Βούρος Πανεπιστήμιο Αιγαίου

Ανάπτυξη και υλοποίηση νέων τεχνικών. αναγνώρισης πραγματικού χρόνου ιδακτορική ιατριβή

Οι γέφυρες του ποταμού... Pregel (Konigsberg)

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ. Τρίτη Γραπτή Εργασία στη Στατιστική

Εξωτερικά υδραγωγεία: Αρχές χάραξης

Περιεχόμενο: Τυπικές τεχνικές αναθεώρησης λογισμικού

Εισαγωγή στις Διακριτές Πιθανότηες. Οικονομικό Πανεπιστήμιο Αθηνών

Kατάτμηση εικόνας. Σήμερα!

ΚΛΑΔΟΣ: ΠΕ11 ΦΥΣΙΚΗΣ ΑΓΩΓΗΣ

ΤΙΜΕΣ DISNEYLAND RESORT PARIS

Το κράτος είναι φτιαγμένο για τον άνθρωπο και όχι ο άνθρωπος για το κράτος. A. Einstein Πηγή:

Transcript:

Αναγνώριση Προτύπων Σημερινό Μάθημα Bias (απόκλιση) και variance (διακύμανση) Ελεύθεροι Παράμετροι Ελεύθεροι Παράμετροι Διαίρεση dataset Μέθοδος holdout Cross Validation Bootstrap

Bias (απόκλιση) και variance (διακύμανση) Έστω α(g) η εκτιμώμενη παράμετρος α μιας άγνωστης κατανομής G Έστω α =α(g ) η στατιστική εκτίμηση του στατιστική εκτίμηση του α(g) από Ν δείγματα X={x, x 2,, x N } της κατανομής G, που ορίζουν τη διακριτή κατανομή G Η καταλληλότητα της εκτίμησης ορίζεται από τα μεγέθη BIAS: πόσο αποκλίνει από την πραγματική τιμή VARIANCE: πόσο ποικίλει για διάφορα δείγματα Ελεύθεροι Παράμετροι Σχεδόν όλες οι τεχνικές αναγνώρισης προτύπων έχουν ελεύθερες παραμέτρους: Το πλήθος των γειτόνων στον k NN Κανόνα Ταξινόμησης Το πλήθος των χαρακτηριστικών στο πρόβλημα επιλογής χαρακτηριστικών Προκύπτουν δύο προβλήματα Επιλογή παραμέτρου (βέλτιστη) Αξιολόγηση Λύση: Αν έχουμε άπειρα δείγματα επιλέγουμε την παράμετρο που δίνει το μικρότερο σφάλμα σε όλο τον πληθυσμό. 2

Ελεύθεροι Παράμετροι Αν χρησιμοποιήσουμε όλα τα δεδομένα για να εκτιμήσουμε τις παραμέτρους και μετά υπολογίσουμε το σφάλμα, προκύπτουν δύο προβλήματα: Το αποτέλεσμα θα είναι υπερπροσαρμοσμένο στα δεδομένα εκπαίδευσης Το σφάλμα θα είναι μικρότερο από το πραγματικό ποσοστό λάθους. Διαίρεση dataset Αν η επιλογή παραμέτρων και η εκτίμηση σφάλματος πρέπει να γίνουν ταυτόχρονα τα δεδομένα πρέπει να διαιρεθούν σε 3 ανεξάρτητα μέρη: Training set: χρησιμοποιείται για εκπαίδευση και προσαρμογή των παραμέτρων Validation set: χρησιμοποιείται όπου είναι απαραίτητο για ρύθμιση των παραμέτρων (εκπαίδευση by steps) Test set: χρησιμοποιείται για να εκτιμηθεί η απόδοση του εκπαιδευμένου συστήματος. 3

Διαίρεση dataset Διαδικασία. Χωρίζουμε τα δεδομένα σε training, validation και test set 2. Επιλέγουμε αρχιτεκτονική και παραμέτρους για εκπαίδευση 3. Εκπαιδεύουμε το σύστημα με το training set 4. Αξιολογούμε το σύστημα με το validation set 5. Επαναλαμβάνουμε τα βήματα 2 4 για διαφορετικές αρχιτεκτονικές και παραμέτρους ρ 6. Επιλέγουμε το καλύτερο μοντέλο και το εκπαιδεύουμε με τα training και validation sets 7. Αξιολογούμε το σύστημα με το test set Διαίρεση dataset 4

Μέθοδος holdout Χωρίζουμε το σύνολο δεδομένων σε δύο υποσύνολα: Training set: χρησιμοποιείται για την εκπαίδευση του ταξινομητή Test set: χρησιμοποιείται για την εκτίμηση του σφάλματος Μειονεκτήματα μεθόδου holdout Η μέθοδος holdout έχει δύο βασικά μειονεκτήματα: Στην περίπτωση που έχουμε μικρό σύνολο δεδομένων, δεν είναι δυνατό να κρατήσουμε δείγματα για δοκιμή. Μπορεί ο χωρισμός στις δύο ομάδων να είναι τέτοιος που να παραπλανήσει το σφάλμα. 5

Επίλυση μειονεκτημάτων μεθόδου holdout Τα προβλήματα της μεθόδου holdout μπορούν να ξεπεραστούν με κάποιες άλλες μεθόδους, αυξάνοντας το υπολογιστικό κόστος: Cross Validation (διασταυρωμένη επικύρωση) Random Subsampling (τυχαία υποδειγματοληψία) Fold Cross Validation (διασταυρωμένη επικύρωση σε Κ μέρη) Leave one out Cross Validation (εξαίρεσε ένα) Bootstrap Random Subsampling Τυχαία Υποδειγματοληψία Η τυχαία υποδειγματοληψία εκτελεί Κ επαναλήψεις στο σύνολο δεδομένων Κάθε δειγματοληψία επιλέγει τυχαία ένα συγκεκριμένο αριθμό παραδειγμάτων δοκιμής (test set) χωρίς αντικατάσταση. Για κάθε νέα διαίρεση i ο ταξινομητης εκπαιδεύεται με τα υπόλοιπα δείγματα και μετά εκτιμάται το σφάλμα E i στο test set 6

Random Subsampling Τυχαία Υποδειγματοληψία Το συνολικό ποσοστό λάθους υπολογίζεται ως ο μέσος όρος των E i E = i= E i Fold Cross Validation Διασταυρωμένη Επικύρωση σε Κ μέρη Χώρισε το σύνολο δεδομένων σε Κ μέρη Για καθένα από τα Κ πειράματα χρησιμοποίησε τα Κ μέρη για training και για testing. Το πλεονέκτημα του Fold Cross validation σε σχέση με το Random Subsampling είναι ότι όλα τα δείγματα χρησιμοποιούνται κάποια στιγμή και στην εκπαίδευση και στη δοκιμή. 7

Fold Cross Validation Διασταυρωμένη Επικύρωση σε Κ μέρη E = i= E i Το συνολικό ποσοστό λάθους υπολογίζεται ως ο μέσος όρος όλων των πειραμάτων: E = E i i= Fold Cross Validation Πόσα μέρη; Για μεγάλο Κ Η εκτίμηση του σφάλματος είναι αρκετά ακριβής αλλά με μεγάλες αποκλίσεις. Αυξάνει το υπολογιστικό κόστος Για μικρό Κ Μειώνεται το πλήθος των πειραμάτων και το υπολογιστικό κόστος Το εκτιμώμενο σφάλμα θα είναι μεγαλύτερο από το πραγματικό αλλά με μικρότερες αποκλίσεις. Μια τυπική τιμή είναι Κ=0 8

Leave one out Cross Validation (εξαίρεσε ένα) Η Leave one out είναι ειδική περίπτωση της Fold Cross Validation Το επιλέγεται ίσο με το πλήθος των δειγμάτων Για σύνολο δεδομένων με N δείγματα θα γίνουν Ν πειράματα. Σε κάθε πείραμα Ν δείγματα χρησιμοποιούνται για training και για testing. Leave one out Cross Validation (εξαίρεσε ένα) E = i= E i Το συνολικό ποσοστό λάθους υπολογίζεται ως ο μέσος όρος όλων των πειραμάτων: N E = E i N i= 9

Bootstrap Από ένα σετ δεδομένων με Ν στοιχεία επιλέγουμε Ν τυχαία δείγματα (με αντικατάσταση) για training Τα στοιχεία που δεν επιλέχθηκαν καθόλου θα χρησιμοποιηθούν για testing. Το πλήθος ενδέχεται να αλλάζει σε κάθε πείραμα. Η διαδικασία επαναλαμβάνεται Κ φορές Bootstrap Το συνολικό ποσοστό λάθους υπολογίζεται ως ο μέσος όρος όλων των πειραμάτων 0