ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ

Σχετικά έγγραφα
Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΑΠΟΦΑΣΕΩΝ. Διαχωριστική Ανάλυση Λογιστική Παλινδρόμηση

Τμήμα Μαθηματικό & Τμήμα Μηχανικών Η/Υ & Πληροφορικής ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ. «Τα Μαθηματικά των Υπολογιστών και των Αποφάσεων»

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εισόδημα Κατανάλωση

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική Συμπερασματολογία

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

HMY 795: Αναγνώριση Προτύπων

Κεφάλαιο 2: Θεωρία Απόφασης του Bayes 2.1 Εισαγωγή

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Διαστήματα Εμπιστοσύνης

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Αναγνώριση Προτύπων Ι

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Στατιστική. Εκτιμητική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Στατιστική Επιχειρήσεων Ι

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

Λογιστική Παλινδρόμηση & Διαχωριστική Ανάλυση

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

Στοχαστικές Στρατηγικές

Στατιστική Συμπερασματολογία

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

1ο ΣΤΑΔΙΟ ΓΕΝΕΣΗ ΜΕΤΑΚΙΝΗΣΕΩΝ

HMY 795: Αναγνώριση Προτύπων

Θεωρία Λήψης Αποφάσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Δειγματοληψία στην Ερευνα. Ετος

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

E[ (x- ) ]= trace[(x-x)(x- ) ]

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ - ΠΡΟΣΟΜΟΙΩΣΗ

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ AΝΑΛΟΓΙΕΣ

Στατιστική Επιχειρήσεων ΙΙ

3. Κατανομές πιθανότητας

Αναγνώριση Προτύπων Ι

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΓΙΑ ΕΠΙΛΕΓΜΕΝΟ ΕΚΘΕΤΙΚΟ ΠΛΗΘΥΣΜΟ ΑΠΟ k ΠΛΗΘΥΣΜΟΥΣ

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

CRAMER-RAO ΚΑΤΩ ΦΡΑΓΜΑ - ΑΠΟ ΟΤΙΚΟΙ ΕΚΤΙΜΗΤΕΣ

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

Στατιστική Επιχειρήσεων Ι

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

HMY 795: Αναγνώριση Προτύπων

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2


Χ. Εμμανουηλίδης, 1

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17

HMY 795: Αναγνώριση Προτύπων

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

Άσκηση 2: Y=BX+C. Λύση:

z = c 1 x 1 + c 2 x c n x n

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Απλή Παλινδρόμηση και Συσχέτιση

P(200 X 232) = =

4.3. Γραµµικοί ταξινοµητές

X = = 81 9 = 9

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Transcript:

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ Είναι τεχνικές που έχουν σκοπό: τον εντοπισμό χαρακτηριστικών των οποίων οι αριθμητικές τιμές επιτυγχάνουν όσο το δυνατόν καλύτερο διαχωρισμό των παρατηρήσεων σε ήπερισσότερες κλάσεις Την εύρεση ενός κανόνα για την ένταξη νέων παρατηρήσεων σε μια από τις κλάσεις.

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΓΙΑ Καλούμε τις κλάσεις π και π. ΠΛΗΘΥΣΜΟΥΣ Ταξινομούμε τις παρατηρήσεις με βάση τις μετρήσεις p χαρακτηριστικών που εκφράζονται με το διάνυσμα:χ =[Χ,Χ,,Χ p ] όπου Χ,Χ,,Χ p τυχαίες μεταβλητές. Οι πληθυσμοί έχουν συναρτήσεις πυκνότητας πιθανότητας(σ.π.π.) f (x) και f (x) αντίστοιχα. Το σύνολο όλων των δυνατών μετρήσεων διαχωρίζεται σε περιοχές R και R.Αν η νέα παρατήρηση κείται στην περιοχή R τότε εντάσσεται στον πληθυσμό π διαφορετικά στον πληθυσμό π.

Θεωρούμε ομάδες σε μία πόλη: Π :άτομα που κατέχουν μηχανή θερισμού, Π :άτομα που δεν την κατέχουν. Ένας κατασκευαστής θέλει να ταξινομήσει τις οικογένειες με βάση τα: Χ :εισόδημα και Χ :διαθέσιμο κομμάτι γης. Λαμβάνουμε τυχαίο δείγμα = και = κάτοχοι και μη κάτοχοι αντίστοιχα. ΠΑΡΑΔΕΙΓΜΑ

ΠΑΡΑΤΗΡΗΣΕΙΣ ) Παρατηρούμε ότι οι κάτοχοι μηχανής τείνουν να έχουν μεγαλύτερο εισόδημα και έκταση γης από τους μη, αν και το εισόδημα φαίνεται να διαχωρίζει καλύτερα τις κλάσεις. ) Υπάρχει μερική επικάλυψη μεταξύ των κλάσεων. Στόχος μας είναι να δημιουργήσουμε έναν καλό κανόνα κατάταξης.

ΠΡΟΥΠΟΘΕΣΕΙΣ ) Ένας καλός κανόνας κατάταξης πρέπει να οδηγεί σε λίγες λανθασμένες ταξινομήσεις. ) Πρέπει να λαμβάνουμε υπόψιν τις «εκ των προτέρων» πιθανότητες μια παρατήρηση να ανήκει σε έναν από τους πληθυσμούς. 3) Τέλος οφείλουμε να συνυπολογίζουμε το κόστος των λανθασμένων κατατάξεων.

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ Έστω Ω: δειγματικός χώρος R ={x ΓΙΑ ΠΛΗΘΥΣΜΟΥΣ Ω/x ανήκει στην π κλάση} R =Ω-R p, p οι «εκ των προτέρων» πιθανότητες των π, π αντίστοιχα. Η δεσμευμένη πιθανότητα P( ) δηλαδή μια παρατήρηση να ανήκει στον πληθυσμό π, ενώ προέρχεται από τον π είναι: P( )=(x R π )= Ομοίως, η P( )=P(x R π )= F ( R = Ω R x ) dx F ( x ) R dx

P(σωστά ταξινομημένη στην π )= P(η παρατήρηση να προέρχεται από την π και να έχει σωστά ταξινομηθεί στη π )= P(x R π )P(π )=P( ) p P(λανθασμένα ταξινομημένη στην π )= P(η παρατήρηση να προέρχεται από την π και να έχει ταξινομηθεί λάθος στην π)= P(x R π )P(π ) = P( ) p P(σωστά ταξινομημένη στην π )= P(η παρατήρηση να προέρχεται από την π και να έχει σωστά ταξινομηθεί στη π )= P(x R π )P(π ) = P( ) p P(λανθασμένα ταξινομημένη στην π )=P(η παρατήρηση να προέρχεται από την π και να έχει ταξινομηθεί λάθος στην π )= P(x R π ) P(π )=P( ) p

ΤΑ ΚΟΣΤΗ Αν δεν λάβουμε υπόψιν το κόστος προκαλούνται προβλήματα. Το κόστος της λανθασμένης ταξινόμησης απεικονίζεται στον ακόλουθο πίνακα: True populatio: Classify as: π π π 0 C(/) π C(/) 0

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΓΙΑ ΠΛΗΘΥΣΜΟΥΣ Το αναμενόμενο κόστος λανθασμένων κατατάξεων (ECM) παρέχεται από τον τύπο: ECM=c( )*P( )p +c( )P( )*p Ένας καλός κανόνας οφείλει να ελαχιστοποιεί το ECM.

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΓΙΑ ΚΑΝΟΝΑΣ ΚΑΤΑΤΑΞΗΣ: ΠΛΗΘΥΣΜΟΥΣ f f ( x) ( x) R: C(/ ) C(/) P P f f ( x) ( x) R: < C C ( / ) ( / ) P P

ΠΑΡΑΔΕΙΓΜΑ Ένας ερευνητής διαθέτει αρκετά δεδομένα ώστε να εκτιμήσει τις συναρτήσεις πυκνότητας πιθανότητας f (x) και f (x). Υποθέτουμε ότι c( )=5 μονάδες και c( )=0 μονάδες. Επιπλέον το 0% των αντικειμένων ανήκουν στον π. Έτσι, οι εκ των προτέρων πιθανότητες είναι: p =0,8 και p =0,.

Προκύπτει ο κανόνας: R : f (x)/f (x) (0/5)(0,/0,8)=0,5 R : f (x)/f (x)<(0/5)(0,/0,8)=0,5 Για μια νέα παρατήρηση x 0 προκύπτουν: f (x 0 )=0.3 και f (x 0 )=0.4 f f ( ( X X 0 0 ) ) C( ) P =0.75> =0.5 C( ) P

ΚΡΙΤΗΡΙΑ Υπάρχουν και άλλα κριτήρια που χρησιμοποιούνται για τη δημιουργία του βέλτιστου κανόνα κατάταξης. )ΤΡΜ=Ρ(λανθασμένα ταξινομημένη στην π ή λανθασμένα ταξινομημένη στην π )= Ρ(η παρατήρησηναπροέρχεταιαπότηνπ και να είναι λανθασμένα ταξινομημένη) + Ρ(η παρατήρηση να προέρχεται από την π και να είναι λανθασμένα ταξινομημένη)= p + p R f ( x ) dx R f ( x ) dx

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΓΙΑ ΠΛΗΘΥΣΜΟΥΣ Η ελαχιστοποίηση του ΤΡΜ ισοδυναμεί με την ελαχιστοποίηση του ECM όταν τα κόστη των λανθασμένων κατατάξεων είναι ίσα. Άρα ο κανόνας κατάταξης δίνεται από τον τύπο: R :f (x)/f (x) p /p R : f (x)/f (x)<p /p )Οι εκ των υστέρων πιθανότητες κατά Bayes: Ρ(π x 0 )=P(Η παρατήρηση x 0 να ανήκει στο π )/ P (να παρατηρήσω x 0 )= P(να παρατηρήσουμε x 0 π )Ρ(π ) / {P(να παρατηρήσουμε x 0 π )Ρ(π ) + Ρ(να παρατηρήσουμε x 0 π ) Ρ(π )} = p f (x 0 )/{p f (x 0 )/{p f (x 0 )+p f (x 0 )} και

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΓΙΑ ΠΛΗΘΥΣΜΟΥΣ P(π x 0 ) = -P(π x 0 ) = = p f (x 0 )/{p f (x 0 )+p f (x 0 )} Ταξινομούμε μια παρατήρηση x 0 στο π όταν Ρ(π x 0 )>Ρ(π x 0 ) που ισοδυναμεί με το να θεωρήσουμε ότι τα κόστη λανθασμένων κατατάξεων είναι ίσα.

Α : Όταν Σ =Σ =Σ Θεωρούμε τις από κοινού πυκνότητες του Χ =[Χ,Χ,,Χ p ]για του πληθυσμούς π και π που δίνονται από τον τύπο: F i (x)={(π) p/ Σ / } - exp{-(x-μ i ) Σ - (x-μ i )} για i=,, όπου μ,μ γνωστά. R :{-(x-μ )'Σ - (x-μ )+(x-μ ) Σ - C( ) (x-μ )}/ (p /p ) R : {-(x-μ )'Σ - (x-μ )+(x-μ ) Σ - (x-μ )}/< (p /p ) Έτσι καταλήγουμε στον κανόνα κατάταξης: x 0 ανήκει στο π αν (μ -μ ) Σ - Χ 0 -(μ -μ ) Σ - (μ +μ )/ C( ) C( ) l[ (p /p )] Διαφορετικά x 0 ανήκει στο π. C( ) C( ) C( )

Στην πράξη Έστω, παρατηρήσεις από τους πληθυσμούς π και π αντίστοιχα με τους πίνακες δεδομένων τους: Χ (p ) =[X,X,,X ] και X (p ) =[X,X,,X ] x Υπολογίζουμε τα =ΣΧ j / j=,,...,, =ΣΧ j / x j=,,,, S (p p) =Σ(X j - )(X j - ) / ( -) x S (p p)= Σ(X j - x )(X j - ) /( -). Συνδυάζοντας τα S και S για τον υπολογισμό ενός αμερόληπτου εκτιμητή(α.ε) του Σ: x x

ΤΑΞΙΝΟΜΗΣΗ ΜΕ ΠΟΛΥΔΙΑΣΤΑΤΟΥΣ ΚΑΝΟΝΙΚΟΥΣ ΠΛΗΘΥΣΜΟΥΣ και παίρνουμε τον εξής κανόνα ταξινόμησης: Ταξινομούμε το x 0 στον π αν : διαφορετικά στον π. ( ) ( ) ( ) ( ) ( ) ( ) ( ) + + = + + + = S S S S S pooled ( ) ( ) ( ) ( ) ( ) + 0 l p p c c x x S x x x S x x pooled pooled

Έστω c c ( ) ( ) p p = τότε l()=0 και ο παραπάνω κανόνας για δύο κανονικούς πληθυσμούς ισοδυναμεί με τη σύγκριση της μεταβλητής ˆ ( ) y = l x = x x Spooledx στην παρατήρηση x 0 με τον αριθμό mˆ = x + όπου και ( ) ( ) ( ) x Spooled x+ x = y y y y = l ˆ ( ) x x Spooled ( ) x x Spooled x = x = l ˆ x = x

Δηλαδή, ο κανόνας που προέκυψε από την ελαχιστοποίηση του ECM για δύο κανονικούς πληθυσμούς είναι ισοδύναμος με τη δημιουργία δύο μονοδιάστατων πληθυσμών π και π. Ταξινομούμε μια νέα παρατήρηση x 0, στον π ήστονπ, ανάλογα με το αν το y0 = l ˆ x 0 πέφτει δεξιά ή αριστερά του μέσου ( mˆ ) μεταξύ των μέσων τιμών y,. y

Β : Όταν Σ Σ Κατά όμοιο τρόπο τα R,R ορίζονται ως εξής: R : Χ (Σ - -Σ - )Χ/ + (μ - Σ -μ - C Σ )Χ-k l{ C (p /p )} () ( ) ( ) R : Χ (Σ - -Σ - )Χ/ + (μ Σ - -μ Σ - )Χ-k<l{ (p /p )} () C( ) C( ) Όπου k=l{ Σ /Σ }+μ Σ - μ -μ Σ - μ ) Και έτσι ο κανόνας κατάταξης διαμορφώνεται ως εξής: Κατατάσσουμε το x 0 στο π αν ισχύει η σχέση () όπου Χ=x 0 διαφορετικά στο π.

ΤΑΞΙΝΟΜΗΣΗ ΜΕ ΠΟΛΥΔΙΑΣΤΑΤΟΥΣ ΚΑΝΟΝΙΚΟΥΣ ΠΛΗΘΥΣΜΟΥΣ ΑΔΥΝΑΜΙΑ ΤΟΥ ΚΑΝΟΝΑ ΚΑΤΑΤΑΞΗΣ: Η αδυναμία του κανόνα κατάταξης έγκειται στο ότι είναι ευαίσθητος στις αποκλίσεις από την κανονική κατανομή.

ΑΞΙΟΛΟΓΗΣΗ ΤΩΝ Οι δειγματικές συναρτήσεις ταξινόμησης μπορούν να αξιολογηθούν από την τιμή του AER( actual error rate): AER=p f ( x) dx + p R ΣΥΝΑΡΤΗΣΕΩΝ ΤΑΞΙΝΟΜΗΣΗΣ: R f ) dx Όπου R,R αντιπροσωπεύουν τις περιοχές ταξινόμησης που ορίζονται από τα δείγματα μεγέθους και αντίστοιχα. Ο AER δείχνει πως η δειγματική συνάρτηση ταξινόμησης θα αποδώσει σε μελλοντικά δείγματα. ( x

Apparet error rate( APER) Υπάρχει ένα μέτρο απόδοσης το οποίο δεν εξαρτάται από την μορφή των αρχικών δειγμάτων το οποίο καλείται apparet error rate( APER) Για και παρατηρήσεις από τους πληθυσμούς π και π αντίστοιχα παίρνουμε τον ακόλουθο cofusio matrix και APER=( Μ + M ) / ( + ) Actual membership Predicted membership π π π c M = - c π M = - C c

Αδυναμία του APER Ο APER υποεκτιμά τον AER κι αυτό αντιμετωπίζεται μόνο με τη χρήση μεγάλων δειγμάτων. Αυτό συμβαίνει διότι τα δεδομένα που έχουμε χρησιμοποιούνται για τη δημιουργία αλλά και την αξιολόγηση της συνάρτησης ταξινόμησης. Μπορούν να κατασκευαστούν άλλοι error-rate εκτιμητές που είναι καλύτεροι από τον APER, υπολογίζονται εύκολα και δεν απαιτούν υποθέσεις για τις κατανομές.

Μέθοδοι Αντιμετώπισης. Μια μέθοδος είναι να χωρίσουμε τα δεδομένα σε ένα traiig sample κι ένα validatio sample. Έχει όμως δυο μειονεκτήματα: a. Απαιτεί μεγάλα δείγματα και b. Η συνάρτηση που αξιολογείται δεν είναι αυτή που μας ενδιαφέρει.

. Μια δεύτερη μέθοδος είναι η Lachebruch holdout.. Παραλείπουμε μια παρατήρηση από τον πληθυσμό π και δημιουργούμε τη συνάρτηση ταξινόμησης που προκύπτει από αυτές που υπολείπονται ( -, ).. Ταξινομούμε τη holdout παρατήρηση με βάση την παραπάνω συνάρτηση. 3. Επαναλαμβάνουμε τα βήματα και ώσπου να ταξινομηθούν όλες οι παρατηρήσεις του π.( M (H) =ο αριθμός των παρατηρήσεων που έχουν ταξινομηθεί λανθασμένα)

4. Επαναλαμβάνουμε τα βήματα έως 3 για τις παρατηρήσεις του πληθυσμού π.( (H) M =οαριθμόςτωνholdout παρατηρήσεων που έχουν ταξινομηθεί λανθασμένα) Εκτιμούμε τις πιθανότητες P( ), P( ): (H) M ( )= ( )= P (H) M P E ( AER ) = (H) M + + (H) M

Παράδειγμα Εφαρμόζουμε τη μέθοδο Lachebruch s holdout για τον υπολογισμό των errorrates εκτιμητών για ίσα κόστη και ίσες εκ των προτέρων πιθανότητες. Χ Χ = 5 = 7 4 0 3 9 3 8 4 5 x x 3 = 0 4 = 7 S S = = 8 8

= ( ) Spooled = S + S 4 Με τη χρήση του κατάλληλου κανόνα κατάταξης προκύπτει ο cofusio matrix : 4 Classify as: True populatio: π π π π APER = = 6.33

Αφαιρώντας μια παρατήρηση από τον Χ έχουμε : x H = 4 3 3.5 = x =.5 H S 0 8 9 H = X H S H, pooled =.5 3 0 S H, pooled Τετραγωνική Απόσταση της = 0 8 ( ) x x S ( x x ) = 4.5 H H H,pooled Τετραγωνικ ή Απόσταση H H ( ) x x S ( x x ) = 0.3 H H H, pooled H της H x x H H.5 [ ] από τη x από τη x H H = =

Επειδή 0.3 > 4.5 κατατάσσουμε την παρατήρηση x H στον πληθυσμό π. Ακολουθώντας τα βήματα της μεθόδου καταλήγουμε στα αποτελέσματα: (H) M = και (H) M = Άρα : Ê ( ) AER = ( H ) ( H ) + + = + 3 + 3 M M =.5

Παράδειγμα Χ =διάμετρος δακτυλίων για το ο έτος που αναπτύχθηκε ο σολομός σε γλυκό νερό Χ = διάμετρος δακτυλίων για το ο έτος που αναπτύχθηκε ο σολομός σε θαλασσινό νερό Geder=,θηλυκό, αρσενικό

Στο traiig sample με = =50 έχουμε: x x 98.38 = 49.66 37.46 = 366.6 Με τον κανόνα κατάταξης για ίσα κόστη και ίσες εκ των προτέρων πιθανότητες προκύπτει ο cofusio matrix: Actual membership π : Alaska π : Caadia S S 60.608 = 88.093 36.090 = 33.505 Predicted membership π : Alaska π : Caadia 44 6 49 88.093 399.086 33.505 893.6

Η συνάρτηση ταξινόμησης είναι : y = -5.54 -.839x +.0594x Ο APER= 0.07 είναι αρκετά μικρός. Υπάρχει διαφορά στις διασπορές του για τους πληθυσμούς : y Sample Sample Stadard Mea Deviatio Alaska 50 4.44 3.53 Caadia 50-4.47.450

P(Caadia Alaska)> P(Alaska Caadia)

Συνάρτηση διαχωρισμού κατά Fisher O Fisher μετέτρεψε τις πολυδιάστατες παρατηρήσεις x σε μονοδιάστατες y τέτοιες ώστε οι y που προέρχονται από τους πληθυσμούς π και π να διαχωρίζονται όσο το δυνατόν περισσότερο. Δημιούργησε τις y σαν γραμμικό συνδυασμό των x. Η προσέγγισή του δεν προϋποθέτει την κανονικότητα των δεδομένων αλλά την ισότητα των πινάκων συνδιασπορών.

Η μεταβλητή y παίρνει τις τιμές y, y,, y για τον πρώτο πληθυσμό και y, y,, y για το δεύτερο πληθυσμό. Ο διαχωρισμός των δύο συνόλων εκφράζεται με τη μορφή: yj y + y j y y j j separatio = όπου s = = = s y ( ) ( y ) + Σκοπός είναι να επιλέξουμε το γραμμικό μετασχηματισμό των x που επιτυγχάνει το μέγιστο διαχωρισμό των δειγματικών μέσων τιμών, y. y y

Ο γραμμικός μετασχηματισμός : ˆ x ( x x ) y = l = S x pooled Μεγιστοποιεί το λόγο : Τετραγωνική Απόσταση μεταξύ των δειγματικών μέσων τιμών της y ( Δειγματική Διασπορά τ ης y) = ( ) ( ) y y lˆ x lˆ x ( lˆ d) s y = lˆ S pooled lˆ = lˆ S pooled lˆ για όλα τα πιθανά διανύσματα Η μέγιστη τιμή του λόγου είναι: ( ) D = x x S ( x x ) pooled lˆ όπου d= ( x x )

ΚΑΝΟΝΑΣ ΚΑΤΑΤΑΞΗΣ ΚΑΤΑ FISHER Κατατάσσουμε το x 0 στον πληθυσμό π αν: y = x x Spooledx0 mˆ = x x Spooled x+ ή ( ) ( ) ( ) 0 x y 0 mˆ 0 Κατατάσσουμε το x 0 στον πληθυσμό π αν: y 0 < mˆ ή y mˆ 0 <0

Η εύρεση του κατάλληλου απεικονίζεται γραφικά για p= στο παρακάτω σχήμα: lˆ

Έλεγχος Διαχωρισμού Υποθέτουμε ότι έχουμε δύο πολυδιάστατους κανονικούς πληθυσμούς π και π με κοινό πίνακα διασπορών Σ. Τότε ο έλεγχος Η 0 :μ =μ με Η :μ μ γίνεται με το στατιστικό: + p D ~ F u,v ( + ) p + όπου u=p και v = + p. Αν η Η 0 απορριφθεί συμπεραίνουμε ότι ο διαχωρισμός μεταξύ των πληθυσμών είναι σημαντικός.

Σχόλιο Ο σημαντικός διαχωρισμός δεν υποδηλώνει καλή ταξινόμηση. Κάθε κανόνας ταξινόμησης μπορεί να αξιολογηθεί ανεξάρτητα από κάθε έλεγχο διαχωρισμού.