ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΑΠΟΦΑΣΕΩΝ. Διαχωριστική Ανάλυση Λογιστική Παλινδρόμηση

Σχετικά έγγραφα
ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Τμήμα Μαθηματικό & Τμήμα Μηχανικών Η/Υ & Πληροφορικής ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ. «Τα Μαθηματικά των Υπολογιστών και των Αποφάσεων»

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Λογιστική Παλινδρόμηση & Διαχωριστική Ανάλυση

9. Παλινδρόμηση και Συσχέτιση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Εισόδημα Κατανάλωση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

Αριθμητική Ανάλυση και Εφαρμογές

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Y Y ... y nx1. nx1

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Παραδείγματα Ιδιοτιμές Ιδιοδιανύσματα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

ΜΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΙΣΗ

HMY 795: Αναγνώριση Προτύπων

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

HMY 795: Αναγνώριση Προτύπων

Λυμένες ασκήσεις στροφορμής

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

Στατιστική ανάλυση αποτελεσμάτων

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Συνολοκλήρωση και μηχανισμός διόρθωσης σφάλματος

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

Απλή Παλινδρόμηση και Συσχέτιση

X = = 81 9 = 9

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2011 για τα Τμήματα Ε.Τ.Τ. και Γ.Β. στη Στατιστική 25/02/2011

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΗ ΣΤΑΤΙΣΤΙΚΗ ΙΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ, ΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

Στατιστική Επιχειρήσεων Ι

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Χ. Εμμανουηλίδης, 1

Αριθμητική Ανάλυση και Εφαρμογές

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Το μοντέλο Perceptron

Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

E[ (x- ) ]= trace[(x-x)(x- ) ]

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas

= 7. Στο σημείο αυτό θα υπενθυμίσουμε κάποιες βασικές ιδιότητες του μετασχηματισμού Laplace, δηλαδή τις

Γ. Πειραματισμός Βιομετρία

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ 9. Κατανομές Δειγματοληψίας

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΓΙΑ ΕΠΙΛΕΓΜΕΝΟ ΕΚΘΕΤΙΚΟ ΠΛΗΘΥΣΜΟ ΑΠΟ k ΠΛΗΘΥΣΜΟΥΣ

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Ιδιάζουσες τιμές πίνακα. y έχουμε αντίστοιχα τις σχέσεις : Αυτές οι παρατηρήσεις συμβάλλουν στην παραγοντοποίηση ενός πίνακα

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

ΦΡΟΝΤΙΣΤΗΡΙΑ 7 ΚΑΙ 8

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

3. ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratified Random Sampling)

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

Αναγνώριση Προτύπων Ι

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Θεωρία Λήψης Αποφάσεων

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Στατιστική Συμπερασματολογία

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Μέθοδος μέγιστης πιθανοφάνειας

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

Transcript:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΑΠΟΦΑΣΕΩΝ Διαχωριστική Ανάλυση Λογιστική Παλινδρόμηση Χουντής Βασίλειος Επιβλέπων : Αλεβίζος Φίλιππος, Επίκουρος Καθηγητής

ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος ΚΕΦΑΛΑΙΟ Διαχωριστική Ανάλυση ` Εισαγωγή 6-7 Κανόνες Διαχωρισμού Δυο Ομάδων 7-9 Κανόνας Μέγιστης πιθανοφάνειας 9 Κανόνας του Bayes 3 Ελαχιστοποίηση του κόστους λανθασμένης κατάταξης -6 4 Ελαχιστοποίηση της συνολικής πιθανότητας λανθασμένης Κατάταξης 6-7 3 Διαχωρισμός δυο πληθυσμών με την χρήση της κανονικής κατανομής 7-7 4 Αξιολόγηση συναρτήσεων κατάταξης 7-3 5 Η διαχωριστική συνάρτηση του Fsher 3-35 6 Γενίκευση της διαχωριστικής ανάλυσης σε πληθυσμούς 35-36 6 Ελαχιστοποίηση του συνολικού κόστους λανθασμένης κατάταξης, 36-37 6 Ελαχιστοποίηση της συνολικής πιθανότητας λανθασμένης κατάταξης 37 63 Κανόνας του Bayes 37-38 64 Κατάταξη όταν οι πληθυσμοί ακολουθούν την κανονική κατανομή 38-4 65 Γεωμετρική ερμηνεία 4-43 7 Γενίκευση της διαχωριστικής ανάλυσης του Fsher σε oμάδες 43-53 ΚΕΦΑΛΑΙΟ Λογιστική παλινδρόμηση Εισαγωγή 54 Ερμηνεία της αποκρινόμενης συνάρτησης όταν η εξαγόμενη μεταβλητή είναι δυαδική 54-55 Ειδικά προβλήματα όταν η αποκρινόμενη μεταβλητή είναι δυαδική 55-57 Απλή λογιστική αποκρινόμενη συνάρτηση 57-58 Ιδιότητες της λογιστικής αποκρινόμενης συνάρτησης 58-59 Χρησιμότητες της λογιστικής αποκρινόμενης συνάρτησης 6 3 Απλή λογιστική παλινδρόμηση 6

3 Απλό λογιστικό μοντέλο παλινδρόμησης 6 3 Συνάρτηση πιθανοφάνειας 6-6 33 Εκτίμηση μέγιστης πιθανοφάνειας 6-63 34 Ερμηνεία του b 63-64 35 Επαναλαμβανόμενες παρατηρήσεις 64-65 4 Πολλαπλή λογιστική παλινδρόμηση 65 4 Πολλαπλό λογιστικό μοντέλο παλινδρόμησης 65-66 4 Προσαρμογή του μοντέλου 66-67 43 Ερμηνεία των συντελεστών 67-68 5 Κατασκευή μοντέλου 69 5 Βηματική κατασκευή μοντέλου 69 5 Μοντέλο απόκλισης 7-7 53 Μερική απόκλιση 7-74 54 Έλεγχος λόγου πιθανοφάνειας 74-75 55 Έλεγχος αξιοπιστίας (valdato) 75-76 6 Διαγνωστικά 76 6 Ανεπίσημες διαδικασίες για την καταλληλότητα του προσαρμοσμένου μοντέλου 76 6 x έλεγχος καλής προσαρμογής 76-78 63 Έλεγχος απόκλισης 78 64 Απόκλιση καταλοίπων 78-79 65 Ημι-κανονική πιθανότητα διαγράμματος με προσομοιωμένο φάκελο 79-8 7 Συμπεράσματα για τις παραμέτρους της λογιστικής παλινδρόμησης 8-8 7 Εκτίμηση διαστήματος για το 8-8 7 Ταυτόχρονη εκτίμηση διαστημάτων αρκετών 8 73 Έλεγχος για τα 8 8 Συμπεράσματα για τον αποκρινόμενο μέσο 83 8 Εκτιμητής σημείου 83 8 Διάστημα εμπιστοσύνης για τον αποκρινόμενο μέσο 83 83 Ταυτόχρονα διαστήματα εμπιστοσύνης αρκετών αποκρινόμενων συναρτήσεων 84 9 Πρόβλεψη μιας καινούριας παρατήρησης 84 9 Επιλογή του κανόνα πρόβλεψης 84-85 9 Έλεγχος αξιοπιστίας της πρόβλεψης από τις τιμές των σφαλμάτων 85 Πολύτομη λογιστική παλινδρόμηση 85-86 3

Άλλες προσεγγίσεις για τον διαχωρισμό ομάδων 86 Ομοιότητες- Διαφορές διαχωριστικής ανάλυσης- λογιστικής παλινδρόμησης 86-87 Βιβλιογραφία 4

Πρόλογος Στην σημερινή εποχή είναι μεγάλη η ανάγκη να κατατάσσουμε παρατηρήσεις σε γνωστές ομάδες - πληθυσμούς καθώς επίσης και να κάνουμε προβλέψεις Υπάρχουν πολλές μέθοδοι που κάνουν ή σκοπό έχουν να κατατάσσουν παρατηρήσεις Στην διπλωματική εργασία περιγράφω δυο από τις σημαντικότερες μεθόδους που χρησιμοποιούνται ευρέως στην στατιστική, την διαχωριστική ανάλυση (dscrmat aalyss) και την λογιστική παλινδρόμηση (lostc reresso) Στο πρώτο μέρος αναφέρω τι είναι η διαχωριστική ανάλυση, δίνω συνοπτικά μερικές εφαρμογές της μεθόδου και περιγράφω την διαφορά από την ανάλυση σε συστάδες Στην συνέχεια αναλύω τον διαχωρισμό δυο πληθυσμών που ακολουθούν την κανονική κατανομή και τα κριτήρια που πρέπει να λάβουμε υπόψη Στόχος μας είναι να κατασκευάσουμε μια συνάρτηση που θα διαχωρίζει όσο το δυνατόν καλύτερα τους δυο πληθυσμούς Πρέπει να σημειώσουμε ότι δεν υπάρχει τέλειος διαχωρισμός, δηλαδή ενδέχεται η συνάρτηση να κατατάσσει λανθασμένα μια παρατήρηση σε μια από τις δυο ομάδες Για αυτό πρέπει να λάβουμε υπόψη τα κόστη λανθασμένης κατάταξης και τις εκ των προτέρων πιθανότητες Ο βέλτιστος διαχωρισμός θα πραγματοποιηθεί αν καταφέρουμε να ελαχιστοποιήσουμε το κόστος λανθασμένης κατάταξης Στο τμήμα 3 βρίσκω την συνάρτηση κατάταξης όταν οι δυο πληθυσμοί έχουν ίσους πίνακες διασποράς (γραμμικός κανόνας κατάταξης) αλλά και όταν έχουν άνισες διασπορές (τετραγωνικός κανόνας κατάταξης) Εφόσον, έχω φτιάξει την συνάρτηση κατάταξης το επόμενο βήμα είναι να την αξιολογήσω Περιγράφω δυο τρόπους αξιολόγησης (επικύρωσης), τον υπολογισμό του ρυθμού σφάλματος και την holdout διαδικασία Στο τμήμα 5 αναφέρω την διαχωριστική ανάλυση του Fsher, τι υποθέσεις έκανε και πως κατάφερε να φτάσει στην ίδια συνάρτηση κατάταξης Στην συνέχεια κάνω μια γενίκευση της διαχωριστικής ανάλυσης αν έχω πληθυσμούς και δίνω το νέο τύπο της συνάρτησης κατάταξης όταν έχω ίσους και άνισους πίνακες διασποράς (γραμμικό τετραγωνικό διαχωριστικό σκορ) Ερμηνεύω γεωμετρικά το γραμμικό διαχωριστικό σκορ Στο τελευταίο τμήμα μελετάω την μέθοδο του Fsher όταν έχω πληθυσμούς και αποδεικνύω μερικά θεωρήματα Στο δεύτερος μέρος της διπλωματικής περιγράφω μια άλλη διαδικασία κατάταξης, την λογιστική παλινδρόμηση Δίνω συνοπτικά μερικές εφαρμογές της μεθόδου και αναλύω πότε χρησιμοποιούμε αυτή την μέθοδο Ξεκινώντας από το απλό γραμμικό μοντέλο παλινδρόμησης, αναφέρω τα προβλήματα που έχουμε τώρα που η μεταβλητή είναι δυαδική και πως τα αντιμετωπίζουμε, καταλήγοντας στην μορφή που έχει η απλή λογιστική συνάρτηση Περιγράφω τις ιδιότητες της λογιστικής αποκρινόμενης συνάρτησης και πως προσαρμόζουμε το λογιστικό μοντέλο παλινδρόμησης χρησιμοποιώντας τους εκτιμητές μέγιστης πιθανοφάνειας Κατόπιν δίνω την ερμηνεία του συντελεστή παλινδρόμησης και δίνω την μορφή της λογαριθμικής συνάρτησης πιθανοφάνειας όταν έχω επαναλαμβανόμενες παρατηρήσεις Στο τμήμα 4 περιγράφω το πολλαπλό λογιστικό μοντέλο παλινδρόμησης και στο τμήμα 5 πως κατασκευάζεται το μοντέλο Ελέγχω αν μπορούμε να παραλείψουμε μερικές προβλέπουσες μεταβλητές, χρησιμοποιώντας ένα στατιστικό που λέγεται μοντέλο απόκλισης, αλλά και από τον έλεγχο του λόγου πιθανοφάνειας Προτού όμως χρησιμοποιήσω το μοντέλο στην πράξη εξετάζω την καταλληλότητα του, δηλαδή αν ικανοποιεί τις ιδιότητες της λογιστικής αποκρινόμενης συνάρτησης και αναζητώ τα outlers και τις παρατηρήσεις που έχουν την μεγαλύτερη επιρροή Στα τμήματα 7 και 8 περιγράφω τα συμπεράσματα για τις παραμέτρους της λογιστικής παλινδρόμησης και για τον αποκρινόμενο μέσο, ενώ στο τμήμα 9 αναφέρω πως γίνεται η πρόβλεψη καινούριων παρατηρήσεων Τελειώνοντας αναφέρω την πολύτομη λογιστική παλινδρόμηση και 5

περιγράφω συνοπτικά τις ομοιότητες- διαφορές της διαχωριστικής ανάλυσης και της λογιστικής παλινδρόμησης 6

Διαχωριστική Ανάλυση Εισαγωγή Η βασική ιδέα της διαχωριστικής ανάλυσης ( ή διακριτικής ανάλυσης, dscrmat aalyss) είναι να κατατάξει παρατηρήσεις (συνήθως πολυδιάστατες) σε γνωστούς πληθυσμούς, με γνωστές κατανομές για κάθε πληθυσμό Ας υποθέσουμε ότι έχουμε K πληθυσμούς (ομάδες),,, με κάθε πληθυσμό γνωρίζουμε την κατανομή του Έστω για τον πληθυσμό αντιστοιχίζεται η κατανομή μεταβλητών, x x x x f ή Για τον x, όπου x είναι το διάνυσμα στήλη τυχαίων x x, x,, x Σκοπός της διαχωριστικής ανάλυσης είναι να «διαχωρίσει», δηλαδή να κατανείμει κάθε παρατήρηση στους K γνωστούς πληθυσμούς ομάδες Προφανώς ψάχνουμε για έναν διαχωριστικό κανόνα που στόχο έχει να κατατάξει σωστά όσο το δυνατόν περισσότερες παρατηρήσεις Οι εφαρμογές της μεθόδου είναι πάρα πολλές Είναι επίσης σημαντικό να αναφέρουμε ότι σε άλλες επιστήμες η μέθοδος αναφέρεται και με άλλες ονομασίες, όπως για παράδειγμα στην πληροφορική αναφέρεται ως αναγνώριση προτύπων (atter recoto) Μερικά παραδείγματα εφαρμογών της μεθόδου είναι τα ακόλουθα: Στην Ιατρική συνήθως το ενδιαφέρον είναι να διαγνώσουμε την ασθένεια κάποιου ασθενή με βάση κάποια συμπτώματα που αυτός έχει Δεδομένου πως για κάθε αρρώστια είναι γνωστά τα συμπτώματα της, θέλουμε να κατασκευάσουμε έναν κανόνα που να κάνει διάγνωση για κάθε καινούριο ασθενή λαμβάνοντας υπόψη τα συμπτώματα του Στα χρηματοοικονομικά οι τράπεζες ενδιαφέρονται να εντοπίσουν «καλούς» και «κακούς» πελάτες πριν την χορήγηση ενός δανείου ή μιας πιστωτικής κάρτας Ως «καλούς» πελάτες μπορούμε να θεωρήσουμε αυτούς που πληρώνουν κανονικά τις δόσεις τους και ως «κακούς» αυτούς που δεν πληρώνουν Συνεπώς, η τράπεζα μπορεί να σχηματίσει κανόνες, ώστε να κατατάξει κάθε καινούριο πελάτη σε μια από τις κατηγορίες, και πιθανότητα να αρνηθεί την έγκριση ενός δανείου είτε να εγκρίνει το δάνειο με όρους σύμφωνους με το επίπεδο κινδύνου (rs) που έχει διαγνώσει για το νέο πελάτη 7

Στις κοινωνικές επιστήμες υπάρχει έντονο το ενδιαφέρον να κατατάξουμε ομάδες πληθυσμού σε συγκεκριμένες κοινωνικές ομάδες με βάση μια σειρά από χαρακτηριστικά που έχουν, όπως προβλήματα, οικονομικοκοινωνικά χαρακτηριστικά κλπ Τέτοιες αποφάσεις μπορούν να χρησιμοποιηθούν για δημιουργία συγκεκριμένης κοινωνικής πολιτικής Στις προεκλογικές καμπάνιες και δημοσκοπήσεις συνήθως υπάρχει ένα έντονο πρόβλημα με τους αναποφάσιστους και γενικά αυτούς που δεν δηλώνουν καθαρά την προτίμηση τους Σε αυτή τη περίπτωση η διαχωριστική ανάλυση μπορεί να δημιουργήσει κανόνες, ώστε ο αναποφάσιστος να εντάσσεται σε κάποια ομάδα ψήφου Τα παραδείγματα προφανώς δεν εξαντλούνται σε αυτά που μόλις αναφέρθηκαν, αλλά δείχνουν την ποικιλία εφαρμογών της μεθόδου Είναι ενδιαφέρον να παρατηρήσει κανείς ότι η κατάταξη γίνεται είτε σε δυο ομάδες (παράδειγμα τράπεζας) είτε σε περισσότερες (παράδειγμα ιατρικής διάγνωσης) Τέλος, είναι σημαντικό να αναφέρουμε πως αν και η διαχωριστική ανάλυση μοιάζει με την ανάλυση κατά ομάδες έχει σημαντικές διαφορές από αυτή Η σημαντικότερη διαφορά είναι ότι στη διαχωριστική ανάλυση οι ομάδες είναι γνωστές κάτι που δεν ισχύει στην ανάλυση σε ομάδες, που σκοπός της είναι να βρει αυτές τις ομάδες Για αυτό τον λόγο ο στόχος είναι διαφορετικός Στη διαχωριστική ανάλυση προσπαθούμε να φτιάξουμε έναν κανόνα που θα μας βοηθήσει να λάβουμε αποφάσεις για το μέλλον, ενώ στην ανάλυση κατά συστάδες ο κύριος στόχος είναι να δημιουργήσουμε ομοειδείς ομάδες με σκοπό την κατανόηση των ήδη υπαρχόντων στοιχείων και την μείωση της διασποράς σε επιμέρους ομάδες Κανόνες Διαχωρισμού Δυο Ομάδων Αρχικά, θα ασχοληθούμε με την περίπτωση που έχουμε δυο πληθυσμούς ομάδες Έστω, και οι δυο γνωστοί πληθυσμοί, με συναρτήσεις πυκνότητας πιθανότητας f x αντίστοιχα, όπου x είναι ένα τυχαίο διάνυσμα διαστάσεων, f x και δηλαδή x x, x,, x Σκοπός μας είναι να κατασκευάσουμε έναν κανόνα που θα κατατάσσει κάθε καινούριο αντικείμενο (παρατήρηση) σε έναν από τους δυο πληθυσμούς Έστω, είναι ο δειγματικός χώρος, και έστω, R και R οι περιοχές που κατατάσσουμε τα αντικείμενα στο και πληθυσμό αντίστοιχα Δεδομένου πως κάθε αντικείμενο πρέπει να προσδιοριστεί σε έναν μόνο από τους δυο πληθυσμούς, τα σύνολα (οι περιοχές) R και R είναι αμοιβαίως αποκλειόμενα (ξένα) Επομένως, ισχύει R R Στην περίπτωση που x x, x φαίνεται στο σχήμα, το κάθε αντικείμενο μπορεί να τοποθετηθεί όπως 8

Εικόνα Περιοχές ταξινόμησης για δυο πληθυσμούς Ίσως σε αυτό το σημείο αναρωτηθούμε πως αυτό είναι δυνατόν να γνωρίζουμε ότι μερικές παρατηρήσεις ανήκουν σε έναν συγκεκριμένο πληθυσμό αλλά δεν είμαστε βέβαιοι σχετικά με άλλες (αυτό φυσικά είναι αυτό που κάνει την ταξινόμηση ως πρόβλημα) Υπάρχουν μερικές συνθήκες που μπορούν να αυξήσουν αυτή την προφανή ανωμαλία Ελλιπή γνώση της μελλοντικής παράστασης Παράδειγμα: Σε αιτήσεις μιας ιατρικής σχολής οι υπάλληλοι ίσως θελήσουν να ταξινομήσουν έναν υποψήφιο σε δυο κατηγορίες Είτε ότι μπορεί να αποφοιτήσει είτε ότι δεν μπορεί να αποφοιτήσει Αυτό μπορεί να γίνει με βάση τις βαθμολογίες των τεστ, τα αποτελέσματα των εργαστηρίων ή και άλλων πρακτικών του κολεγίου Έτσι, ο ακριβής διαχωρισμός μπορεί να γίνει στο τέλος μερικών χρόνων εκπαίδευσης (πχ με το τέλος του δεύτερου ακαδημαϊκού έτους) Τέλεια ή ακριβή πληροφόρηση απαιτεί καταστροφή του αντικειμένου Παράδειγμα: Η διάρκεια της ζωής μιας μπαταρίας ενός υπολογιστή καθορίζεται από την χρήση του μέχρι αυτό χαλάσει, και από την αντίσταση ενός κομματιού ενός υλικού που απαιτείται για την φόρτιση του μέχρι αυτό χαλάσει Χαλασμένα προϊόντα δεν πωλούνται Κάποιος θέλει να ταξινομήσει τα προϊόντα ως καλά ή χαλασμένα (χωρίς εξειδικεύσεις) στην βάση των συγκεκριμένων χαρακτηριστικών που αναφέραμε 3 Μη διαθέσιμη ή ακριβή πληροφορία 9

Παραδείγματα: Υποτίθεται ότι κάποια συγκεκριμένα aers γράφτηκαν από δύο καθηγητές πανεπιστημίου επειδή αυτοί υπέγραψαν αυτά Άλλα, aers παρ όλα αυτά δεν ήταν υπογεγραμμένα και το ενδιαφέρον είναι να καθορίσουμε ποιος από τους δυο καθηγητές έγραψε τα ανυπόγραφα aers Σαφώς, δεν μπορούμε να ρωτήσουμε αυτούς Η συχνότητα λέξεων και τα μήκη προτάσεων ίσως βοηθήσουν να ταξινομήσουμε τα αμφισβητούμενα aers Πολλά ιατρικά προβλήματα μπορούν να ταυτοποιηθούν μόνο κάνοντας μια δαπανηρή εγχείρηση Συνήθως, κάποιος θα του άρεσε να διαγνώσει μια ασθένεια εύκολα παρατηρούμενη από τα εξωτερικά συμπτώματα Αυτή η προσέγγιση βοηθάει στο να αποφεύγουμε άχρηστες και δαπανηρές εγχειρήσεις Αυτό θα έπρεπε να είναι σαφές από τα παραδείγματα που παρουσιάστηκαν παραπάνω ότι οι κανόνες διαχωρισμού δεν μπορούν να παρέχουν μια μέθοδο κατάταξης χωρίς κάποιο λάθος Αυτό οφείλεται στο ότι δεν υπάρχει μια καθαρή διάκριση ανάμεσα στα παρατηρούμενα χαρακτηριστικά του κάθε πληθυσμού, έτσι οι ομάδες ίσως επικαλύπτονται Αυτό είναι τότε πιθανόν για παράδειγμα, να ταξινομήσουμε λανθασμένα μια παρατήρηση ότι ανήκει στο πληθυσμό, ενώ στην πραγματικότητα ανήκει στο πληθυσμό, ή μια παρατήρηση να την τοποθετήσουμε στο πληθυσμό, δεδομένου πως προέρχεται από το πληθυσμό Συνεπώς, ένας κανόνας διαχωρισμού θα πρέπει να καταλήγει σε ελάχιστες λανθασμένες ταξινομήσεις Με άλλα λόγια, τα ρίσκα, ή οι πιθανότητες των λανθασμένων ταξινομήσεων θα πρέπει να είναι μικρές Κανόνας Μέγιστης πιθανοφάνειας Ο πιο απλός κανόνας που χρησιμοποιούμε για τον διαχωρισμό ομάδων, στηρίζεται στην ιδέα της πιθανοφάνειας και κατατάσσει κάθε παρατήρηση στον πληθυσμό από τον οποίο είναι πιο πιθανό να έχει προέλθει Ο κανόνας στην περίπτωση δυο πληθυσμών ορίζει τις περιοχές ως : x f R και f x : x f R f x : Επομένως, Αν f x f x πληθυσμό, και Αν f x f x πληθυσμό, κατατάσσουμε την καινούρια παρατήρηση x στον, κατατάσσουμε την καινούρια παρατήρηση x στον

Κανόνας του Bayes Ο κανόνας μέγιστης πιθανοφάνειας που μόλις είδαμε δεν λαμβάνει υπόψη του τα διαφορετικά μεγέθη των δυο πληθυσμών, δηλαδή δεν λαμβάνει υπόψη του την πιθανότητα να πάρουμε παρατήρηση από κάθε πληθυσμό Έστω, είναι η εκ των προτέρων πιθανότητα του πληθυσμού, και είναι η εκ των προτέρων πιθανότητα του πληθυσμού Επομένως, Ο κανόνας του Bayes χρησιμοποιεί για την κατάταξη των παρατηρήσεων την εκ των υστέρων πιθανότητα η παρατήρηση να προέρχεται από τον πληθυσμό αυτόν Οι εκ των υστέρων πιθανότητες είναι: P \ x \ \ P, x P x \ P P x P x P P x P f x f x f x \ \ P x P x f x f x f x Τώρα, η παρατήρηση x κατατάσσεται στον πληθυσμό με την μεγαλύτερη εκ των υστέρων πιθανότητα Δηλαδή ο κανόνας έχει την μορφή: Αν P \ x P / x, κατέταξε την παρατήρηση x στον πληθυσμό Αν P \ x P / x, κατέταξε την παρατήρηση x στον πληθυσμό Όμως, P \ x P / x f x f x f x f x f x f x f x f x f x f x Συνεπώς, ο κανόνας του Bayes ορίζει τις περιοχές ως: R f x : f x και R f x : f x

3 Ελαχιστοποίηση του κόστους λανθασμένης κατάταξης Όπως αναφέραμε προηγουμένως ένας κανόνας διαχωρισμού ενδέχεται να κατατάξει λανθασμένα μερικές παρατηρήσεις μέσα στους δυο πληθυσμούς Σε αυτήν την περίπτωση, ενδέχεται η κατάταξη μιας παρατήρησης στον πληθυσμό να παριστάνει ένα περισσότερο σοβαρό σφάλμα από ότι η κατάταξη μιας παρατήρησης στον πληθυσμό Τότε κάποιος θα πρέπει να είναι προσεκτικός σχετικά με το να κάνει την προηγούμενη κατάταξη Επομένως ένας βέλτιστος κανόνας θα πρέπει να λαμβάνει υπ όψιν του τα κόστη που σχετίζονται με λανθασμένες κατατάξεις Η δεσμευμένη πιθανότητα P \, της κατάταξης μιας παρατήρησης στον πληθυσμό, όταν στην πραγματικότητα αυτή προέρχεται από τον πληθυσμό είναι: \ \ P P x R f x dx () R Παρόμοια, η δεσμευμένη πιθανότητα P \, της κατάταξης μιας παρατήρησης στον πληθυσμό, όταν στην πραγματικότητα αυτή προέρχεται από τον πληθυσμό είναι: \ \ P P x R f x dx () R Το ολοκλήρωμα στην () παριστάνει τον όγκο που σχηματίζεται από την συνάρτηση πυκνότητας f x πάνω στην περιοχή R Παρόμοια, το ολοκλήρωμα στην () παριστάνει τον όγκο που σχηματίζεται από την f x πάνω στην περιοχή απεικονίζεται στην εικόνα για την μονοδιάστατη περίπτωση, R Αυτό Ακόμα, η δεσμευμένη πιθανότητα κατάταξης μια παρατήρησης στον πληθυσμό, όταν όντως αυτή ανήκει στο είναι:

\ \ P P x R f x dx (3) R ενώ η δεσμευμένη πιθανότητα κατάταξης μιας παρατήρησης στον πληθυσμό είναι: \ \ P P x R f x dx (4) R Οι συνολικές πιθανότητες των σωστών ή λανθασμένων κατατάξεων προκύπτουν από το γινόμενο των εκ των προτέρων με τις δεσμευμένες πιθανότητες κατάταξης: P( σωστά να κατατάσσεται στο ) = P( η παρατήρηση προέρχεται από το και σωστά κατατάσσεται στο ) \ \ P x R P P P( λανθασμένα να κατατάσσεται στο ) = P( η παρατήρηση προέρχεται από το και κατατάσσεται λανθασμένα στο ) \ \ P x R P P P(σωστά να κατατάσσεται στο ) = P( η παρατήρηση προέρχεται από το και σωστά κατατάσσεται στο ) \ \ P x R P P P( λανθασμένα να κατατάσσεται στο ) = P( η παρατήρηση προέρχεται από το και κατατάσσεται λανθασμένα στο ) \ \ P x R P P (3) Οι κανόνες κατάταξης συχνά εκτιμούνται σε σχέση με τις λανθασμένες πιθανότητες κατάταξης, αλλά αυτά αγνοούν τα κόστη λανθασμένης κατάταξης Για παράδειγμα, 6 P \ ίσως είναι αρκετά ακόμη και μια μικρή φαινομενικά πιθανότητα όπως μεγάλη εάν το κόστος του να κάνουμε έναν λανθασμένο προσδιορισμό σε είναι αρκετά υψηλό Ένας κανόνας που αγνοεί τα κόστη ίσως δημιουργήσει προβλήματα Τα κόστη των λανθασμένων κατατάξεων μπορούν να καθοριστούν από έναν πίνακα κόστους 3

Κατατάσσεται ως : Πραγματικός πληθυσμός : c \ c \ (4) Τα κόστη είναι : για σωστή κατάταξη, c \ όταν μια παρατήρηση από, λανθασμένα κατατάσσεται στο πληθυσμό, και c \ όταν μια παρατήρηση από, λανθασμένα κατατάσσεται στο πληθυσμό Επομένως, για κάθε κανόνα κατάταξης ο μέσος όρος, ή το αναμενόμενο κόστος λανθασμένης κατάταξης (exected cost of msclassfcato), το οποίο θα το συμβολίζουμε ως ECM, δίνεται από πολλαπλασιάζοντας τα μη διαγώνια στοιχεία του πίνακα (4) με τις αντίστοιχες πιθανότητες των σχέσεων (3) που ορίσαμε παραπάνω Συνεπώς, \ \ \ \ ECM c P c P (5) Ένας κανόνας κατάταξης πρέπει να έχει το ECM όσο το δυνατόν πιο μικρό Θεώρημα Οι περιοχές R και R, που ελαχιστοποιούν το ECM ορίζονται από τις τιμές του διανύσματος x για τις οποίες οι ακόλουθες ανισότητες ισχύουν και f x c \ R : f x c \ f x c \ (6) R : f x c \ Απόδειξη Γνωρίζουμε ότι \ \ \ \ ECM c P c P 4

Όμως, \ P f x dx και R / P f x dx R Άρα, η παραπάνω σχέση γίνεται: \ \ ECM c f x dx c f x dx R R Επειδή, R R, η συνολική πιθανότητα είναι: f x dx f x dx f x dx R R R R f x dx f x dx Αν αντικαταστήσουμε στο ECM έχουμε: ECM c \ f xdx c\ f x dx R R \ \ \ c c f x dx c f x dx R R \ \ \ c c f x dx c f x dx R R \ \ \ c c f x c f x dx Όμως, τα, R, c \ και \ συναρτήσεις πυκνότητας πιθανότητας c είναι μη αρνητικές ποσότητες Επιπλέον, οι f x και f x είναι μη αρνητικές για κάθε τιμή του διανύσματος x, και είναι οι μοναδικές ποσότητες στο ECM, που εξαρτώνται από το x Συνεπώς, το ECM ελαχιστοποιείται αν η περιοχή R πάρει εκείνες τις τιμές του διανύσματος x, για τις οποίες το παραπάνω ολοκλήρωμα γίνει μικρότερο ή ίσο του μηδενός Δηλαδή: R c \ f x c \ f x dx 5

c \ f x c \ f x \ \ c f x c f x f x c \ f x c \ Από το παραπάνω θεώρημα προκύπτει ότι ο βέλτιστος ECM απαιτεί: τον λόγο της συνάρτησης πυκνότητας που εκτιμάται στην καινούρια παρατήρηση x, τον λόγο των κοστών, και τον λόγο των εκ των προτέρων πιθανοτήτων Η εμφάνιση των λόγων στον ορισμό των βέλτιστων περιοχών κατάταξης είναι σημαντικός Συχνά, αυτό είναι πολύ ευκολότερο να ορίσουμε τους λόγους, από τα μέρη των συνιστωσών τους Για παράδειγμα, είναι δύσκολο να υπολογίσουμε το κόστος διαγραφής ενός φοιτητή όταν στην πραγματικότητα είναι ικανός να πάρει πτυχίο, ή το κόστος του να δεχτούμε έναν φοιτητή, όταν αυτός δεν πρόκειται να τελειώσει τις σπουδές του Παρ όλα αυτά, εμπειρικά γνωρίζουμε ότι το κόστος ενός ικανού φοιτητή που δεν τον δεχτήκαμε είναι πενταπλάσιο από το κόστος του να δεχτούμε έναν μη ικανό φοιτητή Σε αυτό το σημείο, θα αναφέρουμε μερικές ειδικές περιπτώσεις που σχετίζονται με τις βέλτιστες περιοχές κατάταξης Ειδικές περιπτώσεις Αν (ίσες εκ των προτέρων πιθανότητες), τότε f x c R : f x c \ \ f x c R : f x c \ \ Αν c c \ \ (ίσα κόστη λανθασμένης κατάταξης), τότε: R f x : f x R f x : f x 6

Αν c c \ \ ή και ίσα κόστη λανθασμένης κατάταξης), τότε: c \ (ίσες εκ των προτέρων πιθανότητες c \ x f R f x : x f R (7) f x : Παρατηρήσεις Όταν οι εκ των προτέρων πιθανότητες είναι άγνωστες, αυτές λαμβάνονται να είναι ίσες και ο ελάχιστος ECM κανόνας περιλαμβάνει σύγκριση του λόγου των πυκνοτήτων του πληθυσμού με τον λόγο των λανθασμένων κοστών κατάταξης Όταν ο λόγος των κοστών των λανθασμένων κατατάξεων είναι άγνωστος (ακαθόριστος), αυτός λαμβάνεται να είναι μονάδα, και τότε ο λόγος πυκνότητας πιθανότητας συγκρίνεται με τον λόγο των εκ των προτέρων πιθανοτήτων 3 Όταν και ο λόγος των εκ των προτέρων πιθανοτήτων και ο λόγος των κοστών των λανθασμένων κατατάξεων είναι μονάδα, ή ο ένας λόγος είναι αντίστροφος του άλλου, τότε οι περιοχές βέλτιστης κατάταξης καθορίζονται από την σύγκριση των τιμών των συναρτήσεων πυκνότητας πιθανότητας Σε αυτήν την περίπτωση, αν x είναι μια καινούρια παρατήρηση (το x είναι το διάνυσμα που ελαχιστοποιεί το ECM ) και ισχύει f x f x, τότε κατατάσσουμε το x στον πληθυσμό, ενώ αν f x f x, τότε κατατάσσουμε την καινούρια παρατήρηση στον πληθυσμό 4 Ελαχιστοποίηση της συνολικής πιθανότητας λανθασμένης κατάταξης Υπάρχουν κανόνες διαχωρισμού δυο πληθυσμών που δεν χρησιμοποιούν τα κόστη Αντιθέτως κατατάσσουν τις παρατηρήσεις ανάλογα με τις πιθανότητες λανθασμένης κατάταξης Σκοπός τους είναι να ελαχιστοποιήσουν την συνολική πιθανότητα λανθασμένων κατατάξεων (total robablty of msclassfcato), που θα την συμβολίζουμε με TPM, και ορίζεται ως: TPM = P( λανθασμένης κατάταξης μιας παρατήρησης ή λανθασμένης κατάταξης μιας παρατήρησης) = P( η παρατήρηση να προέρχεται από την και να κατατάσσεται λανθασμένα) + P( η παρατήρηση να προέρχεται από την και να κατατάσσεται λανθασμένα) \ \ P P (8) = f x dx f x dx R R 7

Αυτός ο κανόνας είναι ίδιος με την ελαχιστοποίηση του αναμενόμενου κόστους λανθασμένης κατάταξης στην περίπτωση που τα κόστη των λανθασμένων κατατάξεων είναι ίσα Σχόλια Ο κανόνας μέγιστης πιθανοφάνειας για τον διαχωρισμό δυο πληθυσμών ουσιαστικά προκύπτει από τον κανόνα της ελαχιστοποίησης του κόστους λανθασμένης κατάταξης, αν έχουμε ίσα κόστη και ίσες εκ των προτέρων πιθανότητες Όμοια, ο κανόνας του Bayes προκύπτει από την ελαχιστοποίηση του κόστους λανθασμένης κατάταξης, στην περίπτωση που έχουμε ίσα κόστη λανθασμένων κατατάξεων 3 Ουσιαστικά, οι κανόνες που αναφέραμε παρουσιάζουν μια κλιμάκωση σχετικά με το τι λαμβάνουμε υπόψη μας για να κατατάξουμε τις παρατηρήσεις Ο κανόνας πιθανοφάνειας είναι ο πιο απλός, στηρίζεται μόνο στο τι μοιάζει πιο πιθανό Στον κανόνα του Bayes λαμβάνουμε υπόψη τις πιθανότητες κάθε ομάδας, ενώ στον τελευταίο κανόνα λαμβάνουμε επίσης και το κόστος λανθασμένης κατάταξης Για ίσα κόστη και ίσες πιθανότητες ο κανόνας αυτός είναι απλά ο κανόνας πιθανοφάνειας Ουσιαστικά, αυτό που αλλάζει είναι η τιμή πάνω από την οποία κατατάσσουμε τις f x παρατηρήσεις, δηλαδή όλα τα κριτήρια είναι της μορφής c f x 4 Θα πρέπει να τονίσουμε ότι όλοι οι κανόνες που μόλις είδαμε καταλήγουν σε μια ντετερμινιστική απόφαση, δηλαδή άσχετα αν είναι πιθανό να κατατάξουμε λανθασμένα μια παρατήρηση σε κάποιον πληθυσμό, η κατάταξη γίνεται με ντετερμινιστικό τρόπο: η παρατήρηση κατατάσσεται ή όχι στον πληθυσμό Εναλλακτικά, θα μπορούσε κάποιος να χρησιμοποιήσει πιθανοθεωρητικά κριτήρια Για παράδειγμα, στον κανόνα του Bayes έχουμε τις πιθανότητες για κάθε ομάδα και κατατάσσουμε στην ομάδα με τη μεγαλύτερη πιθανότητα αγνοώντας αν αυτή η ομάδα μπορεί να μην είναι και πολύ πιθανή Για παράδειγμα, σε ένα πρόβλημα με 9 ομάδες μπορεί οι πιθανότητες για κάθε ομάδα να είναι για τις 8 ομάδες και για την τελευταία Εμείς θα κατατάξουμε σε αυτήν την ομάδα παρά το γεγονός ότι η πιθανότητα σφάλματος είναι τεράστια Μια εναλλακτική θεώρηση είναι να κατατάσσουμε με πιθανότητες, δηλαδή γεννώντας μια τυχαία μεταβλητή με βάση τις πιθανότητες κάθε ομάδας Ένα τέτοιο παράδειγμα είναι οι εκλογικές δημοσκοπήσεις, που θέλουμε να κατατάξουμε τους αναποφάσιστους 3 Διαχωρισμός δυο πληθυσμών με την χρήση της κανονικής κατανομής Σε αυτό το τμήμα της διπλωματικής θα προσπαθήσουμε να φτιάξουμε μια διαχωριστική συνάρτηση για δύο πληθυσμούς και, που ακολουθούν κανονικές κατανομές Αν x είναι ένα διάνυσμα στήλη διαστάσεων, δηλαδή x x, x,, x, τότε x ~, για τον πληθυσμό για τον πληθυσμό, με συναρτήσεις πυκνότητας πιθανότητας αντίστοιχα, και x ~, f x και f x 8

Τα και είναι τα διανύσματα μέσων (διαστάσεων ), και είναι της μορφής: x x x x πληθυσμό για τον πληθυσμό, και x x x για τον x Επιπλέον, και είναι πίνακες διασποράς διαστάσεων, για τους πληθυσμούς και αντίστοιχα ) Υποθέτουμε ότι οι δυο πληθυσμοί έχουν ίσους πίνακες διασποράς, δηλαδή όπου είναι της μορφής:,,,, Var x Cov x x Cov x x Cov x x Var x Cov x x Cov x Cov x, x Cov x, x Var x Οι συναρτήσεις πυκνότητας πιθανότητας για τους δυο πληθυσμούς είναι: f x ex x x f x ex x x για τον για τον Υποθέτουμε πως οι παράμετροι, και είναι γνωστοί Η παράσταση x x ορίζει ένα μέτρο απόστασης της καινούριας παρατήρησης x από το μέσο του πρώτου πληθυσμού (απόσταση Mahalaobs), ενώ η παράσταση x x δηλώνει την απόσταση του x από το μέσο του δεύτερου πληθυσμού Σκοπός μας είναι να κατασκευάσουμε μια διαχωριστική συνάρτηση που να ελαχιστοποιεί το αναμενόμενο σφάλμα λανθασμένης κατάταξης ECM Οι περιοχές κατάταξης είναι: 9

f x c \ και R : f x c \ f x c \ R : f x c \ Είναι: f x c \ f x c \ ex x x c\ c \ ex x x ex x x c\ c \ ex x x c \ ex x x x x c \ Άρα, η περιοχή κατάταξης για τον πληθυσμό παίρνει την μορφή: c \ R : ex x x x x c \ (9) Όμοια, βρίσκουμε: c \ R : ex x x x x c \ Δοθέντος των περιοχών R και R, μπορούμε να κατασκευάσουμε τον ακόλουθο κανόνα κατάταξης Θεώρημα c\ Αν x l c \ κατέταξε την παρατήρηση x στον πληθυσμό ()

c \ l c \ κατέταξε την παρατήρηση στον πληθυσμό Αν x Απόδειξη Μια παρατήρηση την κατατάσσουμε στην περιοχή R αν c \ ex x x x x c \ c \ l ex x x x x l c \ c \ x x x x l c \ c \ x x x x l c \ Όμως, γιατί: x x x x x x x x x x x x x x x x x x x x x x x x x

x x x Άρα, c\ x l c \ Όμοια αποδεικνύετε πως μια παρατήρηση κατατάσσεται στον πληθυσμό Στην πράξη, οι πληθυσμιακές ποσότητες, και είναι άγνωστες, για αυτό τις εκτιμούμε από τις δειγματικές τους ποσότητες Έστω, ένα δείγμα παρατηρήσεων για τον πληθυσμό, και ένα δείγμα παρατηρήσεων για τον πληθυσμό Οι αντίστοιχοι πίνακες δεδομένων για το διάνυσμα x x, x,, x διάστασης θα είναι: x x, x,, x για το και ( ) x x, x,, x για το ( ) όπου Τώρα, τις πληθυσμιακές μέσες τιμές και τις εκτιμούμε από τις δειγματικές μέσες τιμές x και x αντίστοιχα, τα οποία είναι διανύσματα μέσων τιμών διαστάσεων, και ορίζονται ως: x x j j x x j j Επιπλέον, τους πίνακες συνδιασποράς και τους εκτιμούμε από τους δειγματικούς πίνακες συνδιασποράς S και S αντίστοιχα, οι οποίοι είναι πίνακες διαστάσεων, και ορίζονται ως: S j x j x x j x S j x j x x j x Όμως,, για αυτό οι δειγματικοί πίνακες συνδιασποράς S και S συνδυάζονται (ooled), και δίνονται από το S ooled :

S ooled S S ο οποίος είναι μια αμερόληπτη εκτίμηση του S S () Αντικαθιστώντας τις πληθυσμιακές ποσότητες από τις δειγματικές τους, το θεώρημα γράφεται: c \ ooled ooled l c \ κατέταξε την παρατήρηση x στον πληθυσμό () Αν x x S x x x S x x c \ ooled ooled l c \ κατέταξε την παρατήρηση x στον πληθυσμό Αν x x S x x x S x x Παρατήρηση Αν στην σχέση (3) υποθέσουμε ότι c \ c \ c \ l c \ l c \ l c \, τότε ο παραπάνω κανόνας για τον πληθυσμό γράφεται: x x S x x x S x x ooled ooled x x S x x x S x x ooled ooled x x S x x x S x x x S x ooled ooled ooled τότε η παραπάνω σχέση γίνεται: Αν θέσουμε l x x S ooled 3

l x l x l x l x l x l x y y y (3) όπου: y l x, y l x και y l x και αν θέσουμε m y y τότε η (3) γίνεται: y m c\ Επομένως, στην περίπτωση που, ο δειγματικός κανόνας c \ κατάταξης γίνεται: Αν y m κατέταξε την παρατήρηση x στον πληθυσμό Αν y m κατέταξε την παρατήρηση x στον πληθυσμό Συνεπώς, στην περίπτωση που c \ c \, ο εκτιμώμενος ελάχιστος ECM κανόνας είναι ισοδύναμος με την δημιουργία δυο νέων μεταβλητών y, οι οποίες φτιάχνονται από έναν κατάλληλο γραμμικό συνδυασμό των παρατηρήσεων από τους πληθυσμούς και και τότε κατατάσσουμε μια παρατήρηση αν αυτή πέσει δεξιά ή αριστερά του m Επειδή οι μεταβλητές είναι πρώτου βαθμού ο κανόνας λέγεται γραμμικός κανόνας κατάταξης Τυποποίηση (scal) Ο συντελεστής του διανύσματος ˆ l S ( ) ooled x x δεν είναι μοναδικός Κάθε διάνυσμα της μορφής c lˆ, με c αποτελεί επίσης έναν συντελεστή διαχωρισμού Για να έχουμε όμως πάντα μια μοναδική λύση (έναν κανόνα διαχωρισμού) το διάνυσμα ˆl τυποποιείται Δυο από τις περισσότερες συχνά εφαρμοσμένες τυποποιήσεις είναι: ) Θέσε lˆ lˆ lˆ lˆ έτσι, το ˆl έχει μοναδιαίο μήκος (4) 4

) Θέσε ˆ ˆ l l έτσι ώστε το πρώτο στοιχείο του lˆ ˆl είναι (5) Και στις δυο περιπτώσεις, το ˆl είναι της μορφής c lˆ Για την πρώτη τυποποίηση το c l ˆ l ˆ, και για την δεύτερη το c lˆ / Οι ποσότητες των l ˆ ˆ ˆ, l,, l Στην (5), το l ˆ και τα ˆ ˆ l,, l της (4) όλες βρίσκονται μέσα στο διάστημα, εκφράζονται ως πολλαπλασιαστές του ˆl Αν περιορίσουμε το ˆl στο διάστημα, αυτό μας διευκολύνει σε μια οπτική σύγκριση των συντελεστών Παρόμοια, εκφράζοντας τους συντελεστές ως πολλαπλασιαστές του ˆl επιτρέπει σε κάποιον, άμεσα, να εκτιμήσει την σχετική σημαντικότητα των μεταβλητών x,, x ως διαχωριστές ) Όταν τότε οι περιοχές κατάταξης για τους δυο πληθυσμούς έχουν μια πιο σύνθετη μορφή Γνωρίζουμε ότι μια παρατήρηση x κατατάσσεται στον πληθυσμό αν: f x c \ f x c \ ex x x c\ c \ ex x x ex x x c\ c \ ex x x ex x x c\ c \ ex x x c \ ex x x x x c \ 5

c \ x x x x l l c \ x x x x x x x c \ x l l c \ x x x x x x x c \ x l l c \ x x x x x x c \ l l c \ x x x c \ l l c \ x x x c \ l l c \ c \ x x x l c \ όπου: l Επομένως, η περιοχή κατάταξης για τον πληθυσμό είναι: 6

c \ R : x x x l c \ Όμοια, αποδεικνύεται ότι: c \ R : x x x l c \ Δοθέντος των περιοχών κατάταξης R και R μπορούμε να κατασκευάσουμε τον ακόλουθο κανόνα, ο οποίος ελαχιστοποιεί το αναμενόμενο κόστος των λανθασμένων κατατάξεων Θεώρημα 3 Κατέταξε την παρατήρηση x στο πληθυσμό αν c \ x x x l c \ Κατέταξε την παρατήρηση x στο πληθυσμό αλλιώς Σχόλια Οι περιοχές κατάταξης δίνονται από συναρτήσεις που είναι δευτέρου βαθμού (τετραγωνικές συναρτήσεις) εξαιτίας του όρου x x, για αυτό ο κανόνας είναι γνωστός ως τετραγωνικός κανόνας κατάταξης x x, ο παραπάνω κανόνας κατάταξης είναι ίδιος με αυτόν που ορίζεται από την σχέση (9) Στην περίπτωση που Αν οι πληθυσμιακές παράμετροι,, και είναι άγνωστες, αυτές εκτιμούνται από τις δειγματικές ποσότητες x, x, S και S αντίστοιχα, και το θεώρημα 3 γίνεται: Κατέταξε την παρατήρηση x στον πληθυσμό αν c \ xs S x x S x S x l c \ 7

Κατέταξε την παρατήρηση x στον πληθυσμό αλλιώς 4 Αξιολόγηση συναρτήσεων κατάταξης Εφόσον φτιάξουμε τις συναρτήσεις κατάταξης, το επόμενο βήμα είναι να τις αξιολογήσουμε, να ελέγξουμε δηλαδή πόσο καλά αυτές οι συναρτήσεις διαχωρίζουν τους πληθυσμούς Α) Ένας σημαντικός τρόπος αξιολόγησης των συναρτήσεων κατάταξης είναι ο υπολογισμός του ρυθμού σφάλματος ) Στην περίπτωση που οι πληθυσμοί και είναι γνωστοί, μπορούμε να υπολογίσουμε τη συνολική πιθανότητα λανθασμένης κατάταξης TPM Η ελάχιστη τιμή που μπορεί να πάρει το TPM αποτελεί το βέλτιστο ρυθμό σφάλματος (otmum error rate), συμβολίζεται ( OER ) και δίνεται από την σχέση: OER m TPM m f x dx f x dx R R (6) ) Στην πράξη οι πληθυσμοί δεν είναι τελείως γνωστοί, για αυτό χρησιμοποιούμε τις δειγματικές συναρτήσεις κατάταξης, οι οποίες αξιολογούνται από τον πραγματικό ρυθμό σφάλματος (actual error rate), το συμβολίζουμε με AER και δίνεται από την σχέση: Rˆ ˆ R (7) AER f x dx f x dx όπου ˆR και ˆR παριστάνουν τις περιοχές κατάταξης, όταν χρησιμοποιήσουμε δυο δείγματα μεγέθους και, για να εκτιμήσουμε τους πληθυσμούς και, αντίστοιχα Έτσι, ˆ c \ : R x x S ooled x x x S ooled x x l c \ ˆ c \ : R x x S ooled x x x S ooled x x l c \ 3) Όμως, τον πραγματικό ρυθμό σφάλματος δεν μπορούμε να τον υπολογίσουμε γιατί αυτός εξαρτάται από τις άγνωστες συναρτήσεις πυκνότητας πιθανότητας f x και f x Για αυτόν τον λόγο χρησιμοποιούμε ένα άλλο μέτρο αξιολόγησης, που δεν εξαρτάται από καμία διαδικασία κατάταξης Αυτό το μέτρο το ονομάζουμε 8

φαινομενικό ρυθμό σφάλματος (aaret error rate), το συμβολίζουμε με APER και ορίζεται από το κλάσμα των παρατηρήσεων στο εκπαιδευόμενο δείγμα που λανθασμένα κατατάσσονται από την δειγματική συνάρτηση διαχωρισμού Για τον υπολογισμό του φτιάχνουμε έναν cofuso matrx: Πραγματικές σχέσεις Προβλεπόμενες σχέσεις όπου: c C c C ο αριθμός των παρατηρήσεων από τον πληθυσμό ο αριθμός των παρατηρήσεων από τον πληθυσμό c ο αριθμός των παρατηρήσεων που σωστά κατατάσσονται στο M ο αριθμός των παρατηρήσεων που λανθασμένα κατατάσσονται στο c ο αριθμός των παρατηρήσεων που σωστά κατατάσσονται στο M ο αριθμός των παρατηρήσεων που λανθασμένα κατατάσσονται στο Ο φαινομενικός ρυθμός σφάλματος ορίζεται ως : APER (8) Ο APER για να δώσει καλά αποτελέσματα πρέπει τα μεγέθη των δειγμάτων και να είναι αρκετά μεγάλα, αλλιώς τείνει να υποτιμήσει το AER Αυτό συμβαίνει γιατί τα δεδομένα που χρησιμοποιούνται για την κατασκευή της συνάρτησης κατάταξης είναι τα ίδια που χρησιμοποιούνται για να την αξιολογήσουν 4) Μια άλλη διαδικασία είναι να χωρίσουμε το δείγμα σε δυο μέρη, στο εκπαιδευόμενο δείγμα (tra samle), και στο δείγμα επικύρωσης (valdato samle) Το εκπαιδευόμενο δείγμα χρησιμοποιείται για να κατασκευάσει την συνάρτηση κατάταξης και το δείγμα επικύρωσης χρησιμοποιείται για να αξιολογήσει αυτήν Ο ρυθμός σφάλματος τώρα καθορίζεται από την αναλογία των λανθασμένων κατατάξεων στο δείγμα επικύρωσης Αν και αυτή η μέθοδος υπερνικά το πρόβλημα να χρησιμοποιήσουμε τα ίδια δεδομένα για να κτίσουμε και να αξιολογήσουμε την συνάρτηση κατάταξης, αυτή έχει δυο σημαντικά μειονεκτήματα ι) Απαιτεί μεγάλα δείγματα 9

ιι) Η συνάρτηση που αξιολογείται δεν είναι η συνάρτηση κατάταξης που μας ενδιαφέρει Εν τέλει, σχεδόν όλα τα δεδομένα πρέπει να χρησιμοποιηθούν για την κατασκευή της διαχωριστικής συνάρτησης, γιατί αλλιώς πολύτιμη πληροφορία ίσως χαθεί Β) Ένας άλλος τρόπος αξιολόγησης της συνάρτησης κατάταξης είναι η χρησιμοποίηση ενός αλγορίθμου, της Lachebruch s holdout διαδικασίας ) Ξεκίνα με την ομάδα Παρέλειψε μια παρατήρηση από αυτήν την ομάδα και φτιάξε μια συνάρτηση κατάταξης που στηρίζεται στις παραμένοντες, παρατηρήσεις ) Κατέταξε την holdout παρατήρηση χρησιμοποιώντας την συνάρτηση που κατασκευάστηκε στο βήμα 3) Επανέλαβε τα βήματα και μέχρι όλες οι παρατηρήσεις της ομάδας καταταχθούν Έστω ( ) είναι ο αριθμός των holdout που κατατάσσονται λανθασμένα σε αυτήν την ομάδα H παρατηρήσεων ( H ) 4) Επανέλαβε τα βήματα μέχρι το 3 για τις παρατηρήσεις Έστω είναι ο αριθμός των holdout παρατηρήσεων που κατατάσσονται λανθασμένα σε αυτήν την ομάδα Οι εκτιμήσεις P ˆ / και ˆ / κατάταξης ορίζονται ως: Pˆ \ Pˆ \ ( H ) ( H ) και η συνολική αναλογία λανθασμένης κατάταξης, P των δεσμευμένων πιθανοτήτων λανθασμένης H H εκτίμηση του αναμενόμενου πραγματικού ρυθμού σφάλματος, δείγματα, είναι μια αμερόληπτη E AER για μέτρια Eˆ AER H H (9) 3

Εφαρμογή Θα υπολογίσουμε τον βέλτιστο ρυθμό σφάλματος για δυο πληθυσμούς που έχουν ίσες εκ των προτέρων πιθανότητες και ίσα κόστη λανθασμένης c / c / κατάταξης c \ Δεδομένου ότι: c \ οι περιοχές κατάταξης είναι: l R : x R : x Αν θέσουμε όπου y x l x βρίσκουμε ότι: R y y : R y y :, από το θεώρημα (σχέση ) έχουμε ότι Επειδή οι y προκύπτουν από έναν γραμμικό συνδυασμό των x, θα ακολουθούν και αυτές την κανονική κατανομή Δηλαδή y ~ Y, Y y Y για τον πληθυσμό, όπου: ~, Y l Y l Y l l Γνωρίζουμε ότι: OER m TPM Άρα, θα βρούμε το ελάχιστο TPM Είναι: για τον πληθυσμό και 3

R R TPM f x dx f x dx f xdx f x dx R R P / P/ P Y P Y Y Y P Y Y Y Y P Y Y P Y Y P Y Y P Y Y P Y Y P 3

Y Y P Y Y P Y Y P P Z P Z P Z P Z P Z P Z Επομένως, OER 5 Η διαχωριστική συνάρτηση του Fsher Ο Fsher προσπάθησε να διαχωρίσει δυο πληθυσμούς- ομάδες, χωρίς να κάνει καμία υπόθεση για την κατανομή των πληθυσμών Το μόνο που υπέθεσε είναι ότι οι δυο πληθυσμοί έχουν ίσους πίνακες συνδιασποράς, αφού χρησιμοποίησε την συνδυασμένη κοινή (ooled) εκτίμηση S ooled 33

Έστω, y l x και y l x οι συναρτήσεις (σκορ) που αντιστοιχούν στους πληθυσμούς και αντίστοιχα Τα σκορ των δυο πληθυσμών θα πρέπει να είναι όσο το δυνατόν πιο απομακρυσμένα, έτσι ώστε να μπορούμε να διαχωρίσουμε τους δυο πληθυσμούς και να κατατάσσουμε κάθε καινούρια παρατήρηση σε έναν από τους δυο πληθυσμούς Ένα μέτρο του πόσο κοντά είναι αυτά τα σκορ δίνεται από την ποσότητα D y y s y, όπου s y y j y y j y j j είναι η συνολική εκτίμηση της διασποράς ( y j l x j και y j l x j ) Δηλαδή ο Fsher πήρε την απόσταση των μέσων των δυο πληθυσμών σε απόλυτη τιμή διαιρούμενο από την τυπική απόκλιση, έτσι ώστε να απαλλαγεί από τις μονάδες μέτρησης (αποτελεί μια μορφή τυποποίησης) Σκοπός είναι να μεγιστοποιήσει την απόσταση D, ή αντίστοιχα, την απόσταση D, καθώς αυτό σημαίνει ότι τα σκορ των δυο πληθυσμών θα είναι όσο γίνεται πιο διαφορετικά μεταξύ τους Θεώρημα 4 Η απόσταση D μεγιστοποιείται για D x x S ooled x x Απόδειξη Είναι D y y s y D y y sy D y y sy D l x l x sy D l x x l S l ooled Από την ανισότητα Caushy - Schwarz έχουμε ότι για κάθε διανύσματα a και b ισχύει ότι: ab a ab b Εφόσον ο πίνακας συνδιακυμάνσεων είναι θετικά ορισμένος, μπορούμε να θέσουμε ότι: και b S x x a S l, όπου: S S ooled Άρα, η προηγούμενη ανισότητα γίνεται: S l S x x S l S l S x x S x x 34

l S S x x l S S l x x S S x x l x x l S l x x S x x l S l x x l x S x x x l S l l S l l x x l S l x x S x x D x x S x x Επομένως το Για αυτή την τιμή D μεγιστοποιείται για D x x S x x έχουμε τη μέγιστη απόσταση μεταξύ των μέσων των δυο πληθυσμών, και συνεπώς τον καλύτερο διαχωρισμό Ο διαχωριστικός κανόνας ολοκληρώνεται ορίζοντας την κρίσιμη τιμή m, η οποία είναι η μέση τιμή των y και y Δηλαδή: m x x S x x y y l x l x l x x Έτσι, ο κανόνας του Fsher έχει την ακόλουθη μορφή: Κατέταξε την παρατήρηση x στο πληθυσμό αν y m Κατέταξε την παρατήρηση x στο πληθυσμό αλλιώς Σχόλια ) Το y στον παραπάνω κανόνα είναι εκείνη η τιμή που μεγιστοποιεί την απόσταση D ) Ο διαχωριστικός κανόνας του Fsher είναι ίδιος με τον ελάχιστο κανόνα λανθασμένης κατάταξης στην περίπτωση που έχουμε ίσα κόστη και ίσες εκ των προτέρων πιθανότητες Συνεπώς, και οι δυο διαχωριστικοί κανόνες που προέκυψαν με διαφορετική λογική ταυτίζονται 3) Η μέθοδος του Fsher χρησιμοποιείται περισσότερο στην πράξη γιατί δεν κάνει καμία υπόθεση για την κατανομή των δυο πληθυσμών (δεν υποθέτει ότι οι δυο πληθυσμοί ακολουθούν κανονική κατανομή) Παρ όλα αυτά, υποθέτει γραμμικότητα 35

(αφού y l x ), δηλαδή ότι οι δυο πληθυσμοί μπορούν να χωριστούν από μια γραμμή 4) Σε μερικές περιπτώσεις βολεύει ο υπολογισμός του D, γιατί μπορούμε να τον χρησιμοποιήσουμε για να ελέγξουμε αν οι πληθυσμιακοί μέσοι και διαφέρουν σημαντικά Συνεπώς, ένας έλεγχος για τις διαφορές των διανυσμάτων των μέσων μπορεί να απεικονισθεί ως ένας έλεγχος για την σπουδαιότητα του διαχωρισμού η οποία επιτεύχθηκε Αν υποθέσουμε ότι οι δυο πληθυσμοί ακολουθούν την κανονική κατανομή τότε ένας έλεγχος της μορφής H : έναντι της H : μπορεί να πραγματοποιηθεί Αν η υπόθεση H απορριφθεί, συμπεραίνουμε ότι ο διαχωρισμός ανάμεσα στους πληθυσμούς και είναι σημαντικός 5) Το παρακάτω σχήμα απεικονίζει την διαδικασία που γίνεται για το μέγιστο διαχωρισμό των δυο πληθυσμών Όλα τα σημεία σχεδιάζονται μέσα σε μια γραμμή με κατεύθυνση ˆl, και αυτή η κατεύθυνση μεταβάλλεται μέχρι τα δείγματα να είναι μέγιστα διαχωρισμένα 6 Γενίκευση της διαχωριστικής ανάλυσης σε πληθυσμούς Σε αυτή την ενότητα θα προσπαθήσουμε να γενικεύσουμε την θεωρία της διαχωριστικής ανάλυσης όταν έχουμε πληθυσμούς Θα δούμε τη μορφή παίρνει ο κανόνας του αναμενόμενου κόστους λανθασμένης κατάταξης ECM, ο κανόνας του Bayes, και ο κανόνας της συνολικής πιθανότητας λανθασμένης κατάταξης TPM 36

Έστω, f x : η συνάρτηση πυκνότητας πιθανότητας του πληθυσμού,,,, : η εκ των προτέρων πιθανότητα του πληθυσμού,,,, c \ : το κόστος της κατάταξης ενός αντικειμένου στο πληθυσμό, όταν στην πραγματικότητα αυτό ανήκει στο πληθυσμό, για,,,, R : η περιοχή στην οποία αν πέσει σε αυτή το αντικείμενο κατατάσσεται στο πληθυσμό \ P f x dx η πιθανότητα κατάταξης ενός αντικειμένου στο R πληθυσμό, όταν στην πραγματικότητα αυτό ανήκει στο πληθυσμό, για,,,, Αν c \ \ P \ P 6 Ελαχιστοποίηση του συνολικού κόστους λανθασμένης κατάταξης Έστω, ECM είναι το (δεσμευμένο) αναμενόμενο κόστος της κατάταξης ενός αντικειμένου στο, ή στο 3,, ή στο πληθυσμό και ισούται με: \ \ \ \ 3 \ 3 \ \ \ ECM P c P c P c P c \ \ 3 \ 3 \ \ \ ECM P c P c P c ECM P \ c \ Όμοια, ορίζονται και τα ECM,, αναμενόμενο κόστος λανθασμένης κατάταξης είναι: ECM ECM ECM ECM ECM Συνεπώς, το (συνολικό) P c P c P c \ \ ( / ) ( / ) \ \ 37

P \ c \ Σκοπός μας είναι να ελαχιστοποιήσουμε το ECM Για αυτό κατατάσσουμε την παρατήρηση στον πληθυσμό, όπου το παραπάνω άθροισμα είναι το μικρότερο Θεώρημα 5 Κατέταξε την παρατήρηση x στο πληθυσμό, για,,, για το οποίο το f xc \ () είναι το μικρότερο Αν μια ισοπαλία συμβεί, το x τοποθετείται σε οποιονδήποτε από τους ισόπαλους πληθυσμούς 6 Ελαχιστοποίηση της συνολικής πιθανότητας λανθασμένης κατάταξης Στην περίπτωση που τα κόστη λανθασμένης κατάταξης είναι ίσα, τότε ο κανόνας του ελάχιστου αναμενόμενου κόστους λανθασμένης κατάταξης είναι ίδιος με τον κανόνα της ελάχιστης συνολικής πιθανότητας λανθασμένης κατάταξης TPM Με το ίδιο σκεπτικό τοποθετούμε μια παρατήρηση x στο πληθυσμό, για,,, για το οποίο το όρος f x είναι το μικρότερο Αυτό συμβαίνει όταν ο παραλειπόμενος f x είναι ο μεγαλύτερος Συνεπώς, το παραπάνω θεώρημα γράφεται: Κατέταξε το x στο αν f x f x για κάθε () ή ισοδύναμα, Κατέταξε το x στο αν l f x l f x για κάθε 63 Κανόνας του Bayes Ο κανόνας του Bayes κατατάσσει την παρατήρηση σε εκείνον τον πληθυσμό που έχει P \ x, όπου: την μεγαλύτερη εκ των υστέρων πιθανότητα P \ x \ \ P, x P x \ P P x P x P P x P 38

\ \ \ P x f x P x P x f x 64 Κατάταξη όταν οι πληθυσμοί ακολουθούν την κανονική κατανομή Όπως γνωρίζουμε όταν οι πληθυσμοί ακολουθούν την κανονική κατανομή η συνάρτηση πυκνότητας πιθανότητας έχει την μορφή: f x ex x x,,,, όπου είναι τα διανύσματα μέσων (διάστασης ) και συνδιασποράς ( διάστασης ) οι πίνακες Έστω, ότι τα κόστη λανθασμένης κατάταξης είναι ίσα, συνεπώς κατατάσσουμε μια παρατήρηση x στο αν l f x l f x για κάθε Είναι: l f x l l f x l l ex x x l l l ex x x l l l x x l l l x x max l f x Στην παραπάνω σχέση η σταθερά l μπορεί να αγνοηθεί γιατί είναι ίδια για όλους τους πληθυσμούς Επομένως κατατάσσουμε την παρατήρηση x στο πληθυσμό αν το l x x l είναι το μεγαλύτερο από όλους τους πληθυσμούς Ορίζουμε ως τετραγωνικό διαχωριστικό σκορ (quadratc dscrmato score) για τον πληθυσμό την ποσότητα 39

Q l d x x x l και ο κανόνας κατάταξης γίνεται: Σχόλια Κατέταξε το x στο αν το τετραγωνικό σκορ από τα Q, Q,, Q Q d x είναι το μεγαλύτερο d x d x d x () Q ) Παρατηρούμε ότι το τετραγωνικό σκορ d διασπορά, την εκ των προτέρων πιθανότητα x, παράγεται από την γενικευμένη, και την τετραγωνική απόσταση του x από τον πληθυσμιακό μέσο Κάθε φορά πρέπει να υπολογίζουμε τέτοιες ποσότητες και να τις συγκρίνουμε μεταξύ τους ) Στην πράξη τα και είναι άγνωστα, για αυτό τα εκτιμούμε από τις δειγματικές τους ποσότητες, τα x και S αντίστοιχα x j xj και S j xj x xj x όπου είναι το μέγεθος του δείγματος του πληθυσμού Τότε η εκτίμηση του τετραγωνικού διαχωριστικού σκορ ˆQ d x είναι : ˆQ d x l S x x S x x l Άρα, κατατάσσουμε την παρατήρηση x στο αν το τετραγωνικό σκορ ˆ Q ˆ Q ˆ Q το μεγαλύτερο από τα,,, Παρατήρηση Αν d x d x d x Q l d x x x l Q l l d x x x x ˆQ d x είναι Q l l d x x x x x Q l l d x x x x x 4

Q d x l x x x l Οι δυο πρώτοι όροι είναι ίδιοι για όλα τα Q, Q,, Q d x d x d x, και συνεπώς, αυτοί μπορούν να αγνοηθούν Η ποσότητα x l αποτελείται από μια σταθερά l και από ένα γραμμικό συνδυασμό των x, για αυτό λέγεται γραμμικό διαχωριστικό σκορ και ορίζεται ως: d x x l (3) Μια εκτίμηση του γραμμικού διαχωριστικού σκορ είναι: ˆ d x x S ooled x x S ooled x l όπου: S ooled S S S Άρα, κατατάσσουμε το x στο πληθυσμό αν το ˆ ˆ ˆ d x, d x,, d x dˆ x είναι το μεγαλύτερο από τα 65 Γεωμετρική ερμηνεία Τα γραμμικά διαχωριστικά σκορ πρέπει να συγκριθούν ανά δυο Συνεπώς κατατάσσουμε μια παρατήρηση x στο πληθυσμό αν d x d x d x d x x l x l x x l l x l x l 4

x l (4) d x l, για κάθε,,, όπου: d x x Από την (4) μπορούμε να βρούμε τις περιοχές R, R,, R Αυτές διαχωρίζονται από υπερεπίπεδα, γιατί ο του x d x είναι ένας γραμμικός συνδυασμός των συνιστωσών Για παράδειγμα, όταν 3, η περιοχή R αποτελείται από όλα τα x που ικανοποιούν την ανισότητα : R : d x l για,3 δηλαδή αποτελείται από εκείνα τα x που ικανοποιούν ταυτόχρονα τις ανισότητες: d x x l 3 d3 x 3 x 3 3 l Υποθέτοντας ότι τα,, και 3 δεν κείτονται κατά μήκος μιας ευθείας γραμμής, οι εξισώσεις d x l και 3 d 3 x l ορίζουν δυο τεμνόμενα επίπεδα τα οποία απεικονίζουν το R στον -διάστατο χώρο Ο όρος l τοποθετεί το επίπεδο κοντύτερα στο από ότι στο αν το είναι μεγαλύτερο από το Οι περιοχές R, R και R 3 απεικονίζονται στην παρακάτω εικόνα για την περίπτωση των δυο μεταβλητών 4

)Στην περίπτωση που τα γίνεται: και είναι άγνωστα τα εκτιμούμε και έτσι ο κανόνας Κατέταξε το x στο πληθυσμό αν ˆ d x x x S ooled x x x S ooled x x l και οι περιοχές κατάταξης απεικονίζονται με τον ίδιο τρόπο για κάθε ) Αν οι εκ των προτέρων πιθανότητες είναι άγνωστες θέτουμε / l d x Ουσιαστικά, ο κανόνας για 3 θα είναι: Αν ισχύει Αν ισχύει Αν ισχύει d x και d x και d x κατατάσσουμε το x στην ομάδα 3 d x κατατάσσουμε το x στην ομάδα 3 d3 x και d x κατατάσσουμε το x στην ομάδα 3 3 Ισχύει d x d3 x d3 x d x d x d x, άρα οι ευθείες τέμνονται σε ένα σημείο όπου 3 3 Αν έχουμε δυο μόνο μεταβλητές x και x, οι γραμμικές διαχωριστικές συναρτήσεις χωρίζουν το επίπεδο σε 3 περιοχές, κάθε περιοχή αντιστοιχεί και σε μια ομάδα, δηλαδή οι παρατηρήσεις σε αυτήν την περιοχή ανήκουν σε μια ομάδα Έτσι, όταν θέλουμε να κατατάξουμε καινούριες παρατηρήσεις, απλώς κοιτάμε σε ποια περιοχή πέφτουν 43

Παρατήρηση Αν μπορούμε να φτιάξουμε και έναν άλλο κανόνα κατάταξης Αν στην () αγνοήσουμε τον σταθερό όρο l, τότε μπορούμε να κατατάξουμε το x D x l είναι το μεγαλύτερο, όπου: D x x x S x x είναι οι τετραγωνικές αποστάσεις του x από τον στον πληθυσμό, για το οποίο το ooled δειγματικό μέσο x Αυτός ο κανόνας κατατάσσει το x στο κοντινότερο πληθυσμό Υπάρχει βέβαια ένα λάθος εξαιτίας του l Αν όμως οι εκ των προτέρων πιθανότητες είναι άγνωστες, τότε θέτουμε /, και η παρατήρηση τοποθετείται στον κοντινότερο πληθυσμό Σχόλιο Ο γραμμικός διαχωριστικός κανόνας στηρίζεται στην υπόθεση ότι οι πληθυσμοί ακολουθούν κανονικές κατανομές και έχουν ίσους πίνακες συνδιακύμανσης Προτού λοιπόν, εφαρμόσουμε τον κανόνα πρέπει να ελέγξουμε αν ισχύουν οι δυο υποθέσεις Αν μια από τις δυο ή και οι δυο υποθέσεις παραβιάζονται προτού προχωρήσουμε στον κανόνα πρέπει να μετασχηματίσουμε τα δεδομένα Αντιθέτως, οι τετραγωνικοί κανόνες υποθέτουν μόνο κανονικότητα Αν υπάρχει αμφιβολία για την καταλληλότητα του γραμμικού ή τετραγωνικού κανόνα, τότε μπορούμε να κατασκευάσουμε και τους δυο και να ελέγξουμε τον ρυθμό των σφαλμάτων τους από την Lachebruch holdout διαδικασία 7 Γενίκευση της διαχωριστικής ανάλυσης του Fsher σε ομάδες Ο Fsher επέκτεινε την μέθοδο του και για τον διαχωρισμό περισσότερων από δυο πληθυσμούς Έστω, ότι έχουμε ομάδες- πληθυσμοί, που έχουν ίσους πίνακες συνδιασποράς διάστασης, και διανύσματα μέσων τιμών,,, διάστασης Τότε το διάνυσμα της μέσης τιμής όλων των πληθυσμών είναι: Στην μέθοδο του Fsher δεν μας ενδιαφέρει αν οι πληθυσμοί ακολουθούν την κανονική κατανομή Έστω, x x, x,, x και Y Y, Y,, Y είναι οι μεταβλητές που προκύπτουν από τον γραμμικό μετασχηματισμό των x παρατηρήσεων Δηλαδή: 44

l x l x Y l x l x Η μέση τιμή του Y δοθέντος ότι η παρατήρηση προέρχεται από τον είναι: E Y l E X l / και η διασπορά για όλους τους πληθυσμούς είναι: Var Y l Cov X l l l Η ολική μέση τιμή είναι: πληθυσμό Y Y l l l Σχηματίζουμε τον λόγο: l l l l l l l l Y Y Y l B l l Y Y Y l (5) όπου: B Ο παραπάνω λόγος αποτελεί ένα μέτρο της μεταβλητότητας ανάμεσα στις ομάδες (varablty betwee rous) των Y τιμών σε σχέση με την κοινή μεταβλητότητα εντός των ομάδων (varablty wth rous) Τότε μπορούμε να επιλέξουμε το l που μεγιστοποιεί αυτόν τον λόγο, ώστε να πετύχουμε τον καλύτερο διαχωρισμό Στην πράξη τα και είναι άγνωστα, για αυτό τα εκτιμούμε με αντίστοιχα Έστω, για κάθε πληθυσμό,,, x και αντιστοιχεί ένα δείγμα μεγέθους Η δειγματική μέση τιμή για τον πληθυσμό είναι Η ολική μέση τιμή είναι: x xj j S ooled, με 45

x x x x x j j x το οποίο είναι ένα διάνυσμα διάστασης Όμοια το Γνωρίζουμε ότι: S ooled B εκτιμάται από το Bˆ x x x x S S S S S S ooled ooled xj x xj x j W αν W xj x xj x j W S ooled Επομένως, το ίδιο ˆl lˆ Bˆ ˆ l που μεγιστοποιεί το, μεγιστοποιεί επίσης και το lˆ S lˆ lˆ Bˆ ˆ l Εξάλλου, μπορούμε να παρουσιάσουμε το βέλτιστο lˆ W lˆ ˆl στην περισσότερο συνηθισμένη μορφή ως ιδιοδιανύσματα e ˆ του πίνακα W Bˆ, επειδή αν ˆ ˆ ˆ W B e eˆ S Bˆ eˆ ˆ eˆ ooled τότε ooled Έστω, ˆ, ˆ ˆ,, s s m, είναι οι μη μηδενικές ιδιοτιμές του W Bˆ και e ˆ,, ˆ e s είναι τα αντίστοιχα ιδιοδιανύσματα έτσι ώστε eˆ S ˆ ooled e, όπου Τότε το διάνυσμα των συντελεστών ˆl το οποίο μεγιστοποιεί τον λόγο : ˆ l x ˆ ˆ ˆ ˆ x x x l l B l ˆ ˆ lw l lˆ x ˆ j x xj x l j (6) 46

δίνεται από l ˆ eˆ Ο γραμμικός συνδυασμός ˆl x καλείται ως ο πρώτος δειγματικός διαχωριστής Η επιλογή l ˆ eˆ παράγει τον δεύτερο δειγματικό διαχωριστή, ˆl x, υπό, Συνεχίζοντας, το l ˆ ˆ x e x είναι ο κ-οστός δειγματικός διαχωριστής, με s, υπό την υπόθεση Covl x, l x, με την υπόθεση Covl x l x Ακόμα, Var l x, για,,, s Απόδειξη Έστω, P P, όπου είναι ένας διαγώνιος πίνακας με θετικά στοιχεία Τότε είναι ο διαγώνιος πίνακας με στοιχεία P P Είναι P P και Αν a l τότε και a a l l l l a B a l B l l B l Άρα, αρκεί να μεγιστοποιήσουμε τον λόγο a B a ( πάνω στο διάνυσμα a a a ) Αποδεικνύεται ότι το μέγιστο αυτού του λόγου είναι, η μεγαλύτερη ιδιοτιμή του B Το μέγιστο συμβαίνει όταν a e, που είναι το κανονικοποιημένο ιδιοδιάνυσμα που σχετίζεται με το Επειδή e a l l e και Var l x l l e e e e e e Ακόμα, a κάθετο στο e, άρα το μέγιστο του παραπάνω λόγου είναι για a e, που είναι το κανονικοποιημένο ιδιοδιάνυσμα που αντιστοιχεί στην ιδιοτιμή Όμοια βρίσκουμε, e a l l e και Cov l x, l x l l e e e e, αφού το e είναι κάθετο στο e Var l x l l e e Ακόμα, 47

Συνεχίζουμε με τον ίδιο τρόπο και για τους υπόλοιπους διαχωριστές Παρατήρηση ) Τις ιδιοτιμές ˆ ˆ ˆ,,, s τις βρίσκουμε αν λύσουμε την ορίζουσα W B ˆ I, όπου I είναι ο μοναδιαίος πίνακας, και τα ιδιοδιανύσματα τα βρίσκουμε λύνοντας την εξίσωση W Bˆ ˆ ˆ I l Y Έστω, Y το διάνυσμα των διαχωριστών (διάστασης s ), που έχει μέση τιμή Y s Y l Y για τον πληθυσμό και πίνακα συνδιασποράς I, για όλους Y l s s τους πληθυσμούς Επειδή τα Y έχουν διασπορές μονάδες και μηδενικές συνδιασπορές, τότε η τετραγωνική απόσταση του Y y από το Y είναι : y y y Y Y j Yj j s Ένας κανόνας κατάταξης είναι να τοποθετήσει το y στον πληθυσμό αν η τετραγωνική απόσταση του y από το είναι μικρότερη από την τετραγωνική απόσταση του y από το Y για κάθε Αν μόνο r από τους s διαχωριστές χρησιμοποιούνται για την κατάταξη, ο κανόνας είναι: Κατέταξε το x στο πληθυσμό αν Y y Y l j j x l j l j x l j x r r r r j j j j για κάθε (7) Σε αυτό το σημείο θα ελέγξουμε τον περιορισμό ότι έχουμε s διαχωριστές, δηλαδή ότι έχουμε s μη μηδενικές ιδιοτιμές του πίνακα ή του, τέτοιες ώστε s m, Απόδειξη Ο B είναι ένας πίνακας, έτσι πρέπει s Ακόμα, έχουμε πληθυσμούς που θέλουμε να διαχωρίσουμε Αν σχηματίσουμε τα διανύσματα των διαφορών B B 48