Σεμινάριο Προηγμένα Θέματα Στατιστικής Dr. Nikolaos Mittas Dr. Theodosios Theodosiou
Λογιστική Παλινδρόμηση Binary Logistic Regression Dr. Nikolaos Mittas Dr. Theodosios Theodosiou
Γενικά-Το κίνητρο (1/2) Σε διάφορες επιστήμες οι εξαρτημένες μεταβλητές είναι κατηγορικές και συχνά διχότομες (dichotomous) π.χ. ανακούφιση από πόνο μετά από συγκεκριμένη θεραπεία, μόλυνση ή όχι από τον ιό HIV, επιβίωση μετά από μία εγχείρηση ή όχι κλπ Μειονέκτημα της κλασικής γραμμικής παλινδρόμησης (linear regression) είναι ότι δε μπορεί να μοντελοποιήσει τέτοιου τύπου μεταβλητές 3
Γενικά-Το κίνητρο (2/2) Ένα μεγάλο εύρος μεθοδολογιών έχει αναπτυχθεί για την ανάλυση συνόλων δεδομένων με κατηγορικές εξαρτημένες μεταβλητές Logistic Regression, Discriminant Analysis, Classification and Regression Trees κτλ. Η Λογιστική Παλινδρόμηση (Logistic Regression- LR) αποτελεί μία μορφή παλινδρόμησης Η εξαρτημένη μεταβλητή είναι κατηγορική και διχότομη (δύο μόνο κατηγορίες) 4
Binary Logistic Regression-Γενικά LR καθορίζει την επίδραση πολλαπλών ανεξάρτητων μεταβλητών πάνω σε μία διχότομη εξαρτημένη μεταβλητή Στόχος Πρόβλεψη νέων περιπτώσεων σε μία από τις 2 κλάσεις/τάξεις (classification) H LR χρησιμοποιείται για μοντελοποίηση: Ποσοτικών και Κατηγορικών (mixed) ανεξάρτητων μεταβλητών Προτιμάται από την Discriminant Analysis: Όταν έχουμε μόνο 2 κατηγορίες για την εξαρτημένη μεταβλητή Απλούστερη στο χειρισμό mixed ανεξάρτητων μεταβλητών Λιγότερες υποθέσεις 5
Αποτυχία Γραμμικού Μοντέλου Διάγραμμα διασποράς μεταξύ των Χ και Υ (0 και 1) Δεν προσαρμόζεται ευθεία γραμμή στα δεδομένα Ποιο μοντέλο πρέπει να χρησιμοποιήσουμε; 6
Μαθηματικό Υπόβαθρο 7
Υποθέσεις (1/2) 8
Υποθέσεις (2/2) 9
Στόχος 10
Odds Ratio 11
Logit (logarithm of odds) 12
Ερμηνεία Συντελεστών (1/3) 13
Ερμηνεία Συντελεστών (2/3) 14
Ερμηνεία Συντελεστών (3/3) 15
Logistic Regression στο SPSS Στο SPSS το μοντέλο κατασκευάζεται ώστε να προβλέπει το group με το μεγαλύτερο αριθμό (με βάση την κωδικοποίηση) Εάν το Yes έχει κωδικοποιηθεί με 1 και το No με 2, τότε προβλέπει το βαθμό συγγένειας για την κατηγορία No Εάν το No έχει κωδικοποιηθεί με 1 και το Yes με 2, τότε προβλέπει το βαθμό συγγένειας για την κατηγορία Yes Προσοχή!!! Η μόνη λύση για να αλλάξει η προβλεπόμενη κατηγορία είναι η επανακωδικοποίηση 16
Logistic Regression στο SPSS-Τι προβλέπει Η πρόβλεψη που εξάγεται από το SPSS Πιθανότητα μεταξύ 0 και 1 Κατηγορία με βάση κάποιο κατώφλι (cut point) και προεπιλεγμένη τιμή (default value) 0.50 Εάν η πιθανότητα είναι μικρότερη από 0.50 Η περίπτωση κατατάσσεται στην 1 η κατηγορία Εάν η πιθανότητα είναι μεγαλύτερη από 0.50 Η περίπτωση κατατάσσεται στην 2 η κατηγορία 17
Logistic Regression στο SPSS-Μέγεθος Δείγματος 18
Logistic Regression στο SPSS-Επιλογή Μεταβλητών Υπάρχουν 2 μέθοδοι για επιλογή των ανεξάρτητων μεταβλητών που θα εισέρθουν στο μοντέλο: Ταυτόχρονη (enter) Όλες οι μεταβλητές εισέρχονται την ίδια στιγμή Εισαγωγή/εξαγωγή με βήματα (forward/backward) Οι μεταβλητές επιλέγονται ώστε να μεγιστοποιείται στατιστικά η συνεισφορά τους στο μοντέλο 19
Logistic Regression στο SPSS-Υπολογιστικές Μέθοδοι 20
Logistic Regression στο SPSS-Υπολογιστικές Μέθοδοι 21
Συνολικός Έλεγχος Προσαρμογής 22
Παράδειγμα Δερματολόγοι από ένα μεγάλο νοσοκομείο μελετούν ασθενείς με ψωρίαση (Pain Data.sav) Αναθέτουν τυχαία 45 ασθενείς σε 3 groups: Group 1 Λαμβάνει τη θεραπεία Α Group 2 Λαμβάνει τη θεραπεία Β Group 3 Λαμβάνει placebo Ανεξάρτητες μεταβλητές: Gender, Age, Group Εξαρτημένη μεταβλητή Relief: 0=No relief 1=Relief 23
Binary Logistic Regression στο SPSS 24
Μενού Categorical 25
Δήλωση Κατηγορικών Μεταβλητών Επιλογή κατηγορικών μεταβλητών Επιλογή κατηγορίας αναφοράς Στο παράδειγμα μας επιλέγουμε την τελευταία κατηγορία (Last) Αυτή που έχει κωδικοποιηθεί με τον μεγαλύτερο αριθμό 26
Μενού Save 27
Δήλωση Αποθήκευσης Μεταβλητών 28
Μενού Options 29
Αποτελέσματα-Συγκεντρωτικά για τις Περιπτώσεις 30
Κωδικοποίηση Κατηγορικών Μεταβλητών 31
Block 0: Beginning Block 32
Μεταβλητές που δεν εισήρθαν στο Μοντέλο 33
Block 1: Method = Enter 34
-2 Log Likelihood Στατιστικό 35
Σχέση Omnibus Test και 2 Log Likelihood 36
Cox & Snell R 2 37
Nagelkerder R 2 38
Hosmer and Lemeshow Στατιστικό 39
Πίνακας Κατηγοριοποίησης Τρόπος αξιολόγησης του μοντέλου Αναλογία σωστών κατηγοριοποιημένων περιπτώσεων Στήλες Προβλεπόμενες Κατηγορίες Γραμμές Παρατηρούμενες Κατηγορίες Ιδανικό μοντέλο Όλα τα στοιχεία στη διαγώνιο 73.3% των περιπτώσεων κατηγοριοποιήθηκαν σωστά 40
Συντελεστές Μοντέλου 41
Εξίσωση Μοντέλου 42
Ερμηνεία Συντελεστών Τα odds για ανακούφιση από την ψωρίαση για τους Άντρες είναι 3.028 (302.8%) μεγαλύτερο σε σχέση με τις Γυναίκες Καθώς η ηλικία (age) αυξάνει κατά έναν χρόνο, τα odds για ανακούφιση από την ψωρίαση μείωνονται κατά 7%=(0.93-1)100%. Τα odds για ανακούφιση από την ψωρίαση για το drug A είναι 19.744 (1,974.4%) μεγαλύτερο σε σχέση με Placebo Τα odds για ανακούφιση από την ψωρίαση για το drug B είναι 1.411 (141.1%) μεγαλύτερο σε σχέση με Placebo 43
Προβλεπόμενες Πιθανότητες και Κατηγορίες Το SPSS σώζει για κάθε περίπτωση: Προβλεπόμενες τιμές πιθανοτήτων (Predicted Probability-PRE_1) Προβλεπόμενες κατηγορίες (Predicted Group-PGR_1) 44
Residuals-Υπόλοιπα 45
Residuals-Υπόλοιπα (Μελέτη) 46
Παράδειγμα Residuals 47
Influential Cases 48
Παράδειγμα Influential Cases 49
Επιλογή Μεθόδου Εισαγωγής Μεταβλητών (1/2) 50
Επιλογή Μεθόδου Εισαγωγής Μεταβλητών (2/2) 51
Αναφορά Αποτελεσμάτων LR A logistic regression analysis was conducted to predict the relief from psoriasis for 45 patients. A test of the full model against a constant only model was statistically significant, indicating that the predictors as a set reliably distinguished between relief from psoriasis and no relief (chi square = 18.048, p <.001 with df = 4). Nagelkerke s R 2 of.442 indicated a moderately strong relationship between prediction and grouping. Prediction success overall was 73.3% (70% for No relief and 76% for relief. The Wald criterion demonstrated that only age (p=.036) and drug A (p =.007) made a significant contribution to prediction. Drug B and gender were not significant predictors. The odds in favor of psoriasis relief for males is 3.028 times that for females (302.8%). As age increases by one year, the odds in favor of psoriasis relief decrease by 7%=(0.93-1)100%. The odds in favor of psoriasis relief for drug A patients is 19.744 times that of placebo patients (or 1,974.4%). The odds in favor of psoriasis relief for drug B patients is 1.411 times that of placebo patients (or 141.1%). 52
Παράρτημα-Αξιολόγηση Μοντέλου Η αξιολόγηση ενός μοντέλου πρόβλεψης αποτελεί σημαντική διαδικασία Βασίζεται συνήθως στον πίνακα κατηγοριοποίησης (classification table) ή πίνακα συνάφειας (confusion matrix): True Negative (Ένας υγιής κατατάσσεται σωστά ως υγιής False Positive (Ένας υγιής κατατάσσεται λανθασμένα ως ασθενής) False Negative (Ένας ασθενής κατατάσσεται λανθασμένα ως υγιής) True Positive (Ένας ασθενής κατατάσσεται σωστά ως ασθενής Observed Class No Yes Predicted Class No Yes True Negative False Positive (Type I error) False Negative (Type II error) True Positive 53
1. Accuracy = (TN+TP)/(TN+FN+FP+TP) Ικανότητα να προβλέπει σωστά 2. Sensitivity = TP/(TP+FN) Παράρτημα-Μέτρα Αξιολόγησης (1/2) Observed Class Predicted Class No Yes No TN FP Yes FN TP Ικανότητα να προβλέπει σωστά άτομα που παρουσιάζουν ένα φαινόμενο (π.χ. αρρώστια) 3. Specificity = TN/(TN+FP) Ικανότητα να προβλέπει σωστά άτομα που δεν παρουσιάζουν ένα φαινόμενο (π.χ. αρρώστια) 4. Precision = TP/(TP+FP) 5. g-means metric = (sensitivity x specificity) 1/2 Λαμβάνει υπόψη το sensitivity και specificity 54
Παράρτημα-Μέτρα Αξιολόγησης (2/2) 6. Relative Sensitivity = Sensitivity/Specificity Τιμές κοντά στο 1 υποδεικνύουν μη-μεροληπτικό μοντέλο 7. F-measure = 2 x (precision x sensitivity)/(precision + sensitivity) 8. Type I error = 1 specificity 9. Type II error = 1 sensitivity Προσοχή Η επιλογή των μέτρων εξαρτάται από τι είναι σημαντικό για τον ερευνητή!!! 55
Παράρτημα-Παράδειγμα για Μέτρα Αξιολόγησης 56
Παράρτημα-Προσαρμογή vs. Πρόβλεψη Μοντέλου Το μοντέλο μπορεί να έχει προσαρμοστεί με ικανοποιητικό τρόπο Έχει όμως τη δυνατότητα να προβλέπει με ικανοποιητικό τρόπο νέες περιπτώσεις; Fitting Διαδικασία προσαρμογής μοντέλου: Overfitting Γνωστό πρόβλημα Το μοντέλο προσαρμόζεται σχεδόν τέλεια στα δεδομένα Το μοντέλο δε μπορεί να προβλέψει με ικανοποιητικό τρόπο νέες περιπτώσεις Model Validation Διαδικασία αξιολόγησης προβλεπτικής ικανότητας/γενίκευσης του μοντέλου 57
Παράρτημα-Cross-Validation Cross-validation (CV) Τεχνικές αξιολόγησης προβλεπτικής ικανότητας μοντέλου Γενική φιλοσοφία Χωρίζουν το σύνολο δεδομένων: Σύνολα εκπαίδευσης (training set) Σύνολα ελέγχου (test set) Τo μοντέλο «χτίζεται» στο training set και ελέγχεται στο test set, δηλαδή σε άγνωστες περιπτώσεις 58
Παράρτημα-Τεχνικές Cross-Validation (1/2) Τεχνικές Cross-validation: 1. Hold-out: Χωρίζονται τα δεδομένα σε training set (2/3) και σε test set (1/3) 2. k-fold cross-validation: Τα δεδομένα χωρίζονται σε k υποσύνολα ίδιου μεγέθους: Σε κάθε επανάληψη (k), ένα υποσύνολο αποτελεί το test set και τα υπόλοιπα k-1, τo training set Υπολογίζεται ο μέσος όρος από τα αποτελέσματα των k επαναλήψεων 59
Παράρτημα-Τεχνικές Cross-Validation (2/2) Τεχνικές Cross-validation: 3. Leave-one-out cross-validation: Τα δεδομένα χωρίζονται σε n υποσύνολα (n=αριθμός περιπτώσεων): Σε κάθε επανάληψη (n), μία περίπτωση αποτελεί το test set και οι υπόλοιπες n-1, τo training set Υπολογίζεται ο μέσος όρος από τα αποτελέσματα των n επαναλήψεων 60
Παράρτημα-Παράδειγμα 61
Πολυωνυμική Λογιστική Παλινδρόμηση Multinomial Logistic Regression Dr. Nikolaos Mittas Dr. Theodosios Theodosiou
Γενικά-Το κίνητρο (1/2) Η Logistic Regression (LR) ) αποτελεί μία μορφή παλινδρόμησης: Η εξαρτημένη μεταβλητή είναι κατηγορική και διχότομη (δύο μόνο κατηγορίες-επίπεδα) Μειονέκτημα: Ανέφικτη η μοντελοποίηση για εξαρτημένη μεταβλητή με περισσότερα από 2 επίπεδα 63
Γενικά-Το κίνητρο (2/2) Η Multinomial Logistic Regression (MLR) αποτελεί γενίκευση της LR: Η εξαρτημένη κατηγορική μεταβλητή μπορεί να έχει περισσότερα από 2 επίπεδα Η βασική αρχή της MLR είναι παρόμοια με εκείνη της LR: Βασίζεται στον υπολογισμό πιθανοτήτων για κάθε κατηγορία της εξαρτημένης μεταβλητής 64
H MRL λειτουργεί με έναν τρόπο παρόμοιο με εκείνο των dummy μεταβλητών: Συγκρίνει την πιθανότητα μία νέα περίπτωση να ανήκει σε μία από τις n-1 κατηγορίες σε σχέση πάντα με μία κατηγορία αναφοράς (baseline-reference category) Χρησιμοποιεί τη μέθοδο Maximum Likelihood Πολλαπλό Μοντέλο j i e P ( Yi = j) = J b j X i j e P( Y i = j) = Η πιθανότητα η νέα περίπτωση να ανήκει στην j κατηγορία Χ i = Οι ανεξάρτητες μεταβλητές b j = Οι συντελεστές του μοντέλου Multinomial Logistic Regression-Γενικά (1/3) b X 65
Multinomial Logistic Regression-Γενικά (2/3) Δυνατότητες MRL: Μπορεί να χειριστεί ανεξάρτητες μεταβλητές: Συνεχείς (covariates) Κατηγορικές (factors) Διαθέτει μηχανισμό για αυτοματοποιημένη εισαγωγή/επιλογή ανεξάρτητων μεταβλητών Μία από τις κατηγορίες πρέπει να δηλωθεί ως κατηγορία αναφοράς Μειονέκτημα: Αδυνατεί να συγκρίνει μεταξύ τους τις άλλες κατηγορίες που δεν είναι κατηγορίες αναφοράς 66
Multinomial Logistic Regression-Γενικά (3/3) Η επιλογή της κατηγορίας αναφοράς είναι κρίσιμη απόφαση: Εξαρτάται από τους σκοπούς της έρευνας (Τι θέλουμε να συγκρίνουμε;) Εμπειρικός κανόνας για ανάθεση κατηγορίας αναφοράς: Επιλέγουμε την κατηγορία με τη μεγαλύτερη συχνότητα εμφάνισης Δεν αποτελεί δέσμευση 67
Παράδειγμα (1/2) Η μαστογραφία αποτελεί μία δυσάρεστη εμπειρία για πολλές γυναίκες Η δυσαρέσκεια μπορεί να αποτελέσει ανασταλτικό παράγοντα για τον τακτικό έλεγχο και διενέργεια μαστογραφίας Σύνολο δεδομένων mexxp.sav (Hosmer and Lemeshow (2000) Applied Logistic Regression: Second Edition) 68
Παράδειγμα (2/2) Δεδομένα από τη διεξαγωγή έρευνας σχετικά με την εμπειρία των γυναικών μετά από εξέταση μαστογραφίας 5 ανεξάρτητες μεταβλητές (4 κατηγορικές και 1 συνεχής): Κατηγορικές: Mammograph Experience (ΜΕ), Symptoms (SYMPT), History (HIST), Breasts Self-Examination (BSE) Συνεχής: Perceived Benefit of Mammography (PB): Άθροισμα 5 scale απαντήσεων (με 4 κατηγορίες) Χαμηλή τιμή δείχνει πεποίθηση ότι μαστογραφία επιφέρει κέρδος 1 εξαρτημένη μεταβλητή (κατηγορική): Πεποίθηση ότι η μαστογραφία συνεισφέρει στην πρόβλεψη εμφάνισης καρκίνου μαστού (Not likely, Somewhat likely, Very likely) 69
Επιλογή Κατηγορίας Αναφοράς Κατασκευή Πίνακα Συχνοτήτων Η κατηγορία Very likely είναι η πιο «δημοφιλής» Ορισμός της Very likely ως κατηγορία αναφοράς 70
Multinomial Logistic Regression στο SPSS 71
Επιλογή Κατηγορίας Αναφοράς στο SPSS (1/2) 72
Επιλογή Κατηγορίας Αναφοράς στο SPSS (2/2) 73
Ανεξάρτητες Κατηγορικές και Συνεχείς Μεταβλητές 74
Μενού Statistics 75
Μενού Model (1/2) 76
Μενού Model (2/2) Επιλογή Main effects: Εισέρχονται όλες οι ανεξάρτητες μεταβλητές Καμία αλληλεπίδραση (interaction) των ανεξάρτητων μεταβλητών Επιλογή Full factorial: Εισέρχονται όλες οι ανεξάρτητες μεταβλητές Main effects και όλες οι πιθανές αλληλεπιδράσεις (interactions) των ανεξάρτητων μεταβλητών Επιλογή Custom/Stepwise: Δυνατότητα αυτοματοποιημένης εισαγωγής καταλληλότερων ανεξάρτητων μεταβλητών Δυνατότητα επιλογής μοντέλου Main Effects/Interactions 77
Μενού Save (1/2) 78
Μενού Save (2/2) 79
Αποτελέσματα-Περιγραφικά Στατιστικά 80
Συνολική Αξιολόγηση Προσαρμογής Μοντέλου 81
Δείκτες Προσαρμογής (1/2) 82
Δείκτες Προσαρμογής (2/2) 83
Αξιολόγηση Προβλέψεων Μοντέλου 84
Αξιολόγηση Ανεξάρτητων Μεταβλητών 85
Συντελεστές Μοντέλου (1/2) 86
Συντελεστές Μοντέλου (2/2) 87
Πρόσημο και Ερμηνεία Συντελεστών Μοντέλου (1/5) Παράμετροι με στατιστικά σημαντικούς αρνητικούς συντελεστές Μειωμένη πιθανότητα της συγκεκριμένης κατηγορίας σε σχέση με την κατηγορία αναφοράς Η παράμετρος της τελευταίας κατηγορίας κάθε ανεξάρτητης μεταβλητής είναι περιττή 88
Πρόσημο και Ερμηνεία Συντελεστών Μοντέλου (2/5) Μεταβλητή PB: Καθώς η PB αυξάνει κατά μία μονάδα, τα odds για την κατηγορία Not likely αυξάνονται κατά 60.6%=(1.606-1)100% σε σχέση με την κατηγορία αναφοράς Very Likely Καθώς η PB αυξάνει κατά μία μονάδα, τα odds για την κατηγορία Somewhat likely αυξάνονται κατά 17.6%=(1.176-1)100% σε σχέση με την κατηγορία αναφοράς Very Likely 89
Πρόσημο και Ερμηνεία Συντελεστών Μοντέλου (3/5) Μεταβλητή BSE: Οι γυναίκες που πιστεύουν ότι η μαστογραφία είναι λιγότερο πιθανό (Not likely) να ανιχνεύσει νέες περιπτώσεις καρκίνου είναι πιο πιθανό (402.3%) να μην έχουν εμπειρία αυτοεξέτασης σε σχέση τις γυναίκες που πιστεύουν ότι είναι πολύ πιθανό (Very Likely) η μαστογραφία να ανιχνεύσει νέες περιπτώσεις καρκίνου 90
Πρόσημο και Ερμηνεία Συντελεστών Μοντέλου (4/5) 91
Πρόσημο και Ερμηνεία Συντελεστών Μοντέλου (5/5) 92
Πίνακας Κατηγοριοποίησης Τρόπος αξιολόγησης του μοντέλου Αναλογία σωστών κατηγοριοποιημένων περιπτώσεων Στήλες Προβλεπόμενες Κατηγορίες Γραμμές Παρατηρούμενες Κατηγορίες Ιδανικό μοντέλο Όλα τα στοιχεία στη διαγώνιο 70.1% των περιπτώσεων κατηγοριοποιήθηκαν σωστά 93
Αξιολόγηση Πίνακα Κατηγοριοποίησης 94
Αναφορά Αποτελεσμάτων MLR 95
Διατακτική Παλινδρόμηση Ordinal Regression Dr. Nikolaos Mittas Dr. Theodosios Theodosiou
Γενικά-Το κίνητρο (1/2) Σε διάφορες εφαρμογές της βιοστατιστικής, οι εξαρτημένες μεταβλητές είναι διατάξιμες (ordinal) Κατηγορικές μεταβλητές με διάταξη στις κατηγορίες π.χ. ανακούφιση από πόνο μετά από συγκεκριμένη θεραπεία (λίγο, μέτρια, πολύ), διάγνωση ασθένειας (λιγότερο σοβαρή μέχρι πολύ σοβαρή) Η μοντελοποίηση απαιτεί ιδιαίτερη μεταχείριση ώστε να ληφθούν υπόψη: Η κατηγορική φύση Η διάταξη στις κατηγορίες 97
Γενικά-Το κίνητρο (2/2) Κατασκευή Multinomial Logistic Regression: Λαμβάνει υπόψη την κατηγορική φύση της μεταβλητής Δε λαμβάνει υπόψη τη διάταξη στις τιμές Κατασκευή Linear Regression Model: Λαμβάνει υπόψη τη διάταξη στις τιμές Δεν ικανοποιούνται οι υποθέσεις (π.χ. κανονικότητα) Δε λαμβάνει υπόψη την κατηγορική φύση της μεταβλητής 98
Ordinal Regression-Γενικά Ordinal Regression-OR (Διατακτική Παλινδρόμηση) ή Polytomous Universal Model-PLUM: Επέκταση Γενικού Γραμμικού Μοντέλου Προβλέπει τις αθροιστικές πιθανότητες για κάθε διατάξιμη κατηγορία της εξαρτημένης μεταβλητής Κατασκευάζει διαφορετικές εξισώσεις για κάθε κατηγορία της εξαρτημένης μεταβλητής Κάθε εξίσωση δίνει ως αποτέλεσμα μία προβλεπόμενη πιθανότητα για κάθε περίπτωση να ανήκει στην αντίστοιχη κατηγορία ή σε κάποια χαμηλότερη 99
Αναδρομή Binary Logistic Regression: P( Y = 1) 0 1 1 + k ι log = log 0 1 1 P( Y = 0) ( b + b X +... b X ε ) e = b + b X +... bk X k k + Υπολογισμός logit (log of the odds): Λογάριθμος του λόγου πιθανοτήτων εμφάνισης ενός γεγονότος Π.χ. Αναλογία αριθμού ασθενών που επέζησαν από μία εγχείριση προς εκείνους που δεν επέζησαν Συντελεστές μοντέλου Μεταβολή του logit με βάση τις τιμές των ανεξάρτητων μεταβλητών 100
Τροποποίηση Binary Logistic Regression Υπάρχει δυνατότητα μετατροπής του Binary Logistic Regression μοντέλου: Διαφορετικός ορισμός των πιθανοτήτων για το γεγονός που μας ενδιαφέρει Παράδειγμα Ένας γιατρός αναλαμβάνει να χαρακτηρίσει την κατάσταση ενός ασθενούς μετά από μία εγχείριση σε μία 4-Likert Scale: 1=Πολύ κακή, 2=Κακή, 3=Καλή, 4=Πολύ καλή 101
Παράδειγμα Μοντελοποίησης Ordinal Regression Στην OR το γεγονός που μας ενδιαφέρει είναι η παρατήρηση μίας συγκεκριμένης τιμής ή μίας μικρότερης τιμής (αθροιστική κατανομή) Μοντελοποίηση των odds: θ = P(score1)/ (score μεγαλύτερο από1) 1 P θ2 = P(score1ή 2)/ P(score μεγαλύτερο από 2) θ = P(score1ή 2 ή 3)/ (score μεγαλύτερο από 3) 3 P Η τελευταία κατηγορία δεν έχει odds: Η πιθανότητα εμφάνισης μίας εκ των 4 κατηγοριών ισούται με 1 102
Ordinal Regression Μοντέλο (1/3) 103
Ordinal Regression Μοντέλο (2/3) 104
Ordinal Regression Μοντέλο (3/3) 105
Generalized Linear Model (1/3) 106
Generalized Linear Model (2/3) 107
Generalized Linear Model (3/3) 108
Διαθέσιμες Link Functions Υπάρχουν 5 διαθέσιμες link functions γ Πιθανότητα εμφάνισης ενός γεγονότος Link Function Τύπος Εφαρμογή Logit ln(γ/(1-γ)) Όμοια κατανεμημένες κατηγορίες Complementary log-log ln(-ln(1-γ)) Υψηλότερες κατηγορίες πιο πιθανές Negative log-log -ln(-ln(γ)) Χαμηλότερες κατηγορίες πιο πιθανές Probit Φ -1 (γ) Ανάλυση με κανονικά κατανεμημένη latent μεταβλητή Cauchit (inverse Cauchy) tan(π(γ-0.5)) Αποτελέσματα με πολλές ακραίες παρατηρήσεις Probit, Logit Ομαλή αύξηση στη συνάρτηση αθροιστικής κατανομής Complementary log-log Απότομη αύξηση (μικρή αύξηση από το 0 και απότομη αύξηση όταν προσεγγίζουν το 1 Negative log-log Απότομη αύξηση (μεγάλη αύξηση από το 0 και μικρή αύξηση όταν προσεγγίζουν το 1 109
Παράδειγμα Ένα νέο φάρμακο για τη θεραπεία του καρκίνου χορηγείται σε ασθενείς Αναθέτουν τυχαία 200 ασθενείς σε 2 Treatment Groups: New Drug Existing Drug Διαφορετικές δοσολογίες (dosage) για τα 2 φάρμακα: Low, High Ένας ειδικός γιατρός αξιολόγησε την πορεία τους: 1=Poor, 2=Fair, 3=Good Καταγράφηκε και το φύλο (Gender) 110
Εξέταση Αθροιστικής Κατανομής Πριν τη δημιουργία μοντέλου ελέγχουμε γραφικά τα δεδομένα: Γράφημα Αθροιστικής Κατανομής 111
Αθροιστική Κατανομή Οπτικοποίηση του ΟR μοντέλου: Κατηγορία Poor Αρκετά μεγαλύτερο ποσοστό των ασθενών που πήραν το Existing drug (σχεδόν 58%) Επειδή οι ασθενείς που πήραν το Existing drug έχουν γενικά μικρότερες τιμές (General Health), ο συντελεστής της μεταβλητής περιμένουμε να είναι θετικός 112
Ordinal Regression στο SPSS Επιλογή μεταβλητών: Δεν υπάρχει αυτοματοποιημένος τρόπος Εάν υπάρχει θεωρητική και εμπειρική γνώση για τις ανεξάρτητες μεταβλητές, τότε εισάγονται στο μοντέλο Αν όχι, τότε εισάγονται όλες και ελέγχουμε την προσαρμογή του μοντέλου Κακή προσαρμογή Εξαγωγή μεταβλητής Factor(s) Ονομαστικές Μεταβλητές Covariate(s) Συνεχείς Μεταβλητές 113
Εισαγωγή Scale Component 114
Επιλογή Link Function (1/2) 115
Επιλογή Link Function (2/2) 116
Επιλογές για τα Αποτελέσματα 117
Warnings 118
Αξιολόγηση Προβλέψεων Μοντέλου (1/2) 119
Αξιολόγηση Προβλέψεων Μοντέλου (2/2) 120
Pseudo R-Square Δείκτες (1/2) 121
Pseudo R-Square Δείκτες (2/2) 122
Πίνακας Cell Information 123
Πίνακας Κατηγοριοποίησης (1/2) 124
Πίνακας Κατηγοριοποίησης (2/2) 125
Ερμηνεία Πίνακα Κατηγοριοποίησης Κατηγορία Poor 43 (63.2%) σωστή κατηγορία Κατηγορία Fair 49 (60.5%) σωστή κατηγορία Κατηγορία Good 26 (51.0%) σωστή κατηγορία Συνολικό ποσοστό σωστής κατηγοριοποίησης (43+49+26)/200=0.59 (59%) 126
Αξιολόγηση Πίνακα Κατηγοριοποίησης Εμπειρικός κανόνας για την αξιολόγηση μοντέλου: Το μοντέλο πρέπει να επιφέρει 25% βελτίωση στο ποσοστό τυχαίας ακρίβειας (accuracy by chance): Proportional by chance accuracy rate: Άθροισμα των τετραγωνικών συχνοτήτων εμφάνισης κάθε group Proportional by chance accuracy rate = 0.340 2 +0.405 2 +0.255 2 =0.3447=34.47% Σύμφωνα με τον εμπειρικό κανόνα θα πρέπει: Βελτίωση τουλάχιστον 25%: 34.47*1.25=43.08% 127
Parallel Lines Έλεγχος (1/2) 128
Parallel Lines Έλεγχος (2/2) 129
Πρόσημο και Ερμηνεία Συντελεστών Μοντέλου 130
Πρόσημο και Ερμηνεία Συντελεστών Μοντέλου 131
Ερμηνεία Συντελεστών (1/3) 132
Ερμηνεία Συντελεστών (2/3) 133
Ερμηνεία Συντελεστών (3/3) 134
Αναθεώρηση Μοντέλου 135
Σύγκριση Μοντέλων (Goodnes of Fit) 136
Σύγκριση Μοντέλων (Pseudo R-square) 137
Σύγκριση Μοντέλων (Parameter Estimates) 138
Σύγκριση Μοντέλων (Test of Parallel Lines) 139
Σύγκριση Μοντέλων (Test of Parallel Lines) 140
Ανάλυση Παραγόντων Factor Analysis Dr. Nikolaos Mittas Dr. Theodosios Theodosiou
Γενικά-Το κίνητρο Σε διάφορες επιστήμες προσπαθούμε να μετρήσουμε πράγματα και έννοιες που δεν μπορούν να μετρηθούν άμεσα π.χ. νοημοσύνη, ικανοποίηση, δυσαρέσκεια κλπ Λανθάνουσες μεταβλητές (latent variables) 142
Γενικά-Το πρόβλημα Μέτρηση πολλών πραγμάτων (μεταβλητών) που σχετίζονται με αυτό που θέλουμε Πρόβλημα: Οι μετρήσεις που έχουμε κάνει αντιπροσωπεύουν μια μόνο μεταβλητή; «Πίσω» από τις μεταβλητές που μετρήσαμε υπάρχει μια μόνο μεταβλητή ως «αιτία» τους; 143
Ανάλυση Παραγόντων (Factor Analysis FA)-Περιγραφή Τεχνική ανακάλυψης ομάδων μεταβλητών Κατανόηση της δομής συνόλου μεταβλητών Χρησιμοποιήθηκε αρχικά από τους Spearman και Thurstone για την κατανόηση της «νοημοσύνης» Κατασκευή ερωτηματολογίων για μέτρηση ασαφών εννοιών Για μείωση των διαστάσεων ενός συνόλου δεδομένων διατηρώντας όσο το δυνατό περισσότερη πληροφορία π.χ. Λύνει το πρόβλημα της πολυσυγγραμμικότητας (multicollinearity) στην παλινδρόμηση 144
Παράγοντες (Factors) Πίνακας συσχετίσεων Πίνακας συσχετίσεων (R-matrix or Correlation matrix) Πίνακας με στοιχεία τις συσχετίσεις συνόλου μεταβλητών Διαγώνια στοιχεία = 1 Μη-διαγώνια στοιχεία συντελεστές συσχέτισης Συνήθως το rho του Pearson Ομάδες μεταβλητών με μεγάλες συσχετίσεις μεταξύ τους οι μεταβλητές είναι εκφράσεις της ίδιας (κρυμμένης) διάστασης 145
Παράγοντες (Factors) Μείωση διαστάσεων Οι «κρυμμένες διαστάσεις» λέγονται παράγοντες (factors) ή λανθάνουσες μεταβλητές (latent variables) Μείωση των διαστάσεων από σύνολο αλληλο-συσχετισμένων μεταβλητών σε μικρότερο σύνολο παραγόντων Οικονομία με την εξήγηση του μέγιστου ποσοστού κοινής διασποράς σε πίνακα συσχετίσεων 146
Παράγοντες (Factors) - Εφαρμογές Παραδείγματα Ψυχολογία Τεστ για μέτρηση χαρακτηριστικών προσωπικότητας (εξωστρέφεια, εσωστρέφεια) Eysenck, 1953 Ερωτηματολόγια για πρόσληψη σε εταιρείες Οικονομικές επιστήμες Παραγωγικότητα, κέρδη, ανθρώπινο δυναμικό ανάπτυξη εταιρείας (λανθάνουσα) 147
Παράδειγμα Μία έρευνα αφορά τον αριθμό τσιγάρων κατά κεφαλή που κάπνισαν οι πολίτες 43 πολιτειών (1960) και τους ρυθμούς θανάτων ανά 100 χιλιάδες του πληθυσμού από διάφορους τύπους καρκίνων Μεταβλητές (αρχείο Correlation Analysis Cancer.sav): state = state cigar= Αριθμός τσιγάρων που κάπνισαν (εκατοντάδες κατά κεφαλήν) bladder = Θάνατοι ανά 100 χιλιάδες από καρκίνο ουροδόχου κύστης lung = Θάνατοι ανά 100 χιλιάδες από καρκίνο των πνευμόνων kidney = Θάνατοι ανά 100 χιλιάδες από καρκίνο των νεφρών leukemia = Θάνατοι ανά 100 χιλιάδες από λευκαιμία area = 1 (Northwest), 2 (Midwest), 3 (South), 4(West) Ερευνητικό Ερώτημα: «Μπορούν οι παραπάνω μεταβλητές να ομαδοποιηθούν σε συσχετιζόμενες μετρήσεις ώστε να λάβουμε μία πιο απλουστευμένη απεικόνιση για το τι αναπαριστάνουν;» 148
Παράγοντες (Factors) Πίνακας Συσχετίσεων Factor 1 Factor 2 149
Παράγοντες (Factors) - Ερμηνεία Παράγοντας 1 Υπάρχει μεγάλη συσχέτιση ανάμεσα στον αριθμό τσιγάρων που καταναλώθηκαν και τους θανάτους από καρκίνο των πνευμόνων και ουροδόχου κύστης Παράγοντας 2 Οι θάνατοι από λευχαιμία δε σχετίζονται με καμία μεταβλητή Υπάρχει κάποια συσχέτιση (μέτρια) μεταξύ των θανάτων από καρκίνο των νεφρών και τον αριθμό τσιγάρων, καρκίνων των πνευμόνων και ουροδόχου κύστης 150
Παράγοντες (Factors) - Γραφική Παράσταση (1/4) Παράσταση: Οι παράγοντες ως άξονες σύστημα αξόνων Οι μεταβλητές ως σημεία στο σύστημα αξόνων Οι συντεταγμένες κάθε σημείου-μεταβλητής δείχνουν την ισχύ της σχέσης ανάμεσα στη μεταβλητή και τον άξονα Η θέση κάθε μεταβλητής (σημείο) εξαρτάται από τις συσχετίσεις της με τους παράγοντες (άξονες) 151
Παράγοντες (Factors) - Γραφική Παράσταση (2/4) 152
Παράγοντες (Factors) - Γραφική Παράσταση (3/4) Οι 2 ομάδες των μεταβλητών «συγκεντρώνονται» ή «φορτώνονται» η κάθε μια σε διαφορετικό άξονα Αν υπήρχε και 3ος παράγοντας θα χρειαζόμασταν και 3ο άξονα, κ.ο.κ. Η παράσταση για πάνω από 3 παράγοντες αδύνατη 153
Παράγοντες (Factors) - Γραφική Παράσταση (4/4) H συντεταγμένη ενός σημείου (μεταβλητή) σε έναν άξονα (παράγοντα) λέγεται φορτίο του παράγοντα (factor loading) Είναι ο συντελεστής συσχέτισης Pearson ανάμεσα σε έναν παράγοντα και μια μεταβλητή Το τετράγωνο του φορτίου μέτρο της σημασίας μιας μεταβλητής για έναν παράγοντα 154
Παράγοντες (Factors) Μαθηματική Παράσταση Οι άξονες είναι ευθείες γραμμές Παράσταση με γραμμικό συνδυασμό Factor i = b i1 Variable 1 + b i2 Variable 2 +... + b ik Variable k Όπου: Factor i = εκτίμηση του i παράγοντα b ij = φορτίο της μεταβλητής j στον παράγοντα i k = αριθμός μεταβλητών 155
Μαθηματική Παράσταση Παράδειγμα 156
Μαθηματική Παράσταση Πίνακας Φορτίων 157
Μαθηματική Παράσταση Ερμηνεία Παραγόντων 158
Σκορ Παραγόντων (Factor scores) - Απλή περίπτωση 159
Σκορ Παραγόντων (Factor scores) - Υπολογισμός με Παλινδρόμηση 160
Σκορ Παραγόντων (Factor scores) - Στάθμιση με Συσχετίσεις (1/2) 161
Σκορ Παραγόντων (Factor scores) - Στάθμιση με Συσχετίσεις (2/2) 162
Σκορ Παραγόντων (Factor scores)-διορθώσεις 163
Σκορ Παραγόντων (Factor scores) Πρακτική Εφαρμογή 164
Εύρεση Παραγόντων Υπάρχουν διάφορες μέθοδοι Κατατάσσονται σε 2 κατηγορίες: Διερευνητική ανάλυση παραγόντων (Exploratory Factor Analysis - EFA) Ανάλυση δομής δείγματος Επιβεβαιωτική ανάλυση παραγόντων (Confirmatory Factor Analysis - CFA) Έλεγχοι υποθέσεων για τον πληθυσμό (απαιτούνται εργαλεία όπως το AMOS) 165
Εύρεση Παραγόντων Μέθοδοι FA Μέθοδοι που θεωρούν το δείγμα ως πληθυσμό Principal Component Analysis (PCA) Principal Axis Factoring Image Factoring Μέθοδοι που υποθέτουν ότι το δείγμα προήλθε από πληθυσμό Maximum Likelihood method Kaiser s alpha factoring 166
Εύρεση Παραγόντων Συμμετοχικότητα 167
Εύρεση Παραγόντων PCA 168
Εύρεση Παραγόντων Ιδιοτιμές 169
Εύρεση Παραγόντων Scree plot Scree plot: Γράφημα κάθε ιδιοτιμής (y-άξονας) ως προς τον παράγοντα με τον οποίο συνδέεται (x-άξονας) Δείχνει καθαρά τη σχετική σπουδαιότητα κάθε παράγοντα Στην αρχή ή καμπύλη φθίνει απότομα και σε κάποιο σημείο γίνεται σχεδόν επίπεδη Το σημείο εκείνο αποτελεί κριτήριο για την επιλογή σημαντικών παραγόντων 170
Εύρεση Παραγόντων Παράδειγμα Scree plot 171
Εύρεση Παραγόντων Κριτήρια με βάση την Ιδιοτιμή Κριτήριο Keiser (1960): Να κρατάμε μόνο τους παράγοντες με ιδιοτιμές > 1 Κριτήριο Jolliffe (1972, 1986): Να κρατάμε μόνο τους παράγοντες με ιδιοτιμές > 0.7 Η διαφορά των αποτελεσμάτων στα κριτήρια πολύ μεγάλη! Η τελική επιλογή γίνεται συνδυάζοντας όλα τα κριτήρια Πολύ σημαντική η αθροιστική διασπορά που εξηγούν οι παράγοντες (πρέπει να είναι > 70%) 172
Περιστροφή Παραγόντων (1/3) 173
Περιστροφή Παραγόντων (2/3) 174
Περιστροφή Παραγόντων (3/3) 175
Επιλογή Μεθόδου Περιστροφής 176
Σημασία των Φορτίων Χρησιμοποιούμε τα φορτία για να αντιστοιχήσουμε τις μεταβλητές στους παράγοντες Φορτίο μεγαλύτερο του 0.3 συνήθως σημαντικό (?) Εμπειρικός κανόνας: Για δείγμα 50 φορτίο > 0.722 σημαντικό Για δείγμα 100 φορτίο > 0.512 σημαντικό Για δείγμα 200 φορτίο > 0.364 σημαντικό Για δείγμα 300 φορτίο > 0.298 σημαντικό Για δείγμα 600 φορτίο > 0.210 σημαντικό Για δείγμα 1000 φορτίο > 0.162 σημαντικό 177
Υποθέσεις για τα Δεδομένα Οι μεταβλητές πρέπει να είναι ποσοτικές Οι ποιοτικές μεταβλητές δεν είναι κατάλληλες για FA Κατάλληλες μεταβλητές: Όταν μπορούν να υπολογιστούν οι συντελεστές συσχέτισης του Pearson Σε κάποιες περιπτώσεις, είναι δυνατό να χρησιμοποιηθούν διαταγμένες μεταβλητές (ordinal data) και δυαδικές μεταβλητές (0-1). Δυσκολία ερμηνείας των παραγόντων Παρατηρήσεις ανεξάρτητες μεταξύ τους Οι ποσοτικές μεταβλητές ακολουθούν πολυδιάστατη κανονική κατανομή 178
Περιγραφή Συνόλου Δεδομένων Ψυχομετρία 20 ερωτήσεις (items) σε Likert Scale (1-6) που αφορούν την προσωπικότητα (International Personality Item Pool) 1=Very Inaccurate, 2=Moderately Inaccurate, 3=Slightly Inaccurate, 4=Slightly Accurate, 5=Moderately Accurate 6 Very Accurate 2800 ερωτώμενοι 3 Δημογραφικές μεταβλητές Sex, Education, Age 179
Μεταβλητές 180
Εκτέλεση FA 181
Μενού Descriptives 182
Μενού Extraction 183
Μενού Rotation 184
Μενού Scores 185
Μενού Options 186
Αποτελέσματα - Περιγραφικά 187
Συντελεστές Συσχέτισης-Στάθμες Σημαντικότητας (1/2) 188
Συντελεστές Συσχέτισης-Στάθμες Σημαντικότητας (2/2) 189
Αντίστροφος (inverse) Πίνακας Συσχετίσεων R -1 190
Έλεγχοι Καταλληλότητας FA 191
Anti-Image Matrices (covariance and correlation) 192
Εύρεση παραγόντων (Factor Extraction) 193
Εύρεση παραγόντων (Factor Extraction) - Ερμηνεία 194
Scree Plot Μετά τους 4 παράγοντες η καμπύλη γίνεται επίπεδη 195
Συμμετοχικότητες 196
Φορτία (πριν την περιστροφή) 197
Φορτία (μετά την περιστροφή) Πιο καλή κατανομή των μεταβλητών στους παράγοντες Παράγοντας 1: Neuroticism Παράγοντας 2: Extraversion Παράγοντας 3: Conscientiousness Παράγοντας 4: Agreeableness 198
Reproduced correlations and Residuals 199
Reproduced correlations and Residuals 200
Component Τransformation Μatrix 201
Αποτελέσματα Σκορ 202
Αποθήκευση Σκορ 203
Αναφορά Αποτελεσμάτων FA 204
Ανάλυση Συστάδων (Cluster Analysis CA) Dr. Nikolaos Mittas Dr. Theodosios Theodosiou
Εισαγωγή στην CA (1/2) Ταξινόμηση (classification): Βασική ικανότητα της νοημοσύνης. Τα όμοια αντικείμενα ταξινομούνται σε κατηγορίες ανάλογα με κοινές ιδιότητές τους - Πρωτόγονη λειτουργία της ανθρώπινης συνείδησης Η ταξινόμηση σχετίζεται με την ανάπτυξη της γλώσσας. Είναι συνώνυμη της ονoματολογίας. Κάθε λέξη μιας γλώσσας περιγράφει ομάδα αντικειμένων με κοινά χαρακτηριστικά Η ταξινόμηση είναι θεμελιώδης έννοια σε όλες τις επιστήμες (π.χ. στη Βιολογία η επιστημονική ταξινόμηση των οργανισμών - taxonomy) 206
Εισαγωγή στην CA (2/2) Ιστορικά στοιχεία - Παραδείγματα Αριστοτέλης:Ταξινόμηση ζώων σε είδη Θεόφραστος: Ταξινόμηση φυτών Η ταξινόμηση των οργανισμών βάση για την ανάπτυξη της θεωρίας της εξέλιξης Φυσική: Ταξινόμηση των στοιχείων του περιοδικού πίνακα - κατανόηση δομής του ατόμου Αστρονομία: Ταξινόμηση αστέρων σε γίγαντες και νάνους 207
Χρησιμότητα της Ταξινόμησης Εύχρηστος τρόπος παράστασης μεγάλων βάσεων δεδομένων - Ευκολία ανάκτησης πληροφοριών (information retrieval) Περιληπτική παρουσίαση των δεδομένων με σκοπό την εξαγωγή συμπερασμάτων (προβλέψεις - αιτιολόγηση) Η ταξινόμηση των αντικειμένων δεν είναι μοναδική. Μπορεί να υπάρχουν διαφορετικές ταξινομήσεις οι οποίες αξιολογούνται ανάλογα με τη χρησιμότητά τους 208
Αριθμητικές Μέθοδοι Ταξινόμησης (1/3) Σκοπός: Αντικειμενική και ευσταθής ταξινόμηση Ορολογία: Βιολογία - Numerical taxonomy Τεχνητή νοημοσύνη (AI) - Unsupervised pattern recognition Έρευνα αγοράς - Segmentation Γενικός όρος - Cluster analysis: Διαδικασίες που προσπαθούν να αποκαλύψουν ομάδες στα δεδομένα 209
Αριθμητικές Μέθοδοι Ταξινόμησης (2/3) Αποτέλεσμα της CA: Διαμέριση (partition) του συνόλου των δεδομένων σε συστάδες (clusters) Κάθε άτομο - αντικείμενο ανήκει σε μια μόνο συστάδα Το σύνολο όλων των συστάδων περιέχει όλα τα αντικείμενα Σε κάποιες περιπτώσεις μπορεί να είναι καλύτερη μια παράσταση με επικαλυπτόμενες συστάδες Αποδεκτή λύση μπορεί να αποτελεί και η αδυναμία ομαδοποίησης των δεδομένων 210
Πίνακας δεδομένων: Δεδομένα: Ποσοτικά, ποιοτικά ή μικτά Μετατροπή του πίνακα δεδομένων σε πίνακα ομοιοτήτων, ανομοιοτήτων ή αποστάσεων Γενικός όρος: proximity matrix Αριθμητικές Μέθοδοι Ταξινόμησης (3/3) n n = [ ] x ij n p Διαφορά με μεθόδους διάκρισης (discrimination - assignment - supervised learning): Οι ομάδες είναι γνωστές εκ των προτέρων και σκοπός της ανάλυσης είναι η εύρεση κανόνων κατάταξης νέων αντικειμένων στις ομάδες X 211
Η έννοια της συστάδας Διαισθητική ερμηνεία των όρων cluster, group, class - ότι έχει σημασία για τον ερευνητή Επιθυμητές ιδιότητες: Εσωτερική συνοχή (homogeneity) και εξωτερική απομόνωση (separation) Σημαντικό ρόλο στην αναγνώριση μιας συστάδας παίζουν οι σχετικές αποστάσεις ανάμεσα στα σημεία του αντίστοιχου χώρου Χρειάζεται προσοχή όταν δεν υπάρχουν πραγματικές ομάδες στα δεδομένα αλλά η μέθοδος παρέχει κάποια διαμέριση 212
Γραφική παράσταση των συστάδων Το οπτικό σύστημα του ανθρώπου αναζητά και ανακαλύπτει ομάδες Η γραφική απεικόνιση δεδομένων αποκαλύπτει συστάδες Για μονοδιάστατα δεδομένα: Κατανομές με πολλαπλά μέγιστα (multimodal) είναι ένδειξη ύπαρξης συστάδων Παράδειγμα: Ταχύτητες από 82 γαλαξίες (km/s) - Ύπαρξη συστάδων γαλαξιών που περιβάλλονται από μεγάλα κενά 213
Παράδειγμα (1/3) 40 VELOCITIES OF GALAXIES 30 20 Frequency 10 0 34000 32000 30000 28000 26000 24000 22000 20000 18000 16000 14000 12000 10000 Std. Dev = 4715.89 Mean = 20710 N = 82.00 VELOCITY 214
Παράδειγμα (2/3) 160 140 120 100 80 60 40 20 Y 0 0 20 40 60 80 100 120 X 215
Παράδειγμα (3/3) 30 20 Death rate per 1000 people 10 0 0 10 20 30 40 50 60 Birth rate per 1000 people Πραγματικά δεδομένα: Στοιχεία γεννήσεων & θανάτων από 108 χώρες 216
Ιεραρχική Ανάλυση Συστάδων (1/3) Ιεραρχική ταξινόμηση (hierarchical classification): Διαδικασία που περιλαμβάνει πολλαπλά βήματα Η ταξινόμηση αποτελείται από μια ακολουθία διαμερίσεων που αρχίζει από μια μόνο συστάδα (περιέχει όλο το δείγμα) και ολοκληρώνεται σε n συστάδες (μια για κάθε αντικείμενο) Κατηγορίες μεθόδων: Μέθοδοι συσσώρευσης (agglomerative methods): Διαδικασίες συγχώνευσης των n αντικειμένων σε ομάδες Μέθοδοι διαίρεσης (divisive methods): Διαδοχικοί διαχωρισμοί του συνόλου των n αντικειμένων σε όλο και καλύτερες ομάδες 217
Ιεραρχική Ανάλυση Συστάδων (2/3) Χαρακτηριστικά των ιεραρχικών μεθόδων: Οι συγχωνεύσεις ή οι υποδιαιρέσεις που γίνονται είναι ανεπανόρθωτες Ο ερευνητής πρέπει να αποφασίσει μόνος του για το βέλτιστο αριθμό συστάδων (τερματισμός διαδικασίας) Η διαδικασία παριστάνεται γραφικά με το δενδρόγραμμα (dendrogram) Κατάλληλες μέθοδοι για εφαρμογές όπου η ιεραρχία είναι ερμηνεύσιμη: βιολογία, κοινωνικές επιστήμες, βιβλιοθηκονομία, κλπ 218
Ιεραρχική Ανάλυση Συστάδων (3/3) 0 1 2 3 4 Agglomerative a a,b a,b,c,d,e b c c,d,e d d,e e 4 3 2 1 0 Divisive 219
Μη - Ιεραρχική Ανάλυση Συστάδων Mη-ιεραρχικές μέθοδοι (nonhierarchical techniques): Ταξινόμηση των αντικειμένων (όχι των μεταβλητών) σε συλλογή k συστάδων Ο αριθμός των συστάδων k είτε προκαθορίζεται είτε προκύπτει ως αποτέλεσμα της μεθόδου Χρησιμοποιούνται για μεγάλα σύνολα δεδομένων γιατί: Δεν χρησιμοποιούν τον πίνακα αποστάσεων Τα βασικά δεδομένα δεν χρειάζεται να αποθηκεύονται κατά την εκτέλεση του αλγόριθμου Οι αλγόριθμοι αρχίζουν (συνήθως με τυχαίο τρόπο): Από αρχική διαμέριση των δεδομένων σε συστάδες Από αρχικά σημεία - πυρήνες των συστάδων 220
Η μέθοδος των k-μέσων Τιμών (k-means) Αλγόριθμος που κατατάσσει κάθε αντικείμενο στη συστάδα με το κοντινότερο κέντρο (μέση τιμή) Βασικός αλγόριθμος: Βήμα 1: Διαμέριση των δεδομένων σε k αρχικές συστάδες (συνήθως όχι όλα τα δεδομένα) Βήμα 2: Τα αντικείμενα καταχωρούνται ένα-ένα στη συστάδα με το κοντινότερο κέντρο (μέση τιμή). Το κέντρο της συστάδας που παίρνει ένα νέο αντικείμενο και αυτής που το χάνει υπολογίζονται πάλι Βήμα 3: Το βήμα 2 επαναλαμβάνεται μέχρι να μην υπάρχουν άλλες καταχωρήσεις 221
Χαρακτηριστικά 222
Παράδειγμα 223
Παράδειγμα: Ιατρική μελέτη (file: diabetes.sav) Εργαστηριακές εξετάσεις σε 145 ενήλικες. Σκοπός: Χαρακτηριστικά 2 τύπων διαβήτη (chemical - overt) 5 ποσοτικές μεταβλητές Relative weight Fasting Plasma Glucose Glucose Area Insulin Area SSPG Υπάρχει μεταβλητή Clinical classification που δηλώνει την κατηγορία του ατόμου σύμφωνα με τα ιατρικά κριτήρια: 1=overt diabetic, 2=chemical diabetic, 3=normal Ερώτημα: Πόσο συμφωνεί ο αλγόριθμος με την ιατρική ταξινόμηση; 224
K-means Cluster Analysis 225
Αρχικά Τελικά Κέντρα Συστάδων (1/3) 226
Αρχικά Τελικά Κέντρα Συστάδων (2/3) 227
Αρχικά Τελικά Κέντρα Συστάδων (3/3) 228
Crosstabs 229
Ομαδοποιημένα Ραβδογράμματα 230
Θηκογράμματα για τις Ομάδες 231
Διαγράμματα Διασποράς 232
Οπτικοποίηση Αποτελεσμάτων (1/3) 233
Οπτικοποίηση Αποτελεσμάτων (2/3) 234
Οπτικοποίηση Αποτελεσμάτων (3/3) 235
Συμπεράσματα 236
Ανάλυση Διακρίσεων (Discriminant Analysis DA) Dr. Nikolaos Mittas Dr. Theodosios Theodosiou
Εισαγωγή στην DA Διάκριση (discrimination): Πολυμεταβλητή μέθοδος διαχωρισμού παρατηρήσεων & διανομής νέων παρατηρήσεων σε ομάδες (separation & allocation) Διερευνητική μέθοδος. Μελέτη των παρατηρούμενων διαφορών όταν οι αιτίες των διαφορών δεν είναι ξεκάθαρες Σκοποί της DA: Περιγραφή (γραφική ή αλγεβρική) των χαρακτηριστικών που ξεχωρίζουν παρατηρήσεις προερχόμενες από αρκετούς (γνωστούς) πληθυσμούς (seperation) Εξαγωγή κανόνων κατάταξης νέων παρατηρήσεων στις προκαθορισμένες ομάδες (allocation) 238
Πότε χρησιμοποιείται η DA Όταν υπάρχουν πολλές ανεξάρτητες μεταβλητές και η εξαρτημένη είναι κατηγορική (χωρίζει τα δεδομένα σε ομάδες) Χρησιμοποιούμε πληροφορία από τις ανεξάρτητες για να εξηγήσουμε τη διάκριση των ομάδων Η διαδικασία είναι παρόμοια με την ανάλυση παλινδρόμησης 239
Εφαρμογές της DA Καθορισμός χαρακτηριστικών των ομάδων (Profiling): Με ποιον τρόπο οι ομάδες διαφέρουν ως προς τις ανεξάρτητες μεταβλητές; Υπάρχει σημαντική διαφορά στις ομάδες (Differentiation); Κατάταξη σε ομάδα (Categorization): Προβλέψεις στηριζόμενοι στις ανεξάρτητες μεταβλητές (όταν η εξαρτημένη είναι άγνωστη) 240
Εφαρμογές της DA-Παραδείγματα Στις έρευνες φαρμάκων ενδιαφέρει το προφίλ των ασθενών (δημογραφικό, ψυχογραφικό) διαφόρων ομάδων Στη βιομηχανία: Διαφέρει σημαντικά η παραγωγή σε διαφορετικές μηχανές διαδικασίες; Στα τραπεζικά δάνεια: Πρόβλεψη απόφαση για το αν οι νέες αιτήσεις θα εγκριθούν 241
Σημασία της DA για Κρίσιμες Αποφάσεις Αποφυγή καταστροφής προϊόντων - Κατάταξη (π.χ. ελαττωματικό ή καλό) με βάση προκαταρκτικές μετρήσεις Πληροφορίες μη-διαθέσιμες ή με μεγάλο κόστος (π.χ. διάγνωση ασθένειας που απαιτεί επέμβαση) 242
Η περίπτωση των 2 Πληθυσμών - Ομάδων Πίνακας δεδομένων X με p ανεξάρτητες μεταβλητές Μια δίτιμη εξαρτημένη μεταβλητή Οι δύο ομάδες αντιπροσωπεύουν διαφορετικούς πληθυσμούς Οι τιμές των ανεξάρτητων μεταβλητών είναι ικανές να διαχωρίσουν τις 2 ομάδες; 243
Παράδειγμα (file: hemophilia.sav) n1=30 γυναίκες χωρίς το γονίδιο της αιμοφιλίας (normal group - noncarriers) n2=45 γυναίκες με το γονίδιο (carriers) Μεταβλητές (μετρήσεις στο αίμα): X1 = log10(ahf activity) X2 = log10(ahf-like antigen) Σκοπός: Διαδικασία διάγνωσης δυνητικών φορέων του γονιδίου 244
Analyze Reports Case Summaries 245
Περιγραφικά Στατιστικά των 2 Ομάδων (1/2) 246
Περιγραφικά Στατιστικά των 2 Ομάδων (2/2) 247
Διάγραμμα Διασποράς 248
Διάγραμμα Διασποράς με τα Κέντρα Ομάδας 249
Συμπεράσματα Υπάρχει διάκριση των 2 ομάδων αλλά σε κάποιες περιπτώσεις υπάρχει υπερκάλυψη Χρειαζόμαστε κανόνες που να κατατάσσουν τα νέα δεδομένα στις ομάδες με τη μικρότερη δυνατή πιθανότητα σφάλματος Οι μέθοδοι κατάταξης πρέπει να λαμβάνουν υπόψη τις διαφορές στα μεγέθη των ομάδων Σημαντικό σε πολλές περιπτώσεις είναι το κόστος της λάθους κατάταξης (π.χ. η αποτυχία διάγνωσης ασθένειας έχει μεγαλύτερο κόστος από τη λανθασμένη διάγνωση) 250
Η προσέγγιση του Fisher (1/3) Βασίζεται στην έννοια του «σκορ διάκρισης» (discrimination score) Μπορεί να βρεθεί γραμμικός συνδυασμός των ανεξάρτητων μεταβλητών ώστε να πετύχουμε τη μέγιστη διαφορά των σκορ ανάμεσα στις ομάδες; Απαιτείται ορισμός αντικειμενικής συνάρτησης που να μετατρέπει σε ποσότητα την έννοια της «μέγιστης διαφοράς» 251
Η προσέγγιση του Fisher (2/3) Η συνάρτηση που χρησιμοποιείται είναι λόγος Αριθμητής: έκφραση της απόστασης των μέσων σκορ ανάμεσα στις ομάδες Παρονομαστής: έκφραση της μεταβλητότητας μέσα στις ομάδες Το πρόβλημα μεγιστοποίησης λύνεται μαθηματικά (με αναλυτικές μεθόδους) και εντοπίζονται οι συντελεστές του γραμμικού συνδυασμού 252
Η προσέγγιση του Fisher (3/3) 253
Αξιολόγηση Μοντέλου Κατάταξης 254
Apparent Error Rate 255
Holdout procedure or Jackknifing or Cross-validation Από το σύνολο των δεδομένων αφαιρούμε ένα αντικείμενο κάθε φορά Κατασκευάζουμε συνάρτηση κατάταξης με βάση τα υπόλοιπα Κατατάσσουμε το αντικείμενο που αφαιρέσαμε χρησιμοποιώντας τη συνάρτηση Το ποσοστό των αντικειμένων που κατατάχτηκαν λάθος χρησιμοποιείται ως εκτίμηση του πραγματικού σφάλματος Η διαδικασία υλοποιείται στα στατιστικά προγράμματα 256
Παράδειγμα (file: hemophilia.sav) n1=30 γυναίκες χωρίς το γονίδιο της αιμοφιλίας (normal group - noncarriers) n2=45 γυναίκες με το γονίδιο (carriers) Μεταβλητές (μετρήσεις στο αίμα): X1 = log10(ahf activity) X2 = log10(ahf-like antigen) Σκοπός: Διαδικασία διάγνωσης δυνητικών φορέων του γονιδίου 257
Παράδειγμα Αιμοφιλίας Γράφημα 1.4.2 -.0 log10(ahf antigen) -.2 -.4 -.6 -.8 -.6 -.4 -.2 0.0.2 Group Carriers Noncarriers.4 log10(ahf activity) 258
Παράδειγμα Αιμοφιλίας Γράφημα 2 259
Analyze Classify Discriminant 260
Περιγραφικά Αποτελέσματα 261
Συντελεστές Κατάταξης 262
Έλεγχος Συγγραμμικότητας 263
Box's Test of Equality of Covariance Matrices 264
Έλεγχος Μέσων Τιμών Ομάδων 265
Υπολογισμός Score 266
Συντελεστές Τυποποιημένης Συνάρτησης Διακρίσεων 267
Συσχετίσεις Μεταβλητών με τα Scores 268
Ιδιοτιμές - Συσχέτισεις 269
Wilk s Lambda 270
Πίνακας Συνάφειας 271
Αποτελέσματα Kατάταξης Από τις 30 noncarriers, οι 27 (90%) κατατάχτηκαν σωστά Από τις 45 carriers, οι 37 (82.2%) κατατάχτηκαν σωστά Συνολικά, 85.3% κατατάχτηκε σωστά Η μέθοδος cross-validation δίνει συνολικά 84% σωστές κατατάξεις 272
Κατανομή Tιμών των Scores για τις 2 Oμάδες 273
Προβλεπόμενη Ομαδοποίηση (1/2).4.2 -.0 log10(ahf antigen) -.2 -.4 -.6 -.8 -.6 -.4 -.2 0.0 Predicted Group for Carriers Noncarriers.2 log10(ahf activity) 274
Προβλεπόμενη Ομαδοποίηση (2/2) 275
Πολλαπλή Ανάλυση Διακρίσεων Γενίκευση της DA με δύο ομάδες Αναζητά περισσότερους γραμμικούς συνδυασμούς των ανεξάρτητων μεταβλητών Αριθμός συναρτήσεων (νέων μεταβλητών) διάκρισης: min(#independent var., groups-1) 276
Παράδειγμα (file: admission.sav) Επιλογή αν θα εισαχθούν κάποιοι ασθενείς σε μία κλινική με βάση κάποιες βαθμολογίες (ανεξάρτητες μεταβλητές): GPA GMAT Εξαρτημένη μεταβλητή: Groups: 1=admit, 2=do not admit, 3=borderline Ζητούμενο: κατασκευή μοντέλου για μελλοντική χρήση επιλογής ασθενών 277
Διάγραμμα Διασποράς 278
Analyze Classify Discriminant 279
Περιγραφικά Αποτελέσματα 280
Ισότητα Μέσων Τιμών Μεταβλητών στις 3 Ομάδες 281
Συνεισφορά Συναρτήσεων Διάκρισης (1/2) 282
Συνεισφορά Συναρτήσεων Διάκρισης (2/2) 283
Συσχετίσεις 284
Περιοχές Ομάδων Territorial Map Canonical Discriminant Function 2-6,0-4,0-2,0,0 2,0 4,0 6,0 6,0 21 21 21 21 21 21 4,0 21 21 2331 2331 23 31 23 31 2,0 23 31 23 31 23 31 23 31 23 31 * 23 31 *,0 23 31 23 31 23 * 31 23 31 23 31 23 31-2,0 23 31 23 31 23 31 23 31 23 31 23 31-4,0 23 31 23 31 23 31 23 31 23 31 23 31-6,0 23 31-6,0-4,0-2,0,0 2,0 4,0 6,0 Canonical Discriminant Function 1 Symbols used in territorial map Symbol Group Label ------ ----- -------------------- 1 1 Admit 2 2 Do not admit 3 3 Borderline * Indicates a group centroid κέντρο ομάδας 2 κέντρο ομάδας 1 κέντρο ομάδας 3 285
Διαγράμματα Διασποράς 286
Ορθότητα της κατάταξης 287
Συμπεράσματα 288
Ανάλυση Επιβίωσης Survival Analysis Dr. Nikolaos Mittas Dr. Theodosios Theodosiou
Εισαγωγή στην Ανάλυση Επιβίωσης (1/2) Η Ανάλυση Επιβίωσης (Survival Analysis) ασχολείται µέχρι την εµφάνιση ενός γεγονότος την υποτροπή ή τον ϑάνατο ενός ασθενούς, τη βλάβη ενός µηχανήµατος, τη χρεωκοπία µιας επιχείρησης ή το χρόνο ως τη νίκη σε µια παρτίδα σκάκι. 290
Εισαγωγή στην Ανάλυση Επιβίωσης (2/2) Είναι αδύνατο για τον ερευνητή να περιµένει όλο το χρονικό διάστηµα που απαιτείται ώστε να υποτροπιάσουν όλοι οι ασθενείς Επίσης, αν µια ασθενής πεθάνει σε αυτοκινητιστικό δυστύχηµα µετά από 4 χρόνια παρακολούθησης, αυτό δεν αποκλείει τη πιθανότητα να είχε υποτροπιάσει στον πέµπτο χρόνο παρακολούθησης. 291
Λογοκριμένες Παρατηρήσεις Βασικότερη διαφορά της ανάλυσης επιβίωσης από τις υπόλοιπες στατιστικές µεθόδους: Το αποτέλεσµα της έρευνας είναι µόνο κατά ένα µέρος διαθέσιµο. Λογοκριµένες παρατηρήσεις (censored cases) Οι παρατηρήσεις για τις οποίες δεν είναι γνωστό το τελικό αποτέλεσµα Οι αιτίες που τελικά δεν παρατηρείται το τελικό γεγονός µπορεί να είναι διαφορετικές Παρόλο που λογοκριµένες παρατηρήσεις είναι ελλιπείς µπορούν να συνεισφέρουν πληροφορία για την έρευνα 292
Παράδειγμα Λογοκριμένων Παρατηρήσεων (1/3) Μια µελέτη που ξεκινά για την αποτίµηση ενός συγκεκριµένου ϕαρµάκου έχει ένα σαφώς καθορισµένο χρονικό ορίζοντα, έστω πέντε χρόνια. Με το πέρας της µελέτης, οι ασθενείς που δεν έχουν υποτροπιάσει ϑεωρούνται λογοκριµένοι, εφόσον µπορεί να υποτροπιάσουν στο µέλλον αλλά δεν γνωρίζουµε πότε. 293
Παράδειγμα Λογοκριμένων Παρατηρήσεων (2/3) Ένα άλλο παράδειγµα είναι περιπτώσεις ασθενών που για κάποιο τυχαίο λόγο χάθηκαν από την παρακολούθηση, κάτι που είναι σύνηθες στις ιατρικές έρευνες 294
Παράδειγμα Λογοκριμένων Παρατηρήσεων (3/3) Χρόνοι ζωής για οκτώ ασθενείς µε καρκίνο του πνεύµονα. Η κάθετη γραµµή δείχνει το σηµείο που σταµάτησε η µελέτη Για τους ασθενείς 1, 5, και 8 ο ϑάνατος ϑα επέλθει µετά το τέλος της µελέτης. Συνεπώς, το γεγονός δεν είναι παρατηρήσιµο, αλλά ξέρουµε ότι ο χρόνος επιβίωσης ήταν µεγαλύτερος από 3 έτη 295
Σκοπός Ανάλυσης Επιβίωσης Πόσο χρόνο µπορεί να επιβιώσει ένας ασθενής, δεδοµένων κάποιων συγκεκριµένων χαρακτηριστικών τον χρόνο που έχει ήδη επιβιώσει κλινικά χαρακτηριστικά της ασθένειας, της ϑεραπείας ή ακόµα και γονιδιακά χαρακτηριστικά 296
Σε τι απαντάει η Ανάλυση Επιβίωσης; 1. Ποιο είναι το ποσοστό των ασθενών που µπορεί να επιβιώσουν πέρα από ένα συγκεκριµένο χρονικό σηµείο Π.χ. ποια µπορεί να είναι η 5-ετής επιβίωση γυναικών µε καρκίνο των ωοθηκών Ποια είναι η µέση επιβίωση µιας οµάδας ασθενών µε καρδιαγγειακά προβλήµατα 2. Μπορεί να µελετηθεί ο τρόπος µε τον οποίο ένα συγκεκριµένο χαρακτηριστικό επηρεάζει τον χρόνο θανάτου και την πιθανότητα να συµβεί σε κάθε χρονική στιγµή 297
Παράδειγμα Ανάλυσης Επιβίωσης Σε µια µελέτη ασθενών µε καρκίνο του µαστού, το µέγεθος του όγκου ή ο αριθµός των διηθηµένων λεµφαδένων ή η ϕαρµακευτική αγωγή και παρέµβαση µπορεί να επηρεάσει το χρόνο επιβίωσης Κάθε πληροφορία που είναι διαθέσιµη για τους ασθενείς, µπορεί και ϑα πρέπει να συµπεριληφθεί σε ένα στατιστικό µοντέλο, κατάλληλα ϕτιαγµένο έτσι ώστε να µπορεί να περιγράψει το µηχανισµό της ασθένειας, τον τρόπο µε τον οποίο οι παράγοντες αλληλεπιδρούν και να είναι σε θέση να προσφέρει ασφαλείς εκτιµήσεις των κινδύνων και του χρόνου επιβίωσης 298
Βασικές Έννοιες 299
Συνάρτηση Επιβίωσης 300
Ιδιότητες Συνάρτησης Επιβίωσης 301
Διάγραμμα Καμπύλης Επιβίωσης 302
Συνάρτηση Κινδύνου 303
Η έννοια της Συνάρτησης Κινδύνου 304
Ιδιότητες Συνάρτησης Κινδύνου 305
Μέσος Υπολειπόμενος Χρόνος 306
Kaplan-Meier Survival Analysis 307
Περιγραφή Μεταβλητών Οι μεταβλητές: Age: ηλικία σε χρόνια Gender: φύλο Health: Κατάσταση υγείας των σθενών Treatment: Φάρμακο Dosage: Δόση φαρμάκου Status: Κατάσταση Time: Χρόνος μέχρι να παρατηρηθεί το γεγονός 308
Survival -> Kaplan-Meier Επιλογή Διαδικασίας Ορισμός Παραμέτρων (1/2) 309
Ορισμός Παραμέτρων (2/2) 310
Παράμετροι Compare Factor Levels 311