Σεμινάριο Προηγμένα Θέματα Στατιστικής. Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Σεμινάριο Προηγμένα Θέματα Στατιστικής Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Λογιστική Παλινδρόμηση Binary Logistic Regression Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Γενικά-Το κίνητρο (1/2) Σε διάφορες επιστήμες οι εξαρτημένες μεταβλητές είναι κατηγορικές και συχνά διχότομες (dichotomous) π.χ. ανακούφιση από πόνο μετά από συγκεκριμένη θεραπεία, μόλυνση ή όχι από τον ιό HIV, επιβίωση μετά από μία εγχείρηση ή όχι κλπ Μειονέκτημα της κλασικής γραμμικής παλινδρόμησης (linear regression) είναι ότι δε μπορεί να μοντελοποιήσει τέτοιου τύπου μεταβλητές 3

Γενικά-Το κίνητρο (2/2) Ένα μεγάλο εύρος μεθοδολογιών έχει αναπτυχθεί για την ανάλυση συνόλων δεδομένων με κατηγορικές εξαρτημένες μεταβλητές Logistic Regression, Discriminant Analysis, Classification and Regression Trees κτλ. Η Λογιστική Παλινδρόμηση (Logistic Regression- LR) αποτελεί μία μορφή παλινδρόμησης Η εξαρτημένη μεταβλητή είναι κατηγορική και διχότομη (δύο μόνο κατηγορίες) 4

Binary Logistic Regression-Γενικά LR καθορίζει την επίδραση πολλαπλών ανεξάρτητων μεταβλητών πάνω σε μία διχότομη εξαρτημένη μεταβλητή Στόχος Πρόβλεψη νέων περιπτώσεων σε μία από τις 2 κλάσεις/τάξεις (classification) H LR χρησιμοποιείται για μοντελοποίηση: Ποσοτικών και Κατηγορικών (mixed) ανεξάρτητων μεταβλητών Προτιμάται από την Discriminant Analysis: Όταν έχουμε μόνο 2 κατηγορίες για την εξαρτημένη μεταβλητή Απλούστερη στο χειρισμό mixed ανεξάρτητων μεταβλητών Λιγότερες υποθέσεις 5

Αποτυχία Γραμμικού Μοντέλου Διάγραμμα διασποράς μεταξύ των Χ και Υ (0 και 1) Δεν προσαρμόζεται ευθεία γραμμή στα δεδομένα Ποιο μοντέλο πρέπει να χρησιμοποιήσουμε; 6

Μαθηματικό Υπόβαθρο 7

Υποθέσεις (1/2) 8

Υποθέσεις (2/2) 9

Στόχος 10

Odds Ratio 11

Logit (logarithm of odds) 12

Ερμηνεία Συντελεστών (1/3) 13

Logistic Regression στο SPSS Στο SPSS το μοντέλο κατασκευάζεται ώστε να προβλέπει το group με το μεγαλύτερο αριθμό (με βάση την κωδικοποίηση) Εάν το Yes έχει κωδικοποιηθεί με 1 και το No με 2, τότε προβλέπει το βαθμό συγγένειας για την κατηγορία No Εάν το No έχει κωδικοποιηθεί με 1 και το Yes με 2, τότε προβλέπει το βαθμό συγγένειας για την κατηγορία Yes Προσοχή!!! Η μόνη λύση για να αλλάξει η προβλεπόμενη κατηγορία είναι η επανακωδικοποίηση 16

Logistic Regression στο SPSS-Τι προβλέπει Η πρόβλεψη που εξάγεται από το SPSS Πιθανότητα μεταξύ 0 και 1 Κατηγορία με βάση κάποιο κατώφλι (cut point) και προεπιλεγμένη τιμή (default value) 0.50 Εάν η πιθανότητα είναι μικρότερη από 0.50 Η περίπτωση κατατάσσεται στην 1 η κατηγορία Εάν η πιθανότητα είναι μεγαλύτερη από 0.50 Η περίπτωση κατατάσσεται στην 2 η κατηγορία 17

Logistic Regression στο SPSS-Μέγεθος Δείγματος 18

Logistic Regression στο SPSS-Επιλογή Μεταβλητών Υπάρχουν 2 μέθοδοι για επιλογή των ανεξάρτητων μεταβλητών που θα εισέρθουν στο μοντέλο: Ταυτόχρονη (enter) Όλες οι μεταβλητές εισέρχονται την ίδια στιγμή Εισαγωγή/εξαγωγή με βήματα (forward/backward) Οι μεταβλητές επιλέγονται ώστε να μεγιστοποιείται στατιστικά η συνεισφορά τους στο μοντέλο 19

Logistic Regression στο SPSS-Υπολογιστικές Μέθοδοι 20

Logistic Regression στο SPSS-Υπολογιστικές Μέθοδοι 21

Συνολικός Έλεγχος Προσαρμογής 22

Παράδειγμα Δερματολόγοι από ένα μεγάλο νοσοκομείο μελετούν ασθενείς με ψωρίαση (Pain Data.sav) Αναθέτουν τυχαία 45 ασθενείς σε 3 groups: Group 1 Λαμβάνει τη θεραπεία Α Group 2 Λαμβάνει τη θεραπεία Β Group 3 Λαμβάνει placebo Ανεξάρτητες μεταβλητές: Gender, Age, Group Εξαρτημένη μεταβλητή Relief: 0=No relief 1=Relief 23

Binary Logistic Regression στο SPSS 24

Μενού Categorical 25

Δήλωση Κατηγορικών Μεταβλητών Επιλογή κατηγορικών μεταβλητών Επιλογή κατηγορίας αναφοράς Στο παράδειγμα μας επιλέγουμε την τελευταία κατηγορία (Last) Αυτή που έχει κωδικοποιηθεί με τον μεγαλύτερο αριθμό 26

Μενού Save 27

Δήλωση Αποθήκευσης Μεταβλητών 28

Μενού Options 29

Αποτελέσματα-Συγκεντρωτικά για τις Περιπτώσεις 30

Κωδικοποίηση Κατηγορικών Μεταβλητών 31

Block 0: Beginning Block 32

Μεταβλητές που δεν εισήρθαν στο Μοντέλο 33

Block 1: Method = Enter 34

-2 Log Likelihood Στατιστικό 35

Σχέση Omnibus Test και 2 Log Likelihood 36

Cox & Snell R 2 37

Nagelkerder R 2 38

Hosmer and Lemeshow Στατιστικό 39

Πίνακας Κατηγοριοποίησης Τρόπος αξιολόγησης του μοντέλου Αναλογία σωστών κατηγοριοποιημένων περιπτώσεων Στήλες Προβλεπόμενες Κατηγορίες Γραμμές Παρατηρούμενες Κατηγορίες Ιδανικό μοντέλο Όλα τα στοιχεία στη διαγώνιο 73.3% των περιπτώσεων κατηγοριοποιήθηκαν σωστά 40

Συντελεστές Μοντέλου 41

Εξίσωση Μοντέλου 42

Ερμηνεία Συντελεστών Τα odds για ανακούφιση από την ψωρίαση για τους Άντρες είναι 3.028 (302.8%) μεγαλύτερο σε σχέση με τις Γυναίκες Καθώς η ηλικία (age) αυξάνει κατά έναν χρόνο, τα odds για ανακούφιση από την ψωρίαση μείωνονται κατά 7%=(0.93-1)100%. Τα odds για ανακούφιση από την ψωρίαση για το drug A είναι 19.744 (1,974.4%) μεγαλύτερο σε σχέση με Placebo Τα odds για ανακούφιση από την ψωρίαση για το drug B είναι 1.411 (141.1%) μεγαλύτερο σε σχέση με Placebo 43

Προβλεπόμενες Πιθανότητες και Κατηγορίες Το SPSS σώζει για κάθε περίπτωση: Προβλεπόμενες τιμές πιθανοτήτων (Predicted Probability-PRE_1) Προβλεπόμενες κατηγορίες (Predicted Group-PGR_1) 44

Residuals-Υπόλοιπα 45

Residuals-Υπόλοιπα (Μελέτη) 46

Παράδειγμα Residuals 47

Influential Cases 48

Παράδειγμα Influential Cases 49

Επιλογή Μεθόδου Εισαγωγής Μεταβλητών (1/2) 50

Επιλογή Μεθόδου Εισαγωγής Μεταβλητών (2/2) 51

Αναφορά Αποτελεσμάτων LR A logistic regression analysis was conducted to predict the relief from psoriasis for 45 patients. A test of the full model against a constant only model was statistically significant, indicating that the predictors as a set reliably distinguished between relief from psoriasis and no relief (chi square = 18.048, p <.001 with df = 4). Nagelkerke s R 2 of.442 indicated a moderately strong relationship between prediction and grouping. Prediction success overall was 73.3% (70% for No relief and 76% for relief. The Wald criterion demonstrated that only age (p=.036) and drug A (p =.007) made a significant contribution to prediction. Drug B and gender were not significant predictors. The odds in favor of psoriasis relief for males is 3.028 times that for females (302.8%). As age increases by one year, the odds in favor of psoriasis relief decrease by 7%=(0.93-1)100%. The odds in favor of psoriasis relief for drug A patients is 19.744 times that of placebo patients (or 1,974.4%). The odds in favor of psoriasis relief for drug B patients is 1.411 times that of placebo patients (or 141.1%). 52

Παράρτημα-Αξιολόγηση Μοντέλου Η αξιολόγηση ενός μοντέλου πρόβλεψης αποτελεί σημαντική διαδικασία Βασίζεται συνήθως στον πίνακα κατηγοριοποίησης (classification table) ή πίνακα συνάφειας (confusion matrix): True Negative (Ένας υγιής κατατάσσεται σωστά ως υγιής False Positive (Ένας υγιής κατατάσσεται λανθασμένα ως ασθενής) False Negative (Ένας ασθενής κατατάσσεται λανθασμένα ως υγιής) True Positive (Ένας ασθενής κατατάσσεται σωστά ως ασθενής Observed Class No Yes Predicted Class No Yes True Negative False Positive (Type I error) False Negative (Type II error) True Positive 53

1. Accuracy = (TN+TP)/(TN+FN+FP+TP) Ικανότητα να προβλέπει σωστά 2. Sensitivity = TP/(TP+FN) Παράρτημα-Μέτρα Αξιολόγησης (1/2) Observed Class Predicted Class No Yes No TN FP Yes FN TP Ικανότητα να προβλέπει σωστά άτομα που παρουσιάζουν ένα φαινόμενο (π.χ. αρρώστια) 3. Specificity = TN/(TN+FP) Ικανότητα να προβλέπει σωστά άτομα που δεν παρουσιάζουν ένα φαινόμενο (π.χ. αρρώστια) 4. Precision = TP/(TP+FP) 5. g-means metric = (sensitivity x specificity) 1/2 Λαμβάνει υπόψη το sensitivity και specificity 54

Παράρτημα-Μέτρα Αξιολόγησης (2/2) 6. Relative Sensitivity = Sensitivity/Specificity Τιμές κοντά στο 1 υποδεικνύουν μη-μεροληπτικό μοντέλο 7. F-measure = 2 x (precision x sensitivity)/(precision + sensitivity) 8. Type I error = 1 specificity 9. Type II error = 1 sensitivity Προσοχή Η επιλογή των μέτρων εξαρτάται από τι είναι σημαντικό για τον ερευνητή!!! 55

Παράρτημα-Παράδειγμα για Μέτρα Αξιολόγησης 56

Παράρτημα-Προσαρμογή vs. Πρόβλεψη Μοντέλου Το μοντέλο μπορεί να έχει προσαρμοστεί με ικανοποιητικό τρόπο Έχει όμως τη δυνατότητα να προβλέπει με ικανοποιητικό τρόπο νέες περιπτώσεις; Fitting Διαδικασία προσαρμογής μοντέλου: Overfitting Γνωστό πρόβλημα Το μοντέλο προσαρμόζεται σχεδόν τέλεια στα δεδομένα Το μοντέλο δε μπορεί να προβλέψει με ικανοποιητικό τρόπο νέες περιπτώσεις Model Validation Διαδικασία αξιολόγησης προβλεπτικής ικανότητας/γενίκευσης του μοντέλου 57

Παράρτημα-Cross-Validation Cross-validation (CV) Τεχνικές αξιολόγησης προβλεπτικής ικανότητας μοντέλου Γενική φιλοσοφία Χωρίζουν το σύνολο δεδομένων: Σύνολα εκπαίδευσης (training set) Σύνολα ελέγχου (test set) Τo μοντέλο «χτίζεται» στο training set και ελέγχεται στο test set, δηλαδή σε άγνωστες περιπτώσεις 58

Παράρτημα-Τεχνικές Cross-Validation (1/2) Τεχνικές Cross-validation: 1. Hold-out: Χωρίζονται τα δεδομένα σε training set (2/3) και σε test set (1/3) 2. k-fold cross-validation: Τα δεδομένα χωρίζονται σε k υποσύνολα ίδιου μεγέθους: Σε κάθε επανάληψη (k), ένα υποσύνολο αποτελεί το test set και τα υπόλοιπα k-1, τo training set Υπολογίζεται ο μέσος όρος από τα αποτελέσματα των k επαναλήψεων 59

Παράρτημα-Τεχνικές Cross-Validation (2/2) Τεχνικές Cross-validation: 3. Leave-one-out cross-validation: Τα δεδομένα χωρίζονται σε n υποσύνολα (n=αριθμός περιπτώσεων): Σε κάθε επανάληψη (n), μία περίπτωση αποτελεί το test set και οι υπόλοιπες n-1, τo training set Υπολογίζεται ο μέσος όρος από τα αποτελέσματα των n επαναλήψεων 60

Παράρτημα-Παράδειγμα 61

Πολυωνυμική Λογιστική Παλινδρόμηση Multinomial Logistic Regression Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Γενικά-Το κίνητρο (1/2) Η Logistic Regression (LR) ) αποτελεί μία μορφή παλινδρόμησης: Η εξαρτημένη μεταβλητή είναι κατηγορική και διχότομη (δύο μόνο κατηγορίες-επίπεδα) Μειονέκτημα: Ανέφικτη η μοντελοποίηση για εξαρτημένη μεταβλητή με περισσότερα από 2 επίπεδα 63

Γενικά-Το κίνητρο (2/2) Η Multinomial Logistic Regression (MLR) αποτελεί γενίκευση της LR: Η εξαρτημένη κατηγορική μεταβλητή μπορεί να έχει περισσότερα από 2 επίπεδα Η βασική αρχή της MLR είναι παρόμοια με εκείνη της LR: Βασίζεται στον υπολογισμό πιθανοτήτων για κάθε κατηγορία της εξαρτημένης μεταβλητής 64

H MRL λειτουργεί με έναν τρόπο παρόμοιο με εκείνο των dummy μεταβλητών: Συγκρίνει την πιθανότητα μία νέα περίπτωση να ανήκει σε μία από τις n-1 κατηγορίες σε σχέση πάντα με μία κατηγορία αναφοράς (baseline-reference category) Χρησιμοποιεί τη μέθοδο Maximum Likelihood Πολλαπλό Μοντέλο j i e P ( Yi = j) = J b j X i j e P( Y i = j) = Η πιθανότητα η νέα περίπτωση να ανήκει στην j κατηγορία Χ i = Οι ανεξάρτητες μεταβλητές b j = Οι συντελεστές του μοντέλου Multinomial Logistic Regression-Γενικά (1/3) b X 65

Multinomial Logistic Regression-Γενικά (2/3) Δυνατότητες MRL: Μπορεί να χειριστεί ανεξάρτητες μεταβλητές: Συνεχείς (covariates) Κατηγορικές (factors) Διαθέτει μηχανισμό για αυτοματοποιημένη εισαγωγή/επιλογή ανεξάρτητων μεταβλητών Μία από τις κατηγορίες πρέπει να δηλωθεί ως κατηγορία αναφοράς Μειονέκτημα: Αδυνατεί να συγκρίνει μεταξύ τους τις άλλες κατηγορίες που δεν είναι κατηγορίες αναφοράς 66

Multinomial Logistic Regression-Γενικά (3/3) Η επιλογή της κατηγορίας αναφοράς είναι κρίσιμη απόφαση: Εξαρτάται από τους σκοπούς της έρευνας (Τι θέλουμε να συγκρίνουμε;) Εμπειρικός κανόνας για ανάθεση κατηγορίας αναφοράς: Επιλέγουμε την κατηγορία με τη μεγαλύτερη συχνότητα εμφάνισης Δεν αποτελεί δέσμευση 67

Παράδειγμα (1/2) Η μαστογραφία αποτελεί μία δυσάρεστη εμπειρία για πολλές γυναίκες Η δυσαρέσκεια μπορεί να αποτελέσει ανασταλτικό παράγοντα για τον τακτικό έλεγχο και διενέργεια μαστογραφίας Σύνολο δεδομένων mexxp.sav (Hosmer and Lemeshow (2000) Applied Logistic Regression: Second Edition) 68

Παράδειγμα (2/2) Δεδομένα από τη διεξαγωγή έρευνας σχετικά με την εμπειρία των γυναικών μετά από εξέταση μαστογραφίας 5 ανεξάρτητες μεταβλητές (4 κατηγορικές και 1 συνεχής): Κατηγορικές: Mammograph Experience (ΜΕ), Symptoms (SYMPT), History (HIST), Breasts Self-Examination (BSE) Συνεχής: Perceived Benefit of Mammography (PB): Άθροισμα 5 scale απαντήσεων (με 4 κατηγορίες) Χαμηλή τιμή δείχνει πεποίθηση ότι μαστογραφία επιφέρει κέρδος 1 εξαρτημένη μεταβλητή (κατηγορική): Πεποίθηση ότι η μαστογραφία συνεισφέρει στην πρόβλεψη εμφάνισης καρκίνου μαστού (Not likely, Somewhat likely, Very likely) 69

Επιλογή Κατηγορίας Αναφοράς Κατασκευή Πίνακα Συχνοτήτων Η κατηγορία Very likely είναι η πιο «δημοφιλής» Ορισμός της Very likely ως κατηγορία αναφοράς 70

Multinomial Logistic Regression στο SPSS 71

Επιλογή Κατηγορίας Αναφοράς στο SPSS (1/2) 72

Επιλογή Κατηγορίας Αναφοράς στο SPSS (2/2) 73

Ανεξάρτητες Κατηγορικές και Συνεχείς Μεταβλητές 74

Μενού Statistics 75

Μενού Model (1/2) 76

Μενού Model (2/2) Επιλογή Main effects: Εισέρχονται όλες οι ανεξάρτητες μεταβλητές Καμία αλληλεπίδραση (interaction) των ανεξάρτητων μεταβλητών Επιλογή Full factorial: Εισέρχονται όλες οι ανεξάρτητες μεταβλητές Main effects και όλες οι πιθανές αλληλεπιδράσεις (interactions) των ανεξάρτητων μεταβλητών Επιλογή Custom/Stepwise: Δυνατότητα αυτοματοποιημένης εισαγωγής καταλληλότερων ανεξάρτητων μεταβλητών Δυνατότητα επιλογής μοντέλου Main Effects/Interactions 77

Μενού Save (1/2) 78

Μενού Save (2/2) 79

Αποτελέσματα-Περιγραφικά Στατιστικά 80

Συνολική Αξιολόγηση Προσαρμογής Μοντέλου 81

Δείκτες Προσαρμογής (1/2) 82

Δείκτες Προσαρμογής (2/2) 83

Αξιολόγηση Προβλέψεων Μοντέλου 84

Αξιολόγηση Ανεξάρτητων Μεταβλητών 85

Συντελεστές Μοντέλου (1/2) 86

Συντελεστές Μοντέλου (2/2) 87

Πρόσημο και Ερμηνεία Συντελεστών Μοντέλου (1/5) Παράμετροι με στατιστικά σημαντικούς αρνητικούς συντελεστές Μειωμένη πιθανότητα της συγκεκριμένης κατηγορίας σε σχέση με την κατηγορία αναφοράς Η παράμετρος της τελευταίας κατηγορίας κάθε ανεξάρτητης μεταβλητής είναι περιττή 88

Πρόσημο και Ερμηνεία Συντελεστών Μοντέλου (2/5) Μεταβλητή PB: Καθώς η PB αυξάνει κατά μία μονάδα, τα odds για την κατηγορία Not likely αυξάνονται κατά 60.6%=(1.606-1)100% σε σχέση με την κατηγορία αναφοράς Very Likely Καθώς η PB αυξάνει κατά μία μονάδα, τα odds για την κατηγορία Somewhat likely αυξάνονται κατά 17.6%=(1.176-1)100% σε σχέση με την κατηγορία αναφοράς Very Likely 89

Πρόσημο και Ερμηνεία Συντελεστών Μοντέλου (3/5) Μεταβλητή BSE: Οι γυναίκες που πιστεύουν ότι η μαστογραφία είναι λιγότερο πιθανό (Not likely) να ανιχνεύσει νέες περιπτώσεις καρκίνου είναι πιο πιθανό (402.3%) να μην έχουν εμπειρία αυτοεξέτασης σε σχέση τις γυναίκες που πιστεύουν ότι είναι πολύ πιθανό (Very Likely) η μαστογραφία να ανιχνεύσει νέες περιπτώσεις καρκίνου 90

Πρόσημο και Ερμηνεία Συντελεστών Μοντέλου (4/5) 91

Πρόσημο και Ερμηνεία Συντελεστών Μοντέλου (5/5) 92

Πίνακας Κατηγοριοποίησης Τρόπος αξιολόγησης του μοντέλου Αναλογία σωστών κατηγοριοποιημένων περιπτώσεων Στήλες Προβλεπόμενες Κατηγορίες Γραμμές Παρατηρούμενες Κατηγορίες Ιδανικό μοντέλο Όλα τα στοιχεία στη διαγώνιο 70.1% των περιπτώσεων κατηγοριοποιήθηκαν σωστά 93

Αξιολόγηση Πίνακα Κατηγοριοποίησης 94

Αναφορά Αποτελεσμάτων MLR 95

Διατακτική Παλινδρόμηση Ordinal Regression Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Γενικά-Το κίνητρο (1/2) Σε διάφορες εφαρμογές της βιοστατιστικής, οι εξαρτημένες μεταβλητές είναι διατάξιμες (ordinal) Κατηγορικές μεταβλητές με διάταξη στις κατηγορίες π.χ. ανακούφιση από πόνο μετά από συγκεκριμένη θεραπεία (λίγο, μέτρια, πολύ), διάγνωση ασθένειας (λιγότερο σοβαρή μέχρι πολύ σοβαρή) Η μοντελοποίηση απαιτεί ιδιαίτερη μεταχείριση ώστε να ληφθούν υπόψη: Η κατηγορική φύση Η διάταξη στις κατηγορίες 97

Γενικά-Το κίνητρο (2/2) Κατασκευή Multinomial Logistic Regression: Λαμβάνει υπόψη την κατηγορική φύση της μεταβλητής Δε λαμβάνει υπόψη τη διάταξη στις τιμές Κατασκευή Linear Regression Model: Λαμβάνει υπόψη τη διάταξη στις τιμές Δεν ικανοποιούνται οι υποθέσεις (π.χ. κανονικότητα) Δε λαμβάνει υπόψη την κατηγορική φύση της μεταβλητής 98

Ordinal Regression-Γενικά Ordinal Regression-OR (Διατακτική Παλινδρόμηση) ή Polytomous Universal Model-PLUM: Επέκταση Γενικού Γραμμικού Μοντέλου Προβλέπει τις αθροιστικές πιθανότητες για κάθε διατάξιμη κατηγορία της εξαρτημένης μεταβλητής Κατασκευάζει διαφορετικές εξισώσεις για κάθε κατηγορία της εξαρτημένης μεταβλητής Κάθε εξίσωση δίνει ως αποτέλεσμα μία προβλεπόμενη πιθανότητα για κάθε περίπτωση να ανήκει στην αντίστοιχη κατηγορία ή σε κάποια χαμηλότερη 99

Αναδρομή Binary Logistic Regression: P( Y = 1) 0 1 1 + k ι log = log 0 1 1 P( Y = 0) ( b + b X +... b X ε ) e = b + b X +... bk X k k + Υπολογισμός logit (log of the odds): Λογάριθμος του λόγου πιθανοτήτων εμφάνισης ενός γεγονότος Π.χ. Αναλογία αριθμού ασθενών που επέζησαν από μία εγχείριση προς εκείνους που δεν επέζησαν Συντελεστές μοντέλου Μεταβολή του logit με βάση τις τιμές των ανεξάρτητων μεταβλητών 100

Τροποποίηση Binary Logistic Regression Υπάρχει δυνατότητα μετατροπής του Binary Logistic Regression μοντέλου: Διαφορετικός ορισμός των πιθανοτήτων για το γεγονός που μας ενδιαφέρει Παράδειγμα Ένας γιατρός αναλαμβάνει να χαρακτηρίσει την κατάσταση ενός ασθενούς μετά από μία εγχείριση σε μία 4-Likert Scale: 1=Πολύ κακή, 2=Κακή, 3=Καλή, 4=Πολύ καλή 101

Παράδειγμα Μοντελοποίησης Ordinal Regression Στην OR το γεγονός που μας ενδιαφέρει είναι η παρατήρηση μίας συγκεκριμένης τιμής ή μίας μικρότερης τιμής (αθροιστική κατανομή) Μοντελοποίηση των odds: θ = P(score1)/ (score μεγαλύτερο από1) 1 P θ2 = P(score1ή 2)/ P(score μεγαλύτερο από 2) θ = P(score1ή 2 ή 3)/ (score μεγαλύτερο από 3) 3 P Η τελευταία κατηγορία δεν έχει odds: Η πιθανότητα εμφάνισης μίας εκ των 4 κατηγοριών ισούται με 1 102

Ordinal Regression Μοντέλο (1/3) 103

Generalized Linear Model (1/3) 106

Διαθέσιμες Link Functions Υπάρχουν 5 διαθέσιμες link functions γ Πιθανότητα εμφάνισης ενός γεγονότος Link Function Τύπος Εφαρμογή Logit ln(γ/(1-γ)) Όμοια κατανεμημένες κατηγορίες Complementary log-log ln(-ln(1-γ)) Υψηλότερες κατηγορίες πιο πιθανές Negative log-log -ln(-ln(γ)) Χαμηλότερες κατηγορίες πιο πιθανές Probit Φ -1 (γ) Ανάλυση με κανονικά κατανεμημένη latent μεταβλητή Cauchit (inverse Cauchy) tan(π(γ-0.5)) Αποτελέσματα με πολλές ακραίες παρατηρήσεις Probit, Logit Ομαλή αύξηση στη συνάρτηση αθροιστικής κατανομής Complementary log-log Απότομη αύξηση (μικρή αύξηση από το 0 και απότομη αύξηση όταν προσεγγίζουν το 1 Negative log-log Απότομη αύξηση (μεγάλη αύξηση από το 0 και μικρή αύξηση όταν προσεγγίζουν το 1 109

Παράδειγμα Ένα νέο φάρμακο για τη θεραπεία του καρκίνου χορηγείται σε ασθενείς Αναθέτουν τυχαία 200 ασθενείς σε 2 Treatment Groups: New Drug Existing Drug Διαφορετικές δοσολογίες (dosage) για τα 2 φάρμακα: Low, High Ένας ειδικός γιατρός αξιολόγησε την πορεία τους: 1=Poor, 2=Fair, 3=Good Καταγράφηκε και το φύλο (Gender) 110

Εξέταση Αθροιστικής Κατανομής Πριν τη δημιουργία μοντέλου ελέγχουμε γραφικά τα δεδομένα: Γράφημα Αθροιστικής Κατανομής 111

Αθροιστική Κατανομή Οπτικοποίηση του ΟR μοντέλου: Κατηγορία Poor Αρκετά μεγαλύτερο ποσοστό των ασθενών που πήραν το Existing drug (σχεδόν 58%) Επειδή οι ασθενείς που πήραν το Existing drug έχουν γενικά μικρότερες τιμές (General Health), ο συντελεστής της μεταβλητής περιμένουμε να είναι θετικός 112

Ordinal Regression στο SPSS Επιλογή μεταβλητών: Δεν υπάρχει αυτοματοποιημένος τρόπος Εάν υπάρχει θεωρητική και εμπειρική γνώση για τις ανεξάρτητες μεταβλητές, τότε εισάγονται στο μοντέλο Αν όχι, τότε εισάγονται όλες και ελέγχουμε την προσαρμογή του μοντέλου Κακή προσαρμογή Εξαγωγή μεταβλητής Factor(s) Ονομαστικές Μεταβλητές Covariate(s) Συνεχείς Μεταβλητές 113

Εισαγωγή Scale Component 114

Επιλογή Link Function (1/2) 115

Επιλογή Link Function (2/2) 116

Επιλογές για τα Αποτελέσματα 117

Warnings 118

Αξιολόγηση Προβλέψεων Μοντέλου (1/2) 119

Αξιολόγηση Προβλέψεων Μοντέλου (2/2) 120

Pseudo R-Square Δείκτες (1/2) 121

Pseudo R-Square Δείκτες (2/2) 122

Πίνακας Cell Information 123

Πίνακας Κατηγοριοποίησης (1/2) 124

Πίνακας Κατηγοριοποίησης (2/2) 125

Ερμηνεία Πίνακα Κατηγοριοποίησης Κατηγορία Poor 43 (63.2%) σωστή κατηγορία Κατηγορία Fair 49 (60.5%) σωστή κατηγορία Κατηγορία Good 26 (51.0%) σωστή κατηγορία Συνολικό ποσοστό σωστής κατηγοριοποίησης (43+49+26)/200=0.59 (59%) 126

Αξιολόγηση Πίνακα Κατηγοριοποίησης Εμπειρικός κανόνας για την αξιολόγηση μοντέλου: Το μοντέλο πρέπει να επιφέρει 25% βελτίωση στο ποσοστό τυχαίας ακρίβειας (accuracy by chance): Proportional by chance accuracy rate: Άθροισμα των τετραγωνικών συχνοτήτων εμφάνισης κάθε group Proportional by chance accuracy rate = 0.340 2 +0.405 2 +0.255 2 =0.3447=34.47% Σύμφωνα με τον εμπειρικό κανόνα θα πρέπει: Βελτίωση τουλάχιστον 25%: 34.47*1.25=43.08% 127

Parallel Lines Έλεγχος (1/2) 128

Parallel Lines Έλεγχος (2/2) 129

Πρόσημο και Ερμηνεία Συντελεστών Μοντέλου 130

Πρόσημο και Ερμηνεία Συντελεστών Μοντέλου 131

Αναθεώρηση Μοντέλου 135

Σύγκριση Μοντέλων (Goodnes of Fit) 136

Σύγκριση Μοντέλων (Pseudo R-square) 137

Σύγκριση Μοντέλων (Parameter Estimates) 138

Σύγκριση Μοντέλων (Test of Parallel Lines) 139

Σύγκριση Μοντέλων (Test of Parallel Lines) 140

Ανάλυση Παραγόντων Factor Analysis Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Γενικά-Το κίνητρο Σε διάφορες επιστήμες προσπαθούμε να μετρήσουμε πράγματα και έννοιες που δεν μπορούν να μετρηθούν άμεσα π.χ. νοημοσύνη, ικανοποίηση, δυσαρέσκεια κλπ Λανθάνουσες μεταβλητές (latent variables) 142

Γενικά-Το πρόβλημα Μέτρηση πολλών πραγμάτων (μεταβλητών) που σχετίζονται με αυτό που θέλουμε Πρόβλημα: Οι μετρήσεις που έχουμε κάνει αντιπροσωπεύουν μια μόνο μεταβλητή; «Πίσω» από τις μεταβλητές που μετρήσαμε υπάρχει μια μόνο μεταβλητή ως «αιτία» τους; 143

Ανάλυση Παραγόντων (Factor Analysis FA)-Περιγραφή Τεχνική ανακάλυψης ομάδων μεταβλητών Κατανόηση της δομής συνόλου μεταβλητών Χρησιμοποιήθηκε αρχικά από τους Spearman και Thurstone για την κατανόηση της «νοημοσύνης» Κατασκευή ερωτηματολογίων για μέτρηση ασαφών εννοιών Για μείωση των διαστάσεων ενός συνόλου δεδομένων διατηρώντας όσο το δυνατό περισσότερη πληροφορία π.χ. Λύνει το πρόβλημα της πολυσυγγραμμικότητας (multicollinearity) στην παλινδρόμηση 144

Παράγοντες (Factors) Πίνακας συσχετίσεων Πίνακας συσχετίσεων (R-matrix or Correlation matrix) Πίνακας με στοιχεία τις συσχετίσεις συνόλου μεταβλητών Διαγώνια στοιχεία = 1 Μη-διαγώνια στοιχεία συντελεστές συσχέτισης Συνήθως το rho του Pearson Ομάδες μεταβλητών με μεγάλες συσχετίσεις μεταξύ τους οι μεταβλητές είναι εκφράσεις της ίδιας (κρυμμένης) διάστασης 145

Παράγοντες (Factors) Μείωση διαστάσεων Οι «κρυμμένες διαστάσεις» λέγονται παράγοντες (factors) ή λανθάνουσες μεταβλητές (latent variables) Μείωση των διαστάσεων από σύνολο αλληλο-συσχετισμένων μεταβλητών σε μικρότερο σύνολο παραγόντων Οικονομία με την εξήγηση του μέγιστου ποσοστού κοινής διασποράς σε πίνακα συσχετίσεων 146

Παράγοντες (Factors) - Εφαρμογές Παραδείγματα Ψυχολογία Τεστ για μέτρηση χαρακτηριστικών προσωπικότητας (εξωστρέφεια, εσωστρέφεια) Eysenck, 1953 Ερωτηματολόγια για πρόσληψη σε εταιρείες Οικονομικές επιστήμες Παραγωγικότητα, κέρδη, ανθρώπινο δυναμικό ανάπτυξη εταιρείας (λανθάνουσα) 147

Παράδειγμα Μία έρευνα αφορά τον αριθμό τσιγάρων κατά κεφαλή που κάπνισαν οι πολίτες 43 πολιτειών (1960) και τους ρυθμούς θανάτων ανά 100 χιλιάδες του πληθυσμού από διάφορους τύπους καρκίνων Μεταβλητές (αρχείο Correlation Analysis Cancer.sav): state = state cigar= Αριθμός τσιγάρων που κάπνισαν (εκατοντάδες κατά κεφαλήν) bladder = Θάνατοι ανά 100 χιλιάδες από καρκίνο ουροδόχου κύστης lung = Θάνατοι ανά 100 χιλιάδες από καρκίνο των πνευμόνων kidney = Θάνατοι ανά 100 χιλιάδες από καρκίνο των νεφρών leukemia = Θάνατοι ανά 100 χιλιάδες από λευκαιμία area = 1 (Northwest), 2 (Midwest), 3 (South), 4(West) Ερευνητικό Ερώτημα: «Μπορούν οι παραπάνω μεταβλητές να ομαδοποιηθούν σε συσχετιζόμενες μετρήσεις ώστε να λάβουμε μία πιο απλουστευμένη απεικόνιση για το τι αναπαριστάνουν;» 148

Παράγοντες (Factors) Πίνακας Συσχετίσεων Factor 1 Factor 2 149

Παράγοντες (Factors) - Ερμηνεία Παράγοντας 1 Υπάρχει μεγάλη συσχέτιση ανάμεσα στον αριθμό τσιγάρων που καταναλώθηκαν και τους θανάτους από καρκίνο των πνευμόνων και ουροδόχου κύστης Παράγοντας 2 Οι θάνατοι από λευχαιμία δε σχετίζονται με καμία μεταβλητή Υπάρχει κάποια συσχέτιση (μέτρια) μεταξύ των θανάτων από καρκίνο των νεφρών και τον αριθμό τσιγάρων, καρκίνων των πνευμόνων και ουροδόχου κύστης 150

Παράγοντες (Factors) - Γραφική Παράσταση (1/4) Παράσταση: Οι παράγοντες ως άξονες σύστημα αξόνων Οι μεταβλητές ως σημεία στο σύστημα αξόνων Οι συντεταγμένες κάθε σημείου-μεταβλητής δείχνουν την ισχύ της σχέσης ανάμεσα στη μεταβλητή και τον άξονα Η θέση κάθε μεταβλητής (σημείο) εξαρτάται από τις συσχετίσεις της με τους παράγοντες (άξονες) 151

Παράγοντες (Factors) - Γραφική Παράσταση (2/4) 152

Παράγοντες (Factors) - Γραφική Παράσταση (3/4) Οι 2 ομάδες των μεταβλητών «συγκεντρώνονται» ή «φορτώνονται» η κάθε μια σε διαφορετικό άξονα Αν υπήρχε και 3ος παράγοντας θα χρειαζόμασταν και 3ο άξονα, κ.ο.κ. Η παράσταση για πάνω από 3 παράγοντες αδύνατη 153

Παράγοντες (Factors) - Γραφική Παράσταση (4/4) H συντεταγμένη ενός σημείου (μεταβλητή) σε έναν άξονα (παράγοντα) λέγεται φορτίο του παράγοντα (factor loading) Είναι ο συντελεστής συσχέτισης Pearson ανάμεσα σε έναν παράγοντα και μια μεταβλητή Το τετράγωνο του φορτίου μέτρο της σημασίας μιας μεταβλητής για έναν παράγοντα 154

Παράγοντες (Factors) Μαθηματική Παράσταση Οι άξονες είναι ευθείες γραμμές Παράσταση με γραμμικό συνδυασμό Factor i = b i1 Variable 1 + b i2 Variable 2 +... + b ik Variable k Όπου: Factor i = εκτίμηση του i παράγοντα b ij = φορτίο της μεταβλητής j στον παράγοντα i k = αριθμός μεταβλητών 155

Μαθηματική Παράσταση Παράδειγμα 156

Μαθηματική Παράσταση Πίνακας Φορτίων 157

Μαθηματική Παράσταση Ερμηνεία Παραγόντων 158

Σκορ Παραγόντων (Factor scores) - Απλή περίπτωση 159

Σκορ Παραγόντων (Factor scores) - Υπολογισμός με Παλινδρόμηση 160

Σκορ Παραγόντων (Factor scores) - Στάθμιση με Συσχετίσεις (1/2) 161

Σκορ Παραγόντων (Factor scores) - Στάθμιση με Συσχετίσεις (2/2) 162

Σκορ Παραγόντων (Factor scores)-διορθώσεις 163

Σκορ Παραγόντων (Factor scores) Πρακτική Εφαρμογή 164

Εύρεση Παραγόντων Υπάρχουν διάφορες μέθοδοι Κατατάσσονται σε 2 κατηγορίες: Διερευνητική ανάλυση παραγόντων (Exploratory Factor Analysis - EFA) Ανάλυση δομής δείγματος Επιβεβαιωτική ανάλυση παραγόντων (Confirmatory Factor Analysis - CFA) Έλεγχοι υποθέσεων για τον πληθυσμό (απαιτούνται εργαλεία όπως το AMOS) 165

Εύρεση Παραγόντων Μέθοδοι FA Μέθοδοι που θεωρούν το δείγμα ως πληθυσμό Principal Component Analysis (PCA) Principal Axis Factoring Image Factoring Μέθοδοι που υποθέτουν ότι το δείγμα προήλθε από πληθυσμό Maximum Likelihood method Kaiser s alpha factoring 166

Εύρεση Παραγόντων Συμμετοχικότητα 167

Εύρεση Παραγόντων PCA 168

Εύρεση Παραγόντων Ιδιοτιμές 169

Εύρεση Παραγόντων Scree plot Scree plot: Γράφημα κάθε ιδιοτιμής (y-άξονας) ως προς τον παράγοντα με τον οποίο συνδέεται (x-άξονας) Δείχνει καθαρά τη σχετική σπουδαιότητα κάθε παράγοντα Στην αρχή ή καμπύλη φθίνει απότομα και σε κάποιο σημείο γίνεται σχεδόν επίπεδη Το σημείο εκείνο αποτελεί κριτήριο για την επιλογή σημαντικών παραγόντων 170

Εύρεση Παραγόντων Παράδειγμα Scree plot 171

Εύρεση Παραγόντων Κριτήρια με βάση την Ιδιοτιμή Κριτήριο Keiser (1960): Να κρατάμε μόνο τους παράγοντες με ιδιοτιμές > 1 Κριτήριο Jolliffe (1972, 1986): Να κρατάμε μόνο τους παράγοντες με ιδιοτιμές > 0.7 Η διαφορά των αποτελεσμάτων στα κριτήρια πολύ μεγάλη! Η τελική επιλογή γίνεται συνδυάζοντας όλα τα κριτήρια Πολύ σημαντική η αθροιστική διασπορά που εξηγούν οι παράγοντες (πρέπει να είναι > 70%) 172

Περιστροφή Παραγόντων (1/3) 173

Επιλογή Μεθόδου Περιστροφής 176

Σημασία των Φορτίων Χρησιμοποιούμε τα φορτία για να αντιστοιχήσουμε τις μεταβλητές στους παράγοντες Φορτίο μεγαλύτερο του 0.3 συνήθως σημαντικό (?) Εμπειρικός κανόνας: Για δείγμα 50 φορτίο > 0.722 σημαντικό Για δείγμα 100 φορτίο > 0.512 σημαντικό Για δείγμα 200 φορτίο > 0.364 σημαντικό Για δείγμα 300 φορτίο > 0.298 σημαντικό Για δείγμα 600 φορτίο > 0.210 σημαντικό Για δείγμα 1000 φορτίο > 0.162 σημαντικό 177

Υποθέσεις για τα Δεδομένα Οι μεταβλητές πρέπει να είναι ποσοτικές Οι ποιοτικές μεταβλητές δεν είναι κατάλληλες για FA Κατάλληλες μεταβλητές: Όταν μπορούν να υπολογιστούν οι συντελεστές συσχέτισης του Pearson Σε κάποιες περιπτώσεις, είναι δυνατό να χρησιμοποιηθούν διαταγμένες μεταβλητές (ordinal data) και δυαδικές μεταβλητές (0-1). Δυσκολία ερμηνείας των παραγόντων Παρατηρήσεις ανεξάρτητες μεταξύ τους Οι ποσοτικές μεταβλητές ακολουθούν πολυδιάστατη κανονική κατανομή 178

Περιγραφή Συνόλου Δεδομένων Ψυχομετρία 20 ερωτήσεις (items) σε Likert Scale (1-6) που αφορούν την προσωπικότητα (International Personality Item Pool) 1=Very Inaccurate, 2=Moderately Inaccurate, 3=Slightly Inaccurate, 4=Slightly Accurate, 5=Moderately Accurate 6 Very Accurate 2800 ερωτώμενοι 3 Δημογραφικές μεταβλητές Sex, Education, Age 179

Μεταβλητές 180

Εκτέλεση FA 181

Μενού Descriptives 182

Μενού Extraction 183

Μενού Rotation 184

Μενού Scores 185

Μενού Options 186

Αποτελέσματα - Περιγραφικά 187

Συντελεστές Συσχέτισης-Στάθμες Σημαντικότητας (1/2) 188

Συντελεστές Συσχέτισης-Στάθμες Σημαντικότητας (2/2) 189

Αντίστροφος (inverse) Πίνακας Συσχετίσεων R -1 190

Έλεγχοι Καταλληλότητας FA 191

Anti-Image Matrices (covariance and correlation) 192

Εύρεση παραγόντων (Factor Extraction) 193

Εύρεση παραγόντων (Factor Extraction) - Ερμηνεία 194

Scree Plot Μετά τους 4 παράγοντες η καμπύλη γίνεται επίπεδη 195

Συμμετοχικότητες 196

Φορτία (πριν την περιστροφή) 197

Φορτία (μετά την περιστροφή) Πιο καλή κατανομή των μεταβλητών στους παράγοντες Παράγοντας 1: Neuroticism Παράγοντας 2: Extraversion Παράγοντας 3: Conscientiousness Παράγοντας 4: Agreeableness 198

Reproduced correlations and Residuals 199

Reproduced correlations and Residuals 200

Component Τransformation Μatrix 201

Αποτελέσματα Σκορ 202

Αποθήκευση Σκορ 203

Αναφορά Αποτελεσμάτων FA 204

Ανάλυση Συστάδων (Cluster Analysis CA) Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Εισαγωγή στην CA (1/2) Ταξινόμηση (classification): Βασική ικανότητα της νοημοσύνης. Τα όμοια αντικείμενα ταξινομούνται σε κατηγορίες ανάλογα με κοινές ιδιότητές τους - Πρωτόγονη λειτουργία της ανθρώπινης συνείδησης Η ταξινόμηση σχετίζεται με την ανάπτυξη της γλώσσας. Είναι συνώνυμη της ονoματολογίας. Κάθε λέξη μιας γλώσσας περιγράφει ομάδα αντικειμένων με κοινά χαρακτηριστικά Η ταξινόμηση είναι θεμελιώδης έννοια σε όλες τις επιστήμες (π.χ. στη Βιολογία η επιστημονική ταξινόμηση των οργανισμών - taxonomy) 206

Εισαγωγή στην CA (2/2) Ιστορικά στοιχεία - Παραδείγματα Αριστοτέλης:Ταξινόμηση ζώων σε είδη Θεόφραστος: Ταξινόμηση φυτών Η ταξινόμηση των οργανισμών βάση για την ανάπτυξη της θεωρίας της εξέλιξης Φυσική: Ταξινόμηση των στοιχείων του περιοδικού πίνακα - κατανόηση δομής του ατόμου Αστρονομία: Ταξινόμηση αστέρων σε γίγαντες και νάνους 207

Χρησιμότητα της Ταξινόμησης Εύχρηστος τρόπος παράστασης μεγάλων βάσεων δεδομένων - Ευκολία ανάκτησης πληροφοριών (information retrieval) Περιληπτική παρουσίαση των δεδομένων με σκοπό την εξαγωγή συμπερασμάτων (προβλέψεις - αιτιολόγηση) Η ταξινόμηση των αντικειμένων δεν είναι μοναδική. Μπορεί να υπάρχουν διαφορετικές ταξινομήσεις οι οποίες αξιολογούνται ανάλογα με τη χρησιμότητά τους 208

Αριθμητικές Μέθοδοι Ταξινόμησης (1/3) Σκοπός: Αντικειμενική και ευσταθής ταξινόμηση Ορολογία: Βιολογία - Numerical taxonomy Τεχνητή νοημοσύνη (AI) - Unsupervised pattern recognition Έρευνα αγοράς - Segmentation Γενικός όρος - Cluster analysis: Διαδικασίες που προσπαθούν να αποκαλύψουν ομάδες στα δεδομένα 209

Αριθμητικές Μέθοδοι Ταξινόμησης (2/3) Αποτέλεσμα της CA: Διαμέριση (partition) του συνόλου των δεδομένων σε συστάδες (clusters) Κάθε άτομο - αντικείμενο ανήκει σε μια μόνο συστάδα Το σύνολο όλων των συστάδων περιέχει όλα τα αντικείμενα Σε κάποιες περιπτώσεις μπορεί να είναι καλύτερη μια παράσταση με επικαλυπτόμενες συστάδες Αποδεκτή λύση μπορεί να αποτελεί και η αδυναμία ομαδοποίησης των δεδομένων 210

Πίνακας δεδομένων: Δεδομένα: Ποσοτικά, ποιοτικά ή μικτά Μετατροπή του πίνακα δεδομένων σε πίνακα ομοιοτήτων, ανομοιοτήτων ή αποστάσεων Γενικός όρος: proximity matrix Αριθμητικές Μέθοδοι Ταξινόμησης (3/3) n n = [ ] x ij n p Διαφορά με μεθόδους διάκρισης (discrimination - assignment - supervised learning): Οι ομάδες είναι γνωστές εκ των προτέρων και σκοπός της ανάλυσης είναι η εύρεση κανόνων κατάταξης νέων αντικειμένων στις ομάδες X 211

Η έννοια της συστάδας Διαισθητική ερμηνεία των όρων cluster, group, class - ότι έχει σημασία για τον ερευνητή Επιθυμητές ιδιότητες: Εσωτερική συνοχή (homogeneity) και εξωτερική απομόνωση (separation) Σημαντικό ρόλο στην αναγνώριση μιας συστάδας παίζουν οι σχετικές αποστάσεις ανάμεσα στα σημεία του αντίστοιχου χώρου Χρειάζεται προσοχή όταν δεν υπάρχουν πραγματικές ομάδες στα δεδομένα αλλά η μέθοδος παρέχει κάποια διαμέριση 212

Γραφική παράσταση των συστάδων Το οπτικό σύστημα του ανθρώπου αναζητά και ανακαλύπτει ομάδες Η γραφική απεικόνιση δεδομένων αποκαλύπτει συστάδες Για μονοδιάστατα δεδομένα: Κατανομές με πολλαπλά μέγιστα (multimodal) είναι ένδειξη ύπαρξης συστάδων Παράδειγμα: Ταχύτητες από 82 γαλαξίες (km/s) - Ύπαρξη συστάδων γαλαξιών που περιβάλλονται από μεγάλα κενά 213

Παράδειγμα (1/3) 40 VELOCITIES OF GALAXIES 30 20 Frequency 10 0 34000 32000 30000 28000 26000 24000 22000 20000 18000 16000 14000 12000 10000 Std. Dev = 4715.89 Mean = 20710 N = 82.00 VELOCITY 214

Παράδειγμα (2/3) 160 140 120 100 80 60 40 20 Y 0 0 20 40 60 80 100 120 X 215

Παράδειγμα (3/3) 30 20 Death rate per 1000 people 10 0 0 10 20 30 40 50 60 Birth rate per 1000 people Πραγματικά δεδομένα: Στοιχεία γεννήσεων & θανάτων από 108 χώρες 216

Ιεραρχική Ανάλυση Συστάδων (1/3) Ιεραρχική ταξινόμηση (hierarchical classification): Διαδικασία που περιλαμβάνει πολλαπλά βήματα Η ταξινόμηση αποτελείται από μια ακολουθία διαμερίσεων που αρχίζει από μια μόνο συστάδα (περιέχει όλο το δείγμα) και ολοκληρώνεται σε n συστάδες (μια για κάθε αντικείμενο) Κατηγορίες μεθόδων: Μέθοδοι συσσώρευσης (agglomerative methods): Διαδικασίες συγχώνευσης των n αντικειμένων σε ομάδες Μέθοδοι διαίρεσης (divisive methods): Διαδοχικοί διαχωρισμοί του συνόλου των n αντικειμένων σε όλο και καλύτερες ομάδες 217

Ιεραρχική Ανάλυση Συστάδων (2/3) Χαρακτηριστικά των ιεραρχικών μεθόδων: Οι συγχωνεύσεις ή οι υποδιαιρέσεις που γίνονται είναι ανεπανόρθωτες Ο ερευνητής πρέπει να αποφασίσει μόνος του για το βέλτιστο αριθμό συστάδων (τερματισμός διαδικασίας) Η διαδικασία παριστάνεται γραφικά με το δενδρόγραμμα (dendrogram) Κατάλληλες μέθοδοι για εφαρμογές όπου η ιεραρχία είναι ερμηνεύσιμη: βιολογία, κοινωνικές επιστήμες, βιβλιοθηκονομία, κλπ 218

Ιεραρχική Ανάλυση Συστάδων (3/3) 0 1 2 3 4 Agglomerative a a,b a,b,c,d,e b c c,d,e d d,e e 4 3 2 1 0 Divisive 219

Μη - Ιεραρχική Ανάλυση Συστάδων Mη-ιεραρχικές μέθοδοι (nonhierarchical techniques): Ταξινόμηση των αντικειμένων (όχι των μεταβλητών) σε συλλογή k συστάδων Ο αριθμός των συστάδων k είτε προκαθορίζεται είτε προκύπτει ως αποτέλεσμα της μεθόδου Χρησιμοποιούνται για μεγάλα σύνολα δεδομένων γιατί: Δεν χρησιμοποιούν τον πίνακα αποστάσεων Τα βασικά δεδομένα δεν χρειάζεται να αποθηκεύονται κατά την εκτέλεση του αλγόριθμου Οι αλγόριθμοι αρχίζουν (συνήθως με τυχαίο τρόπο): Από αρχική διαμέριση των δεδομένων σε συστάδες Από αρχικά σημεία - πυρήνες των συστάδων 220

Η μέθοδος των k-μέσων Τιμών (k-means) Αλγόριθμος που κατατάσσει κάθε αντικείμενο στη συστάδα με το κοντινότερο κέντρο (μέση τιμή) Βασικός αλγόριθμος: Βήμα 1: Διαμέριση των δεδομένων σε k αρχικές συστάδες (συνήθως όχι όλα τα δεδομένα) Βήμα 2: Τα αντικείμενα καταχωρούνται ένα-ένα στη συστάδα με το κοντινότερο κέντρο (μέση τιμή). Το κέντρο της συστάδας που παίρνει ένα νέο αντικείμενο και αυτής που το χάνει υπολογίζονται πάλι Βήμα 3: Το βήμα 2 επαναλαμβάνεται μέχρι να μην υπάρχουν άλλες καταχωρήσεις 221

Χαρακτηριστικά 222

Παράδειγμα 223

Παράδειγμα: Ιατρική μελέτη (file: diabetes.sav) Εργαστηριακές εξετάσεις σε 145 ενήλικες. Σκοπός: Χαρακτηριστικά 2 τύπων διαβήτη (chemical - overt) 5 ποσοτικές μεταβλητές Relative weight Fasting Plasma Glucose Glucose Area Insulin Area SSPG Υπάρχει μεταβλητή Clinical classification που δηλώνει την κατηγορία του ατόμου σύμφωνα με τα ιατρικά κριτήρια: 1=overt diabetic, 2=chemical diabetic, 3=normal Ερώτημα: Πόσο συμφωνεί ο αλγόριθμος με την ιατρική ταξινόμηση; 224

K-means Cluster Analysis 225

Αρχικά Τελικά Κέντρα Συστάδων (1/3) 226

Crosstabs 229

Ομαδοποιημένα Ραβδογράμματα 230

Θηκογράμματα για τις Ομάδες 231

Διαγράμματα Διασποράς 232

Οπτικοποίηση Αποτελεσμάτων (1/3) 233

Συμπεράσματα 236

Ανάλυση Διακρίσεων (Discriminant Analysis DA) Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Εισαγωγή στην DA Διάκριση (discrimination): Πολυμεταβλητή μέθοδος διαχωρισμού παρατηρήσεων & διανομής νέων παρατηρήσεων σε ομάδες (separation & allocation) Διερευνητική μέθοδος. Μελέτη των παρατηρούμενων διαφορών όταν οι αιτίες των διαφορών δεν είναι ξεκάθαρες Σκοποί της DA: Περιγραφή (γραφική ή αλγεβρική) των χαρακτηριστικών που ξεχωρίζουν παρατηρήσεις προερχόμενες από αρκετούς (γνωστούς) πληθυσμούς (seperation) Εξαγωγή κανόνων κατάταξης νέων παρατηρήσεων στις προκαθορισμένες ομάδες (allocation) 238

Πότε χρησιμοποιείται η DA Όταν υπάρχουν πολλές ανεξάρτητες μεταβλητές και η εξαρτημένη είναι κατηγορική (χωρίζει τα δεδομένα σε ομάδες) Χρησιμοποιούμε πληροφορία από τις ανεξάρτητες για να εξηγήσουμε τη διάκριση των ομάδων Η διαδικασία είναι παρόμοια με την ανάλυση παλινδρόμησης 239

Εφαρμογές της DA Καθορισμός χαρακτηριστικών των ομάδων (Profiling): Με ποιον τρόπο οι ομάδες διαφέρουν ως προς τις ανεξάρτητες μεταβλητές; Υπάρχει σημαντική διαφορά στις ομάδες (Differentiation); Κατάταξη σε ομάδα (Categorization): Προβλέψεις στηριζόμενοι στις ανεξάρτητες μεταβλητές (όταν η εξαρτημένη είναι άγνωστη) 240

Εφαρμογές της DA-Παραδείγματα Στις έρευνες φαρμάκων ενδιαφέρει το προφίλ των ασθενών (δημογραφικό, ψυχογραφικό) διαφόρων ομάδων Στη βιομηχανία: Διαφέρει σημαντικά η παραγωγή σε διαφορετικές μηχανές διαδικασίες; Στα τραπεζικά δάνεια: Πρόβλεψη απόφαση για το αν οι νέες αιτήσεις θα εγκριθούν 241

Σημασία της DA για Κρίσιμες Αποφάσεις Αποφυγή καταστροφής προϊόντων - Κατάταξη (π.χ. ελαττωματικό ή καλό) με βάση προκαταρκτικές μετρήσεις Πληροφορίες μη-διαθέσιμες ή με μεγάλο κόστος (π.χ. διάγνωση ασθένειας που απαιτεί επέμβαση) 242

Η περίπτωση των 2 Πληθυσμών - Ομάδων Πίνακας δεδομένων X με p ανεξάρτητες μεταβλητές Μια δίτιμη εξαρτημένη μεταβλητή Οι δύο ομάδες αντιπροσωπεύουν διαφορετικούς πληθυσμούς Οι τιμές των ανεξάρτητων μεταβλητών είναι ικανές να διαχωρίσουν τις 2 ομάδες; 243

Παράδειγμα (file: hemophilia.sav) n1=30 γυναίκες χωρίς το γονίδιο της αιμοφιλίας (normal group - noncarriers) n2=45 γυναίκες με το γονίδιο (carriers) Μεταβλητές (μετρήσεις στο αίμα): X1 = log10(ahf activity) X2 = log10(ahf-like antigen) Σκοπός: Διαδικασία διάγνωσης δυνητικών φορέων του γονιδίου 244

Analyze Reports Case Summaries 245

Περιγραφικά Στατιστικά των 2 Ομάδων (1/2) 246

Περιγραφικά Στατιστικά των 2 Ομάδων (2/2) 247

Διάγραμμα Διασποράς 248

Διάγραμμα Διασποράς με τα Κέντρα Ομάδας 249

Συμπεράσματα Υπάρχει διάκριση των 2 ομάδων αλλά σε κάποιες περιπτώσεις υπάρχει υπερκάλυψη Χρειαζόμαστε κανόνες που να κατατάσσουν τα νέα δεδομένα στις ομάδες με τη μικρότερη δυνατή πιθανότητα σφάλματος Οι μέθοδοι κατάταξης πρέπει να λαμβάνουν υπόψη τις διαφορές στα μεγέθη των ομάδων Σημαντικό σε πολλές περιπτώσεις είναι το κόστος της λάθους κατάταξης (π.χ. η αποτυχία διάγνωσης ασθένειας έχει μεγαλύτερο κόστος από τη λανθασμένη διάγνωση) 250

Η προσέγγιση του Fisher (1/3) Βασίζεται στην έννοια του «σκορ διάκρισης» (discrimination score) Μπορεί να βρεθεί γραμμικός συνδυασμός των ανεξάρτητων μεταβλητών ώστε να πετύχουμε τη μέγιστη διαφορά των σκορ ανάμεσα στις ομάδες; Απαιτείται ορισμός αντικειμενικής συνάρτησης που να μετατρέπει σε ποσότητα την έννοια της «μέγιστης διαφοράς» 251

Η προσέγγιση του Fisher (2/3) Η συνάρτηση που χρησιμοποιείται είναι λόγος Αριθμητής: έκφραση της απόστασης των μέσων σκορ ανάμεσα στις ομάδες Παρονομαστής: έκφραση της μεταβλητότητας μέσα στις ομάδες Το πρόβλημα μεγιστοποίησης λύνεται μαθηματικά (με αναλυτικές μεθόδους) και εντοπίζονται οι συντελεστές του γραμμικού συνδυασμού 252

Η προσέγγιση του Fisher (3/3) 253

Αξιολόγηση Μοντέλου Κατάταξης 254

Apparent Error Rate 255

Holdout procedure or Jackknifing or Cross-validation Από το σύνολο των δεδομένων αφαιρούμε ένα αντικείμενο κάθε φορά Κατασκευάζουμε συνάρτηση κατάταξης με βάση τα υπόλοιπα Κατατάσσουμε το αντικείμενο που αφαιρέσαμε χρησιμοποιώντας τη συνάρτηση Το ποσοστό των αντικειμένων που κατατάχτηκαν λάθος χρησιμοποιείται ως εκτίμηση του πραγματικού σφάλματος Η διαδικασία υλοποιείται στα στατιστικά προγράμματα 256

Παράδειγμα (file: hemophilia.sav) n1=30 γυναίκες χωρίς το γονίδιο της αιμοφιλίας (normal group - noncarriers) n2=45 γυναίκες με το γονίδιο (carriers) Μεταβλητές (μετρήσεις στο αίμα): X1 = log10(ahf activity) X2 = log10(ahf-like antigen) Σκοπός: Διαδικασία διάγνωσης δυνητικών φορέων του γονιδίου 257

Παράδειγμα Αιμοφιλίας Γράφημα 1.4.2 -.0 log10(ahf antigen) -.2 -.4 -.6 -.8 -.6 -.4 -.2 0.0.2 Group Carriers Noncarriers.4 log10(ahf activity) 258

Παράδειγμα Αιμοφιλίας Γράφημα 2 259

Analyze Classify Discriminant 260

Περιγραφικά Αποτελέσματα 261

Συντελεστές Κατάταξης 262

Έλεγχος Συγγραμμικότητας 263

Box's Test of Equality of Covariance Matrices 264

Έλεγχος Μέσων Τιμών Ομάδων 265

Υπολογισμός Score 266

Συντελεστές Τυποποιημένης Συνάρτησης Διακρίσεων 267

Συσχετίσεις Μεταβλητών με τα Scores 268

Ιδιοτιμές - Συσχέτισεις 269

Wilk s Lambda 270

Πίνακας Συνάφειας 271

Αποτελέσματα Kατάταξης Από τις 30 noncarriers, οι 27 (90%) κατατάχτηκαν σωστά Από τις 45 carriers, οι 37 (82.2%) κατατάχτηκαν σωστά Συνολικά, 85.3% κατατάχτηκε σωστά Η μέθοδος cross-validation δίνει συνολικά 84% σωστές κατατάξεις 272

Κατανομή Tιμών των Scores για τις 2 Oμάδες 273

Προβλεπόμενη Ομαδοποίηση (1/2).4.2 -.0 log10(ahf antigen) -.2 -.4 -.6 -.8 -.6 -.4 -.2 0.0 Predicted Group for Carriers Noncarriers.2 log10(ahf activity) 274

Προβλεπόμενη Ομαδοποίηση (2/2) 275

Πολλαπλή Ανάλυση Διακρίσεων Γενίκευση της DA με δύο ομάδες Αναζητά περισσότερους γραμμικούς συνδυασμούς των ανεξάρτητων μεταβλητών Αριθμός συναρτήσεων (νέων μεταβλητών) διάκρισης: min(#independent var., groups-1) 276

Παράδειγμα (file: admission.sav) Επιλογή αν θα εισαχθούν κάποιοι ασθενείς σε μία κλινική με βάση κάποιες βαθμολογίες (ανεξάρτητες μεταβλητές): GPA GMAT Εξαρτημένη μεταβλητή: Groups: 1=admit, 2=do not admit, 3=borderline Ζητούμενο: κατασκευή μοντέλου για μελλοντική χρήση επιλογής ασθενών 277

Διάγραμμα Διασποράς 278

Analyze Classify Discriminant 279

Περιγραφικά Αποτελέσματα 280

Ισότητα Μέσων Τιμών Μεταβλητών στις 3 Ομάδες 281

Συνεισφορά Συναρτήσεων Διάκρισης (1/2) 282

Συνεισφορά Συναρτήσεων Διάκρισης (2/2) 283

Συσχετίσεις 284

Περιοχές Ομάδων Territorial Map Canonical Discriminant Function 2-6,0-4,0-2,0,0 2,0 4,0 6,0 6,0 21 21 21 21 21 21 4,0 21 21 2331 2331 23 31 23 31 2,0 23 31 23 31 23 31 23 31 23 31 * 23 31 *,0 23 31 23 31 23 * 31 23 31 23 31 23 31-2,0 23 31 23 31 23 31 23 31 23 31 23 31-4,0 23 31 23 31 23 31 23 31 23 31 23 31-6,0 23 31-6,0-4,0-2,0,0 2,0 4,0 6,0 Canonical Discriminant Function 1 Symbols used in territorial map Symbol Group Label ------ ----- -------------------- 1 1 Admit 2 2 Do not admit 3 3 Borderline * Indicates a group centroid κέντρο ομάδας 2 κέντρο ομάδας 1 κέντρο ομάδας 3 285

Διαγράμματα Διασποράς 286

Ορθότητα της κατάταξης 287

Συμπεράσματα 288

Ανάλυση Επιβίωσης Survival Analysis Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Εισαγωγή στην Ανάλυση Επιβίωσης (1/2) Η Ανάλυση Επιβίωσης (Survival Analysis) ασχολείται µέχρι την εµφάνιση ενός γεγονότος την υποτροπή ή τον ϑάνατο ενός ασθενούς, τη βλάβη ενός µηχανήµατος, τη χρεωκοπία µιας επιχείρησης ή το χρόνο ως τη νίκη σε µια παρτίδα σκάκι. 290

Εισαγωγή στην Ανάλυση Επιβίωσης (2/2) Είναι αδύνατο για τον ερευνητή να περιµένει όλο το χρονικό διάστηµα που απαιτείται ώστε να υποτροπιάσουν όλοι οι ασθενείς Επίσης, αν µια ασθενής πεθάνει σε αυτοκινητιστικό δυστύχηµα µετά από 4 χρόνια παρακολούθησης, αυτό δεν αποκλείει τη πιθανότητα να είχε υποτροπιάσει στον πέµπτο χρόνο παρακολούθησης. 291

Λογοκριμένες Παρατηρήσεις Βασικότερη διαφορά της ανάλυσης επιβίωσης από τις υπόλοιπες στατιστικές µεθόδους: Το αποτέλεσµα της έρευνας είναι µόνο κατά ένα µέρος διαθέσιµο. Λογοκριµένες παρατηρήσεις (censored cases) Οι παρατηρήσεις για τις οποίες δεν είναι γνωστό το τελικό αποτέλεσµα Οι αιτίες που τελικά δεν παρατηρείται το τελικό γεγονός µπορεί να είναι διαφορετικές Παρόλο που λογοκριµένες παρατηρήσεις είναι ελλιπείς µπορούν να συνεισφέρουν πληροφορία για την έρευνα 292

Παράδειγμα Λογοκριμένων Παρατηρήσεων (1/3) Μια µελέτη που ξεκινά για την αποτίµηση ενός συγκεκριµένου ϕαρµάκου έχει ένα σαφώς καθορισµένο χρονικό ορίζοντα, έστω πέντε χρόνια. Με το πέρας της µελέτης, οι ασθενείς που δεν έχουν υποτροπιάσει ϑεωρούνται λογοκριµένοι, εφόσον µπορεί να υποτροπιάσουν στο µέλλον αλλά δεν γνωρίζουµε πότε. 293

Παράδειγμα Λογοκριμένων Παρατηρήσεων (2/3) Ένα άλλο παράδειγµα είναι περιπτώσεις ασθενών που για κάποιο τυχαίο λόγο χάθηκαν από την παρακολούθηση, κάτι που είναι σύνηθες στις ιατρικές έρευνες 294

Παράδειγμα Λογοκριμένων Παρατηρήσεων (3/3) Χρόνοι ζωής για οκτώ ασθενείς µε καρκίνο του πνεύµονα. Η κάθετη γραµµή δείχνει το σηµείο που σταµάτησε η µελέτη Για τους ασθενείς 1, 5, και 8 ο ϑάνατος ϑα επέλθει µετά το τέλος της µελέτης. Συνεπώς, το γεγονός δεν είναι παρατηρήσιµο, αλλά ξέρουµε ότι ο χρόνος επιβίωσης ήταν µεγαλύτερος από 3 έτη 295

Σκοπός Ανάλυσης Επιβίωσης Πόσο χρόνο µπορεί να επιβιώσει ένας ασθενής, δεδοµένων κάποιων συγκεκριµένων χαρακτηριστικών τον χρόνο που έχει ήδη επιβιώσει κλινικά χαρακτηριστικά της ασθένειας, της ϑεραπείας ή ακόµα και γονιδιακά χαρακτηριστικά 296

Σε τι απαντάει η Ανάλυση Επιβίωσης; 1. Ποιο είναι το ποσοστό των ασθενών που µπορεί να επιβιώσουν πέρα από ένα συγκεκριµένο χρονικό σηµείο Π.χ. ποια µπορεί να είναι η 5-ετής επιβίωση γυναικών µε καρκίνο των ωοθηκών Ποια είναι η µέση επιβίωση µιας οµάδας ασθενών µε καρδιαγγειακά προβλήµατα 2. Μπορεί να µελετηθεί ο τρόπος µε τον οποίο ένα συγκεκριµένο χαρακτηριστικό επηρεάζει τον χρόνο θανάτου και την πιθανότητα να συµβεί σε κάθε χρονική στιγµή 297

Παράδειγμα Ανάλυσης Επιβίωσης Σε µια µελέτη ασθενών µε καρκίνο του µαστού, το µέγεθος του όγκου ή ο αριθµός των διηθηµένων λεµφαδένων ή η ϕαρµακευτική αγωγή και παρέµβαση µπορεί να επηρεάσει το χρόνο επιβίωσης Κάθε πληροφορία που είναι διαθέσιµη για τους ασθενείς, µπορεί και ϑα πρέπει να συµπεριληφθεί σε ένα στατιστικό µοντέλο, κατάλληλα ϕτιαγµένο έτσι ώστε να µπορεί να περιγράψει το µηχανισµό της ασθένειας, τον τρόπο µε τον οποίο οι παράγοντες αλληλεπιδρούν και να είναι σε θέση να προσφέρει ασφαλείς εκτιµήσεις των κινδύνων και του χρόνου επιβίωσης 298

Βασικές Έννοιες 299

Συνάρτηση Επιβίωσης 300

Ιδιότητες Συνάρτησης Επιβίωσης 301

Διάγραμμα Καμπύλης Επιβίωσης 302

Συνάρτηση Κινδύνου 303

Η έννοια της Συνάρτησης Κινδύνου 304

Ιδιότητες Συνάρτησης Κινδύνου 305

Μέσος Υπολειπόμενος Χρόνος 306

Kaplan-Meier Survival Analysis 307

Περιγραφή Μεταβλητών Οι μεταβλητές: Age: ηλικία σε χρόνια Gender: φύλο Health: Κατάσταση υγείας των σθενών Treatment: Φάρμακο Dosage: Δόση φαρμάκου Status: Κατάσταση Time: Χρόνος μέχρι να παρατηρηθεί το γεγονός 308

Survival -> Kaplan-Meier Επιλογή Διαδικασίας Ορισμός Παραμέτρων (1/2) 309

Ορισμός Παραμέτρων (2/2) 310

Παράμετροι Compare Factor Levels 311