ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ Εαρινό εξάµηνο ακαδηµαϊκού έτους 34 ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 5 Μαΐου 4 Εργασία 4 - Ενδεικτική λύση Το κείµενο απευθύνεται στους φοιτητές και αιτιολογεί και περιγράφει τα βήµατα µίας ενδεδειγµένης λύσης της εργασίας. Οι εργασίες των φοιτητών θα πρέπει επιπλέον να έχουν τη µορφή αναφοράς. Θεωρώντας ότι όλα τα άτοµα που έχουν τον ίδιο συνδυασµό τιµών πίεσης και χοληστερόλης έχουν την ίδια πιθανότητα να εµφανίσουν καρδιακό νόσηµα, έχουµε να κάνουµε µε διωνυµικά δεδοµένα τα οποία µπορούν να αναλυθούν µε χρήση γενικευµένου γραµµικού µοντέλου. Γι αυτό καταρχήν εξετάζουµε διαγράµµατα των παρατηρούµενων ποσοστών εµφάνισης νοσήµατος και δειγµατικών logits έναντι των τιµών πίεσης και χοληστερόλης.
.3 sample prop... 3 4 5 6 7 8 9 pressure.3 sample prop... 5 cholesterol 3
sample logits -3-4 -5 3 4 5 pressure 6 7 8 9 sample logits -3-4 -5 5 cholesterol 3 Στα διαγράµµατα των δειγµατικών logits παρατηρείται γραµµικότητα στη σχέση τους µε τις ανεξάρτητες µεταβλητές. Για να είµαστε σίγουροι σαν πρώτο µοντέλο που θα εξετάσουµε θα πάρουµε αυτό που ως ανεξάρτητες περιλαµβάνει εκτός πίεσης και χοληστερόλης, το γινόµενο τους και τα τετράγωνα τους.
Στα διαγράµµατα δεν ήταν ανάγκη να κεντροποιήσουµε τις ανεξάρτητες µεταβλητές. Τις κεντροποιούµε όµως πριν την εισαγωγή τους στο µοντέλο γιατί αλλιώς αυτές και τα τετράγωνά τους θα παρουσιάζουν µεγάλη συσχέτιση. Κεντροποίηση επιτυγχάνεται µε το να αφαιρεθεί από κάθε τιµή τους ο µέσος τους. Η εκτίµηση του πρώτου µοντέλου δίνει τα εξής αποτελέσµατα: Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant.5984.99 3.6. pres_cen.9895.575 3.77....3 chol_cen.55.3857 3.89.... pres_cho -.879.467 -.6.549... pres_sq.57.87.5.84... chol_sq -.357.7 -.3.76... Log-Likelihood = -3.668 Test that all slopes are zero: G = 4.43; DF = 5; P-Value =. Goodness-of-Fit Tests Method Chi-Square DF P Pearson 54.9 5.37 Deviance 63.39 5. Το µοντέλο δεν έχει κακή προσαρµογή. Επίσης εξετάζοντας τα διαγνωστικά του (διαγράµµατα καταλοίπων deviance έναντι των ανεξαρτήτων και των εκτιµηµένων logits, leverage, normal probability plot τυποποιηµένων καταλοίπων και αποστάσεις Cook) δεν διαπιστώσαµε σηµαντικό πρόβληµα. Η Κανονικότητα οριακά απορρίπτεται αλλά όπως είπαµε δεν µας απασχολεί ιδιαίτερα. Στη συνέχεια εξετάζουµε αν τα τετράγωνα και το γινόµενο µπορούν να φύγουν από το µοντέλο. Το µοντέλο χωρίς αυτά έχει deviance 63.565. η διαφορά των deviance είναι.56, τιµή µη σηµαντική αν θεωρηθεί ότι προέρχεται από κατανοµή χ µε 3 βαθµούς ελευθερίας. Τα αποτελέσµατα εκτίµησης του νέου µοντέλου είναι: Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant.64.46.8. pres_cen.9375.4865 3.98....3 chol_cen.448.334 4.37.... Log-Likelihood = -3.93 Test that all slopes are zero: G = 39.77; DF = ; P-Value =. Goodness-of-Fit Tests Method Chi-Square DF P Pearson 55.693 53.374 Deviance 63.565 53.5
ιατηρήσαµε την κεντροποίηση των ανεξάρτήτων για να υπάρχει συγκρισιµότητα µε το πληρέστερο µοντέλο. Και αυτό το µοντέλο έχει καλή προσαρµογή. Στη συνέχεια παρουσιάζουµε τα διαγνωστικά του (εξετάσαµε αν κάθε µία από τις δύο ανεξάρτητες µπορεί να φύγει αλλά αποδείχθηκε ότι πρέπει να παραµείνουν και οι δύο). 3 dev res final 3 4 5 pressure 6 7 8 9 3 dev res final 5 cholesterol 3
3 dev res final -4-3 fitted logits full Όλα τα διαγράµµατα καταλοίπων είναι εντάξει. Εµφανίζεται ένα κατάλοιπο που βρίσκεται περισσότερο από δύο τυπικές αποκλίσεις µακριά από το µηδέν αλλά αυτό δεν είναι απίθανο σε 56 παρατηρήσεις. Ο έλεγχος Κανονικότητας των τυποποιηµένων καταλοίπων δίνει Normal Probability Plot Probability.999.99.95.8.5..5.. Average: -.496 StDev:.7749 N: 56 stand dev re W-test for Normality R:.9794 P-Value (approx):.587
Άρα και ο έλεγχος της Κανονικότητας δεν δείχνει κάτι παράξενο. Σχετικά µε το leverage υπάρχουν 4 παρατηρήσεις µε leverage µεγαλύτερο από το όριο (*3/56=.7) αλλά η τιµή του είναι πολύ κοντά σε αυτό. Εξάλλου οι αποστάσεις Cook όλων των σηµείων είναι πολύ µικρότερες από τη διάµεσο της κατανοµής F µε 3 και 53 βαθµούς ελευθερίας. Η διάµεσος είναι.7989 και η µεγαλύτερη απόσταση Cook είναι.4. Τελικά καταλήξαµε σε ένα µοντέλο το οποίο µας οδηγεί στα εξής συµπεράσµατα: ) Αύξηση της πίεσης κατά µία µονάδα αυξάνει τα odds του να πάθει κάποιος καρδιακό κατά %. ) Αύξηση του επιπέδου χοληστερόλης κατά µία µονάδα αυξάνει τα odds του να πάθει κάποιος καρδιακό κατά %.