ΛΟΓΙΣΤΙΚΗ ΕΞΑΡΤΗΣΗ Θα δούμε ένα παράδειγμα όπου μελετήθηκαν διάφοροι προσδιοριστικοί παράγοντες που μπορεί να επηρεάσουν την γέννηση ελλειποβαρών νεογνών (βάρος < 2.500 γραμμάρια). Συλλέχθηκαν δεδομένα από 189 γυναίκες, από τις οποίες οι 59 γέννησαν ελλειποβαρή βρέφη και οι 130 γέννησαν βρέφη κανονικού βάρους. Τα δεδομένα βρίσκονται μέσα στη βάση lowbwt.sav. Διάφοροι παράγοντες που λήφθηκαν υπόψη ήταν: ηλικία της μητέρας(), βάρος της μητέρας (), φυλή (, 1=Λευκός, 2=Μαύρος, 3=Άλλο) της μητέρας, κάπνισμα κατά την εγκυμοσύνη (, 1= Ναι, 0=Όχι), ιστορικό πρόωρων τοκετών (PTL, 0=κανένας, 1=ένας κ.ο.κ), ιστορικό υπέρτασης (, 1= Ναι, 0=Όχι), ύπαρξη ανωμαλίας στη μήτρα (, 1= Ναι, 0=Όχι) και ο αριθμός των επισκέψεων στο γιατρό το 1 ο τρίμηνο της εγκυμοσύνης (FTV): Πρώτα θα δούμε την επίδραση των παραπάνω παραγόντων με διμεταβλητή ανάλυση: Τα αποτελέσματα για την μεταβλητή της ηλικίας: a. Variable(s) entered on step 1:. -.051.032 2.635 1.105.950.893 1.011.385.732.276 1.599 1.469 OR = Exp(Β): 0,95 (odds ratio): Η πιθανότητα για την γέννηση ελλειποβαρούς νεογνού μειώνεται με την ηλικία. Συγκεκριμένα, η πιθανότητα για τη γέννηση ελλειποβαρούς νεογνού μειώνεται κατά 5%, για κάθε χρόνο αύξηση στην ηλικία της μητέρας. Αυτή η σχέση δεν είναι στατιστικά σημαντική εφόσον P=0,105 (Sig.) και το 95% διάστημα εμπιστοσύνης (0,89 1,01) περιλαμβάνει το 1. Επίσης, αν θέλουμε να εκφράσουμε το OR για 5 χρόνια αύξηση, το υψώνουμε στη δύναμη του 5, δηλαδή 0,950 5 = 0,77, οπότε η πιθανότητα για τη γέννηση ελλειποβαρούς νεογνού μειώνεται κατά 23%, για κάθε 5 χρόνια αύξηση στην ηλικία της μητέρας. Τα αποτελέσματα για την μεταβλητή του βάρους: a. Variable(s) entered on step 1:. -.028.012 5.192 1.023.972.949.996.998.785 1.616 1.204 2.714 1
OR = Exp(Β): 0,972: Η πιθανότητα για την ελλειποβαρούς γέννηση νεογνού μειώνεται με το βάρος της μητέρας. Συγκεκριμένα, η πιθανότητα για τη γέννηση ελλειποβαρούς νεογνού μειώνεται κατά 25% (1-0,972 10 =0,25), για κάθε 10 κιλά αύξηση στο βάρος Αυτή η σχέση είναι στατιστικά σημαντική εφόσον P=0,023 (Sig.) < 0,05 και το 95% διάστημα εμπιστοσύνης (0,949 10 0,996 10 = 0,59 0,96) δεν περιλαμβάνει το 1. Τα αποτελέσματα για την μεταβλητή της φυλής: (2) a. Variable(s) entered on step 1:. 4.922 2.085.845.463 3.323 1.068 2.328.939 5.772.636.348 3.345 1.067 1.889.955 3.736-1.155.239 23.330 1.000.315 Συνήθως όταν υπάρχει μια ποιοτική μεταβλητή (Categorical) με πολλές ομάδες/κατηγορίες (k) όπως είναι η φυλή, δημιουργούμε τις k-1 ψευδομεταβλητές (dummy variables) ορίζοντας ποια θα είναι η ομάδα αναφοράς (Reference category), δηλαδή με ποια ομάδα θα συγκριθούν οι άλλες ομάδες. Στο συγκεκριμένο παράδειγμα (πατώντας το κουμπί Categorical ), η πρώτη κατηγορία (=1) ορίστηκε ως ομάδα αναφοράς [(Indicator(first)) πατήστε και το Change..], δηλαδή οι Λευκοί. Οπότε η σχέση των Μαύρων με τους Λευκούς εκφράζεται με την μεταβλητή και OR = Exp(Β): 2,328, η πιθανότητα για τη γέννηση ελλειποβαρούς νεογνού είναι κατά 2,3 φορές μεγαλύτερη στους Μαύρους απ ότι στους Λευκούς. Ομοίως, ο λόγος σχετικών πιθανοτήτων για τους Άλλους σε σχέση με τους Λευκούς ήταν OR = Exp(Β): 1,889, δηλαδή η πιθανότητα για τη γέννηση ελλειποβαρούς νεογνού είναι κατά 1,9 φορές μεγαλύτερη στους Άλλους σε σύγκριση με τους Λευκούς. Αυτές οι σχέσεις δεν είναι στατιστικά σημαντικές εφόσον P> 0,05, αλλά υπήρχε μια τάση P<0,10. Στην συγκεκριμένη περίπτωση, θα μπορούσαν να δημιουργηθούν οι 2 ψευδομεταβλητές, π.χ. BLACK και OTHER πριν την εφαρμογή του λογαριθμιστικού μοντέλου. Η μεταβλητή BLACK θα παίρνει τις τιμές 1 όταν το =2 αλλιώς θα παίρνει τις τιμές 0 και η μεταβλητή OTHER θα παίρνει τις τιμές 1 όταν το =3 αλλιώς θα παίρνει τις τιμές 0. Τα αποτελέσματα είναι τα ίδια με τα παραπάνω εφαρμόζοντας αυτό το μοντέλο με τις 2 ψευδομεταβλητές (δοκιμάστε το): BLACK OTHER.845.463 3.323 1.068 2.328.939 5.772.636.348 3.345 1.067 1.889.955 3.736-1.155.239 23.330 1.000.315 a. Variable(s) entered on step 1: BLACK, OTHER. 2
Τα αποτελέσματα για την μεταβλητή του καπνίσματος: a. Variable(s) entered on step 1:..704.320 4.852 1.028 2.022 1.081 3.783-1.087.215 25.627 1.000.337 OR = Exp(Β): 2,022: Η πιθανότητα για την γέννηση ελλειποβαρούς νεογνού αυξάνει με το κάπνισμα. Συγκεκριμένα, η πιθανότητα για τη γέννηση ελλειποβαρούς νεογνού είναι περίπου διπλάσια στις καπνίστριες απ ότι στις μη καπνίστριες. Αυτή η σχέση είναι στατιστικά σημαντική εφόσον P=0,028 (Sig.) < 0,05 και το 95% διάστημα εμπιστοσύνης (1,08 3,78) δεν περιλαμβάνει το 1. PTL Τα αποτελέσματα για τις άλλες μεταβλητές: a. Variable(s) entered on step 1: PTL..802.317 6.391 1.011 2.230 1.197 4.151 -.964.175 30.370 1.000.381 a. Variable(s) entered on step 1:. 1.214.608 3.979 1.046 3.365 1.021 11.088 -.877.165 28.249 1.000.416 a. Variable(s) entered on step 1:..947.417 5.162 1.023 2.578 1.139 5.834 -.947.176 29.072 1.000.388 3
FTV a. Variable(s) entered on step 1: FTV. -.135.157.744 1.389.874.643 1.188 -.687.195 12.427 1.000.503 Άρα υπήρχε σημαντικά αυξημένη πιθανότητα για γέννηση ελλειποβαρούς νεογνού στις μητέρες με ιστορικό πρόωρων τοκετών (OR: 2,23 p=0,011), με ιστορικό υπέρτασης (OR: 3,37 p=0,046) και με την ύπαρξη ανωμαλίας στη μήτρα (OR: 2,58 p=0,023). Γενικά, ο μόνος παράγοντας που φάνηκε να μην έχει σχέση με την πιθανότητα για γέννηση ελλειποβαρούς νεογνού ήταν ο αριθμός των επισκέψεων στο γιατρό κατά το 1 ο τρίμηνο της εγκυμοσύνης (FTV) p=0,389. Στο επόμενο βήμα θα προσαρμόσουμε ένα πολυμεταβλητό μοντέλο με όλες τις σημαντικές μεταβλητές (όλες εκτός της FTV): (2) PTL -.027.036.551 1.458.973.906 1.045 -.030.014 4.803 1.028.970.944.997 7.006 2.030 1.263.526 5.757 1.016 3.537 1.260 9.925.862.439 3.849 1.050 2.367 1.001 5.598.923.401 5.306 1.021 2.518 1.148 5.524.542.346 2.448 1.118 1.719.872 3.389 1.834.692 7.026 1.008 6.257 1.613 24.277.759.459 2.727 1.099 2.135.868 5.254.464 1.205.149 1.700 1.591 a. Variable(s) entered on step 1:,,,, PTL,,. Βλέπουμε ότι η μεταβλητή της ηλικίας της μητέρας () δεν έχει σημαντική σχέση με την εξαρτημένη μεταβλητή οπότε προσαρμόζουμε ένα μοντέλο χωρίς αυτό: (2) PTL -.032.014 5.383 1.020.969.943.995 7.886 2.019 1.326.522 6.444 1.011 3.765 1.353 10.478.897.434 4.275 1.039 2.452 1.048 5.740.939.399 5.543 1.019 2.557 1.170 5.586.503.341 2.175 1.140 1.654.847 3.229 1.855.695 7.122 1.008 6.392 1.637 24.964.786.456 2.963 1.085 2.194.897 5.367 -.087.952.008 1.928.917 a. Variable(s) entered on step 1:,,, PTL,,. 4
Αλλά επειδή η ηλικία της μητέρας θεωρείται πως έχει βιολογική σημαντικότητα, πιθανόν να είναι και ένας συγχητικός παράγοντας και μπορεί να αλληλεπιδράει με άλλους παράγοντες, αποφασίζεται να παραμείνει στο μοντέλο. Επίσης, το ιστορικό πρόωρων τοκετών (PTL) δεν έχει σημαντική σχέση με την εξαρτημένη μεταβλητή και υπολογίζοντας τις συχνότητες: History of premature labor Valid 0 1 2 3 Total Cumulativ e Frequency Percent Valid Percent Percent 159 84.1 84.1 84.1 24 12.7 12.7 96.8 5 2.6 2.6 99.5 1.5.5 100.0 189 100.0 100.0 Λίγες γυναίκες είχαν 2 και 3 πρόωρους τοκετούς, οπότε αυτή η μεταβλητή θα ήταν καλύτερα να διχοτομηθεί σε γυναίκες με ιστορικό πρόωρων τοκετών και σε γυναίκες χωρίς ιστορικό πρόωρων τοκετών (=1 και 0). Τώρα το ιστορικό πρόωρων τοκετών ως διχότομη μεταβλητή έχει σημαντική σχέση με την εξαρτημένη μεταβλητή (P=0,006): (2) LWD 5.482 2.065 1.073.515 4.343 1.037 2.925 1.066 8.028.815.445 3.353 1.067 2.260.944 5.409.807.404 3.983 1.046 2.242 1.015 4.953 1.435.648 4.902 1.027 4.201 1.179 14.966.658.467 1.986 1.159 1.930.773 4.817 1.282.462 7.692 1.006 3.603 1.456 8.912 -.046.037 1.545 1.214.955.887 1.027.842.406 4.312 1.038 2.321 1.048 5.139-1.217.956 1.621 1.203.296 a. Variable(s) entered on step 1:,,,,,, LWD. Σε ένα πολυμεταβλητό μοντέλο ο λόγος σχετικών πιθανοτήτων μιας συγκεκριμένης μεταβλητής συνοπολογίζει την επίδραση των άλλων μεταβλητών (adjusted odds ratio) και ερμηνεύεται ως π.χ. η πιθανότητα για τη γέννηση ελλειποβαρούς νεογνού είναι 2,2 φορές μεγαλύτερη στις καπνίστριες απ ότι στις μη καπνίστριες συνυπολογίζοντας και την επίδραση των άλλων μεταβλητών (φυλή, ηλικία, κ.ο.κ). Το επόμενο βήμα είναι να εξεταστούν αν υπάρχουν σημαντικές αλληλεπιδράσεις, αλλά όλοι οι δυνατοί συνδυασμοί των μεταβλητών είναι πολλοί και δεν έχει νόημα να εξεταστούν όλες οι αλληλεπιδράσεις. Επιλέγουμε το κάπνισμα, την ηλικία και τη φυλή διότι αυτοί οι παράγοντες πιστεύουμε πως αλληλεπιδρούν με τους άλλους παράγοντες. Για παράδειγμα, η αλληλεπίδραση του καπνίσματος με το βάρος της μητέρας (*) δεν ήταν σημαντική (P=0,247): 5
(2) by Ελέγχοντας και όλες τις άλλες αλληλεπιδράσεις: *, *, *, *, *, *, *, *, *, *, *, *, * και * δεν ήταν σημαντικές (P>0,05). Οπότε παραμένουμε στο πολυμεταβλητό μοντέλο χωρίς τις αλληλεπιδράσεις. Αν χρησιμοποιηθούν αυτοματοποιημένες μεθόδους επιλογής μοντέλων όπως είναι η μέθοδος της εισαγωγής μεταβλητών (forward selection) αλλά και με τη μέθοδο της ανάστροφης εξάλειψης μεταβλητών (backward elimination) σύμφωνα με το κριτήριο του λόγου πιθανοφάνειας (likelihood ratio criteria) θα καταλήξουμε στα παρακάτω μοντέλα: FORWARD: 5.901 2.052 1.231.534 5.323 1.021 3.425 1.204 9.746.716.452 2.514 1.113 2.047.844 4.963-1.136 1.756.418 1.518.321.010 10.026 1.743.707 6.073 1.014 5.716 1.429 22.867.801.470 2.901 1.089 2.228.886 5.603 1.265.465 7.401 1.007 3.542 1.424 8.810 -.038.038.978 1.323.963.894 1.038 -.047.022 4.811 1.028.954.914.995.031.027 1.338 1.247 1.032.979 1.087 1.748 1.594 1.203 1.273 5.745 a. Variable(s) entered on step 1:,,,,,,, *. 2 b 1.463.414 12.455 1.000 4.317 1.916 9.726-1.057.181 34.003 1.000.347 1.492.419 12.662 1.000 4.445 1.954 10.111 1.288.627 4.220 1.040 3.625 1.061 12.387-1.156.191 36.574 1.000.315 3 c a. Variable(s) entered on step 1:. b. Variable(s) entered on step 2:. c. Variable(s) entered on step 3:. 1.407.429 10.778 1.001 4.083 1.763 9.456 -.035.014 6.482 1.011.966.941.992 1.894.721 6.899 1.009 6.646 1.617 27.311 1.017.853 1.421 1.233 2.766 6
BACKWARD: 2 a 3 a (2) (2) (2) 1.222.463 6.963 1.008 3.393 1.369 8.409 -.038.038.997 1.318.963.894 1.037 -.030.014 4.485 1.034.971.944.998 6.158 2.046 1.213.532 5.187 1.023 3.363 1.184 9.549.804.448 3.215 1.073 2.235.928 5.382.846.408 4.302 1.038 2.331 1.048 5.187 1.839.703 6.836 1.009 6.288 1.585 24.954.711.463 2.358 1.125 2.036.822 5.047.637 1.230.268 1.605 1.891 1.129.450 6.282 1.012 3.092 1.279 7.475 -.032.014 5.240 1.022.969.943.995 7.258 2.027 1.301.528 6.059 1.014 3.672 1.303 10.347.854.441 3.755 1.053 2.350.990 5.577.867.404 4.590 1.032 2.379 1.077 5.256 1.867.707 6.965 1.008 6.468 1.617 25.876.751.459 2.677 1.102 2.118.862 5.207 -.125.968.017 1.897.882 1.231.446 7.615 1.006 3.426 1.429 8.216 -.033.014 5.794 1.016.967.941.994 7.115 2.029 1.264.529 5.700 1.017 3.539 1.254 9.986.864.435 3.945 1.047 2.373 1.011 5.567.876.401 4.780 1.029 2.402 1.095 5.267 1.767.708 6.225 1.013 5.856 1.461 23.474.095.957.010 1.921 1.099 a. Variable(s) entered on step 1:,,,,,,. Και στις 2 περιπτώσεις καταλήγουμε σε διαφορετικά μοντέλα, σε αυτήν την περίπτωση παρουσιάζουμε το τελικό μοντέλο με την μία μέθοδο και αναφέρουμε τις διαφορές με την άλλη μέθοδο. Ο τρόπος που παρουσιάζονται και συνοψίζονται τα παραπάνω αποτελέσματα είναι: 7
Πίνακας: Λογιστικά μοντέλα για τη σχέση μεταξύ ελλειποβαρών νεογνών και διάφορων πρσδιοριστών Διμεταβλητή ανάλυση Πολυμεταβλητή α Προσδιοριστικοί παράγοντες OR 95% CI P-value OR 95% CI P-value Ηλικία (για κάθε 5 χρόνια αύξηση) 0.77 0.57, 1.06 0.105 Βάρος (για κάθε 10 κιλά αύξηση) 0.75 0.59, 0.96 0.023 0.71 0.54, 0.94 0.016 Φυλή Μαύροι/Λευκοί Άλλοι/Λευκοί 2.33 1.89 0.94, 5.77 0.96, 3.74 0.068 0.067 3.54 2.37 1.25, 9.99 1.01, 5.57 0.017 0.047 Κάπνισμα (Ναι / Όχι) 2.02 1.08, 3.78 0.028 2.40 1.10, 5.27 0.029 Πρόωροι τοκετοί (Ναι / Όχι) 4.32 1.92, 9.73 <0.001 3.43 1.43, 8.22 0.006 Υπέρταση (Ναι / Όχι) 3.37 1.02, 11.09 0.046 5.86 1.46, 23.47 0.013 Ανωμαλία στη μήτρα (Ναι / Όχι) 2.58 1.14, 5.84 0.023 Αριθμός επισκέψεων το 1 ο τρίμηνο 0.87 0.64, 1.19 0.389 OR: Odds ratio, CI: Confidence interval α Mε τη μέθοδο της ανάστροφης εξάλειψης μεταβλητών (backward elimination) σύμφωνα με το κριτήριο του λόγου πιθανοφάνειας (likelihood ratio criteria) 8