Εισαγωγή στη Βιοστατιστική Π.Μ.Σ.: Έρευνα στη Γυναικεία Αναπαραγωγή Επαναληπτικό μάθημα: Νοέμβριος 2017 Αλέξανδρος Γρυπάρης, PhD Αλέξανδρος Γρυπάρης, PhD 1
Βασικές έννοιες Πληθυσμός - δείγμα Κεντρική ιδέα στην όλη στατιστική διαδικασία αποτελεί η μελέτη ενός δείγματος αποτελούμενου από (n) παρατηρήσεις και προερχόμενου από ένα πληθυσμό αναφοράς αποτελούμενο από (Ν) παρατηρήσεις. Το δείγμα πρέπει να είναι τυχαίο και αντιπροσωπευτικό υποσύνολο του πληθυσμού. Κάθε έρευνα έχει σκοπό να καταλήξει σε συμπεράσματα για τον πληθυσμό, και όχι για το δείγμα! Αλέξανδρος Γρυπάρης, PhD 2
Είδη μεταβλητών Μη διατάξιμες (δεν επιδέχονται αριθμητικές μετρήσεις και δεν υπάρχει ιεραρχία). Φύλο (διχοτομική μεταβλητή) 0 άνδρας 1 γυναίκα Ομάδα αίματος 0 ομάδα αίματος O 1 ομάδα αίματος A 2 ομάδα αίματος B 3 ομάδα αίματος AB Αλέξανδρος Γρυπάρης, PhD 3
Είδη μεταβλητών Διατάξιμες (δεν επιδέχονται αριθμητικές μετρήσεις αλλά υπάρχει ιεραρχία) 1 χωρίς συμπτώματα 2 ελαφρά συμπτώματα 3 μέτρια συμπτώματα 4 έντονα συμπτώματα Αλέξανδρος Γρυπάρης, PhD 4
Είδη μεταβλητών Διακριτές (επιδέχονται αριθμητικές μετρήσεις, αλλά είναι δυνατόν να λάβουν μόνο ορισμένες τιμές) Αριθμός τροχαίων ατυχημάτων Αθήνα σε μια ημέρα Αριθμός μαθητών σε μια τάξη στην Αλέξανδρος Γρυπάρης, PhD 5
Είδη μεταβλητών Συνεχείς (επιδέχονται αριθμητικές μετρήσεις και μπορούν να πάρουν θεωρητικά όλες τις τιμές των πραγματικών αριθμών σε ένα διάστημα) Βάρος Συστολική πίεση Χρόνος επιβίωσης Θερμοκρασία Αλέξανδρος Γρυπάρης, PhD 6
Είδη μεταβλητών Ποιοτικές, κατηγορικές (Qualitative, Categorical) Μεταβλητές που δεν μπορούν να μετρηθούν (κατηγοριοποίηση) Διατάξιμες (ιεράρχηση) Μη διατάξιμες Ποσοτικές (Quantitative) Μεταβλητές που μπορούν να μετρηθούν Συνεχείς Διακριτές Αλέξανδρος Γρυπάρης, PhD 7
Περιγραφική Στατιστική Για να περιγράψουμε τα δεδομένα μας, χρησιμοποιούμε διαφορετικούς τρόπους για τις ποιοτικές και τις ποσοτικές μεταβλητές Στη συνέχεια θα δούμε τους κυριότερους τρόπους, για κάθε μια από τις δυο κατηγορίες μεταβλητών Αλέξανδρος Γρυπάρης, PhD 8
Ποιοτικές μεταβλητές Στις ποιοτικές μεταβλητές χρησιμοποιούμε την κατανομή συχνοτήτων Κατανομή συχνοτήτων (frequency distribution). Με την κατανομή συχνοτήτων καταγράφεται για κάθε τιμή του ποιοτικού μεγέθους ο αντίστοιχος αριθμός παρατηρήσεων ή/και το αντίστοιχο ποσοστό. Αλέξανδρος Γρυπάρης, PhD 9
Παράδειγμα Κατανομή συχνοτήτων: Αλέξανδρος Γρυπάρης, PhD 10
Ραβδόγραμμα Αλέξανδρος Γρυπάρης, PhD 11
Πίτα Αλέξανδρος Γρυπάρης, PhD 12
Ιστόγραμμα Ιστόγραμμα Συχνοτήτων του ΔΜΣ (ΒΜΙ) σε δείγμα 2994 ατόμων. Αλέξανδρος Γρυπάρης, PhD 13
Περιγραφική Στατιστική για Ποσοτικές μεταβλητές Υπολογίζονται με βάση τα στοιχεία της κατανομής και μπορούν να υποδείξουν τα κύρια χαρακτηριστικά της Τιμές θέσης Επικρατούσα τιμή, μέση τιμή, διάμεσος Τιμές βαθμού διασποράς Σταθερή απόκλιση, ακραίες τιμές, εκατοστημόρια Αλέξανδρος Γρυπάρης, PhD 14
Τιμές θέσης Επικρατούσα τιμή είναι η τιμή στην οποία σημειώθηκαν οι περισσότερες παρατηρήσεις Μέση τιμή είναι το αλγεβρικό άθροισμα όλων των μετρήσεων διαιρεμένο με το πλήθος αυτών Διάμεσος είναι η τιμή που είναι συγχρόνως μεγαλύτερη από τις μισές μετρήσεις και μικρότερη από τις άλλες μισές n+1 Η τιμή της διατεταγμένης παρατήρησης 2 Αλέξανδρος Γρυπάρης, PhD 15
Παράδειγμα: Οι 17 μαθητές μιας τάξης σημείωσαν τον παρακάτω αριθμό απουσιών (σε αυξανόμενη σειρά) 0, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 7, 7, 34, 82 Αλέξανδρος Γρυπάρης, PhD 16
Παράδειγμα: Οι 17 μαθητές μιας τάξης σημείωσαν τον παρακάτω αριθμό απουσιών (σε αυξανόμενη σειρά) 0, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 7, 7, 34, 82 Επικρατούσα τιμή: 2 απουσίες Μέση τιμή: 10 απουσίες Διάμεσος: 4 απουσίες Αλέξανδρος Γρυπάρης, PhD 17
Μέση τιμή και διάμεσος Αν η κατανομή είναι συμμετρική, η μέση τιμή και η διάμεσος βρίσκονται πολύ κοντά Η μέση τιμή προτιμάται όταν δουλεύουμε με συμμετρική κατανομή Σε μη συμμετρικές κατανομές προτιμάται η διάμεσος. Η μέση τιμή επηρεάζεται περισσότερο από τις ακραίες τιμές, και από τη μη συμμετρικότητα Η επικρατούσα τιμή είναι χρήσιμη σε περιπτώσεις πολυκόρυφων κατανομών Αλέξανδρος Γρυπάρης, PhD 18
Παράδειγμα: Το παρακάτω ιστόγραμμα αντιστοιχεί στα δεδομένα του προηγούμενου παραδείγματος (με τον αριθμό απουσιών). Με βάση αυτό το ιστόγραμμα, ποιο μέτρο θέσης θα επιλέγατε για τα δεδομένα αυτά; Αλέξανδρος Γρυπάρης, PhD 19
Παράδειγμα: Αλέξανδρος Γρυπάρης, PhD 20
Τιμές βαθμού διασποράς Σταθερή απόκλιση (standard deviation): SD = ( x i x ) 2 = Σx 2 i ( Σx i )2 n n 1 n 1 Οι ακραίες τιμές προσδιορίζουν το εύρος της κατανομής Εκατοστημόρια: (n+1) K 100 Αλέξανδρος Γρυπάρης, PhD 21
Τιμές βαθμού διασποράς Διακύμανση (variance) Var = = SD 2 Τυπικό σφάλμα (standard error) SE = SD n ( x x ) 2 n 1 Αλέξανδρος Γρυπάρης, PhD 22
Πραγματική μέση τιμή Η μέση τιμή ενός δείγματος αποτελεί μια κατά προσέγγιση εκτίμηση της πραγματικής μέσης τιμής του πληθυσμού Το τυπικό σφάλμα αποτελεί μέτρο της ενδεχόμενης απόστασης της μέσης τιμής του δείγματος από την αντίστοιχη πραγματική Αλέξανδρος Γρυπάρης, PhD 23
Διάστημα αξιοπιστίας Στην κανονική κατανομή, το διάστημα: (μέση τιμή ± 1,96*SE) περιλαμβάνει την πραγματική μέση τιμή με πιθανότητα 95% Αλέξανδρος Γρυπάρης, PhD 24
Παράδειγμα Έστω ότι η μέση τιμή μιας σειράς πολυάριθμων μετρήσεων αναστημάτων ήταν 164 εκ. και το SE ήταν 0,5 εκ. Τότε, το 95% διάστημα αξιοπιστίας για την πραγματική μέση τιμή είναι το διάστημα (164-1.96*0.5, 164+1.96*0.5) Έτσι, στο δείγμα μας η μέση τιμή του ύψους ήταν 164 εκ. Ποια είναι η μέση τιμή του πληθυσμού αναφοράς; Αλέξανδρος Γρυπάρης, PhD 25
(συνέχεια) Για τον πληθυσμό αναφοράς δεν είμαστε σίγουροι ποιά είναι η μέση τιμή του ύψους του. Αλλά, πιστεύουμε ότι με 95% πιθανότητα βρίσκεται στο διάστημα (163.02, 164.98). Έτσι, με πιθανότητα 95% λέμε ότι η πραγματική μέση τιμή βρίσκεται στο διάστημα (163.02, 164.98). Η πιθανότητα να κάνουμε λάθος είναι 5%=0,05 Αλέξανδρος Γρυπάρης, PhD 26
Σύγκριση 2 μέσων τιμών(ttest) Έστω ότι θέλουμε να συγκρίνουμε δύο διαφορετικές μέσες τιμές, που προέρχονται από δυο ανεξάρτητους πληθυσμούς. Χρησιμοποιείται για μια ποσοτική μεταβλητή και μια ποιοτική με 2 κατηγορίες (π.χ. φύλο) Προϋποθέσεις: Η μεταβλητή που μας ενδιαφέρει ακολουθεί την κανονική κατανομή και στους 2 πληθυσμούς. Οι τυπικές αποκλίσεις δεν διαφέρουν. Ελέγχουμε αν η μια δεν είναι διπλάσια της άλλης, ή μεγαλύτερη Αλέξανδρος Γρυπάρης, PhD 27
Παράδειγμα Έστω ότι θέλουμε να συγκρίνουμε τον αριθμό τσιγάρων που καπνίζουν την ημέρα οι άνδρες και οι γυναίκες, στο γενικό πληθυσμό. Μηδενική υπόθεση: Η 0 : μ 1 =μ 2, δηλαδή ο μέσος αριθμός τσιγάρων που καπνίζουν οι άνδρες είναι ίσος με το μέσο αριθμό τσιγάρων που καπνίζουν οι γυναίκες, στον πληθυσμό. Εναλλακτική υπόθεση: Η Α : μ 1 μ 2, δηλαδή ο μέσος αριθμός τσιγάρων που καπνίζουν οι άνδρες ΔΕΝ είναι ίσος με το μέσο αριθμό τσιγάρων που καπνίζουν οι γυναίκες, στον πληθυσμό. Αλέξανδρος Γρυπάρης, PhD 28
Έλεγχος υπόθεσης Ο έλεγχος υπόθεσης είναι μια διαδικασία βάση της οποίας συνάγουμε συμπεράσματα για μια παράμετρο του πληθυσμού (π.χ. τη μέση τιμή), χρησιμοποιώντας πληροφορίες που προέρχονται από το δείγμα μας Πάντα ξεκινάμε από τη μηδενική υπόθεση(h 0 ): στο t-test υποθέτουμε ότι οι πραγματικές μέσες τιμές των πληθυσμών είναι ίσες H 0 : μ 1 =μ 2 Η εναλλακτική υπόθεση είναι H Α : μ 1 μ 2 Στη συνέχεια ελέγχουμε αν το δείγμα μας είναι περισσότερο συνεπής με τη μηδενική υπόθεση ή με την εναλλακτική υπόθεση Αλέξανδρος Γρυπάρης, PhD 29
p-value Για το λόγο αυτό υπολογίζουμε το στατιστικό κριτήριο (test statistic), και από εκεί βρίσκουμε το p-value Βάση του p-value θα αποφασίσουμε αν θα επιλέξουμε την μηδενική ή την εναλλακτική υπόθεση Αλέξανδρος Γρυπάρης, PhD 30
p-value Στη συνέχεια συγκρίνουμε την υπολογιζόμενη p-value με το στατιστικό επίπεδο αναφοράς, που συνήθως είναι το 0,05 Αν p-value < 0,05, τότε απορρίπτουμε την H 0 και αποδεχόμαστε την H Α Αν p-value > 0,05, τότε αποτυγχάνουμε να απορρίψουμε την H 0 (ΠΡΟΣΟΧΗ: ποτέ δεν αποδεχόμαστε την H 0!!!) Αλέξανδρος Γρυπάρης, PhD 31
Η 0 Αν p-value > 0,05, τότε αποτυγχάνουμε να απορρίψουμε την H 0 Δεν γνωρίζουμε όμως αν όντως ισχύει η H 0 Π.χ. μπορεί να είχαμε μικρό δείγμα, και ενώ ισχύει η Η Α δεν βρήκαμε p-value < 0,05 Αν είχαμε πάρει μεγαλύτερο δείγμα, μπορεί και να είχαμε βρει p-value < 0,05 και να είχαμε απορρίψει την Η 0 Αλέξανδρος Γρυπάρης, PhD 32
Παράδειγμα, t-test με 2 ανεξάρτητα δείγματα 28 # of cigaretes / day Sex of Subjects Male Female Group Statistics Std. Error 22 N Mean Std. Deviation Mean 20 941 26,05 16,690,544 655 18,54 12,510,489 18 9 5 % C I # o f c ig a r e te s / d a y 26 24 16 N = 655 Female 941 Male Independent Samples Test Sex of Subjects # of cigaretes / day Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (2-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper 49,312,000 9,757 1594,000 7,50,769 5,996 9,013 10,261 1585,345,000 7,50,731 6,070 8,939 Αλέξανδρος Γρυπάρης, PhD 33 P-value < 0,001
(συνέχεια) Έτσι, έχουμε δύο υποθέσεις: H 0 : μ 1 =μ 2 (Μηδενική υπόθεση) H A : μ 1 μ 2 (Εναλλακτική υπόθεση) Είναι πιθανό η παρατηρούμενη διαφορά στις δύο μέσες τιμές (26,05 και 18,54) να οφείλεται σε τυχαίες διακυμάνσεις (αλλά κατά βάση οι 2 μέσες τιμές να είναι ίσες στον πληθυσμό); Ή πρέπει να συμπεράνουμε ότι η παρατηρούμενη διαφορά οφείλεται σε διαφορετικές πραγματικές μέσες τιμές των δύο πληθυσμών υπό έλεγχο; Αλέξανδρος Γρυπάρης, PhD 34
(συνέχεια) Η αντίστοιχη p-value < 0,001 Επειδή p-value<0,05, απορρίπτουμε την H 0 στο επίπεδο σημαντικότητας 0,05. Άρα, η διαφορά στον μέσο αριθμό τσιγάρων ανάμεσα στις 2 ομάδες είναι στατιστικά σημαντική. Συμπέρασμα: Προκύπτει ότι οι άνδρες καπνίζουν διαφορετικό μέσο αριθμό τσιγάρων, από τις γυναίκες Αλέξανδρος Γρυπάρης, PhD 35
95% διάστημα εμπιστοσύνης Τα στατιστικά πακέτα (όπως το SPSS) εκτιμάνε το 95% ΔΕ για τη διαφορά των δύο μέσων τιμών Στο προηγούμενο παράδειγμα το 95% ΔΕ για τη διαφορά των μέσων τιμών είναι: (5,996, 9,013) Οπότε, είμαστε 95% σίγουροι ότι το διάστημα (5,996, 9,013) καλύπτει την πραγματική διαφορά στις μέσες τιμές τσιγάρων, στους δύο διαφορετικούς πληθυσμούς (άνδρεςγυναίκες) Προσέξτε ότι το παραπάνω διάστημα δεν περιλαμβάνει το 0, οπότε συμβαδίζει με τον έλεγχο υπόθεσης στο επίπεδο του 0,05 Αλέξανδρος Γρυπάρης, PhD 36
t-test για παρατηρήσεις κατά ζεύγη (paired t-test) Μερικές φορές οι παρατηρήσεις των 2 συγκρινόμενων ομάδων εμφανίζουν ατομική αντιστοιχία (δεν είναι ανεξάρτητες). Για κάθε παρατήρηση στην 1 η ομάδα υπάρχει μια αντίστοιχη παρατήρηση στη 2 η ομάδα Π.χ. Μέτρηση της συστολικής αρτηριακής πίεσης στα ίδια άτομα, πρίν και μετά από σωματική άσκηση. Σύγκριση της αποτελεσματικότητας 2 φαρμάκων στους ίδιους ασθενείς. Τότε οι συγκρίσεις πρέπει να γίνονται κατά ζεύγη. Αλέξανδρος Γρυπάρης, PhD 37
(συνέχεια) Αυτή η αντιστοιχία χρησιμοποιείται για να ελαττώσει την επιρροή από εξωτερικούς παράγοντες που αυξάνουν τη μεταβλητότητα των μετρήσεων Αν οι μετρήσεις γίνονται στα ίδια άτομα, τότε ένα σημαντικό μέρος της βιολογικής μεταβλητότητας που υπάρχει μεταξύ ανθρώπων εξαφανίζεται Αυτό έχει σαν αποτέλεσμα πιο ακριβείς συγκρίσεις Αλέξανδρος Γρυπάρης, PhD 38
(συνέχεια) Μερικές φορές οι μετρήσεις δε γίνονται στα ίδια άτομα, αλλά σε εξομοιωμένα (matched) άτομα. Έτσι, είναι δυνατόν να χορηγηθούν τα συγκρινόμενα άτομα σε δίδυμα αδέρφια, ή σε άτομα του ίδιου φύλου, ηλικίας, βάρους, κτλ. Τότε, πάλι οι συγκρίσεις πρέπει να γίνονται κατά ζεύγη. Αλέξανδρος Γρυπάρης, PhD 39
Παράδειγμα Θέλουμε να ελέγξουμε αν ο δείκτης μάζας σώματος (ΒΜΙ) παραμένει σταθερός μεταξύ του 2000 και του 2006, σε κάποιον πληθυσμό. Για το λόγο αυτό μετρήσαμε τον δείκτη μάζας σώματος (ΒΜΙ) στα ίδια άτομα το 2000 και το 2006 Μέσα από την έρευνά μας θέλουμε να βγάλουμε συμπεράσματα για τον γενικό πληθυσμό, και όχι μόνο για τα άτομα στο δείγμα μας Αλέξανδρος Γρυπάρης, PhD 40
(συνέχεια) Μηδενική υπόθεση: Η 0 : μ 1 =μ 2, η μέση τιμή του δείκτη μάζας σώματος το 2000 είναι ίση με τη μέση τιμή του δείκτη μάζας σώματος το 2006, στον πληθυσμό. Εναλλακτική υπόθεση: Η Α : μ 1 μ 2, η μέση τιμή του δείκτη μάζας σώματος το 2000 ΔΕΝ είναι ίση με τη μέση τιμή του δείκτη μάζας σώματος το 2006, στον πληθυσμό. Αλέξανδρος Γρυπάρης, PhD 41
Παράδειγμα Διαφορά μέσων τιμών δύο εξαρτημένων δειγμάτων. Paired Samples Statistics Pair 1 Body Mass Index (kg/m2) bmi06 Mean N Std. Deviation Std. Error Mean 25,7829 1615 3,69540,09195 26,1831 1615 3,59815,08954 Paired Samples Test Pair 1 Body Mass Index (kg/m2) - bmi06 Mean Std. Deviation Paired Differences 95% Confidence Interval of the Difference Std. Error Mean Lower Upper t df Sig. (2-tailed) -,40015 4,21030,10477 -,60565 -,19466-3,819 1614,000 Αλέξανδρος Γρυπάρης, PhD 42
t-test κατά ζεύγη ή απλό t-test; Αν αντί γιά t-test κατά ζεύγη στο προηγούμενο παράδειγμα χρησιμοποιούσαμε το απλό t-test θα ήταν λάθος; Δεν θα ήταν λάθος, αλλά σε περιπτώσεις παρατηρήσεων κατά ζεύγη ενδείκνυται το t-test κατά ζεύγη Στις περιπτώσεις αυτές, η δοκιμασία αυτή είναι πιό ισχυρή από το απλό t-test, Δηλαδή, τεκμηριώνει με μικρότερο αριθμό παρατηρήσεων την ενδεχόμενη στατιστική σημαντικότητα μιας πραγματικής διαφοράς. Αλέξανδρος Γρυπάρης, PhD 43
Μη-παραμετρικές δοκιμασίες Παραμετρικές δοκιμασίες είναι αυτές στις οποίες προσδιορίζουμε την κατανομή της τυχαίας μεταβλητής (π.χ. κανονική κατανομή). Π.χ. το t-test είναι μια παραμετρική δοκιμασία Προϋποθέτει την κανονική κατανομή! Οι δοκιμασίες στις οποίες δεν προσδιορίζουμε την κατανομή ονομάζονται μη-παραμετρικές. Το Χ 2 είναι μια μη-παραμετρική δοκιμασία Δεν προσδιορίζουμε κάποια συγκεκριμένη κατανομή Αλέξανδρος Γρυπάρης, PhD 44
Πλεονεκτήματα των μη-παραμετρικών δοκιμασιών Εφαρμόζονται σε πολύ περισσότερες περιπτώσεις από ότι οι παραμετρικές δοκιμασίες. Όταν έχουμε μη κανονικές κατανομές, περιορισμένο αριθμό παρατηρήσεων, διατάξιμα χαρακτηριστικά,... Είναι εξαιρετικά εύχρηστες και απλούστερες από τις παραμετρικές, όσο αφορά τους απαιτούμενους αριθμητικούς υπολογισμούς. Αλέξανδρος Γρυπάρης, PhD 45
Μειονεκτήματα των μη-παραμετρικών δοκιμασιών Όταν οι παραμετρικές δοκιμασίες μπορούν να εφαρμοσθούν, τότε αυτές διαθέτουν μεγαλύτερη ισχύ από τις αντίστοιχες μη-παραμετρικές. Δηλαδή, τεκμηριώνουν με μικρότερο αριθμό παρατηρήσεων την ενδεχόμενη στατιστική σημαντικότητα. Οι μη-παραμετρικές δοκιμασίες δεν είναι δυνατόν να εφαρμοσθούν σε σύνθετες στατιστικές αναλύσεις (π.χ. έλεγχο αλληλεπιδράσεων,...) Είναι δύσκολος ο υπολογισμός ορίων αξιοπιστίας. Αλέξανδρος Γρυπάρης, PhD 46
Η δοκιμασία του Wilcoxon (Mann-Whitney test) Αξιολογεί τη διαφορά μεταξύ των δύο ομάδων παρατηρήσεων που δεν εμφανίζουν αντιστοιχία κατά ζεύγη (ανεξάρτητες ομάδες). Πολύ χρήσιμη όταν έχουμε μη-κανονικές κατανομές ή μικρό αριθμό παρατηρήσεων Αντίστοιχη του απλού t-test Αλλά ελέγχει ισότητα διάμεσων τιμών και όχι μέσων τιμών! Όταν το απλό t-test μπορεί να εφαρμοσθεί, έχει μεγαλύτερη ισχύ από τη δοκιμασία του Wilcoxon. Αλέξανδρος Γρυπάρης, PhD 47
Προϋποθέσεις Η δοκιμασία Wilcoxon μπορεί να εφαρμοσθεί όταν το χαρακτηριστικό που μελετάται είναι διατάξιμο ή ποσοτικό, ανεξάρτητα από τη μορφή της κατανομής συχνοτήτων Η κατανομή αυτή θα πρέπει να είναι περίπου η ίδια και στις 2 ομάδες Αλέξανδρος Γρυπάρης, PhD 48
Παράδειγμα Στον επόμενο πίνακα βλέπουμε τα αποτελέσματα από μια στατιστική ανάλυση. Θέλαμε να ελέγξουμε αν η διάμεσος τιμή της πίεσης στις γυναίκες ηλικίας 30-45 χρόνων είναι ίση με τη διάμεσος τιμή της πίεσης στις γυναίκες ηλικίας άνω των 45 χρόνων Αλέξανδρος Γρυπάρης, PhD 49
Example p-value Αλέξανδρος Γρυπάρης, PhD 50
Έλεγχος ανεξαρτησίας 2 ποιοτικών χαρακτηριστικών Παράδειγμα Εξαρτάται η παρουσία καρκίνου από το φύλο; Εξαρτάται η παρουσία καπνίσματος από το μορφωτικό επίπεδο: καθόλου δημοτικό γυμνάσιο - λύκειο ΑΕΙ/ΤΕΙ; Μπορούμε να χρησιμοποιήσουμε το t-test; Αλέξανδρος Γρυπάρης, PhD 51
Διαξονική ταξινόμηση Όταν θέλουμε να μελετήσουμε την ύπαρξη συσχέτισης μεταξύ 2 ποιοτικών χαρακτηριστικών Κατανομή 300 ατόμων σύμφωνα με το κάπνισμα και την ύπαρξη ή όχι καρκίνου του εντέρου Κάπνισμα Σύνολο Καρκίνος εντ. Ναί Όχι Ναί 60 40 100 Όχι 120 80 200 Σύνολο 180 120 300 Αλέξανδρος Γρυπάρης, PhD 52
Έλεγχος ανεξαρτησίας 2 ποιοτικών χαρακτηριστικών Δειγματοληπτικά στοιχεία (πραγματικά δεδομένα) Το κριτήριο χ 2 «μετρά» την απόσταση των δύο πινάκων Θεωρητικά στοιχεία που θα είχαμε «αν δεν υπάρχει εξάρτηση (Ηο)» Χ / Υ Β1 (παράγοντας παρών) Β2 (παράγοντας απών) Χ / Υ Β1 (παράγοντας παρών) Β2 (παράγοντας απών) Α1 (π.χ. ασθενείς) Α2 (π.χ. υγιείς) παρών) α β γ Α1 (π.χ. ασθενείς) δ Α2 (π.χ. υγιείς) παρών) Α Β Γ Δ Αλέξανδρος Γρυπάρης, PhD 53
(συν.) Υπολογισμός αναμενόμενων συχνοτήτων Καρκινοπαθεί ς μαστού Οικογενειακή κατάσταση Ανύπαντρες Παντρεμένες Αλλα Σύνολο Ναί ; ; ; 80 Όχι ; ; ; 160 Σύνολο 60 150 30 240 Αλέξανδρος Γρυπάρης, PhD 54
(συν.) 1ο βήμα: Υπολογισμός των αναμενόμενων συχνοτήτων (δηλαδή των συχνοτήτων που περιμένουμε κάτω από τη μηδενική υπόθεση). Στο σύνολο έχουμε 25% (60/240*100) ανύπαντρες γυναίκες. Θα περιμέναμε να εμφανίζεται η ίδια αναλογία στις καρκινοπαθείς καθώς και στις μηκαρκινοπαθείς. Αρα: Σε σύνολο 240 γυναικών υπάρχουν 60 ανύπαντρες Στις 80 καρκινοπαθείς Χ? Και βρίσκουμε 20 γυναίκες Αλέξανδρος Γρυπάρης, PhD 55
(συν.) Αντίστοιχα: Σε σύνολο 240 γυναικών υπάρχουν 60 ανύπαντρες Στις 160 μη-καρκινοπαθείς Χ? Και βρίσκουμε 40 γυναίκες Όμοια συμπληρώνουμε όλο τον πίνακα Αλέξανδρος Γρυπάρης, PhD 56
(συν.) Οι τιμές σε παρένθεση είναι οι αναμενόμενες συχνότητες, αν ισχύει η Η 0 Καρκινοπαθεί ς μαστού Οικογενειακή κατάσταση Ανύπαντρες Παντρεμένες Αλλα Σύνολο Ναί 30 (20) 44 (50) 6 (10) 80 Όχι 30 (40) 106 (100) 24 (20) 160 Σύνολο 60 150 30 240 Αλέξανδρος Γρυπάρης, PhD 57
Ποια είναι η μηδενική υπόθεση; Η ο : Δεν υπάρχει σχέση μεταξύ του καρκίνου του μαστού και της οικογενειακής κατάστασης Η Α : Υπάρχει σχέση μεταξύ του καρκίνου του μαστού και της οικογενειακής κατάστασης. Οι 2 μεταβλητές σχετίζονται Το υπολογιζόμενο p-value είναι μικρότερο του 0,001. Άρα; Αλέξανδρος Γρυπάρης, PhD 58
ΠΡΟΫΠΟΘΕΣΕΙΣ ΕΦΑΡΜΟΓΗΣ ΤΟΥ Χ 2 Οι προϋποθέσεις εξασφαλίζουν ότι έχουμε αρκετές παρατηρήσεις και εφαρμόζονται στις αναμενόμενες συχνότητες: Όλες οι αναμενόμενες συχνότητες πρέπει να είναι >1 και Οι περισσότερες (τα 4/5) να είναι >5. Αλέξανδρος Γρυπάρης, PhD 59
ΠΡΟΫΠΟΘΕΣΕΙΣ ΕΦΑΡΜΟΓΗΣ ΤΟΥ Χ 2 Οικογενειακή κατάσταση Καρκινοπαθείς μαστού Ανύπαντρες Παντρεμένες Αλλα Σύνολο Ναί 30 (20) 44 (50) 6 (10) 80 Όχι 30 (40) 106 (100) 24 (20) 160 Σύνολο 60 150 30 240 Άρα, τηρούνται οι προϋποθέσεις εφαρμογής της δοκιμασίας. Αλέξανδρος Γρυπάρης, PhD 60
Παράδειγμα Κατανομή 3042 ανδρών και γυναικών βάση των διατροφικών τους συνηθειών (πόσο κοντά είναι στη μεσογειακή δίαιτα) Διατροφικές συνήθειες Φύλο Μακριά Κοντά Πολύ κοντά Σύνολο Γυναίκες 246 (508,8) Άνδρες 767 (504,2) 428 (509,8) 587 (505,2) 854 (509,4) 160 (504,7) 1528 1514 Σύνολο 1013 1015 1014 3042 Αλέξανδρος Γρυπάρης, PhD 61
Ο έλεγχος χ 2 έδειξε Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases a. Chi-Square Tests Asymp. Sig. Value df (2-sided) 767,803 a 2,000 827,697 2,000 728,051 1,000 3042 0 cells (,0%) have expected count less than 5. The minimum expected count is 504,17. Αλέξανδρος Γρυπάρης, PhD 62
Με βάση τα στοιχεία του πίνακα Ποιο το συμπέρασμά σας; «Οι διατροφικές συνήθειες εξαρτώνται από το φύλο» Αλέξανδρος Γρυπάρης, PhD 63
Χ 2 κατά ζεύγη (McNemar s test) Μερικές φορές οι παρατηρήσεις εμφανίζουν κατά ζεύγη αντιστοιχία Κάθε παρατήρηση στην 1 η ομάδα αντιστοιχεί σε μια παρατήρηση στη 2 η ομάδα Στις περιπτώσεις αυτές ενδείκνυται να λαμβάνουμε υπόψη αυτή την αντιστοιχία και να χρησιμοποιούμε το Χ 2 κατά ζεύγη (McNemar s test) Αλέξανδρος Γρυπάρης, PhD 64
Example Μελετάμε το έμφραγμα μυοκαρδίου στους Ινδιάνους Ναβάχο Στη μελέτη αυτή 144 εμφραγματίες εξομοιώθηκαν βάση την ηλικία τους και το φύλο τους με 144 άτομα που δεν παρουσίαζαν καρδιακά προβλήματα Όλα τα άτομα ρωτήθηκαν αν είχαν ποτέ διαγνωστεί ότι πάσχουν από διαβήτη Αλέξανδρος Γρυπάρης, PhD 65
Διαξονικός πίνακας Έμφραγμα του μυοκαρδίου Διαβήτης Ναι Όχι Σύνολο Ναι 46 25 71 Όχι 98 119 217 Σύνολο 144 144 288 Αλέξανδρος Γρυπάρης, PhD 66
Μηδενική υπόθεση Δεν υπάρχει σχέση μεταξύ εμφράγματος του μυοκαρδίου και διαβήτη, στους Ινδιάνους Ναβάχο Αλέξανδρος Γρυπάρης, PhD 67
συνέχεια Στα δεδομένα αυτά μπορούμε να εφαρμόσουμε τη δοκιμασία Χ 2 Η δοκιμασία αυτή δεν λαμβάνει υπόψη την αντιστοιχία κατά ζεύγη Από κάθε εξομοιωμένο ζευγάρι έχουμε 2 απαντήσεις Πρέπει να λάβουμε υπόψη την αντιστοιχία κατά ζεύγη!! Αλέξανδρος Γρυπάρης, PhD 68
Πίνακας (κατά ζεύγη αντιστοιχία) Έμφραγμα του μυοκαρδίου Μάρτυρες Διαβήτης Διαβήτης 9 Όχι διαβήτης Όχι διαβήτης 82 Διαβήτης Όχι διαβήτης 37= r Όχι διαβήτης Διαβήτης 16= s n Αλέξανδρος Γρυπάρης, PhD 69
Χ 2 κατά ζεύγη Τα ζεύγη που συμφωνούν (concordant pairs) δεν προσφέρουν καμία πληροφορία υπέρ ή κατά της H 0 Τα ζεύγη αυτά δεν λαμβάνονται υπόψη! Τα ζεύγη που διαφωνούν (discordant pairs) (αυτά στα οποία το ένα άτομο έχει διαβήτη και το άλλο όχι) προσφέρουν όλη την πληροφορία Αλέξανδρος Γρυπάρης, PhD 70
Χ 2 κατά ζεύγη p-value = 0.006 < 0.05 Αλέξανδρος Γρυπάρης, PhD 71
Συμπέρασμα Επειδή p-value<0,05 απορρίπτουμε τη μηδενική υπόθεση Για το συγκεκριμένο πληθυσμό των Ινδιάνων Ναβάχο, συμπεραίνουμε ότι υπάρχει σχέση μεταξύ του εμφράγματος του μυοκαρδίου και του διαβήτη, όταν λάβουμε υπόψη την ηλικία και το φύλο Αλέξανδρος Γρυπάρης, PhD 72
Υπενθύμιση Η δοκιμασία Χ 2 είναι μια μη-παραμετρική δοκιμασία. Γιατί; Αλέξανδρος Γρυπάρης, PhD 73
Ποσοτικά μεγέθη Στη συνέχεια θα ασχοληθούμε με μεθόδους που διερευνούν τη σχέση μεταξύ δύο ποσοτικών μεγεθών. Τέτοιες είναι: Ο συντελεστής συσχέτισης Η ανάλυση παλινδρόμησης (εξάρτησης) Αλέξανδρος Γρυπάρης, PhD
Συντελεστής γραμμικής συσχέτισης Ο συντελεστής γραμμικής συσχέτισης δύο τυχαίων μεταβλητών Χ και Υ εξετάζει το κατά πόσο η μια μεταβλητή επηρεάζεται γραμμικά από μια άλλη. Χρησιμοποιείται όταν έχουμε 2 ποσοτικές μεταβλητές Αλέξανδρος Γρυπάρης, PhD
Ελλειψη γραμμικής σχέσης; Έλλειψη γραμμικής σχέσης δεν συνεπάγεται και απουσία σχέσης. Στο επόμενο σχήμα παρουσιάζεται το στικτόγραμμα της μέσης ημερήσιας θερμοκρασίας με τον μέσο ημερήσιο αριθμό θανάτων από όλες τις αιτίες. Αλέξανδρος Γρυπάρης, PhD
Σχέση μεταξύ μέσης ημερήσιας θνησιμότητας και μέσης ημερήσιας θερμοκρασίας Αλέξανδρος Γρυπάρης, PhD
(συν.) Μη γραμμική σχέση μεταξύ θνησιμότητας και θερμοκρασίας: Μεγαλύτερη θνησιμότητα παρατηρείται κατά τις πολύ κρύες ή πολύ ζεστές ημέρες. Αλέξανδρος Γρυπάρης, PhD
Συντελεστές γραμμικής συσχέτισης Παραμετρικός: r του Pearson (για συνεχείς και κανονικά κατανεμημένες μεταβλητές) Μη-παραμετρικός: ρ (rho) του Spearman (για διακριτές ή μη κανονικά κατανεμημένες μεταβλητές) Αλέξανδρος Γρυπάρης, PhD
Ιδιότητες των συντελεστών συσχέτισης 1. Είναι καθαρός αριθμός 2. Τιμές από -1 ως +1 (αρνητική ή θετική συσχέτιση). Θετική συσχέτιση: σε υψηλές τιμές του ενός μεγέθους αντιστοιχούν υψηλές τιμές του άλλου. Αρνητική:... Όσο ο r (ή ο ρ) πλησιάζει την τιμή +1 (ή 1) τόσο ισχυρότερη είναι η συσχέτιση, 3. Μετρά μόνο την γραμμική συσχέτιση Αλέξανδρος Γρυπάρης, PhD
Συντελεστής συσxέτισης του Pearson Προϋποθέσεις: Και οι δύο μεταβλητές (Χ και Υ) λαμβάνονται τυχαία. H κατανομή συχνοτήτων των τιμών καθεμίας από τις 2 μεταβλητές είναι (κατά προσέγγιση) κανονική Παραδείγματα: Η σχέση ύψους ανδρών-γυναικών στα ζευγάρια Η σχέση των μετρήσεων μια βιοχημικής παραμέτρου με δύο διαφορετικές μεθόδους Αλέξανδρος Γρυπάρης, PhD
Ο συντελεστής συσχέτισης ρ του Spearman Πολλές φορές η χρήση του συντελεστή συσχέτισης r δεν επιτρέπεται εξαιτίας της μη κανονικής κατανομής των μεταβλητών Χ και Υ. Στις περιπτώσεις αυτές μελετάμε τη συσχέτιση των δύο μεταβλητών με βάση το συντελεστή συσχέτισης ρ του Spearman (μη-παραμετρικός). Ενδείκνυται τόσο για ποσοτικές μεταβλητές που δεν ακολουθούν τη κανονική κατανομή, όσο και για διατάξιμες μεταβλητές. Αλέξανδρος Γρυπάρης, PhD
Προϋποθέσεις Και οι δύο μεταβλητές να αφορούν συνεχή ή τουλάχιστον διατάξιμα μεγέθη. Ο μη παραμετρικός συντελεστής συσχέτισης ρ είναι εννοιολογικός αντίστοιχος του παραμετρικού συντελεστού συσχέτισης. Οι τιμές του επίσης κυμαίνονται μεταξύ -1 και 1 Αλέξανδρος Γρυπάρης, PhD
Παράδειγμα Στο επόμενο παράδειγμα έχουμε ένα δείγμα περίπου 3000 ατόμων και θέλουμε να ελέγξουμε αν συσχετίζεται η ηλικία με τον μεταβολικό ρυθμό. Αλέξανδρος Γρυπάρης, PhD 84
Παράδειγμα Basic Metabolic Rythm (Harris & Benedict) 4000 3000 2000 1000 0 10 20 30 40 Age of Subjects 50 60 70 80 90 Τα δεδομένα παριστάνονται στο διπλανό σχήμα. Στο γράφημα αυτό ΔΕΝ φαίνεται αν οι μεταβλητές ακολουθούν την κανονικά κατανομή! Φαίνεται αν υπάρχει γραμμική σχέση μεταξύ τους Αλέξανδρος Γρυπάρης, PhD
Συνέχεια Στην πράξη, τώρα θα ελέγχαμε αν και η ηλικία και ο μεταβολικός ρυθμός ακολουθούν την κανονική κατανομή Και θα επιλέγαμε ανάλογα τον ένα από τους 2 συντελεστές συσχέτισης Στο παράδειγμα αυτό όμως θα δούμε τα αποτελέσματα και από τους 2 συντελεστές συσχέτισης Αλέξανδρος Γρυπάρης, PhD 86
Pearson Age of Subjects Basic Metabolic Rythm (Harris & Benedict) Correlations Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N **. Correlation is significant at the 0.01 level (2-tailed). Basic Metabolic Age of Rythm (Harris Subjects & Benedict) 1 -,194**,,000 3035 3017 -,194** 1,000, 3017 3017 Ο συντελεστής συσχέτισης του Pearson είναι r=-0,194 (πολύ ελαφρά αρνητική συσχέτιση), η οποία είναι όμως στατιστικά σημαντική (p-value<0,001). Αλέξανδρος Γρυπάρης, PhD
Spearman Correlations Spearman's rho Age of Subjects Basic Metabolic Rythm (Harris & Benedict) Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) **. Correlation is significant at the.01 level (2-tailed). N Basic Metabolic Age of Rythm (Harris Subjects & Benedict) 1,000 -,127**,,000 3035 3017 -,127** 1,000,000, 3017 3017 Ο συντελεστής συσχέτισης του Spearman είναι r=-0,127 (πολύ ελαφρά αρνητική συσχέτιση), η οποία είναι όμως στατιστικά σημαντική (p-value<0,001). Αλέξανδρος Γρυπάρης, PhD
Σύνοψη για το συντελεστή συσχέτισης Ο συντελεστής συσχέτισης εκφράζει μόνο την «ένταση» της γραμμικής σχέσης. Αν η τιμή του είναι 0 αυτό σημαίνει ότι δεν υπάρχει γραμμική συσχέτιση μεταξύ των μεταβλητών Αυτό όμως δεν αποκλείει τη δυνατότητα να υπάρχει μη γραμμική συσχέτιση. Αλέξανδρος Γρυπάρης, PhD
Συντέλεστές συσχέτισης και ακραίες τιμές Να σημειωθεί ότι ο συντελεστής συσχέτισης του Pearson είναι πολύ ευαίσθητος σε ακραίες τιμές (outliers) Αν έχουμε μία ή περισσότερες ακραίες τιμές, τα αποτελέσματα μπορεί να είναι παραπλανητικά Ο συντελεστής συσχέτισης του Spearman δεν παρουσιάζει τέτοια προβλήματα Αλέξανδρος Γρυπάρης, PhD
Συσχέτιση και Εξάρτηση Συσχέτιση: Μέτρο του βαθμού (της έντασης) της γραμμικής σχέσης μεταξύ 2 μεταβλητών Εξάρτηση ή Παλινδρόμηση: Μέθοδος για την διερεύνηση των μεταβολών των τιμών της μιας μεταβλητής (εξαρτημένης) συναρτήσει των μεταβολών των τιμών της άλλης (ανεξάρτητης) Αλέξανδρος Γρυπάρης, PhD 91
Πολλαπλή γραμμική εξάρτηση (Multiple linear regression) Στην πολλαπλή γραμμική εξάρτηση διερευνάται η γραμμική σχέση μιας εξαρτημένης μεταβλητής με περισσότερες από μία ανεξάρτητες μεταβλητές. Συγκεκριμένα, μελετάται η γραμμική σχέση μιας εξαρτημένης μεταβλητής με καθεμία ανεξάρτητη μεταβλητή, χωρίς να επηρεάζεται από τις σχέσεις αυτών με τις υπόλοιπες ανεξάρτητες μεταβλητές. Για αυτό λέμε ότι «ελέγχονται» οι επιδράσεις των υπόλοιπων μεταβλητών Αλέξανδρος Γρυπάρης, PhD 92
Παράδειγμα Σε μελέτη για τη διερεύνηση της επίδρασης του μολύβδου στην σωματομετρική ανάπτυξη των παιδιών, μελετήθηκαν παιδιά σχολικής ηλικίας (μεταξύ 6 και 10 ετών), από τρείς περιοχές: Λαύριο, Ελευσίνα και Λουτράκι. Το συνολικό δείγμα αποτελείται από 522 παιδιά, 274 αγόρια και 248 κορίτσια ηλικίας 6-9 χρονών. Μέρος των δεδομένων παρουσιάζεται στον πίνακα που ακολουθεί (Kafourou et al, Archives of Environmental health, 1997; 52: 377-383). Αλέξανδρος Γρυπάρης, PhD 93
Πίνακας Κωδικός Πόλη Ηλικία Ανάστημα Μόλυβδος Ανάστημα (έτη) πατέρα (cm) (g/ml) παιδιού (cm) 353 2 8 172 23.42 116 419 2. 165 51.17 107 19 1 8 152. 114 26 1 7 177 5.94 122 506 2 7 155 20.21 119 683 3 8 170 4.16 117 612 3 7 164 9.78 112 97 1 8 164. 121... Για την πόλη 1 σημαίνει Λουτράκι, 2 Λαύριο και 3 Ελευσίνα. = Eλλείπουσες τιμές (missing values) Αλέξανδρος Γρυπάρης, PhD 94
Πολλαπλή γραμμική εξάρτηση (Multiple linear regression) Έστω Υ η εξαρτημένη μεταβλητή που μας ενδιαφέρει. Έστω Χ 1, Χ 2,, Χ p αντιπροσωπεύουν p ανεξάρτητες μεταβλητές. Για παράδειγμα στα δεδομένα του μολύβδου: Εξαρτημένη μεταβλητή το ύψος του παιδιού (Υ) Ανεξάρτητες μεταβλητές: 1. οι τιμές του μολύβδου (Χ 1 ), 2. το ύψος του πατέρα (Χ 2 ), 3. το επίπεδο μόρφωσης του πατέρα (Χ 3 ) και 4. η ηλικία του παιδιού (Χ 4 ). Αλέξανδρος Γρυπάρης, PhD 95
Ανεξάρτητες μεταβλητές Στην πολλαπλή γραμμική εξάρτηση οι ανεξάρτητες μεταβλητές δεν είναι απαραίτητο να είναι ποσοτικές μεταβλητές. Ποιοτικές μεταβλητές, όπως το φύλο ή το επάγγελμα, μπορούν να χρησιμοποιηθούν σαν ανεξάρτητες μεταβλητές. Όταν μια ποιοτική μεταβλητή έχει μόνο δύο επίπεδα εισάγεται στο μοντέλο ως έχει. Π.χ. το φύλο: άνδρας (κωδικοποιημένο ως 1) και γυναίκα (κωδικοποιημένο ως 2) Αλέξανδρος Γρυπάρης, PhD 96
Ψευδομεταβλητές Όταν μια ποιοτική μεταβλητή έχει περισσότερα των δύο επιπέδων απαιτείται η δημιουργία ψευδομεταβλητών (dummy variables or indicator variables). Π.χ. επάγγελμα πατέρα, στα δεδομένα του μολύβδου, κωδικοποιημένο ως: ανειδίκευτος:1, ειδικευμένος:2, πανεπιστημιακής εκπαίδευσης:3 Αλέξανδρος Γρυπάρης, PhD 97
(συν.) Στο παράδειγμα του επαγγέλματος θα μπορούσαν να δημιουργηθούν 3 ψευδομεταβλητές: μία για τους ανειδίκευτους (job1), μία για τους ειδικευμένους (job2) και μια για τους έχοντες πανεπιστημιακή μόρφωση (job3). Η καθεμία από αυτές παίρνει την τιμή 1 όταν το άτομο ανήκει στη συγκεκριμένη κατηγορία (επάγγελμα) και 0 στις υπόλοιπες περιπτώσεις. Αλέξανδρος Γρυπάρης, PhD 98
(συν.) Η ψευδομεταβλητή job1, για παράδειγμα, που αναφέρεται στους ανειδίκευτους, θα έχει: την τιμή 1 για όλους τους ανειδίκευτους και την τιμή 0 για όλους τους υπόλοιπους. Στο μοντέλο της γραμμικής εξάρτησης εισάγονται τόσες ψευδομεταβλητές όσος και ο αριθμός των επιπέδων της αρχικής ποιοτικής μεταβλητής μείον 1. Άρα, στο παράδειγμα του επαγγέλματος του πατέρα θα εισαχθούν στο μοντέλο 2 ψευδομεταβλητές (όποιες κρίνεται σκόπιμο). Η ψευδομεταβλητή πού δεν εισάγεται στο μοντέλο αποτελεί το επίπεδο αναφοράς (reference level/category). Αλέξανδρος Γρυπάρης, PhD 99
Επάγ/μα πατ. job1 job2 job3 1 3 3 2 1 2 2 1 3 Αλέξανδρος Γρυπάρης, PhD 100
Επάγ/μα πατ. job1 job2 Job3 1 1 0 0 3 0 0 1 3 0 0 1 2 0 1 0 1 1 0 0 2 0 1 0 2 0 1 0 1 1 0 0 3 0 0 1 Αλέξανδρος Γρυπάρης, PhD 101
Εφαρμογή Στον πίνακα δίνονται τα αποτελέσματα πολλαπλής γραμμικής εξάρτησης με εξαρτημένη μεταβλητή το ανάστημα του παιδιού και ανεξάρτητες την ηλικία του, το επάγγελμα του πατέρα, εισάγοντας στο μοντέλο τις ψευδομεταβλητές job2 (ειδικευμένοι) και job3 (πανεπιστημιακής μόρφωσης), τα επίπεδα μολύβδου (μετά από λογαριθμικό μετασχηματισμό) και το φύλο (άνδρες:1, γυναίκες:2). Αλέξανδρος Γρυπάρης, PhD 102
(συν.) Model Coeffs. SE t Sig. Constant 88,383 2,264 39,034 0,000 AGE 4,645 0,284 16,351 0,000 JOB2 2,469 0,493 5,004 0,000 JOB3 2,437 0,980 2,488 0,013 LLEAD -0,737 0,314-2,348 0,019 SEX -0,669 0,442-1,513 0,131 Αλέξανδρος Γρυπάρης, PhD 103
(συν.) Οπότε, με βάση τα αποτελέσματα που παρουσιάζονται στον προηγούμενο πίνακα, το γραμμικό μοντέλο εξάρτησης μπορεί να γραφεί ως: ^Y i = 88,383 + 4,645*AGE + 2,469*JOB2 + + 2,437*JOB3-0,737*LLEAD 0,669*SEX Αλέξανδρος Γρυπάρης, PhD 104
(συν.) Ο μερικός συντελεστής εξάρτησης για την ηλικία είναι 4,645. Αυτό μπορεί να ερμηνευτεί ως: αύξηση της ηλικίας κατά ένα έτος σχετίζεται με μέση αύξηση του ύψους των παιδιών κατά 4,645 cm, διατηρώντας τις υπόλοιπες μεταβλητές του μοντέλου σταθερές. Οπότε, αύξηση της ηλικίας κατά τρία έτη τι αποτέλεσμα θα έχει; μέση αύξηση του ύψους των παιδιών κατά 3 * 4,645 13,9 cm, διατηρώντας τις υπόλοιπες μεταβλητές του μοντέλου σταθερές. Αλέξανδρος Γρυπάρης, PhD 105
(συν.) Ο μερικός συντελεστής εξάρτησης για το φύλο είναι -0.669 και ερμηνεύεται ως εξής: Τα κορίτσια (κωδικός: 2) έχουν κατά μέσο 0.669 cm χαμηλότερο ανάστημα από τα αγόρια (κωδικός: 1), διατηρώντας τις υπόλοιπες μεταβλητές του μοντέλου σταθερές. Αλέξανδρος Γρυπάρης, PhD 106
(συν.) Ο μερικός συντελεστής εξάρτησης για τη ψευδομεταβλητή job2 είναι 2,469. Αυτό θα μπορούσε να ερμηνευτεί ως: τα παιδιά των ειδικευμένων έχουν κατά μέσο όρο υψηλότερο ανάστημα από τα παιδιά των ανειδίκευτων (κατηγορία αναφοράς) κατά 2,469 cm, διατηρώντας τις υπόλοιπες μεταβλητές του μοντέλου σταθερές. Αλέξανδρος Γρυπάρης, PhD 107
(συν.) Αντίστοιχα, τα παιδιά των γονιών με πανεπιστημιακή μόρφωση έχουν κατά μέσο όρο υψηλότερο ανάστημα από τα παιδιά των ανειδίκευτων (κατηγορία αναφοράς) κατά 2,437 cm, διατηρώντας τις υπόλοιπες μεταβλητές του μοντέλου σταθερές. Αλέξανδρος Γρυπάρης, PhD 108
(συν.) Στο παραπάνω παράδειγμα, οι συντελεστές μερικής εξάρτησης τόσο της ψευδομεταβλητής job2 όσο και της job3 είναι στατιστικά σημαντικοί. Αν όμως παρατηρήσουμε προσεκτικότερα, θα δούμε ότι οι δύο συντελεστές δεν φαίνεται να διαφέρουν μεταξύ τους, υποδεικνύοντας ότι το ύψος των παιδιών των ειδικευμένων δεν φαίνεται να διαφέρει από το ύψος των παιδιών των γονέων με πανεπιστημιακή μόρφωση. Αλέξανδρος Γρυπάρης, PhD 109
Προβλέψεις Στο προηγούμενο παράδειγμα να υπολογιστεί το ανάστημα ενός 7-χρονου αγοριού, με πατέρα απόφοιτο Γυμνασίου, εκτεθειμένο σε επίπεδα μολύβδου 2,3 μg/m 3. Ύψος= 88,383+4,645*AGE+2,469*JOB2+ 2,437*JOB3-0,737*LLEAD-0,669*SEX Αλέξανδρος Γρυπάρης, PhD 110
(συν.) Άρα: Ύψος = 88,383+4,645*7+2,469*0+ 2,437*0-0,737*0,833-0,669*1= = 119,6 cm Έτσι, ένα μέσο αγόρι με τα χαρακτηριστικά που μας ζητήθηκε θα έχει προβλεπόμενο μέσο ύψος 119,6 cm. Αλέξανδρος Γρυπάρης, PhD 111
(συν.) Πόσο θα διαφέρει το ύψος του αγοριού που μόλις υπολογίσαμε από αυτό ενός κοριτσιού 6 ετών, με πατέρα απόφοιτο ΑΕΙ, εκτεθειμένο σε επίπεδα μολύβδου 1,4 μg/m 3 ; Ύψος = 88,383+4,645*6+2,469*0+ 2,437*1-0,737*0,336-0,669*2= = 117,1 cm Έτσι το αγόρι θα είναι ψηλότερο κατά μέσο όρο κατά 119,6-117,1=2,5 cm Αλέξανδρος Γρυπάρης, PhD 112
(συν.) Πώς επιλέγονται οι ανεξάρτητες μεταβλητές, έτσι ώστε να εφαρμοσθεί το καλύτερο μοντέλο; Η επιλογή των μεταβλητών που θα εισαχθούν στο τελικό μοντέλο στηρίζεται: σε στατιστικά κριτήρια και σε άλλα κριτήρια (επιδημιολογικά, βιολογικά,...). Αλέξανδρος Γρυπάρης, PhD 113
(συν.) Έτσι μπορούμε να κρατήσουμε στο τελικό μας μοντέλο μια μεταβλητή που δεν είναι στατιστικά σημαντική, βάση επιδημιολογικών κριτηρίων Αλέξανδρος Γρυπάρης, PhD 114
Παράδειγμα Να εκτιμηθεί το γραμμικό μοντέλο του ΔΜΣ συναρτήσει των υπόλοιπων χαρακτηριστικών των ατόμων. Descriptive Statistics Body Mass Index (kg/m2) Age of Subjects Sex of Subjects Years of school Physical activity Current Smoking Zung Depression scale Energy intake (kcal/day) Mean Std. Deviation N 25,5490 4,49698 595 39,40 10,788 595,51,500 595 13,21 3,243 595,43,496 595,4555,49843 595 35,5899 7,68486 595 2266,339 1046,257773 595 Αλέξανδρος Γρυπάρης, PhD 115
Παράδειγμα Οι μερικοί συντελεστές γραμμικής παλινδρόμησης, η στατιστική τους σημαντικότητα, καθώς και άλλα αποτελέσματα παρουσιάζονται στον ακόλουθο πίνακα. Model 1 (Constant) Age of Subjects Sex of Subjects Years of school Physical activity Current Smoking Zung Depression scale Energy intake (kcal/day) Unstandardized Coefficients a. Dependent Variable: Body Mass Index (kg/m2) Standardized Coefficients Coefficients a Correlations Collinearity Statistics B Std. Error Beta t Sig. Zero-order Partial Part Tolerance VIF 22,516 1,516 14,851,000,108,016,259 6,681,000,298,266,248,915 1,093 1,873,356,208 5,258,000,265,212,195,874 1,144 -,139,053 -,100-2,637,009 -,153 -,108 -,098,949 1,053-1,819,341 -,200-5,338,000 -,215 -,215 -,198,974 1,026,049,336,005,147,883,030,006,005,987 1,013 -,004,023 -,007 -,174,862 -,067 -,007 -,006,891 1,122,000,000,059 1,516,130,045,062,056,918 1,090 ΔΜΣ = 22,516 + 0,108 Ηλικία + 1,873 Φύλο 0,139 Έτη σχολείου 1,819 Σωματική άσκηση + 0,049 Κάπνισμα 0,004 Zung scale + 0,000 Ενέργεια Αλέξανδρος Γρυπάρης, PhD 116
Προσαρμοσμένος συντελεστής R 2 Στα μοντέλα πολλαπλής γραμμικής εξάρτησης για να συγκρίνουμε διαφορετικά μοντέλα μεταξύ τους, χρησιμοποιούμε το «προσαρμοσμένο συντελεστή R 2» (adjusted R 2 ) Αλέξανδρος Γρυπάρης, PhD 117
(συν.) Έτσι, το προσαρμοσμένο R 2 μπορεί να χρησιμοποιηθεί σαν κριτήριο επιλογής καλύτερου μοντέλου, μεταξύ στατιστικών μοντέλων που περιέχουν άνισο αριθμό ανεξάρτητων μεταβλητών Το μοντέλο με μεγαλύτερο adjusted R 2 είναι το καλύτερο, από στατιστικής πλευράς Αλέξανδρος Γρυπάρης, PhD 118
Λογαριθμιστική εξάρτηση (logistic regression) Πολλές έρευνες μελετούν την εμφάνιση ή όχι μιας νόσου η εξαρτημένη μεταβλητή είναι διχοτομική Δεν είναι δυνατή η απλή (ή η πολλαπλή) γραμμική παλινδρόμηση, γιατί η εξαρτημένη μεταβλητή δεν είναι συνεχής όπως θέλει η γραμμική παλινδρόμηση Στις περιπτώσεις αυτές εφαρμόζεται η λογαριθμιστική εξάρτηση Αλέξανδρος Γρυπάρης, PhD 119
Ερμηνεία των παραμέτρων Οι μερικοί συντελεστές λογαριθμιστικής εξάρτησης ΔΕΝ έχουν την ίδια ερμηνεία με αυτούς της γραμμικής εξάρτησης Οι μερικοί συντελεστές λογαριθμιστικής εξάρτησης εκφράζουν τη μεταβολή του λογαρίθμου του σχετικού λόγου (odds ratio), που συνδέει την εξαρτημένη μεταβλητή με κάθε μία από τις ανεξάρτητες, ελέγχοντας για τις υπόλοιπες ανεξάρτητες μεταβλητές Αλέξανδρος Γρυπάρης, PhD 120
(συν.) Ο σχετικός λόγος μπορεί να πάρει οποιαδήποτε θετική τιμή. Η τιμή 1 δηλώνει απουσία συσχέτισης. Τιμή μεγαλύτερη του 1 δηλώνει ότι η παρουσία του παράγοντα είναι επιβαρυντική (δηλαδή τα «εκτεθειμένα» άτομα έχουν μεγαλύτερη πιθανότητα να πάθουν τη νόσο σε σχέση με τα «μη εκτεθειμένα»). Αντίθετα, τιμή <1 δηλώνει ότι η παρουσία του παράγοντα είναι προστατευτική (δηλαδή τα «εκτεθειμένα» άτομα έχουν μικρότερη πιθανότητα να πάθουν τη νόσο σε σχέση με τα «μη εκτεθειμένα»). Αλέξανδρος Γρυπάρης, PhD 121
Παράδειγμα Στο επόμενο παράδειγμα θα πραγματοποιήσουμε μια λογαριθμιστική εξάρτηση χρησιμοποιώντας δεδομένα από το αρχείo bwt.sav, όπου: Υ: γέννηση ελλειποβαρούς μωρού (1: ναι, 0: όχι) Χ1: ψευδομεταβλητή για τη λευκή φυλή Χ2: ψευδομεταβλητή για τη μαύρη φυλή Χ3: κάπνισμα μητέρας (1: ναι, 0: όχι) Χ4: ηλικία μητέρας Δίνεται ότι το επίπεδο αναφοράς για τη φυλή είναι οι γυναίκες άλλης φυλής (όχι λευκής ή μαύρης) Αλέξανδρος Γρυπάρης, PhD 122
Unweighted Cases a Selected Cases Unselected Cases Total Case Processing Summary Included in Analysis Missing Cases Total N Percent 189 100.0 a. If weight is in effect, see classification table for the total number of cases. 0.0 189 100.0 0.0 189 100.0 Categorical Variables Codings race 1 2 3 Parameter coding Frequency (1) (2) 96 1.000.000 26.000 1.000 67.000.000 Variables in the Equation Step 1 a race race(1) race(2) smoke age Constant B S.E. Wald df Sig. Exp(B) Lower Upper 7.899 2.019-1.057.406 6.776 1.009.348.157.770 -.045.491.009 1.926.956.365 2.501 1.101.372 8.755 1.003 3.006 1.450 6.231 -.035.033 1.091 1.296.966.905 1.031.049.791.004 1.950 1.050 95.0% C.I.for EXP(B) a. Variable(s) entered on step 1: race, smoke, age. Αλέξανδρος Γρυπάρης, PhD 123
(συν.) Έτσι, οι καπνίστριες έχουν 3,006 μεγαλύτερο κίνδυνο να γεννήσουν ελλειποβαρές μωρό σε σχέση με τις μη-καπνίστριες, ελέγχοντας ταυτόχρονα τις επιδράσεις της φυλής και της ηλικίας Αντίστοιχα, οι λευκές γυναίκες έχουν 0,348 του κινδύνου να γεννήσουν ελλειποβαρές μωρό σε σχέση με τις γυναίκες άλλης φυλής (επίπεδο αναφοράς), ελέγχοντας ταυτόχρονα τις επιδράσεις του καπνίσματος και της ηλικίας Αλέξανδρος Γρυπάρης, PhD 124
(συν.) Επίσης, για κάθε έτος αύξησης της ηλικίας, η πιθανότητα για γέννηση ελλειποβαρούς μωρού μειώνεται κατά 0,966 φορές, ελέγχοντας ταυτόχρονα τις επιδράσεις του καπνίσματος και της φυλής Αλέξανδρος Γρυπάρης, PhD 125