Εισαγωγή στη Βιοστατιστική



Σχετικά έγγραφα
Εισαγωγή στη Βιοστατιστική

Εισαγωγή στη Βιοστατιστική

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Αναλυτική Στατιστική

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Εισαγωγή στη Βιοστατιστική

Εισαγωγή στη Βιοστατιστική

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος

Λογαριθµιστική εξάρτηση

Κλινική Επιδηµιολογία

Λογαριθμικά Γραμμικά Μοντέλα Poisson Παλινδρόμηση Παράδειγμα στο SPSS

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

Στατιστική Επιχειρήσεων Ι

Κεφάλαιο 15. Παραγοντική ανάλυση διακύµανσης. Παραγοντική

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 7. Παλινδρόµηση

Το στατιστικό κριτήριο που μας επιτρέπει να. μιας ή πολλών άλλων γνωστών μεταβλητών. Η σχέση ανάμεσα στις μεταβλητές που μελετώνται

Εισαγωγή στη Στατιστική

Στόχος µαθήµατος: Παράδειγµα 1: µελέτη ασθενών-µαρτύρων ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

1991 US Social Survey.sav

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις:

ΜΕΡΟΣ Α Κάθε µια από τις παρακάτω φράσεις (1α, 1β, 1γ, 2α κτλ) µπορεί να είναι σωστή ή λανθασµένη. Ποιες είναι σωστές και ποιες όχι;

Προσοµοίωση Εξέτασης στο µάθηµα του Γεωργικού Πειραµατισµού

Κεφάλαιο 13. Εισαγωγή στην. Η Ανάλυση ιακύµανσης

Λυμένες Ασκήσεις για το μάθημα:

1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΚΕΦΑΛΑΙΟ 6 ΧΡΗΣΗ ΓΡΑΜΜΙΚΩΝ ΜΟΝΤΕΛΩΝ ΚΑΙ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝ ΡΟΜΗΣΗΣ

Λογιστική Παλινδρόµηση

Η βιτρίνα των καταστημάτων ως εργαλείο δημοσίων σχέσεων. Ονοματεπώνυμο: Ειρήνη Πορτάλιου Σειρά: 8 η Επιβλέπουσα: Αν. Καθηγήτρια : Βεντούρα Ζωή

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Απλή Ευθύγραµµη Συµµεταβολή

Τεκµηριωµένη Ιατρική ΒΛΑΒΗ. Βασίλης Κ. Λιακόπουλος Λέκτορας Νεφρολογίας ΑΠΘ

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

ΛΟΓΙΣΤΙΚΗ ΕΞΑΡΤΗΣΗ. Πρώτα θα δούμε την επίδραση των παραπάνω παραγόντων με διμεταβλητή ανάλυση: Variables in the Equation

Εισόδημα Κατανάλωση

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Επαναληπτικό μάθημα Βασικών επιδημιολογικών εννοιών. Ειρήνη Αγιαννιωτάκη

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Συγγραφή και κριτική ανάλυση επιδημιολογικής εργασίας

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

στατιστική θεωρεία της δειγµατοληψίας

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Περιεχόμενα. Πρόλογος... 15

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

Α. Μπατσίδης Πρόχειρες βοηθητικές διδακτικές σημειώσεις

τα πάντα είναι σχετικά

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Κεφάλαιο 14. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Πολλαπλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 7 (συνέχεια)

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Εισαγωγή στη Στατιστική

Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Πέτρος Γαλάνης, MPH, PhD Εργαστήριο Οργάνωσης και Αξιολόγησης Υπηρεσιών Υγείας Τμήμα Νοσηλευτικής, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ

Ενδεικτικές ασκήσεις ΔΙΠ 50

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

Είδη Μεταβλητών. κλίµακα µέτρησης

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Προσδιοριστής (determinant) Συνώνυμα

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

(Confounders) Δύο κύρια θέματα. Θα πρέπει να πιστέψω το αποτέλεσμα της μελέτης μου; Συγχυτικοί και τροποποιητικοί παράγοντες

Μελέτες ασθενών οµάδας ελέγχου

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 :

ΚΕΦΑΛΑΙΟ ΙΙΙ ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Κεφάλαιο 3 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 3.1 Συσχέτιση δύο τ.µ.

ΚΕΦΑΛΑΙΟ 5 ο. 5.1 Εντολή EXPLORE 5.2 Εντολή CROSSTABS 5.3 Εντολή RAΤΙΟ STΑTISTIC 5.4 Εντολή OLAP CUBES. Daily calorie intake

Περιγραφή των εργαλείων ρουτινών του στατιστικού

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΕΠΑΝΑΛΗΠΤΙΚΟ ΒΙΝΤΕΟ ΣΤΑΤΙΣΤΙΚΗ

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

Λύση. Επίπτωση-πυκνότητα κ+ =ID κ+ 0,05 (έτη) -1. Επίπτωση-πυκνότητα κ- =ID κ- 0,01 (έτη) -1. ID κ+ - ID κ- 0,05-0,01=0,04 (έτη) -1

ΠΡΟΒΛΗΜΑ ΑΥΤΟΣΥΣΧΕΤΙΣΤΩΝ ΣΦΑΛΜΑΤΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΧΩΡΟΤΑΞΙΑΣ, ΠΟΛΕΟΔΟΜΙΑΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΑΝΑΠΤΥΞΗΣ ΠΜΣ «ΕΠΑ» και «ΝΕΚΑ» ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ

Transcript:

Εισαγωγή στη Βιοστατιστική Π.Μ.Σ.: Έρευνα στη Γυναικεία Αναπαραγωγή Οκτώβριος Νοέµβριος 2013 Αλέξανδρος Γρυπάρης, PhD Αλέξανδρος Γρυπάρης, PhD 4

Περιεχόµενα o Ορισµός της Στατιστικής o Περιγραφική στατιστική o t-test o Δοκιµασία X 2 o Μη-παραµετρικές δοκιµασίες o Συντελεστές συσχέτισης o Απλή γραµµική παλινδρόµηση, ANOVA o Πολλαπλή γραµµική παλινδρόµηση o Λογαριθµιστική εξάρτηση Αλέξανδρος Γρυπάρης, PhD 2

Επιλογή ανεξάρτητων µεταβλητών o Συνήθως σε µία έρευνα συλλέγονται στοιχεία για πολλές µεταβλητές που δυνητικά θα µπορούσαν να σχετίζονται µε την υπό µελέτη εξαρτηµένη µεταβλητή. o Όµως στο τελικό µοντέλο δεν γίνεται να εισαχθούν όλες αυτές οι παράµετροι για δύο κυρίως λόγους: n α) ο αριθµός των παραµέτρων πρέπει να είναι σαφώς µικρότερος του αριθµού των παρατηρήσεων και n β) µπορεί η συνεισφορά τους στο µοντέλο να µην είναι στατιστικά σηµαντική. Αλέξανδρος Γρυπάρης, PhD 3

Επιλογή καλύτερου στατιστικού µοντέλου o Υπάρχουν διάφορες διαδικασίες για να επιλέξουµε µεταξύ υποψήφιων ανεξάρτητων µεταβλητών o Ο πιο απλός είναι να δοκιµάσουµε όλα τα δυνατά υποψήφια µοντέλα (δηλαδή, όλους τους δυνατούς συνδυασµούς των ανεξάρτητων µεταβλητών (all possible models approach) n n Χρονοβόρος διαδικασία Αν έχουµε πάρα πολλές ανεξάρτητες µεταβλητές, δεν είναι εφικτό n Πολλαπλές συγκρίσεις! o Κάποιες µεταβλητές θα είναι στατιστικά σηµαντικές από τύχη Αλέξανδρος Γρυπάρης, PhD 4

(συν.) o Υπάρχουν διάφορες στατιστικές τεχνικές που επιτυγχάνουν αυτόµατη επιλογή των ανεξάρτητων µεταβλητών: n Αθροιστική µέθοδος (forward) n Αφαιρετική µέθοδος (backward) n Προσθαφαιρετική µέθοδος (stepwise) Αλέξανδρος Γρυπάρης, PhD 5

(συν.) o Σε γενικές γραµµές η αποκλειστική χρήση των αυτόµατων µεθόδων ΔΕΝ συνιστάται n Μπορεί να καταλήξουν σε ένα µοντέλο µε µεταβλητές χωρίς λογική ερµηνεία o Στην Ιατρική θέλουµε ένα καλό τελικό µοντέλο που να ερµηνεύει τη σχέση µεταξύ της εξαρτηµένης µεταβλητής και των ανεξάρτητων n Όχι, ένα µοντέλο που έχει µέσα ανεξάρτητες µεταβλητές που δεν έχουν καµία λογική ερµηνεία Αλέξανδρος Γρυπάρης, PhD 6

(συν.) o Πώς επιλέγονται οι ανεξάρτητες µεταβλητές, έτσι ώστε να εφαρµοσθεί το καλύτερο µοντέλο; o Η επιλογή των µεταβλητών που θα εισαχθούν στο τελικό µοντέλο στηρίζεται: n σε στατιστικά κριτήρια n και σε άλλα κριτήρια (επιδηµιολογικά, βιολογικά,...). Αλέξανδρος Γρυπάρης, PhD 7

(συν.) o Έτσι µπορούµε να κρατήσουµε στο τελικό µας µοντέλο µια µεταβλητή που δεν είναι στατιστικά σηµαντική, βάση επιδηµιολογικών κριτηρίων n Π.χ. Γιατί γνωρίζουµε από τη βιβλιογραφία ότι η συγκεκριµένη µεταβλητή είναι συγχυτικός παράγοντας, σε αυτή την περίπτωση Αλέξανδρος Γρυπάρης, PhD 8

(συν.) o Συνήθως πριν ξεκινήσουµε την ανάλυση επιλέγουµε (αν κρίνουµε ότι χρειάζεται) κάποιες (συνήθως 1-3) µεταβλητές που θέλουµε να έχουµε οπωσδήποτε στο τελικό µοντέλο o Η επιλογή γίνεται µε βάση επιδηµιολογικών κριτηρίων (βιβλιογραφία) o Πολλές φορές για να γίνει δεκτό ένα άρθρο, µας ζητείται να περιλάβουµε στο µοντέλο µη στατιστικά σηµαντικές µεταβλητές, επειδή είναι γνωστό ότι είναι πιθανοί συγχυτικοί παράγοντες Αλέξανδρος Γρυπάρης, PhD 9

Αλέξανδρος Γρυπάρης, PhD 10

Παράδειγµα Να εκτιµηθεί το γραµµικό µοντέλο του ΔΜΣ συναρτήσει των υπόλοιπων χαρακτηριστικών των ατόµων. Descriptive Statistics Body Mass Index (kg/m2) Age of Subjects Sex of Subjects Years of school Physical activity Current Smoking Zung Depression scale Energy intake (kcal/day) Mean Std. Deviation N 25,5490 4,49698 595 39,40 10,788 595,51,500 595 13,21 3,243 595,43,496 595,4555,49843 595 35,5899 7,68486 595 2266,339 1046,257773 595 Αλέξανδρος Γρυπάρης, PhD 11

Παράδειγµα Ο πίνακας της Ανάλυσης της Διακύµανσης είναι ο ακόλουθος. Παρατηρούµε ότι το µοντέλο είναι στατιστικά σηµαντικό στο σύνολο του. (Η 0 : το µοντέλο δεν εξηγεί σηµαντικό µέρος της συνολικής µεταβλητότητας της εξαρτηµένης µεταβλητής) Model 1 Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 2329,947 7 332,850 20,179,000 a 9682,437 587 16,495 12012,384 594 a. Predictors: (Constant), Energy intake (kcal/day), Current Smoking, Zung Depression scale, Physical activity, Years of school, Age of Subjects, Sex of Subjects b. Dependent Variable: Body Mass Index (kg/m2) Αλέξανδρος Γρυπάρης, PhD 12

Παράδειγµα Οι µερικοί συντελεστές γραµµικής παλινδρόµησης, η στατιστική τους σηµαντικότητα, καθώς και άλλα αποτελέσµατα παρουσιάζονται στον ακόλουθο πίνακα. Model 1 (Constant) Age of Subjects Sex of Subjects Years of school Physical activity Current Smoking Zung Depression scale Energy intake (kcal/day) Unstandardized Coefficients a. Dependent Variable: Body Mass Index (kg/m2) Standardized Coefficients Coefficients a Correlations B Std. Error Beta t Sig. Zero- order Partial Part 22,516 1,516 14,851,000 Collinearity Statistics Tolerance,108,016,259 6,681,000,298,266,248,915 1,093 1,873,356,208 5,258,000,265,212,195,874 1,144 -,139,053 -,100-2,637,009 -,153 -,108 -,098,949 1,053-1,819,341 -,200-5,338,000 -,215 -,215 -,198,974 1,026,049,336,005,147,883,030,006,005,987 1,013 -,004,023 -,007 -,174,862 -,067 -,007 -,006,891 1,122,000,000,059 1,516,130,045,062,056,918 1,090 VIF ΔΜΣ = 22,516 + 0,108 Ηλικία + 1,873 Φύλο 0,139 Έτη σχολείου 1,819 Σωµατική άσκηση + 0,049 Κάπνισµα 0,004 Zung scale + 0,000 Ενέργεια Αλέξανδρος Γρυπάρης, PhD 13

Διαγνωστικοί έλεγχοι Κανονικότητα των σφαλµάτων Αλέξανδρος Γρυπάρης, PhD 14

Διαγνωστικοί έλεγχοι Οµοσκεδαστικότητα & γραµµικότητα του µοντέλου Αλέξανδρος Γρυπάρης, PhD 15

Παρουσίαση των αποτελεσµάτων Αλέξανδρος Γρυπάρης, PhD 16

Παράδειγµα o Εφαρµόσαµε µοντέλα γραµµικής παλινδρόµησης σε δεδοµένα που προέρχονται από µετρήσεις σε µωρά ενός µηνός. n Η εξαρτηµένη µεταβλητή είναι η διάµετρος του κεφαλιού. o Σ α ν α ν ε ξ ά ρ τ η τ η µ ε τ α β λ η τ ή α ρ χ ι κ ά χρησιµοποιήσαµε το βάρος του µωρού è στατ. σηµαντικό και R 2 =0.61 o Στη συνέχεια χρησιµοποιήσαµε το βάρος του µωρού και το χρόνο κύησης è και οι 2 µεταβλητές ήταν στατ. σηµαντικές και R 2 =0.75 Αλέξανδρος Γρυπάρης, PhD 17

(συν.) o Αυτή η αύξηση στο R 2 υποδεικνύει ότι η µεταβλητή «χρόνος κύησης» αυξάνει την ικανότητά µας να ερµηνεύσουµε τη µεταβλητότητα της εξαρτηµένης µας µεταβλητής. o Πρέπει να τονιστεί ότι ΠΑΝΤΑ όταν προσθέτουµε µία νέα ανεξάρτητη µεταβλητή, ο συντελεστής R 2 αυξάνεται ή παραµένει αµετάβλητος, ακόµα και όταν η µεταβλητή ΔΕΝ είναι στατιστικά σηµαντική Αλέξανδρος Γρυπάρης, PhD 18

(συν.) o Αντίθετα από το απλό R 2, το προσαρµοσµένο R 2 αυξάνεται µόνο όταν προσθέτουµε στο µοντέλο µία ανεξάρτητη µεταβλητή η οποία βελτιώνει το µοντέλο n συγκεκριµένα βελτιώνει την ερµηνεία της µεταβλητότητας της εξαρτηµένης µεταβλητής o Έτσι, το προσαρµοσµένο R 2 µπορεί να χρησιµοποιηθεί σαν κριτήριο επιλογής καλύτερου µοντέλου, µεταξύ στατιστικών µοντέλων που περιέχουν άνισο αριθµό ανεξάρτητων µεταβλητών Αλέξανδρος Γρυπάρης, PhD 20

Παράδειγµα o Τα δεδοµένα προέρχονται από µία έρευνα που πραγµατοποιήθηκε σε 314 ασθενείς προκειµένου να µελετηθεί η σχέση προσωπικών χαρακτηριστικών και διατροφικών παραγόντων, και της συγκέντρωσης της Α-ρετινόλης στο πλάσµα. o Η έρευνα βασίστηκε σε ευρήµατα που δείχνουν ότι διατροφή φτωχή σε Α-ρετινόλη δηµιουργεί αυξηµένο κίνδυνο ανάπτυξης ορισµένων τύπων καρκίνου. Αλέξανδρος Γρυπάρης, PhD 21

(συν.) o Οι µεταβλητές που δίδονται είναι οι ακόλουθες: 1. age: Ηλικία 2. sex: Φύλο (1: Άνδρας, 2: Γυναίκα) 3. smokstat: Καπνισµατικές συνήθειες (1: ποτέ, 2: πρώην καπνιστής, 3: καπνιστής) 4. bmi: Δείκτης σωµατικής µάζας (βάρος / ύψος 2 ) 5. vituse: Χρήση βιταµινών (1: συχνά, 2: όχι συχνά, 3: όχι) 6. calories: Αριθµός θερµίδων που καταναλώνονται καθηµερινά Αλέξανδρος Γρυπάρης, PhD 22

(συν.) 7. fat: Λίπος που καταναλώνεται καθηµερινά (gr) 8. fiber: Φυτικές ίνες που καταναλώνονται καθηµερινά (gr) 9. alcohol: Αριθµός οινοπνευµατωδών ποτών που καταναλώνονται την εβδοµάδα 10. choleste: Χοληστερόλη που καταναλώνεται καθηµερινά (mg) 11. retplas: Ρετινόλη στο πλάσµα (ng/ml) Αλέξανδρος Γρυπάρης, PhD 23

(συν.) o Ξεκινάµε την ανάλυση από περιγραφικά στατιστικά των µεταβλητών. o Πώς επιλέγουµε τι περιγραφικά στατιστικά θα κάνουµε; Αλέξανδρος Γρυπάρης, PhD 24

(συν.) Αλέξανδρος Γρυπάρης, PhD 25

(συν.) Αλέξανδρος Γρυπάρης, PhD 26

(συν.) Αλέξανδρος Γρυπάρης, PhD 27

(συν.) Μιας και η µεταβλητή που µας ενδιαφέρει κυρίως είναι η ρετινόλη, θα δούµε και το ιστόγραµµά της Αλέξανδρος Γρυπάρης, PhD 28

(συν.) o Από τη βιβλιογραφία γνωρίζουµε ότι το φύλο σχετίζεται µε τη ρετινόλη o Έτσι, αποφασίζουµε ότι για επιδηµιολογικούς λόγους θα κρατήσουµε το φύλο (sex) στο τελικό µας µοντέλο o Ανεξάρτητα από το p-value o Οι υπόλοιπες µεταβλητές θα επιλεγούν βάση του p-value Αλέξανδρος Γρυπάρης, PhD 29

(συν.) o Υπάρχουν πολλοί τρόποι να δουλέψουµε o Επιλέγουµε να ξεκινήσουµε µε το πλήρες µοντέλο (αυτό που περιέχει όλες τις µεταβλητές) και να αφαιρούµε βήµα-βήµα αυτές που δεν χρειάζονται o Πρώτα όµως θα πρέπει να κατασκευάσουµε ψευδοµεταβλητές για τη χρήση βιταµινών και τις καπνισµατικές συνήθειες Αλέξανδρος Γρυπάρης, PhD 30

(συν.) o Κατασκευάζουµε λοιπόν τις: o vit2: =1, αν vituse=2, και =0 στις άλλες περιπτώσεις o vit3: =1, αν vituse=3, και =0 στις άλλες περιπτώσεις o smoke2: =1, αν smokstat=2, και =0 στις άλλες περιπτώσεις o smoke3: =1, αν smokstat=3, και =0 στις άλλες περιπτώσεις Αλέξανδρος Γρυπάρης, PhD 31

(συν.) o Τι µας δείχνουν αυτές οι ψευδοµεταβλητές; o Ποιο είναι το επίπεδο αναφοράς; o Στις επόµενες διαφάνειες βλέπουµε τα αποτελέσµατα για το πλήρες µοντέλο: Αλέξανδρος Γρυπάρης, PhD 32

Μοντέλο 1 (πλήρες µοντέλο) Αλέξανδρος Γρυπάρης, PhD 33

(συν.) Αλέξανδρος Γρυπάρης, PhD 34

(συν.) o Παρατηρούµε ότι περιέχει πολλές µη-στατιστικά σηµαντικές µεταβλητές. o Αυτές θα πρέπει να τις αφαιρέσουµε βήµαβήµα. o Θα ξεκινήσουµε από τη µεταβλητή µε το µεγαλύτερο p-value n n n Αυτή είναι η vit2 (p-value=0,987) Η vit2 είναι ψευδοµεταβλητή. Αυτές, είτε τις κρατάµε όλες στο µοντέλο, είτε τις αφαιρούµε όλες µαζί Μιας και η vit3 επίσης δεν είναι στατιστικά σηµαντική, θα τις αφαιρέσουµε και τις 2 µαζί. Αλέξανδρος Γρυπάρης, PhD 35

(συν.) o Στην επόµενη διαφάνεια φαίνονται τα αποτελέσµατα από το επόµενό µας µοντέλο, που δεν περιέχει τις vit2 και vit3 Αλέξανδρος Γρυπάρης, PhD 36

Μοντέλο 2 Αλέξανδρος Γρυπάρης, PhD 37

(συν.) Αλέξανδρος Γρυπάρης, PhD 38

(συν.) o Αρχικά, παρατηρήστε ότι αφαιρώντας τις 2 ψευδοµεταβλητές από το µοντέλο, αλλάξανε τα αποτελέσµατα για τις υπόλοιπες µεταβλητές o Για το λόγο αυτό, όταν θέλουµε να αφαιρέσουµε µια µεταβλητή από ένα µοντέλο, την αφαιρούµε και ξανατρέχουµε το µοντέλο n Δεν την αφαιρούµε µόνο στον πίνακα µε τα αποτελέσµατα! Αλέξανδρος Γρυπάρης, PhD 39

(συν.) o Και το νέο µοντέλο περιέχει πολλές µηστατιστικά σηµαντικές µεταβλητές. o Θα αφαιρέσουµε τη µεταβλητή µε το µεγαλύτερο p-value n Αυτή είναι η smoke3 (p-value=0,837) n n n n Η smoke3 είναι ψευδοµεταβλητή. Αυτές, είτε τις κρατάµε όλες στο µοντέλο, είτε τις αφαιρούµε όλες µαζί Μιας και η smoke2 είναι στατιστικά σηµαντική, θα τις κρατήσουµε και τις 2 στο µοντέλο. Άρα θα αφαιρέσουµε την επόµενη µε το µεγαλύτερο p-value, δηλαδή την bmi (p-value=0,750) Αλέξανδρος Γρυπάρης, PhD 40

Μοντέλο 3 Αλέξανδρος Γρυπάρης, PhD 41

(συν.) Αλέξανδρος Γρυπάρης, PhD 42

(συν.) o Η επόµενη µεταβλητή που θα αφαιρεθεί είναι η alcohol (p-value=0,350) Αλέξανδρος Γρυπάρης, PhD 43

Μοντέλο 4 Αλέξανδρος Γρυπάρης, PhD 44

(συν.) Αλέξανδρος Γρυπάρης, PhD 45

(συν.) o Η επόµενη µεταβλητή που θα αφαιρεθεί είναι η calories (p-value=0,536) Αλέξανδρος Γρυπάρης, PhD 46

Μοντέλο 5 Αλέξανδρος Γρυπάρης, PhD 47

(συν.) Αλέξανδρος Γρυπάρης, PhD 48

(συν.) o Η επόµενη µεταβλητή που θα αφαιρεθεί είναι η fiber (p-value=0,533) Αλέξανδρος Γρυπάρης, PhD 49

Μοντέλο 6 Αλέξανδρος Γρυπάρης, PhD 50

(συν.) Αλέξανδρος Γρυπάρης, PhD 51

(συν.) o Η µόνη µεταβλητή που δεν είναι στατιστικά σηµαντική είναι η fat, η οποία έχει ένα ενδεικτικό p-value (µεταξύ 0,05 και 0,10). o Αυτές µε ενδεικτικό p-value µπορούµε να επιλέξουµε να τις κρατήσουµε στο µοντέλο n Πιο σωστά, και αυτό επιλέγεται πριν αρχίσουµε τη στατιστική ανάλυση! o Δεν είναι λάθος αντίστοιχα να επιλέξουµε να τις αφαιρέσουµε από το µοντέλο Αλέξανδρος Γρυπάρης, PhD 52

(συν.) o Άρα, µέχρι στιγµής φαίνεται ότι το τελικό µας µοντέλο είναι το Μοντέλο 6. o Ας το εµηνεύσουµε, για να δούµε τι έχουµε βρεί Αλέξανδρος Γρυπάρης, PhD 53

(συν.) Αλέξανδρος Γρυπάρης, PhD 54

Goodness of fit o Πόσο καλό είναι το µοντέλο µας; n Πόσο καλά το µοντέλο µας ακολουθεί τα δεδοµένα; n ή Πόση από τη διασπορά στην Υ ερµηνεύεται από τις ανεξάρτητες µεταβλητές; Αλέξανδρος Γρυπάρης, PhD 55

(συν.) Αλέξανδρος Γρυπάρης, PhD 56

(συν.) o Το µοντέλο µας έχει προσαρµοσµένο R 2 =0,072 n Άρα, ερµηνεύει το 7,2% της µεταβλητότητας της συγκέντρωσης της Α-ρετινόλης στο πλάσµα (εξαρτηµένη µεταβλητή) o Είναι το ποσοστό αυτό στατιστικά σηµαντικό; n n Από τον πίνακα ANOVA βλέπουµε ότι p-value<0.001, οπότε συµπεραίνουµε ότι το ποσοστό της µεταβλητότητας που ερµηνεύεται από το µοντέλο είναι στατιστικά σηµαντικό Η 0 : Το ποσοστό της µεταβλητότητας που ερµηνεύεται από το µοντέλο δεν είναι στατιστικά σηµαντικό (δηλαδή είναι σχεδόν ίσο µε 0) Αλέξανδρος Γρυπάρης, PhD 57

(συν.) o Είναι ένα καλό µοντέλο; n Αν το συγκρίνουµε µε άλλα αντίστοιχα στη βιβλιογραφία, είναι το ίδιο καλό ή και καλύτερο; o Μπορούµε να συγκρίνουµε το προσαρµοσµένο R 2 του µοντέλου µας, µε αυτά της αντίστοιχης βιβλιογραφίας n Αν τυχόν υπάρχουν σηµαντικές διαφορές, που µπορεί να οφείλονται; o o o Στους διαφορετικούς πληθυσµούς; Στην επιλογή του δείγµατος; Μήπως έχουµε παραλείψει κάτι; Αλέξανδρος Γρυπάρης, PhD 58

Εγκυρότητα του µοντέλου o Πληρούνται οι προϋποθέσεις; n Η σχέση µεταξύ της Υ και κάθε Χ είναι γραµµική n Τα σφάλµατα (ε) ακολουθούν την κανονική κατανοµή n Οµοσκεδαστικότητα o Για να απαντήσουµε σε αυτά τα ερωτήµατα θα πρέπει να ελέγξουµε τα σφάλµατα. Αλέξανδρος Γρυπάρης, PhD 59

(συν.) o Όσο περίεργο και αν φαίνεται, µπορεί να έχουµε κάνει τόση δουλειά και το µοντέλο µας να µην πληρεί τις προϋποθέσεις o Στην περίπτωση αυτή, δεν είναι ένα έγκυρο µοντέλο, οπότε δεν µπορούµε να το κρατήσουµε και να βγάλουµε συµπεράσµατα από αυτό! o Δυστυχώς, στη γραµµική παλινδρόµηση ο έλεγχος των προυποθέσεων γίνεται στο τέλος. Αλέξανδρος Γρυπάρης, PhD 60

(συν.) Αλέξανδρος Γρυπάρης, PhD 61

(συν.) o Τα σφάλµατα φαίνονται πολύ κοντά στην κανονική κατανοµή. Αλέξανδρος Γρυπάρης, PhD 62

Οµοσκεδαστικότητα Αλέξανδρος Γρυπάρης, PhD 63

(συν.) o Τα υπόλοιπα (σφάλµατα) κατανέµονται τυχαία πάνω και κάτω από τη γραµµή ε=0. o Δεν φαίνεται να έχουµε πρόβληµα µε την οµοσκεδαστικότητα o Επίσης, δεν φαίνεται να υπάρχει κάποια συγκεκριµένη συστηµατικότητα, στην κατανοµή των σφαλµάτων Αλέξανδρος Γρυπάρης, PhD 64

(συν.) o Τα επόµενα γραφήµατα δείχνουν τα σφάλµατα σε σχέση µε κάθε ανεξάρτητη µεταβλητή. Αλέξανδρος Γρυπάρης, PhD 65

(συν.) Αλέξανδρος Γρυπάρης, PhD 66

(συν.) Αλέξανδρος Γρυπάρης, PhD 67

(συν.) Αλέξανδρος Γρυπάρης, PhD 68

(συν.) Αλέξανδρος Γρυπάρης, PhD 69

(συν.) Αλέξανδρος Γρυπάρης, PhD 70

(συν.) o Σε όλα δεν φαίνεται να υπάρχει κάποια συγκεκριµένη συστηµατικότητα, στην κατανοµή των σφαλµάτων n Μια τέτοια συστηµατικότητα θα έδειχνε ότι η σχέση µεταξύ της εξαρτηµένης και κάποιας ανεξάρτητης µεταβλητής δεν είναι γραµµική Αλέξανδρος Γρυπάρης, PhD 71

(συν.) o Άρα, το µοντέλο µας φαίνεται να πληρεί τις προϋποθέσεις της γραµµικής παλινδρόµησης n Είναι δηλαδή ένα έγκυρο µοντέλο! o Άρα το Μοντέλο 6 είναι το τελικό µας µοντέλο! Αλέξανδρος Γρυπάρης, PhD 72

(συν.) o Το τελικό µας µοντέλο, λοιπόν, είναι: retplas=701,326 + 2,045*age - 91,972*sex 0,643*fat +55,341*smoke2-6,117*smoke3 o Το µοντέλο αυτό µπορούµε τώρα να το χρησιµοποιήσουµε και για προβλέψεις Αλέξανδρος Γρυπάρης, PhD 73

Γραµµική παλινδρόµηση o Τι ακριβώς θέλουµε να πετύχουµε µε τη γραµµική παλινδρόµηση; o Να ερµηνεύσουµε πώς µεταβάλλεται η εξαρτηµένη µεταβλητή (που είναι µια ποσοτική µεταβλητή) σε σχέση µε τις ανεξάρτητες. o Οπότε, η µεταβλητή που µας ενδιαφέρει κυρίως ΠΡΕΠΕΙ να είναι ποσοτική, για να κάνουµε µοντέλα γραµµικής παλινδρόµησης! o Αν δεν είναι; Αλέξανδρος Γρυπάρης, PhD 74

Λογαριθµιστική εξάρτηση (logistic regression) o Πολλές έρευνες µελετούν την εµφάνιση ή όχι µιας νόσου è η εξαρτηµένη µεταβλητή είναι διχοτοµική o Δεν είναι δυνατή η απλή (ή η πολλαπλή) γραµµική παλινδρόµηση o Στις περιπτώσεις αυτές εφαρµόζεται η λογαριθµιστική εξάρτηση o Στηρίζεται στην εφαρµογή ενός µοντέλου στα δεδοµένα µας Αλέξανδρος Γρυπάρης, PhD 75

(συν.) o Η εξαρτηµένη µεταβλητή Υ στις περιπτώσεις αυτές είναι δίτιµη, και συνήθως κωδικοποιείται µε 0 (αν δεν υπάρχει η νόσος) και 1 διαφορετικά o Έστω ότι p είναι η αναλογία των ατόµων που έχουν τη νόσο (π.χ. 32%) o Τότε 1-p είναι η αναλογία αυτών που δεν πάσχουν (π.χ. 68%) Αλέξανδρος Γρυπάρης, PhD 76

(συν.) o Στις περιπτώσεις αυτές µας ενδιαφέρει να ορίσουµε ένα διαφορετικό είδος µοντέλων, που να βασίζονται στην: p= Ρ(Υ=1) : πιθανότητα κάποιος να νοσήσει o Ενδιαφερόµαστε να µελετήσουµε τη συσχέτιση της αναλογίας p µε ανεξάρτητες µεταβλητές Αλέξανδρος Γρυπάρης, PhD 77

(συν.) o Για το λόγο αυτό χρησιµοποιούµε στατιστικά µοντέλα της µορφής: p e β + β * X 0 + β * X = β + β * X + β * X 1+ e 0 1 1 1 1 2 2 2 +... 2 +... o Η συνάρτηση στα δεξιά ονοµάζεται λογαριθµιστική συνάρτηση Αλέξανδρος Γρυπάρης, PhD 78

(συν.) o Ονοµάζουµε λόγο συµπληρωµατικών πιθανοτήτων το πηλίκο: p 1 p o Παίρνοντας τον λογάριθµο της παραπάνω ποσότητας, έχουµε το µετασχηµατισµό logit: logit( p) p = ln 1 p Αλέξανδρος Γρυπάρης, PhD 79

(συν.) o Τα µοντέλα που εφαρµόζουµε είναι της µορφής: logit(p)=β 0 +β 1 *Χ 1 +β 2 *Χ 2 +... Αλέξανδρος Γρυπάρης, PhD 80

Ερµηνεία των παραµέτρων o Οι µερικοί συντελεστές λογαριθµιστικής εξάρτησης ΔΕΝ έχουν την ίδια ερµηνεία µε αυτούς της γραµµικής εξάρτησης o Οι µερικοί συντελεστές λογαριθµιστικής εξάρτησης εκφράζουν τη µεταβολή του λογαρίθµου του σχετικού λόγου (odds ratio), που συνδέει την εξαρτηµένη µεταβλητή µε κάθε µία από τις ανεξάρτητες, ελέγχοντας για τις υπόλοιπες ανεξάρτητες µεταβλητές Αλέξανδρος Γρυπάρης, PhD 81

Σχετικός λόγος a c b d o Στους τετράπτυχους πίνακες συχνά ως µέτρο του βαθµού συσχέτισης χρησιµοποιείται το πηλίκο των διαγωνίων γινοµένων ad bc το οποίο ονοµάζεται σχετικός λόγος. o Ο σχετικός λόγος εκφράζει πόσες φορές συχνότερη (ή λιγότερο συχνή) είναι η νόσος που µελετάται, όταν ο παράγοντας που εξετάζεται είναι παρών, σε σύγκριση µε την συχνότητα της νόσου, όταν ο παράγοντας απουσιάζει. Αλέξανδρος Γρυπάρης, PhD 82

Επανάληψη o o o o Ο σχετικός λόγος µπορεί να πάρει οποιαδήποτε θετική τιµή. Η τιµή 1 δηλώνει απουσία συσχέτισης. Τιµή µεγαλύτερη του 1 δηλώνει ότι η παρουσία του παράγοντα είναι επιβαρυντική (δηλαδή τα «εκτεθειµένα» άτοµα έχουν µεγαλύτερη πιθανότητα να πάθουν τη νόσο σε σχέση µε τα «µη εκτεθειµένα»). Αντίθετα, τιµή <1 δηλώνει ότι η παρουσία του παράγοντα είναι προστατευτική (δηλαδή τα «εκτεθειµένα» άτοµα έχουν µικρότερη πιθανότητα να πάθουν τη νόσο σε σχέση µε τα «µη εκτεθειµένα»). Αλέξανδρος Γρυπάρης, PhD 83

Εφαρµογή o Στον επόµενο πίνακα παρουσιάζονται τα αποτελέσµατα από ένα µοντέλο πολλαπλής λογαριθµιστικής εξάρτησης για τη διερεύνηση του ρόλου ορισµένων µεταβλητών στην εµφάνιση εµφράγµατος του µυοκαρδίου (ΕΤΜ) o Τα αποτελέσµατα βασίζονται σε µία έρευνα που έλαβαν µέρος 234 ασθενείς και 1742 µάρτυρες Αλέξανδρος Γρυπάρης, PhD 84

Πίνακας Ανεξάρτητη µεταβλητή Coefficient SE X 1 : Χρήση αντισ/κών 1,188 0,261 δισκίων (0:όχι, 1:ναί) X 2 : Hλικία σε έτη 0,152 0,014 Χ 3 : Κάπνισµα 1-24 τσιγάρα 1,125 0,210 (0:όχι, 1:ναί) Χ 4 : Κάπνισµα 25+ τσιγάρα 2,137 0,209 (0:όχι, 1:ναί) Αλέξανδρος Γρυπάρης, PhD 85

(συν.) o Ο συντελεστής β 1 εκφράζει το λογάριθµο του σχετικού λόγου του κινδύνου που έχουν οι γυναίκες που παίρνουν αντ/κά να πάθουν ΕΤΜ σε σχέση µε αυτές που δεν παίρνουν, ελέγχοντας ταυτόχρονα τις επιδράσεις του καπνίσµατος και της ηλικίας o Επειδή exp(1,188)= 2.7183 1,188 =3,28 è οι γυναίκες που παίρνουν αντ/κά έχουν 3,28 µεγαλύτερο κίνδυνο να πάθουν ΕΤΜ σε σχέση µε αυτές που δεν παίρνουν, ελέγχοντας ταυτόχρονα τις επιδράσεις του καπνίσµατος και της ηλικίας Αλέξανδρος Γρυπάρης, PhD 86

(συν.) o Ο συντελεστής β 2 εκφράζει το λογάριθµο του σχετικού λόγου του κινδύνου του ΕΤΜ, για αύξηση της ηλικίας κατά 1 έτος, ελέγχοντας ταυτόχρονα τις επιδράσεις του καπνίσµατος και της χρήσης αντ/κών o Επειδή exp(0,152)=1,16 è γιά 1 έτος αύξηση στην ηλικία, η πιθανότητα ΕΤΜ αυξάνεται κατά 1,16 φορές, ελέγχοντας ταυτόχρονα τις επιδράσεις του καπνίσµατος και της χρήσης αντ/κών è δηλαδή ο κίνδυνος να πάθει ένα άτοµο ΕΤΜ αυξάνεται κατά 16% Αλέξανδρος Γρυπάρης, PhD 87

(συν.) o Αντίστοιχα, µιά γυναίκα που καπνίζει µέχρι 24 τσιγάρα /ηµέρα έχει exp(1,125)=3,08 φορές µεγαλύτερο κίνδυνο να πάθει ΕΤΜ σε σχέση µε µία µη-καπνίστρια της ίδιας ηλικίας και µε την ίδια χρήση αντ/κών o Μιά γυναίκα που καπνίζει πάνω από 24 τσιγάρα /ηµέρα έχει exp(2,137)=8,47 φορές µεγαλύτερο κίνδυνο να πάθει ΕΤΜ σε σχέση µε µία µη-καπνίστρια της ίδιας ηλικίας και µε την ίδια χρήση αντ/κών Αλέξανδρος Γρυπάρης, PhD 88

Παράδειγµα o Στο επόµενο παράδειγµα θα πραγµατοποιήσουµε µια λογαριθµιστική εξάρτηση χρησιµοποιώντας δεδοµένα από το αρχείo bwt.sav, όπου: n n n n n n Υ: γέννηση ελλειποβαρούς µωρού (1: ναι, 0: όχι) Χ1: ψευδοµεταβλητή για τη λευκή φυλή Χ2: ψευδοµεταβλητή για τη µαύρη φυλή Χ3: κάπνισµα µητέρας (1: ναι, 0: όχι) Χ4: ηλικία µητέρας Δίνεται ότι το επίπεδο αναφοράς για τη φυλή είναι οι γυναίκες άλλης φυλής (όχι λευκής ή µαύρης) Αλέξανδρος Γρυπάρης, PhD 90

Αλέξανδρος Γρυπάρης, PhD 91

Αλέξανδρος Γρυπάρης, PhD 92

Unweighted Cases a Selected Cases Unselected Cases Total Case Processing Summary Included in Analysis Missing Cases Total N Percent 189 100.0 0.0 189 100.0 0.0 189 100.0 a. If weight is in effect, see classification table for the total number of cases. Categorical Variables Codings race 1 2 3 Parameter coding Frequency (1) (2) 96 1.000.000 26.000 1.000 67.000.000 Variables in the Equation Step 1 a race race(1) race(2) smoke age Constant B S.E. Wald df Sig. Exp(B) Lower Upper 7.899 2.019-1.057.406 6.776 1.009.348.157.770 -.045.491.009 1.926.956.365 2.501 1.101.372 8.755 1.003 3.006 1.450 6.231 -.035.033 1.091 1.296.966.905 1.031.049.791.004 1.950 1.050 95.0% C.I.for EXP(B) a. Variable(s) entered on step 1: race, smoke, Αλέξανδρος age. Γρυπάρης, PhD 93

(συν.) o Έτσι, οι καπνίστριες έχουν 3,006 µεγαλύτερο κίνδυνο να γεννήσουν ελλειποβαρές µωρό σε σχέση µε τις µη-καπνίστριες, ελέγχοντας ταυτόχρονα τις επιδράσεις της φυλής και της ηλικίας o Αντίστοιχα, οι λευκές γυναίκες έχουν 0,348 του κινδύνου να γεννήσουν ελλειποβαρές µωρό σε σχέση µε τις γυναίκες άλλης φυλής (επίπεδο αναφοράς), ελέγχοντας ταυτόχρονα τις επιδράσεις του καπνίσµατος και της ηλικίας Αλέξανδρος Γρυπάρης, PhD 94

(συν.) o Επίσης, για κάθε έτος αύξησης της ηλικίας, η πιθανότητα για γέννηση ελλειποβαρούς µωρού µειώνεται κατά 0,966 φορές, ελέγχοντας ταυτόχρονα τις επιδράσεις του καπνίσµατος και της φυλής Αλέξανδρος Γρυπάρης, PhD 95

Μοντέλο λογαριθµιστικής εξάρτησης o Στο προηγούµενο παράδειγµα, το µοντέλο λογαριθµιστικής εξάρτησης είναι το: logit(p)=0,049-0,035*age+1,101*smoke- 0,045*race2-1,057*race1 όπου p: η πιθανότητα µία γυναίκα να γεννήσει µωρό µε χαµηλό βάρος Αλέξανδρος Γρυπάρης, PhD 96

Συγχυτικός παράγοντας o Συγχυτικός παράγοντας (confounder) ονοµάζεται µια µεταβλητή η οποία, µε οποιονδήποτε τρόπο, διαστρεβλώνει µια σχέση µεταξύ δύο µεταβλητών (στην Επιδηµιολογία συνήθως εννοούµε την νόσο και ένα παράγοντα κινδύνου). o Για παράδειγµα ας υποθέσουµε ότι επιθυµούµε να συγκρίνουµε τη θνησιµότητα σε δύο οµάδες µε διαφορετική έκθεση σε ένα πιθανό παράγοντα κινδύνου (π.χ. κάπνισµα). Αλέξανδρος Γρυπάρης, PhD 97

(συν.) o Αν η πρώτη οµάδα µε τους καπνιστές περιέχει άτοµα πιο µεγάλης ηλικίας από τη δεύτερη οµάδα, τότε σαφώς και περιµένουµε µεγαλύτερη θνησιµότητα σε αυτή την οµάδα n Αυτό δε θα οφείλεται όµως στο γεγονός ότι κάπνιζαν, αλλά απλά στο ότι έχουν µεγαλύτερη ηλικία. o Η ηλικία εδώ είναι συγχυτικός παράγοντας (confounder) της σχέσης της θνησιµότητας και του καπνίσµατος. Αλέξανδρος Γρυπάρης, PhD 98

(συν.) o Ένας συγχυτικός παράγοντας µπορεί: n να εµφανίζει ως στατιστικά σηµαντικές σχέσεις που στην πραγµατικότητα δεν υπάρχουν ή n να καλύπτει υπάρχουσες. o Ο έλεγχος και η αδρανοποίηση των συγχυτικών παραγόντων γίνεται µε κατάλληλο σχεδιασµό της µελέτης ή µε ειδική στατιστική ανάλυση. Αλέξανδρος Γρυπάρης, PhD 99

Κριτήρια αιτιότητας o Ακόµα και αν οι συγχυτικοί παράγοντες εξαλειφθούν, ο εντοπισµός πραγµατικών σχέσεων αιτιότητας είναι δύσκολος και ξεφεύγει από τον απλό υπολογισµό στατιστικών δεικτών. o Για το λόγο αυτό έχουν καθοριστεί συγκεκριµένα κριτήρια τα οποία µπορούµε να χρησιµοποιήσουµε για να εντοπίσουµε και να ελέγξουµε αν οι στατιστικά σηµαντικές συσχετίσεις είναι σχέσεις αιτιότητας. Αλέξανδρος Γρυπάρης, PhD 100

Κριτήρια αιτιότητας o Τα κριτήρια αυτά είναι τα ακόλουθα: n Συνέπεια (consistency). n Ισχύς (strength). n Ειδικότητα (specificity). n Χρονική αλληλουχία (temporality). n Λογική αλληλουχία (coherency). o Όταν µια σχέση ικανοποιεί όλα τα παραπάνω κριτήρια, τότε έχουµε µια ισχυρή (αν όχι απόλυτη) ένδειξη ότι αυτή είναι µία σχέσης αιτιότητας. Αλέξανδρος Γρυπάρης, PhD 101

Συνέπεια o Μία σχέση είναι συνεπής αν εµφανιστεί επαναλαµβανόµενα σε µελέτες που έχουν γίνει µε διαφορετικό σχεδιασµό και σε διαφορετικούς πληθυσµούς. o Φυσικά στις περιπτώσεις αυτές µπορούν να υπάρχουν και εξαιρέσεις, δηλαδή µελέτες που δεν επιβεβαιώνουν τον κανόνα, αλλά θα πρέπει να είναι περιορισµένες και να οφείλονται σε τυχαίους παράγοντες o Ένα παράδειγµα συνεπούς σχέσης είναι η θετική σχέση καπνίσµατος - καρκίνου του πνεύµονα η οποία έχει επιβεβαιωθεί σε µεγάλο αριθµό µελετών τις τελευταίες δεκαετίες. Αλέξανδρος Γρυπάρης, PhD 102

Ισχύς o Μια σχέση ονοµάζεται ισχυρή όταν η επίδραση της παρουσίας του παράγοντα κινδύνου είναι µεγάλη. Η επίδραση συνήθως µετριέται µε την αναλογική αύξηση της πιθανότητας θανάτου ή εµφάνισης της νόσου. o Σε αυτή την περίπτωση, σηµαντική είναι και η ύπαρξη της δοσολογικής επίδρασης (dose-response effect) που δεν είναι τίποτα άλλο από την αναλογική µεταβολή της µεταβλητής απόκρισης (π.χ. εµφάνιση της νόσου) και της δοσολογίας ενός φαρµάκου ή του µεγέθους έκθεσης σε ένα παράγοντα κινδύνου. Αλέξανδρος Γρυπάρης, PhD 103

(συν.) o Παράδειγµα : η πιθανότητα εµφάνισης του καρκίνου του πνεύµονα είναι αυξηµένη στους καπνιστές και αυξάνει ανάλογα µε τον αριθµό τσιγάρων που καπνίζει κάθε άτοµο. Αλέξανδρος Γρυπάρης, PhD 104

Ειδικότητα o Μια σχέση παράγοντα κινδύνου-νόσου ονοµάζεται ειδική αν η παρουσία του παράγοντα κινδύνου οδηγεί µε µεγάλη πιθανότητα στην εµφάνιση της νόσου ενώ η απουσία του οδηγεί µε µεγάλη πιθανότητα στην αποφυγή της εµφάνισης της νόσου. o Αν ένας παράγοντας είναι «ειδικός» µίας νόσου (δηλαδή, στην ουσία, είναι η κύρια αιτία που προκαλεί τη νόσο) τότε είναι πολύ πιθανό και η σχέση να είναι αιτιολογική. Στην πράξη όµως, λόγω της πολυπλοκότητας των σχέσεων, ειδικές σχέσεις είναι σπάνιες. Αλέξανδρος Γρυπάρης, PhD 105

(συν.) o Και όχι µόνο αυτό αλλά σε µια πραγµατική αιτιολογική σχέση µπορεί η πιθανότητα εµφάνισης της νόσου να αυξάνει σηµαντικά µε την παρουσία του παράγοντα κινδύνου, άλλα όχι τόσο πολύ ώστε να τη χαρακτηρίσουµε ειδική. o Η ύπαρξη µιας στατιστικής σχέσης αιτιότητας δε συνεπάγεται ότι αυτή θα επαληθεύεται σε όλες τις περιπτώσεις. n Παράδειγµα, αν κάποιος καπνίζει δε σηµαίνει ότι θα εµφανίσει τη νόσο σίγουρα (αν συνέβαινε αυτό δε θα µιλάγαµε για στατιστική σχέση άλλα για σχέση φυσική). Αλέξανδρος Γρυπάρης, PhD 106

Χρονική αλληλουχία o Στην Επιδηµιολογία είναι απαραίτητο ο παράγοντας κινδύνου να προϋπάρχει χρονικά της εµφάνισης της νόσου. o Σε πολλές περιπτώσεις η στατιστική ανάλυση δε λαµβάνει υπόψη της τη χρονική αλληλουχία ή σειρά µε την οποία εµφανίζονται κάποια ενδεχόµενα αλλά και µεταβλητές που συνδέονται µε αυτά. Για το λόγο αυτό η µεταβλητή απόκρισης στα στατιστικά µοντέλα θα πρέπει να έπεται χρονικά των επεξηγηµατικών. Αλέξανδρος Γρυπάρης, PhD 107

(συν.) o Σε µερικές περιπτώσεις αυτό είναι εύκολο να το κρίνεις (π.χ. κάπνισµα και καρκίνος του πνεύµονα). o Τι γίνεται όµως για περιπτώσεις όπως το παθητικό κάπνισµα για το οποίο µπορεί να µην είναι εύκολα προσδιορίσιµος ο χρόνος έκθεσης σε αυτόν τον κίνδυνο; o Ο καθορισµός της χρονικής αλληλουχίας είναι επίσης δύσκολος στις περιπτώσεις που η νόσος εντοπίζεται πολύ αργότερα από την πραγµατική της εµφάνιση Αλέξανδρος Γρυπάρης, PhD 108

Λογική αλληλουχία o Για να έχει µια σχέση λογική αλληλουχία θα πρέπει να µην αντικρούει αποδεδειγµένες αλήθειες των φυσικών και βιολογικών επιστηµών (π.χ. της Φυσικής, Χηµείας, Ιατρικής, Γενετικής και Βιολογίας). o Σε περίπτωση που µια στατιστικά σηµαντική σχέση έρχεται σε αντίθεση µε µια ήδη αναγνωρισµένη θεωρία, τότε θα πρέπει να υπάρξει µια ανάλογη επιστηµονική τεκµηρίωση και θεωρία που θα υποστηρίζει και θα αιτιολογεί την ύπαρξη της. Αλέξανδρος Γρυπάρης, PhD 109

(συν.) o Επιπλέον θα πρέπει να γίνουν και ανάλογες µελέτες έτσι ώστε να δούµε αν ικανοποιείται και το κριτήριο της συνέπειας που τελικά θα οδηγήσει στην επιστηµονική επικράτηση και καθιέρωση του ευρήµατος ή της νέας θεωρίας. Αλέξανδρος Γρυπάρης, PhD 110

Συνοψίζοντας o Γενικά τα παραπάνω πέντε κριτήρια είναι αρκετά αυστηρά και πολλές φορές δεν ικανοποιούνται όλα από µια πραγµατική αιτιολογική σχέση. Αλέξανδρος Γρυπάρης, PhD 111

Είδη σφαλµάτων o Έστω ότι έχουµε να ελέξουµε µία µηδενική υπόθεση o Π.χ. θέλουµε να συγκρίνουµε τη µέση τιµή αρτηριακής πίεσης στους άνδρες και τις γυναίκες του πληθυσµού, χρησιµοποιώντας το δείγµα µας. Η 0 : µ α =µ γ o Πραγµατοποιώντας ένα στατιστικό έλεγχο µπορούµε να υποπέσουµε σε 2 τύπους σφάλµατος Αλέξανδρος Γρυπάρης, PhD 112

Σφάλµατα στη λήψη απόφασης Αποδοχή υπόθεσης Η ο από το δείγµα µε βάση το Σ.Κ. Απόρριψη υπόθεσης Η A από το δείγµα µε βάση το Σ.Κ. Υπόθεση Ηο ü Σφάλµα τύπου Ι αληθής στον πληθυσµό ή α Υπόθεση Ηο ψευδής στον πληθυσµό Σφάλµα τύπου ΙΙ ή β ü Αλέξανδρος Γρυπάρης, PhD 113

Κριτήριο λήψης απόφασης o Η ακριβής τιµή του σφάλµατος Τύπου Ι για τα δεδοµένα του προβλήµατος (p value) n η πιθανότητα η ληφθείσα απόφαση να είναι υπέρ της ύπαρξης σχέσης, ενώ στην πραγµατικότητα δεν υπάρχει σχέση. o Θέλουµε να έχει πολύ µικρή τιµή (συνήθως < 5%). Αλέξανδρος Γρυπάρης, PhD 114

Σφάλµα τύπου ΙΙ o Το σφάλµα τύπου ΙΙ (β) συνίσταται στη µηαπόριψη («αποδοχή») της Η 0 όταν αυτή δεν ισχύει. o Έτσι, δε βρίσκουµε διαφορά µεταξύ των 2 πληθυσµών, ενώ αυτή υπάρχει. o Η ισχύς ενός στατιστικού ελέγχου ορίζεται ως 1-β (δηλαδή η πιθανότητα να βρούµε διαφορά, ενώ αυτή υπάρχει) Αλέξανδρος Γρυπάρης, PhD 115

Σφάλµα τύπου Ι και τύπου ΙΙ o Υπάρχει αντίστροφη σχέση µεταξύ αυτών των 2 o Η αύξηση του αριθµού των παρατηρήσεων συνεπάγεται µείωση της πιθανότητας σφάλµατος και των 2 τύπων o Η ισχύς µιας δοκιµασίας αποτελεί συνάρτηση του είδους της δοκιµασίας, αλλά γενικά αυξάνεται µε τον αριθµό των παρατηρήσεων Αλέξανδρος Γρυπάρης, PhD 116