Εισαγωγή στη Βιοστατιστική

Σχετικά έγγραφα
Εισαγωγή στη Βιοστατιστική

Στατιστική Επιχειρήσεων Ι

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εισαγωγή στη Βιοστατιστική

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Το στατιστικό κριτήριο που μας επιτρέπει να. μιας ή πολλών άλλων γνωστών μεταβλητών. Η σχέση ανάμεσα στις μεταβλητές που μελετώνται

Αναλυτική Στατιστική

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος

Εισόδημα Κατανάλωση

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Στατιστική Ι. Ανάλυση Παλινδρόμησης

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Πολλαπλή παλινδρόμηση (Multivariate regression)

Απλή Ευθύγραµµη Συµµεταβολή

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

Απλή Γραμμική Παλινδρόμηση II

Μοντέλα Παλινδρόμησης. Άγγελος Μάρκος, Λέκτορας ΠΤ Ε, ΠΘ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Λογαριθμικά Γραμμικά Μοντέλα Poisson Παλινδρόμηση Παράδειγμα στο SPSS

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 16. Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

9. Παλινδρόμηση και Συσχέτιση

Λυμένες Ασκήσεις για το μάθημα:

Προσοµοίωση Εξέτασης στο µάθηµα του Γεωργικού Πειραµατισµού

Α. Μπατσίδης Πρόχειρες βοηθητικές διδακτικές σημειώσεις

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

Ελένη Κανδηλώρου Αναπλ. Καθηγήτρια. Γραμμικά Μοντέλα. Λύσεις Ασκήσεων

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 7. Παλινδρόµηση

+ ε βελτιώνει ουσιαστικά το προηγούμενο (β 3 = 0;) 2. Εξετάστε ποιο από τα παρακάτω τρία μοντέλα:

Η ΣΤΑΤΙΣΤΙΚΗ ΣΤΟ ΕΡΓΑΣΤΗΡΙΟ ΣΠΕΡΜΑΤΟΣ

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

Η βιτρίνα των καταστημάτων ως εργαλείο δημοσίων σχέσεων. Ονοματεπώνυμο: Ειρήνη Πορτάλιου Σειρά: 8 η Επιβλέπουσα: Αν. Καθηγήτρια : Βεντούρα Ζωή

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ: ΑΣΚΗΣΕΙΣ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Γ. Πειραματισμός Βιομετρία

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 :

Κεφάλαιο 14. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

1. Θα χρησιμοποιηθεί το αρχείο Ο γονικός έλεγχος στην εφηβική ηλικία. Στο. i. Με ποιες μεταβλητές που αφορούν σε σχέσεις εφήβων με τους γονείς τους

ΚΕΦΑΛΑΙΟ ΙΙΙ ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

Χ. Εμμανουηλίδης, 1

Απλή Παλινδρόμηση και Συσχέτιση

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

Διαχείριση Υδατικών Πόρων

Μοντέλα Πολλαπλής Παλινδρόμησης

Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική

ΠΡΟΒΛΗΜΑ ΑΥΤΟΣΥΣΧΕΤΙΣΤΩΝ ΣΦΑΛΜΑΤΩΝ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Ανάλυση συνεχών μεταβλητών. Γεωργία Σαλαντή. Λέκτορας Εργαστήριο υγιεινής και Επιδημιολογίας

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για εξαρτημένα δείγματα)

ΜΕΘΟΔΟΣ ΤΗΣ ΒΗΜΑΤΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ (STEPWISE REGRESSION)

σ = και σ = 4 αντιστοίχως. Τότε θα ισχύει

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Άσκηση 2. i β. 1 ου έτους (Υ i )

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Στατιστικές Υποθέσεις

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

Άσκηση 1. Πληθυσμός (Χ i1 )

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Διάστημα εμπιστοσύνης της μέσης τιμής

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις περιόδου στο μάθημα ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ

Transcript:

Εισαγωγή στη Βιοστατιστική Π.Μ.Σ.: Έρευνα στη Γυναικεία Αναπαραγωγή Οκτώβριος Νοέμβριος 2017 Αλέξανδρος Γρυπάρης, PhD Αλέξανδρος Γρυπάρης, PhD 3

Περιεχόμενα Ορισμός της Στατιστικής Περιγραφική στατιστική t-test Δοκιμασία X 2 Μη-παραμετρικές δοκιμασίες Συντελεστές συσχέτισης Απλή γραμμική παλινδρόμηση, ANOVA Πολλαπλή γραμμική παλινδρόμηση Λογαριθμιστική εξάρτηση Αλέξανδρος Γρυπάρης, PhD 2

Συσχέτιση και Εξάρτηση Συσχέτιση: Μέτρο του βαθμού (της έντασης) της γραμμικής σχέσης μεταξύ 2 μεταβλητών Εξάρτηση ή Παλινδρόμηση: Μέθοδος για την διερεύνηση των μεταβολών των τιμών της μιας μεταβλητής (εξαρτημένης) συναρτήσει των μεταβολών των τιμών της άλλης (ανεξάρτητης) Αλέξανδρος Γρυπάρης, PhD 3

Προϋποθέσεις Συσχέτιση (συντελεστής του Pearson): Τα δύο ποσοτικά μεγέθη να κατανέμονται κανονικά και να έχουν επιλεγεί τυχαία Εξάρτηση: Το εξαρτημένο μέγεθος να κατανέμεται κανονικά (για κάθε συγκεκριμένη τιμή του ανεξάρτητου) και να έχει επιλεγεί τυχαία Αλέξανδρος Γρυπάρης, PhD 4

Παράδειγμα Σε μελέτη για τη διερεύνηση της επίδρασης του μολύβδου στην σωματομετρική ανάπτυξη των παιδιών, μελετήθηκαν παιδιά σχολικής ηλικίας (μεταξύ 6 και 9 ετών), από τρείς περιοχές: Λαύριο, Ελευσίνα και Λουτράκι. Το συνολικό δείγμα αποτελείται από 522 παιδιά, 274 αγόρια και 248 κορίτσια ηλικίας 6-9 χρονών. Μέρος των δεδομένων παρουσιάζεται στον πίνακα που ακολουθεί (Kafourou et al, Archives of Environmental health, 1997; 52: 377-383). Αλέξανδρος Γρυπάρης, PhD 5

Πίνακας Κωδικός Πόλη Ηλικία Ανάστημα Μόλυβδος Ανάστημα (έτη) πατέρα (cm) ( g/ml) παιδιού (cm) 353 2 8 172 23.42 116 419 2. 165 51.17 107 19 1 8 152. 114 26 1 7 177 5.94 122 506 2 7 155 20.21 119 683 3 8 170 4.16 117 612 3 7 164 9.78 112 97 1 8 164. 121... Για την πόλη 1 σημαίνει Λουτράκι, 2 Λαύριο και 3 Ελευσίνα. = Eλλείπουσες τιμές (missing values) Αλέξανδρος Γρυπάρης, PhD 6

Στικτόγραμμα του αναστήματος του πατέρα με το ανάστημα του παιδιού 200 190 Father's height 180 170 160 150 100 110 120 130 140 150 Children's height Αλέξανδρος Γρυπάρης, PhD 7

Κατανομή συχνοτήτων του αναστήματος του πατέρα 141 Frequency 0 150 160 170 180 190 200 Father's height Αλέξανδρος Γρυπάρης, PhD 8

Κατανομή συχνοτήτων του αναστήματος των παιδιών 125 Frequency 0 100 110 120 130 140 150 Children's height Αλέξανδρος Γρυπάρης, PhD 9

Άρα: και οι δύο μεταβλητές επιλέγησαν τυχαία οι κατανομές και των δύο μεγεθών είναι κατά προσέγγιση κανονικές Οπότε μπορούμε να υπολογίσουμε το συντελεστή συσχέτισης του Pearson. Αλέξανδρος Γρυπάρης, PhD 10

Στικτόγραμμα της ηλικίας με το ύψος του παιδιού 150 140 Children's height 130 120 110 100 5 6 7 8 9 10 age Αλέξανδρος Γρυπάρης, PhD 11

Αντιθέτως ο συντελεστής συσχέτισης που αντιστοιχεί στο προηγούμενο σχήμα δεν μπορεί να υπολογιστεί γιατί η ηλικία δεν έχει επιλεγεί τυχαία. Αλέξανδρος Γρυπάρης, PhD 12

Παραδείγματα 1. Συλλέγονται τυχαία διάφορα παντρεμένα ζευγάρια για να διερευνηθεί η σχέση ανάμεσα στα ύψη των ζευγαριών 2. Επιλέγονται διάφορα άτομα (έτσι ώστε στο δείγμα να περιλαμβάνονται άτομα κάθε ηλικίας) για να διερευνηθεί η σχέση ανάμεσα ηλικίας και συστολικής αρτηριακής πίεσης καθενός από αυτά Αλέξανδρος Γρυπάρης, PhD 13

Απλή Γραμμική Παλινδρόμηση «Η διερεύνηση γραμμικής σχέσης εξάρτησης μεταξύ 2 μεταβλητών, εκ των οποίων η μια καλείται εξαρτημένη και η άλλη ανεξάρτητη». Δηλαδή, η Υ (εξαρτημένη) συνδέεται με την Χ (ανεξάρτητη), με τη σχέση: Υ = β0 + β1 Χ Αλέξανδρος Γρυπάρης, PhD 14

(συν.) Η μέθοδος παλινδρόμησης (regression analysis) στοχεύει στον υπολογισμό μιας ευθείας γραμμής που εφαρμόζει καλύτερα από κάθε άλλη στα δεδομένα Αλέξανδρος Γρυπάρης, PhD 15

Απλή Γραμμική Παλινδρόμηση Αλέξανδρος Γρυπάρης, PhD 16

Παραδείγματα: Σχέση: Βάρους σώματος και αρτηριακής πίεσης. Ηλικίας κύησης και βάρους. Προσλαμβανόμενες θερμίδες και σωματική δραστηριότητα. Αλέξανδρος Γρυπάρης, PhD 17

Απλή γραμμική παλινδρόμηση Στην απλή εξάρτηση διερευνάται η σχέση μιας εξαρτημένης μεταβλητής με μία μόνο ανεξάρτητη μεταβλητή. Γενικά η μέθοδος της εξάρτησης αποσκοπεί στην εύρεση μίας γραμμής που εφαρμόζει όσο το δυνατόν καλύτερα στα δεδομένα. Η σχέση μεταξύ εξαρτημένης και ανεξάρτητης μεταβλητής εκφράζεται μέσω μαθηματικής συνάρτησης. Η γραμμή της συνάρτησης μπορεί να έχει οποιαδήποτε μορφή. Στην απλή γραμμική εξάρτηση μελετάται μόνο η ευθεία. Αλέξανδρος Γρυπάρης, PhD 18

(συν.) Στα μοντέλα απλής γραμμικής εξάρτησης υποθέτουμε ότι η πραγματική μέση τιμή της εξαρτημένης μεταβλητής Y i στον υποκείμενο πληθυσμό (underlying population) από τον οποίο προέρχεται το δείγμα, μεταβάλλεται με σταθερό ρυθμό όταν μεταβάλλονται οι τιμές της ανεξάρτητης μεταβλητής X i. Η συνάρτηση που συνδέει τη μέση τιμή των Y i με την X i είναι η εξίσωση της ευθείας γραμμής: Ŷ i E(Y X ) i i = X 0 1 i όπου β 0 είναι η σταθερά της εξίσωσης και β 1 η κλίση της ευθείας Αλέξανδρος Γρυπάρης, PhD 19

(συν.) Ο συμβολισμός Ε(Υ i Χ i ) στη Στατιστική δηλώνει τη μέση τιμή της μεταβλητής Υ i όταν η μεταβλητή Χ παίρνει τη συγκεκριμένη τιμή Χ i. Έτσι, το Ε(Υ i Χ i =80) σημαίνει τη μέση τιμή της μεταβλητής Υ, σε όλα τα άτομα στο δείγμα μας που η μεταβλητή Χ είναι ίση με 80. Αντίστοιχα, το Ε(Υ) ή Ε(Υ i ) συμβολίζει τη μέση τιμή της Υ γενικά στο δείγμα μας, χωρίς να λάβουμε υπόψη καμία άλλη μεταβλητή Αλέξανδρος Γρυπάρης, PhD 20

(συν.) Έτσι φανταστείτε ότι μιλάμε για μια συγκεκριμένη τάξη με μαθητές, όπου: Υ είναι η ηλικία τους και Χ το φύλο τους (0: γυναίκα, 1: άνδρας) Ε(Υ)= η μέση τιμή της ηλικίας όλων των μαθητών και μαθητριών Ε(Υ i Χ i =0) η μέση τιμή της ηλικίας όλων των μαθητριών Ε(Υ i Χ i =1) η μέση τιμή της ηλικίας όλων των μαθητών Αλέξανδρος Γρυπάρης, PhD 21

(συν.) Στο παράδειγμα της μελέτης για τη διερεύνηση της επίδρασης του μολύβδου στην σωματομετρική ανάπτυξη των παιδιών, ας θεωρήσουμε Υ το ύψος του παιδιού και Χ το ύψος του πατέρα Ε(Υ)= η μέση τιμή του ύψους όλων των παιδιών Ε(Υ i Χ i =175cm) η μέση τιμή του ύψους των παιδιών που ο πατέρας τους ήταν 175 cm Ε(Υ i Χ i =190cm) η μέση τιμή του ύψους των παιδιών που ο πατέρας τους ήταν 190 cm Αλέξανδρος Γρυπάρης, PhD 22

(συν.) Προσέξτε ότι στη σχέση αναφερόμαστε στη μέση τιμή του Υ, για οποιαδήποτε τιμή του Χ Ŷ i E(Y X ) = X i i 0 1 i Αυτό δε σημαίνει ότι οι παρατηρήσεις μας «πέφτουν» ακριβώς πάνω στην ευθεία Βρίσκονται συνήθως πάνω ή κάτω από την ευθεία Οπότε υπάρχουν αποκλίσεις μεταξύ της μέσης τιμής Ε(Υ i X i ) και των παρατηρήσεων (Χ i,υ i ) Αλέξανδρος Γρυπάρης, PhD 23

(συν.) Η απόκλιση κάθε παρατήρησης Υ i από την αντίστοιχη μέση τιμή δίνεται από το τυχαίο σφάλμα (random error) ε i. Έτσι το προηγούμενο μοντέλο: Ŷ i = E(Y i ½X i )=b 0 + b 1 X i μπορεί ισοδύναμα να γραφτεί ως: Y i =β 0 +β 1 Χ i +ε i ή Υ i =E(Y i X i )+ε i Αλέξανδρος Γρυπάρης, PhD 24

(συν.) Ŷ i Οπότε το αναφέρεται στη μέση τιμή, και το Υ i σε μια παρατήρηση στο δείγμα μας Ŷ i = E(Y i ½X i =180)=130 Π.χ., δηλαδή η μέση τιμή του ύψους των παιδιών που ο πατέρας τους έχει ύψος 180cm είναι 130cm Ενώ π.χ. αν υποθέσουμε ότι Υ 25 και Υ 31 είναι 2 από τα παιδιά που ο πατέρας τους έχει ύψος 180 cm, μπορεί να έχουμε ότι: Υ 25 =137cm και Υ 31 =128cm Άρα ε 25 =137-130=7cm και ε 31 =128-130= -2cm Αλέξανδρος Γρυπάρης, PhD 25

Παράδειγμα: (Χ 25,Y 25 )=(180, 137) ε 25 E(Y i X i =180) = 130 Ε(Υ i Χ i ) = β0 + β1 Χ i ή Υ i = β0 + β1 Χ i + ε i Ύψος πατέρα (Χ) Αλέξανδρος Γρυπάρης, PhD 26

(συν.) Έτσι, στο προηγούμενο παράδειγμα το 25 ο παιδί στο αρχείο μας έχει ύψος Υ=137cm και ο πατέρας του έχει ύψος Χ=180cm. Το μοντέλο μας έδωσε Ε(Υ i X i =180)=130cm. Άρα, ε 25 =Υ 25 -Ε(Υ i X i =180)=7cm. Τόση είναι η απόκλιση του ύψους του συγκεκριμένου παιδιού από την εκτίμηση που κάνει το μοντέλο για αυτό Αλέξανδρος Γρυπάρης, PhD 27

(συν.) Υποθέτουμε ότι η κατανομή συχνοτήτων των τιμών Υ i για κάθε δεδομένη τιμή Χ i ακολουθεί την κανονική κατανομή Αυτό σημαίνει, ότι π.χ. στο παράδειγμα που συζητάμε αν κάνουμε το ιστόγραμμα του ύψους όλων των παιδιών για μια συγκεκριμένη τιμή ύψους πατέρα (π.χ. 175cm) θα προκύψει η κανονική κατανομή. Αυτό θα ισχύει για κάθε τιμή ύψους πατέρα. Αλέξανδρος Γρυπάρης, PhD 28

(συν.) Αυτό, φαίνεται σχηματικά στο γράφημα: Αλέξανδρος Γρυπάρης, PhD 29

(συν.) Ο σκοπός της απλής γραμμικής εξάρτησης είναι να εκτιμηθούν οι παράμετροι β 0 και β 1 του μοντέλου από το δείγμα Οι εκτιμημένες παράμετροι συμβολίζονται με «καπελάκια»: ( ˆ, ˆ 0 1) Αλέξανδρος Γρυπάρης, PhD 30

Εκτίμηση των παραμέτρων Η εκτίμηση των παραμέτρων του μοντέλου (δηλαδή των β 0 και β 1 ) γίνεται με τη μέθοδο των ελαχίστων τετραγώνων (least squares method) Θα μιλήσουμε στη συνέχεια για τη συγκεκριμένη μέθοδο Προς το παρόν, ας δούμε ένα παράδειγμα Αλέξανδρος Γρυπάρης, PhD 31

Απλή γραμμική παλινδρόμηση Σαν παράδειγμα θα χρησιμοποιήσουμε μια βάση δεδομένων με πληροφορίες για 454 νεογέννητα μωρά Αλέξανδρος Γρυπάρης, PhD 32

Παράδειγμα Συγκεκριμένα, ενδιαφερόμαστε να μελετήσουμε διάφορα χαρακτηριστικά των μωρών και της εγκυμοσύνης σε σχέση με την περιφέρεια του κεφαλιού τους (σε mm). Αλέξανδρος Γρυπάρης, PhD 33

Στικτόγραμμα Περιφέρεια κεφαλιού (ΠΚ) σε σχέση με το χρόνο κυοφορίας Αλέξανδρος Γρυπάρης, PhD 34

Παράδειγμα Οπτικά φαίνεται ότι η ΠΚ αυξάνεται όσο αυξάνεται ο χρόνος κυοφορίας Αυτό φαίνεται πιο έντονα όταν δούμε τη μέση τιμή της ΠΚ για κάθε διαφορετικό χρόνο κυοφορίας Αλέξανδρος Γρυπάρης, PhD 35

(συνέχεια) Επίσης, η αύξηση αυτή φαίνεται να είναι γραμμική Δηλαδή μπορούμε να φανταστούμε μια ευθεία γραμμή να περνάει από αυτά τα σημεία Αλέξανδρος Γρυπάρης, PhD 36

Απλή γραμμική παλινδρόμηση Μπορούμε να προτείνουμε ένα μοντέλο για τη μέση τιμή του Υ (ΠΚ) ως συνάρτηση του Χ (χρόνος κυοφορίας) Στο προηγούμενο στικτόγραμμα είδαμε ότι η μέση τιμή του Υ αυξάνεται γραμμικά σε σχέση με το Χ Άρα, η σχέση αυτών των 2 μεταβλητών φαίνεται να ακολουθεί μια ευθεία γραμμή Υ περιφέρεια κεφαλιού, Χ χρόνος κυοφορίας, Ε(Υ Χ) μέση τιμή του Υ για μια συγκεκριμένη τιμή του Χ Εξίσωση της ευθείας γραμμής: E 0 1 ( Y X ) X Αλέξανδρος Γρυπάρης, PhD 37

Ερμηνεία Ο συντελεστής εξάρτησης β 1 (slope) μπορεί να είναι αρνητικός (αρνητική εξάρτηση) ή θετικός αριθμός (θετική εξάρτηση) ή να ισούται με το 0 (απουσία εξάρτησης). Εκφράζει το μέσο όρο της μεταβολής της εξαρτημένης μεταβλητής όταν η ανεξάρτητη μεταβληθεί κατά μία μονάδα. Ο συντελεστής εξάρτησης β 0 (intercept) εκφράζει τη μέση τιμή του Υ όταν το Χ είναι ίσο με 0 Αλέξανδρος Γρυπάρης, PhD 38

Ερμηνεία Ο συντελεστής που μας αφορά κυρίως είναι ο β 1 Σε πολλές περιπτώσεις η ερμηνεία του συντελεστή β 0 δεν έχει νόημα Γενικά δεν μας απασχολεί πολύ ο β 0, αλλά μόνο ο β 1 Παρ όλα αυτά, σχεδόν πάντα έχουμε τον συντελεστή β 0 στο μοντέλο μας, ακόμα και αν η ερμηνεία του δεν έχει νόημα Έτσι, στο παράδειγμά μας ερμηνεύεται σαν τη μέση περιφέρεια κεφαλιού του μωρού όταν είναι 0 εβδομάδων! Αλέξανδρος Γρυπάρης, PhD 39

Ερμηνεία Εξίσωση της ευθείας γραμμής: E 0 1 ( Y X ) X Y β0 - intercept Η τιμή της Ε(Υ Χ) για Χ=0 1 0 β1 - slope Μεταβολή στη Ε(Υ Χ) για αύξηση της Χ κατά 1 μονάδα 1 μονάδα X Αλέξανδρος Γρυπάρης, PhD 40

Ερμηνεία Εξίσωση της ευθείας γραμμής: E 0 1 ( Y X ) X Y Αν όταν αυξάνεται το Χ, αυξάνεται το Υ 1 θετικό β0 - intercept Η τιμή της Ε(Υ Χ) για Χ=0 0 β1 - slope Μεταβολή στη Ε(Υ Χ) για αύξηση της Χ κατά 1 μονάδα 1 μονάδα 1 X Αλέξανδρος Γρυπάρης, PhD 41

Ερμηνεία Εξίσωση της ευθείας γραμμής: E 0 1 ( Y X ) X Y Αν όταν αυξάνεται το Χ, μειώνεται το Υ 1 αρνητικό β0 - intercept Η τιμή της Ε(Υ Χ) για Χ=0 0 1 β1 - slope Μεταβολή στη Ε(Υ Χ) για αύξηση της Χ κατά 1 μονάδα 1 μονάδα X Αλέξανδρος Γρυπάρης, PhD 42

Απλή γραμμική παλινδρόμηση Αλέξανδρος Γρυπάρης, PhD 43

Απλή γραμμική παλινδρόμηση Στο SPSS: E ( Y X ) 210 3.4* X Αλέξανδρος Γρυπάρης, PhD 44

Απλή γραμμική παλινδρόμηση Άλλη απεικόνιση του γραμμικού μοντέλου είναι η: Y 0 1 ε σφάλμα β0 - intercept β1 - slope X Y E(Y X) (Χ,Υ): Παρατηρηθείσα τιμή στο δείγμα X Αλέξανδρος Γρυπάρης, PhD 45

Απλή γραμμική παλινδρόμηση Άλλη απεικόνιση του γραμμικού μοντέλου είναι η: Y 0 1 X (Χ,Υ): Παρατηρηθείσα τιμή στο δείγμα Για ένα συγκεκριμένο X, το μοντέλο προβλέπει: E(Y X) = b 0 + b 1 X Έτσι, e =Y - E(Y X) Χ Αλέξανδρος Γρυπάρης, PhD 46

Μέθοδος ελαχίστων τετραγώνων Πώς βρίσκουμε την ευθεία εξάρτησης που εφαρμόζει καλύτερα στα δεδομένα μας; Με άλλα λόγια, πώς υπολογίζουμε τα β0 και β1; Η γενική ιδέα είναι ότι ψάχνουμε την ευθεία γραμμή που ελαχιστοποιεί τα σφάλματα (ε)! Αλέξανδρος Γρυπάρης, PhD 47

Μέθοδος ελαχίστων τετραγώνων e = U - E(U C) Ορίσαμε: Για κάθε παρατήρηση i έχουμε: e i = U i - E(U i C i ) = U i - b 0 - b 1 C i Αυτή αντιπροσωπεύει την τιμή της Χ για το άτομο i Θέλουμε να υπολογίσουμε τις παραμέτρους β0 και β1 που ελαχιστοποιούν το άθροισμα των τετραγώνων: Άθροισμα τετραγώνων = å 2 e i = i å i ( U i - b 0 - b 1 C ) 2 i Οπότε ψάχνουμε τα β 0 και β 1 που ελαχιστοποιούν το παραπάνω άθροισμα Αλέξανδρος Γρυπάρης, PhD 48

(συνέχεια) Η μέθοδος αυτή δίνει: ˆ 1 n i=1 {(Y n i i=1 - (X Y)(X i - i X) - X)} 2 n i=1 Y X n i=1 i X i 2 i - - n i=1 ( n i=1 Y i n n n i=1 X ) i 2 X i r SD SD Y X ˆ 0 Y -b 1 X Αλέξανδρος Γρυπάρης, PhD 49

Προϋποθέσεις Η σχέση μεταξύ του Χ και Υ είναι γραμμική Οι παρατηρήσεις είναι ανεξάρτητες Για κάθε Χ, το Υ κατανέμεται κανονικά Αυτό σημαίνει ότι τα σφάλματα ε κατανέμονται κανονικά Η τυπική απόκλιση του Υ παραμένει σταθερή για όλα τα Χ (Ομοσκεδαστικότητα) Αλέξανδρος Γρυπάρης, PhD 50

Απλή γραμμική παλινδρόμηση Οι εκτιμώμενες παράμετροι είναι: Οι παράμετροι 0 ˆ και ˆ 1 είναι εκτιμήσεις των πραγματικών παραμέτρων β0 και β1 (παράμετροι του πληθυσμού), από το δείγμα μας Θέλουμε να εξάγουμε συμπεράσματα για το β1 Αλέξανδρος Γρυπάρης, PhD 51

Απλή γραμμική παλινδρόμηση Το βασικό ερώτημα, αφού εκτιμήσουμε το μοντέλο, είναι αν υπάρχει στατιστικά σημαντική «επίδραση» της μεταβλητής Χ στην Υ. Η «επίδραση» της Χ στην Υ δίνεται από την β1 Έτσι ελέγχουμε τη μηδενική υπόθεση H 0 : β1=0 Η p-value για την υπόθεση H 0 : β1=0 είναι <0.001 Συμπεραίνουμε ότι η πραγματική β1 είναι διαφορετική από το 0, δηλαδή υπάρχει στατιστικά σημαντική σχέση μεταξύ του χρόνου κυοφορίας και της περιφέρειας κεφαλιού ( περισσότερος χρόνος, μεγαλύτερο κεφάλι ) Ο έλεγχος για την β0 συνήθως δεν έχει ιδιαίτερη σημασία Αλέξανδρος Γρυπάρης, PhD 52

Διάστημα εμπιστοσύνης Μπορούμε να κατασκευάσουμε 95% Δ.Ε. για τις β0 και β1 Αλέξανδρος Γρυπάρης, PhD 53

(συν.) Έτσι, είμαστε 95% σίγουροι ότι στον πληθυσμό αναφοράς το β 1 παίρνει τιμές μεταξύ (2,538, 4,246) Δηλαδή, είμαστε 95% σίγουροι ότι στον πληθυσμό αναφοράς μας κάθε αύξηση του χρόνου κυοφορίας κατά μια εβδομάδα έχει σαν αποτέλεσμα μέση αύξηση της περιφέρειας κεφαλιού μεταξύ 2,538 και 4,246mm Αλέξανδρος Γρυπάρης, PhD 54

Προβλέψεις Η πρόβλεψη της Υ (για μια δεδομένη τιμή της Χ) βασίζεται και αυτή στις εκτιμημένες παραμέτρους του μοντέλου! Οπότε είναι και αυτή μια εκτίμηση της «πραγματικής» E(Y X) E(Y X) = b 0 + b 1 X Έτσι, μπορούμε να κατασκευάσουμε Δ.Ε. και για την E(Y X) Εδώ πρέπει να είμαστε πολύ συγκεκριμένοι στο τι ακριβώς ζητάμε, γιατί υπάρχουν 2 διαφορετικά Δ.Ε.!! Αλέξανδρος Γρυπάρης, PhD 55

Δ.Ε. για τις προβλέψεις Υπάρχει η πρόβλεψη για ένα συγκεκριμένο άτομο που έχει μια δοθείσα τιμή Χ Υπάρχει και η μέση πρόβλεψη για όλα τα άτομα που έχουν την ίδια δοθείσα τιμή Χ Οι προβλέψεις είναι ακριβώς οι ίδιες και για τις 2 παραπάνω περιπτώσεις: Ê(Y X) = ˆb 0 + ˆb 1 X Αλέξανδρος Γρυπάρης, PhD 56

Δ.Ε. για τις προβλέψεις Τα τυπικά σφάλματα, που αντιστοιχούν σε κάθε περίπτωση, διαφέρουν Το πρώτο είδος πρόβλεψης (για ένα συγκεκριμένο άτομο) έχει μεγαλύτερο τυπικό σφάλμα από το δεύτερο (τη μέση πρόβλεψη για όλα τα άτομα) Αυτό έχει σαν αποτέλεσμα και τα 95% διαστήματα εμπιστοσύνης να διαφέρουν. Αλέξανδρος Γρυπάρης, PhD 57

Παράδειγμα Στο επόμενο σχήμα παρουσιάζεται το διάγραμμα εξάρτησης της τιμής των τριγλυκεριδίων του ορού από την ηλικία (από μία παλαιότερη έρευνα), καθώς και η διακύμανση της γραμμής εξάρτησης Αυτή κατασκευάζεται με το να κατασκευάσουμε το 95% Δ.Ε. για κάθε τιμή Χ της ανεξάρτητης μεταβλητής Αλέξανδρος Γρυπάρης, PhD 58

Αλέξανδρος Γρυπάρης, PhD 59

(συν.) Έτσι, είναι φανερό ότι η διακύμανση της γραμμής παλινδρόμησης εξαρτάται από τις τιμές της μεταβλητής Χ Όταν η Χ προσεγγίζει τη μέση τιμή της, τότε τα τυπικά σφάλματα πρόβλεψης ελαττώνονται Όταν η Χ απομακρύνεται από τη μέση τιμή της, τότε τα τυπικά σφάλματα πρόβλεψης αυξάνονται Αλέξανδρος Γρυπάρης, PhD 60

Προεκτάσεις (extrapolations); Οι προβλέψεις για τιμές της Χ εκτός του εύρους των τιμών της Χ που είχαμε στο δείγμα μας θα πρέπει να αποφεύγεται Αυτό, διότι η μορφή της συνάρτησης εκτός του εύρους των τιμών της Χ είναι στην πραγματικότητα άγνωστη. Έτσι, στο επόμενο παράδειγμα δεν συνιστάται να κάνουμε προβλέψεις για ηλικίες κάτω των 10 ή άνω των 70 ετών Δεν ξέρουμε καν αν η σχέση είναι γραμμική σε αυτές τις τιμές Αλέξανδρος Γρυπάρης, PhD 61

Αλέξανδρος Γρυπάρης, PhD 62

Έλεγχος και εκτίμηση του μοντέλου Όταν κατασκευάσουμε την ευθεία παλινδρόμησης, ελέγχουμε: Πόσο καλό είναι το μοντέλο μας (goodness of fit) και αν πληρούνται οι προϋποθέσεις: Η σχέση μεταξύ του Χ και Υ είναι γραμμική Τα σφάλματα (ε) ακολουθούν την κανονική κατανομή Ομοσκεδαστικότητα Η τυπική απόκλιση του Υ παραμένει σταθερή για όλα τα Χ Αλέξανδρος Γρυπάρης, PhD 63

Έλεγχος και εκτίμηση του μοντέλου Goodness of fit Πόσο καλά το μοντέλο μας ακολουθεί τα δεδομένα, ή Πόσο καλά η Χ προβλέπει την Υ, ή Πόση από τη διασπορά στην Υ ερμηνεύεται από τη Χ, ή Πόσο καλή είναι η γραμμική σχέση μεταξύ Υ και Χ Καλύτερο Αλέξανδρος Γρυπάρης, PhD 64

Έλεγχος και εκτίμηση του μοντέλου Γνωρίζουμε ότι ένα μέτρο της γραμμικής σχέσης μεταξύ της Χ και της Υ αποτελεί ο συντελεστής γραμμικής συσχέτισης του Pearson (r) To r 2 μας δίνει το ποσοστό της μεταβλητότητας της Υ που εξηγείται από την Χ Αλέξανδρος Γρυπάρης, PhD 65

Έλεγχος και εκτίμηση του μοντέλου Πόση από τη διασπορά στην Υ ερμηνεύεται από τη Χ; Συντελεστής συσχέτισης του Pearson Έτσι, το r 2 εκτιμά την ερμηνευτική ικανότητα του μοντέλου (πόσο καλό είναι το μοντέλο) Αλέξανδρος Γρυπάρης, PhD 66

Έλεγχος και εκτίμηση του μοντέλου Στο προηγούμενο παράδειγμα προκύπτει ότι: r 2 = 0,12 Άρα ο χρόνος κυοφορίας ερμηνεύει το 12% της μεταβλητότητας της περιφέρειας του κεφαλιού Είναι καλό αυτό; Μήπως είναι λίγο; Είναι στατιστικά σημαντικό; Αλέξανδρος Γρυπάρης, PhD 67

Έλεγχος και εκτίμηση του μοντέλου Μια σημαντική ερώτηση είναι: Είναι το ποσοστό της μεταβλητότητας που ερμηνεύεται από το μοντέλο στατιστικά διαφορετικό από το 0; Εδώ p-value<0.001, οπότε συμπεραίνουμε ότι το ποσοστό της μεταβλητότητας που ερμηνεύεται από το μοντέλο είναι στατιστικά διαφορετικό από το 0 Άρα, το 12% είναι στατιστικά σημαντικό Αλέξανδρος Γρυπάρης, PhD 68

Έλεγχος και εκτίμηση του μοντέλου Αυτή η ερώτηση μπορεί να μας φαίνεται παρόμοια με την ερώτηση για το αν η μεταβλητή Χ έχει στατιστικά σημαντική «επίδραση» στην Υ: H 0 : β1=0 Στην περίπτωση της απλής γραμμικής παλινδρόμησης αυτές οι δύο ερωτήσεις είναι ισοδύναμες Αλέξανδρος Γρυπάρης, PhD 69

Διαγνωστικοί έλεγχοι Ο πιο συνηθισμένος τρόπος για να ελέγξουμε τις προϋποθέσεις, είναι να μελετήσουμε τα σφάλματα (ε) Αλέξανδρος Γρυπάρης, PhD 70

Διαγνωστικοί έλεγχοι Έτσι λοιπόν ελέγχουμε τα υπόλοιπα: Οι κουκίδες πρέπει να βρίσκονται γύρω από το 0 χωρίς κάποια συγκεκριμένη μορφή και με παρόμοια διασπορά Αλέξανδρος Γρυπάρης, PhD 71

Παραβίαση της ομοσκεδαστικότητας Αλέξανδρος Γρυπάρης, PhD 72

Αλέξανδρος Γρυπάρης, PhD 73

Αλέξανδρος Γρυπάρης, PhD 74

Αλέξανδρος Γρυπάρης, PhD 75

Διάγραμμα υπολοίπων εξάρτησης προς αναμενόμενες τιμές Το 1 ο σχήμα αποτελεί τυπική μορφή διαγραμμάτων όταν όλες οι προϋποθέσεις ισχύουν. Τα υπόλοιπα ε i κατανέμονται τυχαία πάνω και κάτω από τη γραμμή ε I =0. Αντίθετα, στο 2 ο σχήμα παρατηρείται αύξηση της διακύμανσης σε μεγαλύτερες προβλεπόμενες τιμές. Άρα, τουλάχιστον η προϋπόθεση σταθερής διακύμανσης (ομοσκεδαστικότητα) δεν ισχύει. Τέλος στο 3 ο σχήμα τα υπόλοιπα δεν κατανέμονται τυχαία. Αντίθετα παρουσιάζουν συστηματικότητα, υποδεικνύοντας ότι μία σημαντική ανεξάρτητη μεταβλητή (πιθανόν ένα δευτεροβάθμιος όρος) λείπει. Αλέξανδρος Γρυπάρης, PhD 76

Υπόθεση γραμμικότητας Πριν δεχθούμε ότι η σχέση εξαρτημένηςανεξάρτητης μεταβλητής είναι γραμμική, θα πρέπει να ελεγχθεί και γραφικά. Γραφικά μπορεί να ελεγχθεί με το στικτόγραμμα εξαρτημένης-ανεξάρτητης μεταβλητής. Το παράδειγμα ημερήσιας θνησιμότητας και ημερήσιας θερμοκρασίας είναι ένα κλασικό παράδειγμα μη γραμμικής σχέσης. Το αντίστοιχο διάγραμμα δείχνει ότι η σχέση είναι μάλλον παραβολοειδής. Αλέξανδρος Γρυπάρης, PhD 77

Σχέση μεταξύ μέσης ημερήσιας θνησιμότητας και μέσης ημερήσιας θερμοκρασίας Αλέξανδρος Γρυπάρης, PhD 78

Αλέξανδρος Γρυπάρης, PhD 79

Παράδειγμα, απλή γραμμική παλινδρόμηση N Mean Median Std. Deviation Percentiles Statistics Age of Body Mass Subjects Index (kg/m2) Valid 3035 2994 Mis sing 7 48 45,27 26,3347 45,00 25,8841 13,837 4,51400 25 35,00 23,2315 50 45,00 25,8841 75 54,00 28,9811 Περιγραφικά στοιχεία για την ηλικία και το Δείκτη Μάζας Σώματος (BMI) σε δείγμα ενηλίκων ανδρών και γυναικών. Correlations Age of Subjects Body Mass Index (kg/m2) Age of Subjects Pears on Correlation Sig. (2-tailed) 1,294**,000 N 3035 2994 Body Mass Index (kg/m2) Pears on Correlation,294** 1 Sig. (2-tailed) N,000 2994 2994 **. Correlation is s ignificant at the 0.01 level (2-tailed). Υπάρχει θετική συσχέτιση μεταξύ Δείκτη Μάζας Σώματος (BMI) και ηλικίας, ενηλίκων ανδρών και γυναικών. Αλέξανδρος Γρυπάρης, PhD 80

Παράδειγμα, απλή γραμμική παλινδρόμηση Model 1 (Cons tant) Age of Subjects Uns tandardized Coefficients a. Dependent Variable: Body Mass Index (kg/m2) Coefficients a Standardized Coefficients 95% Confidence Interval for B B Std. Error Beta t Sig. Lower Bound Upper Bound 22,003,269 81,646,000 21,474 22,531,096,006,294 16,811,000,085,107 Το μοντέλο της απλής γραμμικής παλινδρόμησης είναι Υ(ΒΜΙ) = 22,003 + 0,096 * Ηλικία Η συσχέτιση της ηλικίας με τον ΒΜΙ είναι στατιστικά σημαντική (p-value < 0,001) στον πληθυσμό της μελέτης. Για κάθε έτος αύξηση στην ηλικία (Χ) ο δείκτης μάζας σώματος (Υ) αυξάνει κατά 0,096 kg/m 2 Αλέξανδρος Γρυπάρης, PhD 81

ANOVA και R 2 Model 1 Regress ion Res idual Total ANOVA b Sum of Squares df Mean Square F Sig. 5263,024 1 5263,024 282,595,000 a 55722,814 2992 18,624 60985,838 2993 a. Predictors: (Constant), Age of Subjects b. Dependent Variable: Body Mass Index (kg/m2) Model 1 Model Summary b Adjus ted Std. Error of Durbi n- R R Square R Square the Estimate Watson,294 a,086,086 4,31555,878 a. Predictors: (Cons tant), Age of Subjects b. Dependent Variabl e: Body Mass Index (kg/m 2) Η ηλικία έχει μικρή ερμηνευτική ικανότητα για το ΒΜΙ: R 2 = 0,086 = 8,6%, αλλά στατιστικά σημαντική (p-value<0,001) Αλέξανδρος Γρυπάρης, PhD 82

Έλεγχοι καταλληλότητας του μοντέλου Ένδειξη για κανονική κατανομή των σφαλμάτων Αλέξανδρος Γρυπάρης, PhD 83

Έλεγχοι καταλληλότητας του μοντέλου Ένδειξη για ομοσκεδαστικότητα των σφαλμάτων Αλέξανδρος Γρυπάρης, PhD 84

Συντελεστής συσχέτισης ή απλή γραμμική παλινδρόμηση; Σχέση μεταξύ δύο ποσοτικών μεταβλητών Η διάκριση μεταξύ συσχέτισης και παλινδρόμησης (εξάρτησης) είναι περισσότερο εννοιολογική και λιγότερο στατιστική Εάν μας ενδιαφέρει η ένταση της σχέσης των δύο μεταβλητών, αρκεί ο συντελεστής συσχέτισης Εάν μας ενδιαφέρει η μελέτη της εξάρτησης της μιας μεταβλητής από την άλλη (εξαρτημένη μεταβλητή-ανεξάρτητη μεταβλητή) τότε επιλέγουμε την απλή γραμμική παλινδρόμηση Αλέξανδρος Γρυπάρης, PhD 85

Συντελεστής συσχέτισης ή απλή γραμμική παλινδρόμηση; ˆ 1 n i=1 {(Y n i i=1 - Y)(X (X i - i X) - 2 X)} r SD SD Y X Στην πράξη ο συντελεστής συσχέτισης r και ο συντελεστής β 1 της απλής γραμμικής παλινδρόμησης απαντούν στο ίδιο ερευνητικό ερώτημα Αλέξανδρος Γρυπάρης, PhD 86

Παράδειγμα Έστω ότι διερευνάται η εξάρτηση της θνησιμότητας από τροχαία ατυχήματα (Υ) σε διάφορες χώρες από 2 μεταβλητές: Χ 1 : αριθμός αυτοκινήτων ανά κάτοικο του γενικού πληθυσμού Χ 2 : πυκνότητα πληθυσμού ανά τετραγωνικό χλμ Μπορούμε να εφαρμόσουμε διαδοχικά δύο απλές γραμμικές εξαρτήσεις Στην πρώτη η ανεξάρτητη μεταβλητή είναι η Χ 1 Στην δεύτερη η ανεξάρτητη μεταβλητή είναι η Χ 2 Αλέξανδρος Γρυπάρης, PhD 87

(συν.) Αν οι δύο ανεξάρτητες μεταβλητές είναι συσχετισμένες; Π.χ. η Υ μπορεί να εξαρτάται μόνο από τη Χ 1 και όχι από τη Χ 2, αλλά η Χ 1 και η Χ 2 συσχετίζονται μεταξύ τους Θα προκύψει (έμμεση) εξάρτηση της Υ από τη Χ 2 (συγχυτικός παράγοντας) Στο παράδειγμά μας η θνησιμότητα από τροχαία ατυχήματα εξαρτάται από τον αναλογικό αριθμό αυτοκινήτων, ο οποίος συσχετίζεται θετικά με την πυκνότητα πληθυσμού Αλέξανδρος Γρυπάρης, PhD 88

(συν.) Ερώτηση: Υπάρχει τρόπος να διερευνήσουμε την εξάρτηση της εξαρτημένης μεταβλητής με μία ανεξάρτητη μεταβλητή, χωρίς να επηρεάζεται η σχέση αυτή από άλλες ανεξάρτητες μεταβλητές; Απάντηση: Η πολλαπλή γραμμική παλινδρόμηση Αλέξανδρος Γρυπάρης, PhD 89

Πολλαπλή γραμμική εξάρτηση (Multiple linear regression) Στην πολλαπλή γραμμική εξάρτηση διερευνάται η γραμμική σχέση μιας εξαρτημένης μεταβλητής με περισσότερες από μία ανεξάρτητες μεταβλητές. Συγκεκριμένα, μελετάται η γραμμική σχέση μιας εξαρτημένης μεταβλητής με καθεμία ανεξάρτητη μεταβλητή, χωρίς να επηρεάζεται από τις σχέσεις αυτών με τις υπόλοιπες ανεξάρτητες μεταβλητές. Για αυτό λέμε ότι «ελέγχονται» οι επιδράσεις των υπόλοιπων μεταβλητών Αλέξανδρος Γρυπάρης, PhD 90

Πολλαπλή γραμμική εξάρτηση (Multiple linear regression) Έτσι, στο προηγούμενο παράδειγμά μας, μπορούμε να διερευνήσουμε τη γραμμική σχέση μεταξύ της θνησιμότητας από τροχαία ατυχήματα με τον αναλογικό αριθμό αυτοκινήτων, ελέγχοντας γιά την πυκνότητα του πληθυσμού Και το αντίστροφο, δηλαδή να μελετήσουμε τη γραμμική σχέση μεταξύ της θνησιμότητας από τροχαία ατυχήματα με την πυκνότητα του πληθυσμού, ελέγχοντας για τον αναλογικό αριθμό αυτοκινήτων Αυτό γίνεται πραγματοποιώντας μια πολλαπλή γραμμική εξάρτηση, που περιέχει και τη Χ1 και τη Χ2 Αλέξανδρος Γρυπάρης, PhD 91

Παράδειγμα Σε μελέτη για τη διερεύνηση της επίδρασης του μολύβδου στην σωματομετρική ανάπτυξη των παιδιών, μελετήθηκαν παιδιά σχολικής ηλικίας (μεταξύ 6 και 10 ετών), από τρείς περιοχές: Λαύριο, Ελευσίνα και Λουτράκι. Το συνολικό δείγμα αποτελείται από 522 παιδιά, 274 αγόρια και 248 κορίτσια ηλικίας 6-9 χρονών. Μέρος των δεδομένων παρουσιάζεται στον πίνακα που ακολουθεί (Kafourou et al, Archives of Environmental health, 1997; 52: 377-383). Αλέξανδρος Γρυπάρης, PhD 92

Πίνακας Κωδικός Πόλη Ηλικία Ανάστημα Μόλυβδος Ανάστημα (έτη) πατέρα (cm) ( g/ml) παιδιού (cm) 353 2 8 172 23.42 116 419 2. 165 51.17 107 19 1 8 152. 114 26 1 7 177 5.94 122 506 2 7 155 20.21 119 683 3 8 170 4.16 117 612 3 7 164 9.78 112 97 1 8 164. 121... Για την πόλη 1 σημαίνει Λουτράκι, 2 Λαύριο και 3 Ελευσίνα. = Eλλείπουσες τιμές (missing values) Αλέξανδρος Γρυπάρης, PhD 93

Πολλαπλή γραμμική εξάρτηση (Multiple linear regression) Έστω Υ η εξαρτημένη μεταβλητή που μας ενδιαφέρει. Έστω Χ 1, Χ 2,, Χ p αντιπροσωπεύουν p ανεξάρτητες μεταβλητές. Για παράδειγμα στα δεδομένα του μολύβδου: Εξαρτημένη μεταβλητή το ύψος του παιδιού (Υ) Ανεξάρτητες μεταβλητές: 1. οι τιμές του μολύβδου (Χ 1 ), 2. το ύψος του πατέρα (Χ 2 ), 3. το επίπεδο μόρφωσης του πατέρα (Χ 3 ) και 4. η ηλικία του παιδιού (Χ 4 ). Αλέξανδρος Γρυπάρης, PhD 94

(συν.) Τότε, κατά αντιστοιχία με την απλή γραμμική εξάρτηση, το μοντέλο θα μπορούσε να γραφεί ως: Yˆi =E(Y i Χ 1i,Χ 2i,, Χ pi )=β 0 +β 1 Χ 1i +β 2 Χ 2i + +β p X pi ή ισοδύναμα Υ i = β 0 +β 1 Χ 1i +β 2 Χ 2i + +β p X pi +ε i = όπου ε i συμβολίζουν πάλι τα υπόλοιπα (σφάλματα). Yˆi +ε i Αλέξανδρος Γρυπάρης, PhD 95

(συν.) Όπως και στην απλή γραμμική εξάρτηση ο σκοπός είναι να εκτιμηθούν οι παράμετροι β i του μοντέλου από το δείγμα: Ŷ i = ˆ ˆ X 0 1 1i ˆ X Τα παρατηρηθέντα υπόλοιπα υπολογίζονται αντίστοιχα ως: 2 2i... ˆ X p pi ˆ + ˆ X + ˆ X...+ ˆ i (Yi - Ŷ i) = [Yi - ( o 1 1i 2 2i pxpi)] Αλέξανδρος Γρυπάρης, PhD 96

Προϋποθέσεις Οι προϋποθέσεις της πολλαπλής γραμμικής εξάρτησης είναι αντίστοιχες της απλής γραμμικής εξάρτησης. Αλέξανδρος Γρυπάρης, PhD 97

Ανεξάρτητες μεταβλητές Στην πολλαπλή γραμμική εξάρτηση οι ανεξάρτητες μεταβλητές δεν είναι απαραίτητο να είναι ποσοτικές μεταβλητές. Ποιοτικές μεταβλητές, όπως το φύλο ή το επάγγελμα, μπορούν να χρησιμοποιηθούν σαν ανεξάρτητες μεταβλητές. Όταν μια ποιοτική μεταβλητή έχει μόνο δύο επίπεδα εισάγεται στο μοντέλο ως έχει. Π.χ. το φύλο: άνδρας (κωδικοποιημένο ως 1) και γυναίκα (κωδικοποιημένο ως 2) Αλέξανδρος Γρυπάρης, PhD 98

Ψευδομεταβλητές Όταν μια ποιοτική μεταβλητή έχει περισσότερα των δύο επιπέδων απαιτείται η δημιουργία ψευδομεταβλητών (dummy variables or indicator variables). Π.χ. επάγγελμα πατέρα, στα δεδομένα του μολύβδου, κωδικοποιημένο ως: ανειδίκευτος:1, ειδικευμένος:2, πανεπιστημιακής εκπαίδευσης:3 Αλέξανδρος Γρυπάρης, PhD 99

(συν.) Στο παράδειγμα του επαγγέλματος θα μπορούσαν να δημιουργηθούν 3 ψευδομεταβλητές: μία για τους ανειδίκευτους (job1), μία για τους ειδικευμένους (job2) και μια για τους έχοντες πανεπιστημιακή μόρφωση (job3). Η καθεμία από αυτές παίρνει την τιμή 1 όταν το άτομο ανήκει στη συγκεκριμένη κατηγορία (επάγγελμα) και 0 στις υπόλοιπες περιπτώσεις. Αλέξανδρος Γρυπάρης, PhD 100

(συν.) Η ψευδομεταβλητή job1, για παράδειγμα, που αναφέρεται στους ανειδίκευτους, θα έχει: την τιμή 1 για όλους τους ανειδίκευτους και την τιμή 0 για όλους τους υπόλοιπους. Στο μοντέλο της γραμμικής εξάρτησης εισάγονται τόσες ψευδομεταβλητές όσος και ο αριθμός των επιπέδων της αρχικής ποιοτικής μεταβλητής μείον 1. Άρα, στο παράδειγμα του επαγγέλματος του πατέρα θα εισαχθούν στο μοντέλο 2 ψευδομεταβλητές (όποιες κρίνεται σκόπιμο). Η ψευδομεταβλητή πού δεν εισάγεται στο μοντέλο αποτελεί το επίπεδο αναφοράς (reference level/category). Αλέξανδρος Γρυπάρης, PhD 101

Επάγ/μα πατ. job1 job2 job3 1 3 3 2 1 2 2 1 3 Αλέξανδρος Γρυπάρης, PhD 102

Επάγ/μα πατ. job1 job2 Job3 1 1 0 0 3 0 0 1 3 0 0 1 2 0 1 0 1 1 0 0 2 0 1 0 2 0 1 0 1 1 0 0 3 0 0 1 Αλέξανδρος Γρυπάρης, PhD 103

Ερμηνεία των μερικών συντελεστών εξάρτησης Οι συντελεστές πολλαπλής εξάρτησης ονομάζονται μερικοί συντελεστές εξάρτησης (partial regression coefficients). Ο συντελεστής μερικής εξάρτησης εκφράζει τη μεταβολή της εξαρτημένης μεταβλητής όταν η αντίστοιχη ανεξάρτητη μεταβλητή μεταβληθεί κατά μία μονάδα, διατηρώντας τις υπόλοιπες μεταβλητές του μοντέλου σταθερές. Αλέξανδρος Γρυπάρης, PhD 104

(συν.) Όταν πρόκειται για ποιοτικές μεταβλητές με περισσότερα των δύο επιπέδων αυτό μεταφράζεται ως η μέση διαφορά στην εξαρτημένη μεταβλητή για άτομα της κατηγορίας στην οποία αναφέρεται η αντίστοιχη ψευδομεταβλητή από τα άτομα που ανήκουν στην κατηγορία αναφοράς. Αλέξανδρος Γρυπάρης, PhD 105

Εφαρμογή Στον πίνακα δίνονται τα αποτελέσματα πολλαπλής γραμμικής εξάρτησης με εξαρτημένη μεταβλητή το ανάστημα του παιδιού και ανεξάρτητες την ηλικία του, το επάγγελμα του πατέρα, εισάγοντας στο μοντέλο τις ψευδομεταβλητές job2 (ειδικευμένοι) και job3 (πανεπιστημιακής μόρφωσης), τα επίπεδα μολύβδου (μετά από λογαριθμικό μετασχηματισμό) και το φύλο (άνδρες:1, γυναίκες:2). Αλέξανδρος Γρυπάρης, PhD 106

(συν.) Model Coeffs. SE t Sig. Constant 88,383 2,264 39,034 0,000 AGE 4,645 0,284 16,351 0,000 JOB2 2,469 0,493 5,004 0,000 JOB3 2,437 0,980 2,488 0,013 LLEAD -0,737 0,314-2,348 0,019 SEX -0,669 0,442-1,513 0,131 Αλέξανδρος Γρυπάρης, PhD 107

(συν.) Οπότε, με βάση τα αποτελέσματα που παρουσιάζονται στον προηγούμενο πίνακα, το γραμμικό μοντέλο εξάρτησης μπορεί να γραφεί ως: Ŷ i 88,383 + 4,645*AGE + 2,469*JOB2 + + 2,437*JOB3-0,737*LLEAD 0,669*SEX Αλέξανδρος Γρυπάρης, PhD 108

(συν.) Ο μερικός συντελεστής εξάρτησης για την ηλικία είναι 4,645. Αυτό μπορεί να ερμηνευτεί ως: αύξηση της ηλικίας κατά ένα έτος σχετίζεται με μέση αύξηση του ύψους των παιδιών κατά 4,645 cm, διατηρώντας τις υπόλοιπες μεταβλητές του μοντέλου σταθερές. Οπότε, αύξηση της ηλικίας κατά τρία έτη τι αποτέλεσμα θα έχει; μέση αύξηση του ύψους των παιδιών κατά 3 * 4,645 13,9 cm, διατηρώντας τις υπόλοιπες μεταβλητές του μοντέλου σταθερές. Αλέξανδρος Γρυπάρης, PhD 109

(συν.) Ο μερικός συντελεστής εξάρτησης για το φύλο είναι -0.669 και ερμηνεύεται ως εξής: Τα κορίτσια (κωδικός: 2) έχουν κατά μέσο 0.669 cm χαμηλότερο ανάστημα από τα αγόρια (κωδικός: 1), διατηρώντας τις υπόλοιπες μεταβλητές του μοντέλου σταθερές. Αλέξανδρος Γρυπάρης, PhD 110

(συν.) Ο μερικός συντελεστής εξάρτησης για τη ψευδομεταβλητή job2 είναι 2,469. Αυτό θα μπορούσε να ερμηνευτεί ως: τα παιδιά των ειδικευμένων έχουν κατά μέσο όρο υψηλότερο ανάστημα από τα παιδιά των ανειδίκευτων (κατηγορία αναφοράς) κατά 2,469 cm, διατηρώντας τις υπόλοιπες μεταβλητές του μοντέλου σταθερές. Αλέξανδρος Γρυπάρης, PhD 111

(συν.) Αντίστοιχα, τα παιδιά των γονιών με πανεπιστημιακή μόρφωση έχουν κατά μέσο όρο υψηλότερο ανάστημα από τα παιδιά των ανειδίκευτων (κατηγορία αναφοράς) κατά 2,437 cm, διατηρώντας τις υπόλοιπες μεταβλητές του μοντέλου σταθερές. Αλέξανδρος Γρυπάρης, PhD 112

(συν.) Στο παραπάνω παράδειγμα, οι συντελεστές μερικής εξάρτησης τόσο της ψευδομεταβλητής job2 όσο και της job3 είναι στατιστικά σημαντικοί. Αν όμως παρατηρήσουμε προσεκτικότερα, θα δούμε ότι οι δύο συντελεστές δεν φαίνεται να διαφέρουν μεταξύ τους, υποδεικνύοντας ότι το ύψος των παιδιών των ειδικευμένων δεν φαίνεται να διαφέρει από το ύψος των παιδιών των γονέων με πανεπιστημιακή μόρφωση. Αλέξανδρος Γρυπάρης, PhD 113

Έλεγχος υποθέσεων Ο έλεγχος για την σημαντικότητα των μερικών συντελεστών εξάρτησης γίνεται, παρόμοια με τον αντίστοιχο έλεγχο στην απλή γραμμική εξάρτηση, με το t τεστ. Στο προηγούμενο παράδειγμα, όλοι οι συντελεστές μερικής εξάρτησης είναι στατιστικά σημαντικοί (p-value<0.05), εκτός του φύλου. Τα 95% Δ.Ε. κάθε συντελεστή υπολογίζονται παρόμοια με την απλή γραμμική εξάρτηση. Αλέξανδρος Γρυπάρης, PhD 114

Προβλέψεις Στο προηγούμενο παράδειγμα να υπολογιστεί το ανάστημα ενός 7-χρονου αγοριού, με πατέρα απόφοιτο Γυμνασίου, εκτεθειμένο σε επίπεδα μολύβδου 2,3 μg/m 3. Ύψος= 88,383+4,645*AGE+2,469*JOB2+ 2,437*JOB3-0,737*LLEAD-0,669*SEX Αλέξανδρος Γρυπάρης, PhD 115

(συν.) Άρα: Ύψος = 88,383+4,645*7+2,469*0+ 2,437*0-0,737*0,833-0,669*1= = 119,6 cm Έτσι, ένα μέσο αγόρι με τα χαρακτηριστικά που μας ζητήθηκε θα έχει προβλεπόμενο μέσο ύψος 119,6 cm. Αλέξανδρος Γρυπάρης, PhD 116

(συν.) Πόσο θα διαφέρει το ύψος του αγοριού που μόλις υπολογίσαμε από αυτό ενός κοριτσιού 6 ετών, με πατέρα απόφοιτο ΑΕΙ, εκτεθειμένο σε επίπεδα μολύβδου 1,4 μg/m 3 ; Ύψος = 88,383+4,645*6+2,469*0+ 2,437*1-0,737*0,336-0,669*2= = 117,1 cm Έτσι το αγόρι θα είναι ψηλότερο κατά μέσο όρο κατά 119,6-117,1=2,5 cm Αλέξανδρος Γρυπάρης, PhD 117