Εισαγωγή στη Στατιστική

Σχετικά έγγραφα
Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

9. Παλινδρόμηση και Συσχέτιση

Αναλυτική Στατιστική

Εισαγωγή στη Στατιστική

Εισαγωγή στη Στατιστική

Απλή Παλινδρόμηση και Συσχέτιση

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

Εισαγωγή στη Στατιστική

Στατιστική Ι. Ανάλυση Παλινδρόμησης

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

Εισόδημα Κατανάλωση

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

7.1.1 Η Μέθοδος των Ελαχίστων Τετραγώνων

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Περιεχόμενα. Πρόλογος... 15

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 30 Μαρτίου /32

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Στατιστική Επιχειρήσεων Ι

Διαχείριση Υδατικών Πόρων

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Μοντέλα Παλινδρόμησης. Άγγελος Μάρκος, Λέκτορας ΠΤ Ε, ΠΘ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

3η Ενότητα Προβλέψεις

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

x y max(x))

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΕΞΕΤΑΣΗ ΤΗΣ ΣΧΕΣΗΣ ΔΥΟ ΜΕΤΑΒΛΗΤΩΝ

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

Στατιστική Επιχειρήσεων Ι

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Ενδεικτικές ασκήσεις ΔΙΠ 50

Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις περιόδου στο μάθημα ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική


ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Εφαρμοσμένη Στατιστική

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

Στατιστική ανάλυση αποτελεσμάτων

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΠΑΛΙΝ ΡΟΜΗΣΗ..Π.Μ.Σ. Μαθηµατικά των Υπολογιστών και των Αποφάσεων. Πάτρα, 27 Ιανουαρίου 2011

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

ΣΤΑΤΙΣΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

ΑΣΚΗΣΕΙΣ ΔΙΑΣΤΗΜΑΤΩΝ ΕΜΠΙΣΤΟΣΥΝΗΣ. Άσκηση 1. Βρείτε δ/μα εμπιστοσύνης για τη μέση τιμή μ κανονικού πληθυσμού όταν n=20,

1. Θα χρησιμοποιηθεί το αρχείο Ο γονικός έλεγχος στην εφηβική ηλικία. Στο. i. Με ποιες μεταβλητές που αφορούν σε σχέσεις εφήβων με τους γονείς τους

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40]

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Χ. Εμμανουηλίδης, 1

Το στατιστικό κριτήριο που μας επιτρέπει να. μιας ή πολλών άλλων γνωστών μεταβλητών. Η σχέση ανάμεσα στις μεταβλητές που μελετώνται

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

Στατιστική: Δειγματοληψία X συλλογή δεδομένων. Περιγραφική στατιστική V πίνακες, γραφήματα, συνοπτικά μέτρα

Στατιστική Επιχειρήσεων ΙΙ

Στασιμότητα χρονοσειρών Νόθα αποτελέσματα-spurious regression Ο έλεγχος στασιμότητας είναι απαραίτητος ώστε η στοχαστική ανάλυση να οδηγεί σε ασφαλή

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ: ΑΣΚΗΣΕΙΣ

Transcript:

Εισαγωγή στη Στατιστική Μετεκπαιδευτικό Σεμινάριο στην ΨΥΧΟΚΟΙΝΩΝΙΚΗ ΑΠΟΚΑΤΑΣΤΑΣΗ ΨΥΧΟΚΟΙΝΩΝΙΚΕΣ ΘΕΡΑΠΕΥΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο.

Περιεχόμενα Εισαγωγή στη Στατιστική Επιδημιολογικές Μελέτες Περιγραφική Στατιστική Στατιστική Συμπερασματολογία Ένα Δείγμα Δύο Ανεξάρτητα Δείγματα Δείγματα κατά Ζεύγη Ποσοστά Έλεγχος Καλής Προσαρμογής Πίνακες Συνάφειας 2 2. Ανάλυση Διασποράς 2

Εισαγωγή Αρκετές φορές σε μια στατιστική μελέτη ερχόμαστε αντιμέτωποι με το πρόβλημα της πρόβλεψης μιας μεταβλητής (μεταβλητή απόκρισης) όταν γνωρίζουμε τις τιμές κάποιας ή κάποιων άλλων μεταβλητών (επεξηγηματικές μεταβλητές). Ας θεωρήσουμε καταρχήν ότι έχουμε μία μόνο επεξηγηματική μεταβλητή. 3

Απλό Γραμμικό Μοντέλο Πιο συγκεκριμένα ας υποθέσουμε ότι Υ είναι η μεταβλητή απόκρισης και Χ η επεξηγηματική μεταβλητή και ας υποθέσουμε ότι και οι δύο μεταβλητές είναι ποσοτικές. Σκοπός μας είναι να δημιουργήσουμε ένα μοντέλο, έστω Y=g(X), έτσι ώστε στο μέλλον να μπορούμε να προσδιορίσουμε την τιμή του Y με βάση την τιμή του Χ. 4

Απλό Γραμμικό Μοντέλο Πως όμως επιλέγουμε την συναρτησιακή μορφή της g(x); Η επιλογή της κατάλληλης συνάρτησης g(x) μπορεί γίνει με την βοήθεια ενός τυχαίου δείγματος (Υ 1,Χ 1 ),...,(Υ n,x n ). Πιο συγκεκριμένα αν (y 1,x 1 ),,(y n,x n ) οι παρατηρήσεις μας, τότε μπορούμε να σχηματίσουμε το γράφημα των σημείων (y i,x i ), γνωστό ως διάγραμμα διασποράς των σημείων, και να εκτιμήσουμε την συναρτησιακή μορφή της g. Στο επόμενο γράφημα, π.χ., το διάγραμμα διασποράς υποδεικνύει ότι η σχέση της Χ με την Υ είναι γραμμική και άρα μπορούμε να θεωρήσουμε ότι g(x)=a+bx. Μένει τότε να εκτιμήσουμε τις τιμές των a και b, με την βοήθεια και πάλι της πληροφορίας που έχουμε από το τυχαίο δείγμα. 5

Απλό Γραμμικό Μοντέλο y 5 10 15 20 40 60 80 x 6

Απλό Γραμμικό Μοντέλο H ανάλυση μας λοιπόν είναι εμπειρική (βασίζεται στην υπάρχουσα εμπειρία μας με βάση το τυχαίο δείγμα) και άρα το μοντέλο μας είναι στοχαστικό. Αντιθέτως αν η ανάλυσή μας ήταν θεωρητική, γνωρίζαμε δηλαδή όλον τον πληθυσμό, το μοντέλο θα ήταν προσδιοριστικό. Στα στοχαστικά μοντέλα προφανώς έχουμε ελλιπή πληροφορία, το μοντέλο στο οποίο θα καταλήξουμε μπορεί να μην ικανοποιείται ακριβώς για ζεύγη τιμών του πληθυσμού που δεν έχουν παρατηρηθεί στο τυχαίο δείγμα. Για τον λόγο αυτό στο μοντέλο προσθέτουμε και ένα τυχαίο σφάλμα ε το οποίο θεωρούμε ότι προέρχεται από μια γνωστή κατανομή με άγνωστες παραμέτρους. Το στοχαστικό δηλαδή μοντέλο παίρνει την μορφή Υ = g(x) + ε. Ακούγεται λογικό να θεωρήσουμε ότι η μέση τιμή του ε είναι 0, δηλαδή κατά μέσο όρο το σφάλμα μας είναι μηδενικό. Συνήθως θεωρούμε ε~ν(0, σ 2 ), με σ 2 άγνωστο. 7

Απλό Γραμμικό Μοντέλο Ας θεωρήσουμε τώρα ότι η g είναι μια γραμμική συνάρτηση, g(x) = a + bx, με a, b άγνωστες ποσότητες. Δηλαδή θεωρούμε ότι η τυχαία μεταβλητή Χ επηρεάζει γραμμικά την αναμενόμενη τιμή της τυχαίας μεταβλητής Y. 2 Y= a+ bx +ε, ε Ν(0,σ ) Ε( Υ Χ ) = a+ bx Ισοδύναμα σε τυχαίο δείγμα (Υ 1,Χ 1 ),...,(Υ n,x n ) θεωρούμε ότι ισχύει η σχέση Y = a+ bx +ε, ε Ν(0,σ ) Ε( Υ Χ ) = a+ bx 2 i i i i i i i με ε i ανεξάρτητες τυχαίες μεταβλητές. 8

Απλό Γραμμικό Μοντέλο Το παραπάνω μοντέλο καλείται απλό (γιατί έχουμε μία μόνο επεξηγηματική μεταβλητή Χ) γραμμικό (λόγο της γραμμικής συνάρτησης που χρησιμοποιούμε) μοντέλο παλινδρόμησης. Τα a, b και σ 2 είναι οι άγνωστες παράμετροι του μοντέλου μας (συντελεστές μοντέλου), τις οποίες θα εκτιμήσουμε με την βοήθεια των παρατηρήσεων που διαθέτουμε (y 1,x 1 ),,(y n,x n ) που είναι οι τιμές ενός τυχαίου δείγματος (Υ 1,Χ 1 ),...,(Υ n,x n ). 9

Ερμηνεία παραμέτρων Ησταθεράa εκφράζει την μέση τιμή της Υ όταν το Χ=0. H σταθερά b εκφράζει το πόσο αναμένεται να μεταβληθεί η αναμενόμενη τιμή της Υ, αν η Χ αυξηθεί κατά μία μονάδα. Η ποσότητα σ 2 εκφράζει την διασπορά των σφαλμάτων, την οποία θεωρούμε σταθερή ανεξάρτητα της τιμής της τ.μ. Χ (υπόθεση ομοσκεδαστικότητας). Επειδή η τυχαιότητα της Υ δεδομένης μιας τιμής της Χ οφείλεται στα σφάλματα, το σ 2 εκφράζει και την διασπορά της δεσμευμένης κατανομής της τ.μ. Υ Χ. 10

Απλό Γραμμικό Μοντέλο Εκτιμώντας λοιπόν τα a και b από τα και αντίστοιχα καταλήγουμε στο Ŷ Το καλείται προβλεπόμενη τιμή και είναι όπως είδαμε η αναμενόμενη που θα πάρει η τ.μ. Υ όταν Χ=x, όπως αυτήν την εκτιμήσαμε με βάση το μοντέλο παλινδρόμησης. Η προβλεπόμενη τιμή είναι τ.μ., δηλαδή για διαφορετικό δείγμα ενδέχεται να πάρει άλλη τιμή όταν X=x. Η προβλεπόμενη τιμή αποτελεί μία αμερόληπτη εκτιμήτρια της άγνωστης τιμής y όπου παίρνει η τ.μ. ΥότανX=x. Παρακάτω θα δούμε ένα Δ.Ε. για την τιμή αυτή y όταν X=x. Yˆ = aˆ + bx. ˆ 11 â ˆb

Απλό Γραμμικό Μοντέλο Για κάθε παρατήρηση x i μπορούμε να υπολογίσουμε τις προβλεπόμενες τιμές ŷ = aˆ + bx ˆ. Αν η ευθεία â+ bx ˆ δεν περνάει ακριβώς από i τα σημεία (y i,x i ), περιμένουμε να έχουμε αποκλίσεις μεταξύ των y i και των ŷ i. Οι ποσότητες εˆ i = yi yˆ i αποτελούν τις εκτιμήσεις των σφαλμάτων των μετρήσεων και καλούνται υπόλοιπα (residuals). i i 12

Απλό Γραμμικό Μοντέλο Τους συντελεστές του μοντέλου τους εκτιμούμε με βάση τις παρατηρήσεις (y 1,x 1 ),...,(y n,x n ), εφαρμόζοντας τη μέθοδο ελαχίστων τετραγώνων. Με την μέθοδο ελαχίστων τετραγώνων επιλέγουμε την ευθεία (δηλαδή τα â και ˆb ) εκείνη που προσαρμόζεται καλύτερα στα δεδομένα που έχουμε. Πιο συγκεκριμένα επιλέγουμε την ευθεία εκείνη y= aˆ + bx ˆ που ελαχιστοποιεί τα ˆε. i 13

Απλό Γραμμικό Μοντέλο Τα a ˆ και b ˆ τέτοια ώστε να n n 2 i + i = εi i= 1 i= 1 [ ] 2 ελαχιστοποιείται η συνάρτηση y (a bx ). 14

Απλό Γραμμικό Μοντέλο Μετά από πράξεις προκύπτουν τότε οι εκτιμήτριες ˆb = n 1 ( x x)( y y) i ( x x) n 2 1 i i â = y bx ˆ οι οποίες είναι τυχαίες μεταβλητές (από διαφορετικό δείγμα ενδέχεται να προκύψουν διαφορετικές εκτιμήτριες). 15

Απλό Γραμμικό Μοντέλο Το σ 2 το εκτιμούμε από την ποσότητα 1 s y y n 2 = n 2 2 yx = ( i ˆ i) Εκτίμηση διασποράς των σφαλμάτων i 1 Η θετική τετραγωνική της ρίζα της παραπάνω εκτιμήτριας καλείται τυπικό σφάλμα της παλινδρόμησης και όσο μικρότερη τιμή έχει τόσο καλύτερη προσαρμογή έχουμε για το μοντέλο παλινδρόμησης. 16

Απλό Γραμμικό Μοντέλο 17

Συντελεστής Συσχέτισης Ο συντελεστής συσχέτισης (correlation coefficient) μεταξύ των τ.μ. Χ και Υ εκφράζει το βαθμό στον οποίο μπορούμε να εκτιμήσουμε γραμμικά τη μία τ.μ. όταν γνωρίζουμε την τιμή της άλλης. ρ = CovX,Y/VXVY ( ) { [ ] [ ]} Όταν ρ=0 οι τ.μ. Χ και Υ είναι ασυσχέτιστες. Όταν ρ=1 υπάρχει τέλεια θετική γραμμική συσχέτιση των δύο τ.μ. ενώ όταν ρ=-1 υπάρχει τέλεια αρνητική γραμμική συσχέτιση. 18

Συντελεστής Συσχέτισης Όταν δεν γνωρίζουμε το ρ το εκτιμούμε με την βοήθεια των παρατηρήσεων (y i,x i ) r = n 1 ( x x)( y y) i { n n ( x ) 2 ( ) 2 } i x yi y 1 1 i 1/2 από το δειγματικό συντελεστή συσχέτισης. 19

Συντελεστής Συσχέτισης Ο δειγματικός συντελεστής συσχέτισης εκτιμά το βαθμό στον οποίο οι τ.μ. Χ και Υ είναι γραμμικά συσχετισμένες, χωρίς να συνεπάγεται κατά ανάγκη κάποιο είδος αιτιακής σχέσης μεταξύ των Χ και Υ. Αρκετά συχνά μας ενδιαφέρει να ελέγξουμε, σε ε.σ. έστω α%, κατά πόσο οι δύο τ.μ. Χ και Υ είναι ασυσχέτιστες ή όχι, δηλαδή τον έλεγχο Η 0 : ρ=0 με εναλλακτική Η 1 : ρ 0. Αποδεικνύεται ότι κάτω από την μηδενική υπόθεση r T= n 2 St( n 2 ). 2 1 r 20

Συντελεστής Συσχέτισης Υπολογίζουμε λοιπόν την τιμή του στατιστικού ελέγχου Τ και η P-τιμή του αμφίπλευρου ελέγχου είναι 2 φορές η πιθανότητα δεξιά του Τ με βάση την St(n-2). Αν οι δυο μεταβλητές δεν είναι ποσοτικές τότε ο παραπάνω έλεγχος (γνωστός με το όνομα Pearson correlation coefficient test) δεν είναι πλέον έγκυρος. Πρέπει αντί αυτού να εφαρμοστεί ο μη παραμετρικός Spearman rank correlation coefficient test, κατά τον οποίο αντικαθιστούμε τις παρατηρήσεις με την σειρά κατάταξης των τιμών τους (rank) και εφαρμόζουμε την προηγούμενη μεθοδολογία. 21

Συντελεστής Συσχέτισης Παράδειγμα. Έχουμε μετρήσεις της συστολικής πίεσης (mm Hg) και του βάρους (oz) 16 νεογνών. Θέλουμε να ελέγξουμε, σε ε.σ. έστω 5%, κατά πόσο οι παραπάνω δύο τ.μ. είναι ασυσχέτιστες ήόχι. 22

Συντελεστής Συσχέτισης 23

Συντελεστής Συσχέτισης 24

Συντελεστής Συσχέτισης Δειγματικός συντελεστής συσχέτισης r 25 P-τιμή αμφίπλευρου ελέγχου. Δεν έχουμε σοβαρές ενδείξεις εναντίον της H 0, οπότε δεχόμαστε ότι η συστολική πίεση και το βάρος είναι ασυσχέτιστες τ.μ.

Συντελεστής Συσχέτισης Παράδειγμα. Έχουμε μετρήσεις του apgar score 1 λεπτό και 5 λεπτά μετά την γέννηση 24 νεογνών. Θέλουμε να ελέγξουμε, σε ε.σ. έστω 5%, κατά πόσο οι παραπάνω δύο τ.μ. είναι ασυσχέτιστες ήόχι. 26

Συντελεστής Συσχέτισης 27

Συντελεστής Συσχέτισης 28

Συντελεστής Συσχέτισης Δειγματικός συντελεστής συσχέτισης του Spearman P-τιμή αμφίπλευρου ελέγχου. Έχουμε σοβαρές ενδείξεις εναντίον της H 0, οπότε δεχόμαστε ότι τα apgar score 1 και 5 λεπτά μετά την γέννα είναι συσχέτισμένες τ.μ. 29

Συντελεστής Προσδιορισμού Στο απλό γραμμικό μοντέλο η ποσότητα R = 1 ( yi yˆ i) ( y y) καλείται συντελεστής προσδιορισμού, παίρνει τιμές στο [0,1] και εκφράζει το ποσοστό της διασποράς της τ.μ. Υ που εξηγείται με βάση το μοντέλο παλινδρόμησης. Αποδεικνύεται ότι, στο απλό γραμμικό μοντέλο, η παραπάνω ποσότητα ισούται με το τετράγωνο του δειγματικού συντελεστή συσχέτισης r. Γενικά όσο μεγαλύτερες τιμές παίρνει ο συντελεστής προσδιορισμού τόσο καλύτερη προσαρμογή της ευθείας έχουμε, υπό την προϋπόθεση ότι το γραμμικό μοντέλο είναι το κατάλληλο. n 2 i= 1 n i= 1 i 2 2 30

Συντελεστής Προσδιορισμού Αρκετές φορές υπολογίζουμε και τον διορθωμένο συντελεστή προσδιορισμού 2 R 1 = n i= 1 n i= 1 ( yi yˆ i) ( y y) i του οποίου η ερμηνεία δίνεται στο πολλαπλό γραμμικό μοντέλο. 2 2 n 2 n 1 31

Συντελεστής Προσδιορισμού Fitted values/var6 0 5 10 15 0 5 10 15 var5 Fitted values R 2 =0.46 var6.5 1 1.5 2 2.5 Fitted values/advertising expenditures ($ million) Εσφαλμένη υπόθεση γραμμικότητας R 2 =0.69 10 20 30 40 var4 Fitted values Advertising expenditures ($ million) 32

Συμπερασματολογία στο Απλό Γραμμικό Μοντέλο Οι εκτιμήσεις των a και b που λαμβάνουμε με την μέθοδο ελαχίστων τετραγώνων βασίζονται στα συγκεκριμένα δεδομένα που διαθέτουμε. Συχνά λοιπόν ενδιαφερόμαστε να ελέγξουμε τις ακόλουθες υποθέσεις, σε ε.σ. έστω α: Η 0 : b=0 έναντι της εναλλακτικής Η 1 : b 0 Η 0 : a=0 έναντι της εναλλακτικής Η 1 : a 0 33

Συμπερασματολογία στο Απλό Γραμμικό Μοντέλο Με τον πρώτο έλεγχο θέλουμε να διαπιστώσουμε αν πράγματι αύξηση κατά μιαμονάδατηςχσημαίνεικαιμεταβολή της αναμενόμενης τιμής της Υ. Στο δεύτερο έλεγχο θέλουμε να δούμε κατά πόσο η αναμενόμενη τιμή της Υ είναι 0 όταν Χ=0. Πολλές φορές η τιμή αυτή δεν έχει ερμηνεία, διότι η τιμή Χ=0 δεν παρατηρείται ποτέ στην πράξη. 34

Συμπερασματολογία στο Απλό Γραμμικό Μοντέλο Τα στατιστικά ελέγχου με βάση τις μηδενικές υποθέσεις τότε είναι: bˆ 0 bˆ bˆ Τ 2 = = St(n 2) se(b) ˆ σ n n 2 2 2 2 / (xi x) s yx / (xi x) i= 1 i= 1 aˆ 0 aˆ 0 aˆ Τ 1 = = St ( n 2 ). se(a) ˆ 2 2 2 1 x 2 1 x σ + S n yx + n n 2 n 2 (xi x) (xi x) i= 1 i= 1 35

Συμπερασματολογία στο Απλό Γραμμικό Μοντέλο Υπολογίζουμε λοιπόν τα παραπάνω δύο στατιστικά ελέγχου Τ 1 και Τ 2 και η P-τιμή των ελέγχων είναι 2 φορές η πιθανότητα της περιοχής της St(n -2) δεξιά από τις τιμές των στατιστικών ελέγχων που παρατηρούμε. Ισοδύναμα θα μπορούσαμε να είχαμε κατασκευάσει συμμετρικά (1-α)% Δ.Ε. για τα a και b και να ελέγξουμε αν η τιμή 0 ανήκει σ αυτά τα Δ.Ε. n ˆb ± tn 2,α /2s yx / (xi x) i= 1 2 1 x â± tn 2,α /2syx + n n (xi x) i= 1 36 2 2 (1-α)% Δ.Ε. για το b (1-α)% Δ.Ε. για το a

Συμπερασματολογία στο Απλό Γραμμικό Μοντέλο Ένας άλλος έλεγχος που συνήθως εξετάζουμε στο μοντέλο παλινδρόμησης, γνωστός με την ονομασία F-test, είναι και ο παρακάτω, ο οποίος ελέγχει κατά πόσο το προτεινόμενο μοντέλο y=a+bx διαφέρει από το σταθερό y=a. Στη απλή γραμμική παλινδρόμηση ο εν λόγω έλεγχος είναι ισοδύναμος με τον έλεγχο για το b που είδαμε πριν. 37

Συμπερασματολογία στο Απλό Γραμμικό Μοντέλο Υπολογίζουμε το στατιστικό ελέγχου F = n i= 1 1 n 2 ( ŷi y) n i= 1 ( yi yˆ i) το οποίο κάτω από την μηδενική υπόθεση Η 0 :b=0 (με εναλλακτική Η 1 :b 0) ακολουθεί την F(1,n-2). Υπολογίζουμε λοιπόν την τιμή του στατιστικού ελέγχου F και η P-τιμή είναι πιθανότητα της περιοχής της F(1,n-2) δεξιά από το F που παρατηρούμε. 2 2 38

Συμπερασματολογία στο Απλό Γραμμικό Μοντέλο Τέλος ένα συμμετρικό (1-α)% Δ.Ε. για το y όταν X=x είναι το 1 ( x x) 2 ŷ± tn 2,α/2s y x +. n n 2 (x 1 i x) 39

Προϋποθέσεις απλού γραμμικού μοντέλου 1. Γραμμικότητα 2. Κανονικότητα Σφαλμάτων 3. Ομοσκεδαστικότητα 4. Ανεξαρτησία Σφαλμάτων 40

Παράδειγμα απλού γραμμικού μοντέλου Σε μια μελέτη που πραγματοποιήθηκε συλλέχθηκαν δεδομένα από το επίπεδο εστριόλης (mg/24hr) Χ, 35 εγκύων γυναικών και το βάρος (gr/100) Υ των νεογνών τους. Ζητείται να προσαρμόσουμε ένα μοντέλο απλής γραμμικής παλινδρόμησης και να ελέγξουμε κατά πόσο το επίπεδο εστριόλης των εγκύων γυναικών επηρεάζει το βάρος των νεογνών τους. 41

Παράδειγμα απλού γραμμικού μοντέλου 42

Παράδειγμα απλού γραμμικού μοντέλου 43

Παράδειγμα απλού γραμμικού μοντέλου Περιγραφική Ανάλυση των Δεδομένων 44

Παράδειγμα απλού γραμμικού μοντέλου Δημιουργούμε ένα διάγραμμα διασποράς, μια απεικόνιση δηλαδή των σημείων (x i,y i ), γιαναελέγξουμε αν η γραμμική συνάρτηση φαίνεται να είναι η κατάλληλη. 45

Παράδειγμα απλού γραμμικού μοντέλου 46

Παράδειγμα απλού γραμμικού μοντέλου Υπόθεση γραμμικότητας λογική 47

Παράδειγμα απλού γραμμικού μοντέλου Για να προσθέσετε την ευθεία ελαχίστων τετραγώνων στο προηγούμενο διάγραμμα, ανοίξτε το chart editor (double click on the graph from the output) και επιλέξτε elements, fit line at total. 48

Παράδειγμα απλού γραμμικού μοντέλου 49

Παράδειγμα απλού γραμμικού μοντέλου R 2 50

Παράδειγμα απλού γραμμικού μοντέλου 51

Παράδειγμα απλού γραμμικού μοντέλου 52

Παράδειγμα απλού γραμμικού μοντέλου R 2 διορθωμένος συντελεστής προσδιορισμού s yx F P-τιμή για τον F έλεγχο του b (ίδιο με το παρακάτω) â se(a) ˆ T1 P-τιμή για τον έλεγχο του a Συμμετρικό 95% Δ.Ε. για το a ˆb se(b) ˆ T2 P-τιμή για τον έλεγχο του b 53 Συμμετρικό 95% Δ.Ε. για το b (δεν περιέχει το 0)

Παράδειγμα απλού γραμμικού μοντέλου Παρατηρούμε λοιπόν ότι ŷ = 23.83+ 0.50x. Ακόμα παρατηρούμε ότι ο συντελεστής προσδιορισμού R 2 = 0.44, έχουμε δηλαδή ικανοποιητική προσαρμογή του μοντέλου, ενώ το τυπικό σφάλμα της παλινδρόμησης είναι syx = 2.93 (σχετικά μικρό). 54

Παράδειγμα απλού γραμμικού μοντέλου Στον έλεγχο για το b βλέπουμε ότι η P-τιμή είναι πολύ μικρή οπότε πράγματι αύξηση κατά μια μονάδα της Χ σημαίνει και μεταβολή της αναμενόμενης τιμής της Υ. Πιο συγκεκριμένα αύξηση του επιπέδου εστριόλης κατά 1 mg/24hr στην έγκυο σημαίνει αύξηση του αναμενόμενου βάρους του νεογνού κατά 0.50 gr/100. Επίσης η σταθερά είναι στατιστικά διάφορη του μηδενός. Πιο συγκεκριμένα όταν το επίπεδο εστριόλης στην έγκυο είναι 0 mg/24hr (!!!) το αναμενόμενο βάρους του νεογνού είναι 23.83 gr/100. Για να ελέγξουμε τις προϋποθέσεις του μοντέλου κάνουμε τα εξής: 55

Παράδειγμα απλού γραμμικού μοντέλου Γραμμικότητα. Ήδη ελέγχθηκε με το διάγραμμα διασποράς. Κανονικότητα σφαλμάτων. Ιστογράμματα και PPplots για τα υπόλοιπα (ή τα τυποποιημένα υπόλοιπα από κάθε υπόλοιπο αφαιρώ την μέση τιμή όλων των υπολοίπων και διαιρώ με την τυπική απόκλιση όλων των υπολοίπων). Shapiro-Wilk έλεγχος κανονικότητας. 56

Παράδειγμα απλού γραμμικού μοντέλου 57

Παράδειγμα απλού γραμμικού μοντέλου Υπόθεση κανονικότητας σφαλμάτων λογική 58

Παράδειγμα απλού γραμμικού μοντέλου Αποθήκευση τυποποιημένων υπολοίπων (ZRE_1) 59

Παράδειγμα απλού γραμμικού μοντέλου 60

Παράδειγμα απλού γραμμικού μοντέλου OK με την προϋπόθεση κανονικότητας σφαλμάτων 61

Παράδειγμα απλού γραμμικού μοντέλου Ομοσκεδαστικότητα. Γραφική παράσταση των υπολοίπων (ή τυποποιημένων υπολοίπων) συναρτήσειτωντιμώντηςχήσυναρτήσειτων προβλεπόμενων τιμών (ή τυποποιημένων προβλεπόμενων τιμών από κάθε προβλεπόμενη τιμή αφαιρώ τον μέσο όλων των προβλεπόμενων τιμών και διαιρώ με την τυπική απόκλιση όλων των προβλεπόμενων τιμών). Τα ζεύγη αυτών των τιμών δεν πρέπει να εμφανίζουν κάποιο συστηματικό τρόπο συμπεριφοράς. 62

Παράδειγμα απλού γραμμικού μοντέλου 63

Παράδειγμα απλού γραμμικού μοντέλου Δεν φαίνεται να υπάρχει πρόβλημα ομοσκεδαστικότητας 64

Παράδειγμα απλού γραμμικού μοντέλου 65

Παράδειγμα απλού γραμμικού μοντέλου Δεν φαίνεται να υπάρχει πρόβλημα ομοσκεδαστικότητας 66

Παράδειγμα απλού γραμμικού μοντέλου Ανεξαρτησία σφαλμάτων. Κατασκευάζουμε ένα διάγραμμα υπολοίπων (ή τυποποιημένων υπολοίπων) σε σχέση με την σειρά των δεδομένων, στο οποίο δεν πρέπει να παρουσιάζεται κάποια σχέση και τα υπόλοιπα (ή τα τυποποιημένα υπόλοιπα) να συμπεριφέρονται τυχαία. 67

Παράδειγμα απλού γραμμικού μοντέλου 68

Παράδειγμα απλού γραμμικού μοντέλου Ανεξαρτησία σφαλμάτων 69

Γενικό Γραμμικό Μοντέλο Ας θεωρήσουμε τώρα ότι διαθέτουμε p επεξηγηματικές μεταβλητές Χ=(Χ 1,...,Χ p ), έστω όλες ποσοτικές, οι οποίες συνδέονται πάλι γραμμικά με την ποσοτική μεταβλητή απόκρισης Υ. 2 Y a b1x 1... bpx p, ε Ν(0,σ ) = + + + +ε ΕΥ ( Χ,...,X ) = a + b X +... + b X 1 p 1 1 p p Γενικό ή πολλαπλό γραμμικό μοντέλο παλινδρόμησης 70

Γενικό Γραμμικό Μοντέλο Έστω (Υ 1,Χ 11,...,Χ p1 ),,(Υ n,χ 1n,...,Χ pn ) τυχαίο δείγμα. Τότε ισοδύναμα: 2 Y = a+ b X +... + b X +ε, ε Ν(0,σ ) i 1 1i p pi i i ΕΥ ( Χ,...,X ) = a + b X +... + b X i 1i pi 1 1i p pi όπου εi ανεξάρτη τα. Με την βοήθεια των παρατηρήσεων (y 1,x 11,...,x p1 ),,(y n,x 1n,...,x pn ) και με βάση την μέθοδο ελαχίστων τετραγώνων παίρνουμε πάλι εκτιμήτριες για τις παραμέτρους του μοντέλου a, b 1,,b p, σ 2. 71

Ερμηνεία Παραμέτρων Ηπαράμετροςa εκφράζει την μέση τιμή της τ.μ. Υ όταν όλα τα Χ j, j=1,,p, είναι μηδέν. Η παράμετρος b j, j=1,,p, εκφράζει την αναμενόμενη μεταβολή της τιμή της τ.μ. Υότανη Χ j αυξηθεί κατά μία μονάδα και οι υπόλοιπες Χ k, k j, παραμείνουν σταθερές. Η ποσότητα σ 2 εκφράζει την διασπορά των σφαλμάτων, την οποία θεωρούμε σταθερή ανεξάρτητα των τιμών των τ.μ. Χ 1,...,Χ p (υπόθεση ομοσκεδαστικότητας). Επειδή η τυχαιότητα της Υ δεδομένου των τιμών των Χ οφείλεται στα σφάλματα, το σ 2 εκφράζει και την διασπορά της δεσμευμένης κατανομής της τ.μ. Υ Χ. 72

Γενικό Γραμμικό Μοντέλο με πίνακες Υ1 1 X11 X 1p a ε1 b Υ2 X21 1 ε2 Υ =, X =, b=, ε = Υ b n 1 X n1 X np p εn Υ= Χb + ε Η εκτιμήτριες με την μέθοδο ελαχίστων τετραγώνων είναι: n 1 bˆ = X X X Y = y x 1,...,xp n p 1 = ( ) -1 T T 2 και s ( y ˆ i yi) οι οποίες είναι τυχαίες μεταβλητές (από διαφορετικό δείγμα ενδέχεται να προκύψουν διαφορετικές εκτιμήτριες). 73 i 1 2

Γενικό Γραμμικό Μοντέλο Εκτιμώντας λοιπόν το b από το καταλήγουμε στο ˆb Ŷ Υ ˆ = Χb ˆ. Το καλείται προβλεπόμενη τιμή και είναι η αναμενόμενη που θα πάρει η τ.μ. Υ όταν Χ=x, όπως αυτήν την εκτιμήσαμε με βάση το μοντέλο παλινδρόμησης. Η προβλεπόμενη τιμή είναι τ.μ., δηλαδή για διαφορετικό δείγμα ενδέχεται να πάρει άλλη τιμή όταν X=x. Η προβλεπόμενη τιμή αποτελεί μία αμερόληπτη εκτιμήτρια της άγνωστης τιμής y όπου παίρνει η τ.μ. Υ όταν X=x. Παρακάτω θα δούμε ένα Δ.Ε. για την τιμή αυτή y όταν X=x. 74

Γενικό Γραμμικό Μοντέλο Για κάθε x 1i,...,x pi μπορούμε να υπολογίσουμε τις προβλεπόμενες τιμές ŷ = aˆ + bˆ x +... + bˆ x. i 1 1i p pi εˆ = y yˆ Οι ποσότητες i i i αποτελούν τις εκτιμήσεις των σφαλμάτων των μετρήσεωνκαικαλούνταιόπωςκαιπριν υπόλοιπα. 75

Συντελεστής πολλαπλού προσδιορισμού Στογενικόγραμμικόμοντέλοηποσότητα καλείται πολλαπλός συντελεστής προσδιορισμού, παίρνει τιμές στο [0,1] και εκφράζει το ποσοστό της διασποράς της τ.μ. Υπου εξηγείται με βάση το μοντέλο παλινδρόμησης. Κάθε φορά που προσθέτουμε μια επεξηγηματική μεταβλητή στο μοντέλο ο πολλαπλός συντελεστής προσδιορισμού αυξάνεται. Όταν δεν θέλουμε να υπάρχει αυτή η εξάρτηση από το p υπολογίζουμε τον διορθωμένο συντελεστής προσδιορισμού n 2 y yˆ 76 R = 1 n 2 i= 1 n 2 R 1 = i= 1 i= 1 ( yi yˆ i) ( y y) i ( i i) n i= 1 ( y y) i 2 2 2 n p 1 n 1

Συμπερασματολογία στο γενικό γραμμικό μοντέλο Ενδιαφερόμαστε όπως και πριν για τους εξής ελέγχους υποθέσεων: Η 0 : a=0 έναντι της εναλλακτικής Η 1 : a 0 Η 0 : b 1 =0 έναντι της εναλλακτικής Η 1 : b 1 0............ Η 0 : b p =0 έναντι της εναλλακτικής Η 1 : b p 0 Επίσης ενδιαφέρον έχει και το F-test το οποίο ελέγχει την μηδενική υπόθεση Η 0 : b 1 = b 2 = = b p = 0, με εναλλακτική ότι τουλάχιστον ένα από τα b j δεν είναι 0. 77

Προϋποθέσεις γενικού γραμμικού μοντέλου 1. Γραμμικότητα 2. Κανονικότητα Σφαλμάτων 3. Ομοσκεδαστικότητα 4. Ανεξαρτησία Σφαλμάτων 78

Προϋποθέσεις γενικού γραμμικού μοντέλου Γραμμικότητα. Στην απλή γραμμική παλινδρόμηση ο έλεγχος της γραμμικότητας γινόταν με το διάγραμμα διασποράς των (y i,x i ). Στην πολλαπλή παλινδρόμηση, με p επεξηγηματικές μεταβλητές, θα μπορούσαμε να δημιουργήσουμε p διαφορετικά διαγράμματα διασποράς, ένα για κάθε επεξηγηματική μεταβλητή, και να εξετάσουμε την υπόθεση της γραμμικότητας. Βέβαια με τον τρόπο αυτόν δεν ελέγχουμε την εγκυρότητα του γενικού γραμμικού μοντέλου αλλά ελέγχουμε την εγκυρότητα των παρακάτω απλών γραμμικών μοντέλων: [ ] EYx = a+ bx, j = 1,...,p. j j j 79

Προϋποθέσεις γενικού γραμμικού μοντέλου Αν οι επεξηγηματικές μεταβλητές είναι ασυσχέτιστες, τότε δεν υπάρχει διαφορά από το να ελέγξουμε τα παραπάνω μοντέλα ή το γενικό γραμμικό μοντέλο. Αλλά στις περισσότερες περιπτώσεις οι επεξηγηματικές μεταβλητές συσχετίζονται. Τότε αυτό που πρέπει να ελέγξουμε είναι αν πράγματι η επεξηγηματική μεταβλητή Χ j, j = 1,...,p, συνδέεται γραμμικά με την δεσμευμένη μέση τιμή της Υ, αν όλες οι άλλες επεξηγηματικές τ.μ. Χ 1,,Χ j-1, Χ j+1,,χ p συνδέονται γραμμικά με την δεσμευμένη μέση τιμή της Υ. Με άλλα λόγια αν θεωρήσουμε την σχέση y aˆ + bˆ x +... + bˆ x + p (x ) + bˆ x +... + bˆ x i = 1,..., n, i 1 i1 j 1 i,j 1 j ij j+ 1 i,j+ 1 p ip ( ) χρησιμοποιώντας τις εκτιμήτριες ελαχίστων τετραγώνων που έχουμε από το γενικό γραμμικό μοντέλο, αρκεί να δείξουμε ότι ησυνάρτησηp j είναι γραμμική. 80

Προϋποθέσεις γενικού γραμμικού μοντέλου Αν τώρα θεωρήσουμε την σχέση που μας δίνει τα υπόλοιπα y = a ˆ+ bˆ x + bˆ x +... + bˆ x + εˆ i = 1,..., n i 1 1 2 2 p p i ( ) και την αφαιρέσουμε από την σχέση στην προηγούμενη διαφάνεια έχουμε p(x) bx ˆ + εˆ P i = 1,...,n. j ij j ij i ij ( ) 81

Προϋποθέσεις γενικού γραμμικού μοντέλου Οι όροι P ij καλούνται j μερικά υπόλοιπα (partial residuals). Από την τελευταία σχέση είναι εμφανές ότι μπορούμε να ελέγξουμε αν η συνάρτηση p j είναι γραμμική, με το διάγραμμα διασποράς των σημείων (x ij, P ij ), i=1,,n Επαναλαμβάνοντας την διαδικασία για κάθε j=1,,p ελέγχουμε την γραμμικότητα στο γενικό γραμμικό μοντέλο. Οι υπόλοιπες προϋποθέσεις ελέγχονται όπως και στο απλό γραμμικό μοντέλο. 82

Παράδειγμα γενικού γραμμικού μοντέλου Η μέγιστη στατική τελοεισπνευστική πίεση (μέτρο υποσιτισμού ασθενών - maximal static expiratory pressure, PEmax) Υ (σε cm H 2 0), σε σχέση με τον όγκο αέρα που εκπνέεται μετά από μέγιστη προσπάθεια μέσα στο 1ο δευτερόλεπτο (FEV 1 ) Χ 1 (σε lt), το βάρος Χ 2 (σε Kg) και τη μάζα σώματος (body mass: βάρος/ύψος 2 ) ως το ποσοστό επί της ειδικής κατά ηλικίας διαμέσου της μάζας σώματος στους υγιείς ανθρώπους Χ 3 (%) αποτέλεσε το αντικείμενο μιας μελέτης. Με βάση τα δεδομένα 25 ασθενών, να προσαρμοστεί το μοντέλο Υ=a+b 1 X 1 +b 2 X 2 +b 3 X 3 και να ερμηνευτούν τα αποτελέσματά του. 83

Παράδειγμα γενικού γραμμικού μοντέλου 84

Παράδειγμα γενικού γραμμικού μοντέλου 85

Παράδειγμα γενικού γραμμικού μοντέλου Περιγραφική Ανάλυση των Δεδομένων 86

Παράδειγμα γενικού γραμμικού μοντέλου 87

Παράδειγμα γενικού γραμμικού μοντέλου 88

Παράδειγμα γενικού γραμμικού μοντέλου R 2 διορθωμένος συντελεστής προσδιορισμού s y x F P-τιμή για τον F έλεγχο του b (ίδιο με το παρακάτω) â ˆ se(a) P-τιμή για τον έλεγχο του a Συμμετρικό 95% Δ.Ε. για το a Συμμετρικό 95% Δ.Ε. για το b 1 (δεν περιέχει το 0) Συμμετρικό 95% Δ.Ε. για το b 2 (δεν περιέχει το 0) b ˆ 1,b ˆ ˆ 2,b ˆ ˆ ˆ 3 1 2 3 se(b ),se(b ),se(b ) P-τιμή για τον έλεγχο του b 1,b 2 και b 3 89 Συμμετρικό 95% Δ.Ε. για το b 3 (δεν περιέχει το 0)

Παράδειγμα γενικού γραμμικού μοντέλου Παρατηρούμε λοιπόν ότι ŷ = 126.33+ 1.11x 1+ 1.53x 2 1.46x 3. Ακόμα παρατηρούμε ότι ο συντελεστής προσδιορισμού R 2 = 0.57, ενώ ο διορθωμένος συντελεστής 2 προσδιορισμού R = 0.51, έχουμε δηλαδή ικανοποιητική προσαρμογή του μοντέλου, ενώ το τυπικό σφάλμα της παλινδρόμησης είναι s yx = 23.44 (σχετικά μικρό). 90

Παράδειγμα γενικού γραμμικού μοντέλου Στον έλεγχο για το b 1 βλέπουμε ότι η P-τιμή είναι αρκετά μικρή οπότε πράγματι αύξηση κατά μια μονάδα της Χ 1 σημαίνει και μεταβολή της αναμενόμενης τιμής της Υ. Πιο συγκεκριμένα αύξηση του όγκου αέρα που εκπνέεται μετά από μέγιστη προσπάθεια μέσα στο 1ο δευτερόλεπτο κατά 1lt σημαίνει αύξηση της αναμενόμενης μέγιστης στατικής τελοεισπνευστική πίεσης κατά 1.11cm H 2 0, υπό την προϋπόθεση ότι οι άλλες μεταβλητές παραμένουν σταθερές. Στον έλεγχο για το b 2 βλέπουμε ότι η P-τιμή είναι πολύ μικρή οπότε πράγματι αύξηση κατά μια μονάδα της Χ 2 σημαίνει και μεταβολή της αναμενόμενης τιμής της Υ. Πιο συγκεκριμένα αύξηση του βάρους κατά 1Kg σημαίνει αύξηση της αναμενόμενης μέγιστης στατικής τελοεισπνευστική πίεσης κατά 1.53cm H 2 0, υπό την προϋπόθεση ότι οι άλλες μεταβλητές παραμένουν σταθερές. Στον έλεγχο για το b 3 βλέπουμε ότι η P-τιμή είναι πολύ μικρή οπότε πράγματι αύξηση κατά μια μονάδα της Χ 3 σημαίνει και μεταβολή της αναμενόμενης τιμής της Υ. Πιο συγκεκριμένα αύξηση του ποσοστού μάζας σώματος ως προς την ειδική κατά ηλικία διάμεσο στους υγιείς ανθρώπους κατά μία μονάδα σημαίνει μείωση της αναμενόμενης μέγιστης στατικής τελοεισπνευστική πίεσης κατά 1.46cm H 2 0, υπό την προϋπόθεση ότι οι άλλες μεταβλητές παραμένουν σταθερές. Επίσης η σταθερά είναι στατιστικά διάφορη του μηδενός. Πιο συγκεκριμένα όταν όλες οι μεταβλητές είναι μηδέν (!!!) η αναμενόμενη μέγιστη στατική τελοεισπνευστική πίεση είναι 126.33 cm H 2 0. Για να ελέγξουμε τις προϋποθέσεις του μοντέλου κάνουμε τα εξής: 91

Παράδειγμα γενικού γραμμικού μοντέλου Γραμμικότητα. Διάγραμμα διασποράς των σημείων (x ij, P ij ), i=1,,n, όπου οι όροι P ij είναι τα j μερικά υπόλοιπα (partial residuals) για κάθε επεξηγηματική μεταβλητή x j. 92

Παράδειγμα γενικού γραμμικού μοντέλου Αποθήκευση υπολοίπων (RES_1) 93

Παράδειγμα γενικού γραμμικού μοντέλου bx ˆ + εˆ P i = 1,..., n 1 i1 i i1 ( ) 94

Παράδειγμα γενικού γραμμικού μοντέλου bx ˆ + εˆ P i= 1,...,n 2 i2 i i2 ( ) 95

Παράδειγμα γενικού γραμμικού μοντέλου bx ˆ + εˆ P i = 1,...,n 3 i3 i i3 ( ) 96

Παράδειγμα γενικού γραμμικού μοντέλου 97

Παράδειγμα γενικού γραμμικού μοντέλου υπόθεση γραμμικότητας λογική 98

Παράδειγμα γενικού γραμμικού μοντέλου 99

Παράδειγμα γενικού γραμμικού μοντέλου υπόθεση γραμμικότητας λογική 100

Παράδειγμα γενικού γραμμικού μοντέλου 101

Παράδειγμα γενικού γραμμικού μοντέλου υπόθεση γραμμικότητας λογική 102

Παράδειγμα γενικού γραμμικού μοντέλου Κανονικότητα σφαλμάτων. Ιστογράμματα και PPplots για τα υπόλοιπα (ή τα τυποποιημένα υπόλοιπα). Shapiro-Wilk έλεγχος κανονικότητας. 103

Παράδειγμα γενικού γραμμικού μοντέλου 104

Παράδειγμα γενικού γραμμικού μοντέλου Υπόθεση κανονικότητας σφαλμάτων λογική 105

Παράδειγμα γενικού γραμμικού μοντέλου Αποθήκευση τυποποιημένων υπολοίπων (ZRE_1) 106

Παράδειγμα γενικού γραμμικού μοντέλου 107

Παράδειγμα γενικού γραμμικού μοντέλου OK με την προϋπόθεση κανονικότητας σφαλμάτων 108

Παράδειγμα γενικού γραμμικού μοντέλου Ομοσκεδαστικότητα. Γραφική παράσταση των υπολοίπων (ή τυποποιημένων υπολοίπων) συναρτήσει των προβλεπόμενων τιμών (ή τυποποιημένων προβλεπόμενων τιμών). Τα ζεύγη αυτών των τιμών δεν πρέπει να εμφανίζουν κάποιο συστηματικό τρόπο συμπεριφοράς. 109

Παράδειγμα γενικού γραμμικού μοντέλου 110

Παράδειγμα γενικού γραμμικού μοντέλου Δεν φαίνεται να υπάρχει πρόβλημα ομοσκεδαστικότητας 111

Παράδειγμα γενικού γραμμικού μοντέλου Ανεξαρτησία σφαλμάτων. Κατασκευάζουμε ένα διάγραμμα υπολοίπων (ή τυποποιημένων υπολοίπων) σε σχέση με την σειρά των δεδομένων, στο οποίο δεν πρέπει να παρουσιάζεται κάποια σχέση και τα υπόλοιπα (ή τα τυποποιημένα υπόλοιπα) να συμπεριφέρονται τυχαία. 112

Παράδειγμα γενικού γραμμικού μοντέλου 113

Παράδειγμα γενικού γραμμικού μοντέλου Ανεξαρτησία σφαλμάτων 114

Διάφορα θέματα στο γενικό γραμμικό μοντέλο Επιλογή Μεταβλητών: Ένα πρόβλημα που αρκετές φορές αντιμετωπίζουμε είναι η επιλογή των κατάλληλων ανεξάρτητων μεταβλητών που θα χρησιμοποιήσουμε στο μοντέλο μας. Όταν στην διάθεσή μας έχουμε στοιχεία από πολλές επεξηγηματικές μεταβλητές δεν σημαίνει κατά ανάγκη ότι στο τελικό μοντέλο θα πρέπει να χρησιμοποιηθούν όλες αυτές. Υπάρχουν πολλά κριτήρια επιλογής μεταβλητών, η παρουσίαση των οποίων ξεφεύγει από τα όρια αυτών των σημειώσεων. 115

Διάφορα θέματα στο γενικό γραμμικό μοντέλο Συγχυτικοί Παράγοντες: Συγχυτικός παράγοντας (confounder) ονομάζεται μια μεταβλητή, έστω Ζ, η οποία διαστρεβλώνει τη σχέση μεταξύ της μεταβλητής απόκρισης Υ και μιας επεξηγηματικής μεταβλητής Χ. Ο λόγος αυτής της διαστρέβλωσης είναι ότι ο συγχυτικός παράγοντας Ζ σχετίζεται και με την επεξηγηματική μεταβλητή Χ αλλά και με την μεταβλητή απόκρισης Υ. Άρα μπορεί η επεξηγηματική μεταβλητή Χ να είναι στατιστικά σημαντική (δηλαδή αύξησή της κατά μια μονάδα πράγματι να προκαλεί μεταβολή στην αναμενόμενη τιμή της μεταβλητής απόκρισης Υ) στο απλό γραμμικό μοντέλο Ε( Υ Χ ) = a+ bx, αλλά όταν στο μοντέλο προσθέσουμε και την μεταβλητή Ζ η επίδρασή της να εξαλείφεται και η Ζ να είναι αυτή που περιγράφει την μεταβλητότητα της Υ. 116

Διάφορα θέματα στο γενικό γραμμικό μοντέλο Ως παράδειγμα θεωρήστε τα ακόλουθα δεδομένα τα οποία μας δίνουν το ποσοστό των ενηλίκων που χρησιμοποιούν το διαδίκτυο (Internet), το Ακαθάριστο Εγχώριο Προϊόν (GDP) και το μέσο αριθμό παιδιών ανά ενήλικη γυναίκα (Fertility), για 39 χώρες. 117

Διάφορα θέματα στο γενικό γραμμικό μοντέλο INTERNET GDP FERTILITY 0.65 6.09 2.8 10.08 11.32 2.4 37.14 25.37 1.7 38.7 26.73 1.3 31.04 25.52 1.7 4.66 7.36 2.2 46.66 27.13 1.5 20.14 9.19 2.4 2.57 4.02 1.8 42.95 29.00 1.8 0.93 3.52 3.3 43.03 24.43 1.7 26.38 23.99 1.9 INTERNET GDP FERTILITY 37.36 25.35 1.4 13.21 17.44 1.3 0.68 2.84 3.0 1.56 6.00 2.3 23.31 32.41 1.9 27.66 19.79 2.7 38.42 25.13 1.3 27.31 8.75 2.9 3.62 8.43 2.5 49.05 27.19 1.7 46.12 19.16 2.0 0.10 0.85 5.4 46.38 29.62 1.8 INTERNET GDP FERTILITY 0.34 1.89 5.1 2.56 3.84 3.2 2.93 7.10 1.1 1.34 13.33 4.5 6.49 11.29 2.6 18.27 20.15 1.2 51.63 24.18 1.6 30.70 28.10 1.4 6.04 5.89 2.4 32.96 24.16 1.6 50.15 34.32 2.1 1.24 2.07 2.3 0.09 0.79 7.0 118

Διάφορα θέματα στο γενικό γραμμικό μοντέλο 119

Διάφορα θέματα στο γενικό γραμμικό μοντέλο 120

Διάφορα θέματα στο γενικό γραμμικό μοντέλο Παρατηρήστε πως η επίδραση της μεταβλητής Fertility στο γραμμικό μοντέλο εξαλείφεται όταν προσθέσουμε τον συγχυτικό παράγοντα GDP. Παρατηρήστε πως σχετίζονται μεταξύ τους οι 3 αυτές μεταβλητές. 121

Διάφορα θέματα στο γενικό γραμμικό μοντέλο 122

Διάφορα θέματα στο γενικό γραμμικό μοντέλο Πολυσυγγραμικότητα. Δεν θα πρέπει στο μοντέλο παλινδρόμησης να συμπεριλαμβάνουμε επεξηγηματικές μεταβλητές με υψηλή συσχέτιση μεταξύ τους, διότι τότε τα αποτελέσματα δεν είναι έγκυρα. Ως παράδειγμα θεωρήστε τα ακόλουθα δεδομένα τα οποία μας δίνουν το ύψος 25 ανδρών σε inches (Height) καθώς και το μήκος σε cm του αριστερού (LeftFoot) καθώς και δεξιού τους ποδιού (RtFoot). Σκοπός είναι να προσαρμόσουμε ένα γραμμικό μοντέλο με μεταβλητή απόκρισης Height και επεξηγηματικές μεταβλητές LeftFoot και RtFoot. 123

Διάφορα θέματα στο γενικό γραμμικό μοντέλο Height LeftFoot RtFoot 69.0 27.0 26.5 79.0 29.0 27.5 75.0 31.0 32.0 69.0 25.5 25.5 65.0 23.5 23.0 79.0 28.0 28.0 72.0 28.5 28.5 69.5 27.0 27.0 73.0 30.6 31.4 71.5 27.4 28.5 69.5 27.0 27.0 73.0 28.5 27.5 71.0 29.0 27.0 Height LeftFoot RtFoot 74.0 29.0 30.0 75.0 28.0 29.0 71.0 27.0 27.5 72.0 26.5 27.5 66.0 25.5 26.0 71.0 29.0 28.0 67.0 27.2 27.0 71.0 29.0 28.5 72.0 28.0 28.0 72.0 28.5 29.0 73.5 29.0 30.0 73.0 23.5 24.0 124

Διάφορα θέματα στο γενικό γραμμικό μοντέλο 125

Διάφορα θέματα στο γενικό γραμμικό μοντέλο 126

Διάφορα θέματα στο γενικό γραμμικό μοντέλο 127

Διάφορα θέματα στο γενικό γραμμικό μοντέλο Παρατηρήστε πως όταν συμπεριλαμβάνουμε και τις δύο επεξηγηματικές μεταβλητές στο μοντέλο (γενικό γραμμικό μοντέλο) καμία δεν είναι στατιστικά σημαντική, ενώ αντίθετα κάθε μία εξ αυτών έχει πολύ μεγάλη επίδραση στην μεταβλητή απόκρισης (όπως προφανώς αναμενόταν) όπως παρατηρούμε από τα απλά γραμμικά μοντέλα. Το παραπάνω φαινόμενο οφείλεται στην υψηλή συσχέτιση των δύο επεξηγηματικών μεταβλητών που είναι 0.91. 128

Διάφορα θέματα στο γενικό γραμμικό μοντέλο Πρόβλεψη: Οι προβλέψεις είναι σωστές και αξιόπιστες μόνο για τις τιμές του Χ που είναι σχετικά κοντά με αυτές που έχουμε παρατηρήσει. Στο παράδειγμα με τον υποσιτισμό ασθενών δεν θα ήταν λογικό να εκτιμούσαμε τη μέγιστη στατική τελοεισπνευστική πίεση για ασθενείς 100Kg. 129

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Μέχρι τώρα οι επεξηγηματικές μεταβλητές του μοντέλου παλινδρόμησης θεωρήσαμε ότι είναι ποσοτικές τυχαίες μεταβλητές. Ωστόσο, μερικές φορές έχουμε επεξηγηματικές μεταβλητές που αποδίδουν έναν παράγοντα με δύο ή περισσότερες κατηγορίες, όπως π.χ. το φύλο ή την φυσική κατάσταση ενός ατόμου (κακή, μέτρια, καλή και άριστη). Ας υποθέσουμε παραδείγματος χάρη, ότι θέλουμε να δημιουργήσουμε ένα μοντέλο γραμμικής παλινδρόμησης με μεταβλητή απόκρισης Υ τον βαθμό σε τεστ νοημοσύνης (IQ score) ψυχικά πασχόντων ασθενών και επεξηγηματική μεταβλητή Χ το επίπεδο κατάθλιψης (1 = καθόλου, 2 = ήπια, 3 = μέτρια ή σοβαρή). Τότε δημιουργούμε τις λεγόμενες εικονικές μεταβλητές ή ψευδομεταβλητές, οι οποίες είναι (m-1) στον αριθμό, όπου m είναι ο αριθμός των κατηγοριών της κατηγορικής μεταβλητής Χ, και λαμβάνουν τις τιμές 0 ή 1. Στο λόγω παράδειγμα, ορίζουμε τις εξής 2 εικονικές μεταβλητές: 130

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 1, ήπια 1, μέτρια ή σοβαρή Χ 1 = Χ 2 = 0, διαφορετικά 0, διαφορετικά και εκτιμούμε με την μέθοδο ελαχίστων τετραγώνων τους συντελεστές του γραμμικού μοντέλου [ ] EYΧ,Χ = a+ b x + b x. 1 2 1 1 2 2 131

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Ισοδύναμα με το παραπάνω γραμμικό μοντέλο είναι σαν να έχουμε τα ακόλουθα 3 γραμμικά μοντέλα: a, καθόλου = a+ b, ήπια a + b 2, μέτρια ή σοβαρή 1 E(Y X 1,X 2). 132

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Η κατηγορία για την οποία δεν ορίσαμε ψευδομεταβλητή ονομάζεται κατηγορία αναφοράς (reference category), στο παράδειγμα μας η κατηγορία αυτή είναι ο ασθενής να μην έχει κατάθλιψη, και η επιλογή της εξαρτάται συχνά από το υπό μελέτη πρόβλημα. Στο παράδειγμά μας θέλουμε να εξετάσουμε αν το επίπεδο κατάθλιψης μεταβάλει κατά μέσο όρο τον βαθμό στο τεστ νοημοσύνης, οπότε είναι φυσικό να θέσουμε ως κατηγορία αναφοράς την εν λόγω κατηγορία. Οι παράμετροι του παραπάνω γραμμικού μοντέλου μπορούν να ερμηνευτούν αν θεωρήσουμε τις πιθανές τιμές των εικονικών μεταβλητών. Έτσι η παράμετρος a στο παραπάνω παράδειγμα εκφράζει το μέσο βαθμό στο τεστ νοημοσύνης όταν Χ 1 = Χ 2 = 0, άρα όταν ο ασθενής δεν έχει κατάθλιψη. Η παράμετρος b 1 αντιπροσωπεύει την αναμενόμενη διαφορά του βαθμού στο τεστ νοημοσύνης μεταξύ ασθενών με ήπια επίπεδα κατάθλιψης και ασθενών χωρίς κατάθλιψη. Ανάλογα ερμηνεύεται και η παράμετρος b 2. Τα γραμμικά μοντέλα με μία κατηγορική επεξηγηματική μεταβλητή είναι ισοδύναμα με τα μοντέλα Ανάλυσης Διασποράς με έναν Παράγοντα (One Way ANOVA). Αν η κατηγορική μεταβλητή είναι δίτιμη τα συμπεράσματα του γραμμικού μοντέλο είναι ισοδύναμα με αυτά του one sample t-test που είδαμε στο προηγούμενο κεφάλαιο. 133

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Παράδειγμα: Έστω ότι διαθέτουμε τον βαθμό, έστω Y, σε τεστ νοημοσύνης (IQ score) 103 ψυχικά πασχόντων γυναικών, την ηλικία τους X 1 και το επίπεδο κατάθλιψης τους Χ 2 (1 = καθόλου - none, 2 = ήπια - mild, 3 = μέτρια ή σοβαρή moderate or severe). Να εκτιμηθούν και να ερμηνευτούν με την μέθοδο ελαχίστων τετραγώνων οι συντελεστές του μοντέλου E(Y X,X,X ) = a+ bx + bx + bx 1 22 23 1 1 2 22 3 23 όπου 1, ήπια μορφή κατάθλιψης 1, μέτρια ή σοβαρή μορφή κατάθλιψης x 22 = x 23 =. 0, διαφορετικά 0, διαφορετικά 134

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 135

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 136

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Περιγραφική Ανάλυση των Ποσοτικών Μεταβλητών 137

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 138

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Περιγραφική Ανάλυση της Κατηγορικής Μεταβλητής 139

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 140

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Περιγραφική Ανάλυση του IQ score ανά κατηγορία της μεταβλητής depression 141

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 142

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Ακραία τιμή Θηκογραφήματα του IQ ανά κατηγορία depression. Δεν παρατηρούμε σημαντικές διαφοροποιήσεις. 143

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 144

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Η ηλικία και το IQ test είναι αρνητικά συσχετισμένες 145

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Εν συνεχεία δημιουργούμε στο SPSS τις εικονικές μεταβλητές. Στις επόμενες διαφάνειες δείχνουμε πως δημιουργούμε την εικονική μεταβλητή depress1 (κατηγορία αναφοράς). 146

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 147

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 148

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 149

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 150

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 151

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 152

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 153

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 154

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Με παρόμοιους τρόπους δημιουργούμε και τις υπόλοιπες εικονικές μεταβλητές depress2 και depress3. 155

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Βάλε μόνο 2 εικονικές μεταβλητές 156

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 157

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Παρατηρούμε λοιπόν ότι: (α) ο αναμενόμενος βαθμός στο τεστ νοημοσύνης των ψυχικά πασχόντων γυναικών χωρίς κατάθλιψη ηλικίας 0 ετών (!!!) είναι 107.52, (β) η αύξηση ενός έτους στην ηλικία των ψυχικά πασχόντων γυναικών, ίδιου επιπέδου κατάθλιψης, μεταφράζεται σε μείωση (στατιστικά σημαντική) του αναμενόμενου βαθμού στο τεστ νοημοσύνης κατά 0.433 μονάδες, (γ) οι ψυχικά πάσχοντες γυναίκες, με ήπια μορφή κατάθλιψης, έχουν αναμενόμενο βαθμό στο τεστ νοημοσύνης κατά 0.869 υψηλότερο (μη στατιστικά σημαντική διαφορά) σε σχέση με τις ψυχικά πάσχοντες γυναίκες, της ίδιας ηλικίας, χωρίς κατάθλιψη και (δ) οι ψυχικά πάσχοντες γυναίκες, με μέτρια ή σοβαρή μορφή κατάθλιψης, έχουν αναμενόμενο βαθμό στο τεστ νοημοσύνης κατά 0.768 χαμηλότερο (μη στατιστικά σημαντική διαφορά) σε σχέση με τις ψυχικά πάσχοντες γυναίκες, της ίδιας ηλικίας, χωρίς κατάθλιψη. 158

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Παρατηρούμε λοιπόν ότι E(Y X 1, X 22, X 23) = 107.527 0.433x1+ 0.869x 22 0.768x 23 Ισοδύναμα E(Y X,X,X ) 1 22 23 = 107.527 0.433Χ, καμία μορφή κατάθλιψης 1 (107.527 + 0.869) 0.433Χ, ήπια μορφή κατάθλιψης 1 (107.527 0.768) 0.433Χ, μέτρια ή σοβαρή μορφή κατάθλιψης 1 159

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Προϋποθέσεις: Γραμμικότητα μεταξύ των ποσοτικών μεταβλητών για κάθε κατηγορία της κατηγορικής μεταβλητής. Ομοσκεδαστικότητα. Κανονικότητα Σφαλμάτων. Ανεξαρτησία Σφαλμάτων. Αποθηκεύουμε λοιπόν από το μοντέλο παλινδρόμησης τα τυποποιημένα υπόλοιπα (όπως δείξαμε και στο προηγούμενο παράδειγμα) και σχηματίζουμε τα εξής γραφήματα: 160

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Υπόθεση ομοσκεδαστικότητας λογική 161

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Υπόθεση κανονικότητας σφαλμάτων λογική 162

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Ανεξαρτησία σφαλμάτων 163

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 164

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Διπλό κλικ πάνω στο διάγραμμα 165

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 166

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο 167

Εικονικές Μεταβλητές στο γενικό γραμμικό μοντέλο Ευθείες ελαχίστων τετραγώνων για κάθε κατηγορία του επιπέδου κατάθλιψης χωριστά. Αλληλεπίδραση (interaction) ηλικίας και επιπέδου κατάθλιψης. Αύξηση της ηλικίας κατά ένα έτος στους ασθενείς με μέτρια ή σοβαρή μορφή κατάθλιψης, επιφέρει δραστικότερη μείωση του αναμενόμενου βαθμού στο τεστ νοημοσύνης σε σχέση με τους ασθενείς στις άλλες δύο ομάδες. Θα έπρεπε στο μοντέλο μας να είχαμε προσθέσει και τον όρο x 1 x 2 (Αλληλεπίδραση). 168

Επίλογος Αν η μεταβλητή απόκρισης Υ είναι κατηγορική μεταβλητή, τότε το γραμμικό μοντέλο δεν είναι πλέον το κατάλληλο, και χρησιμοποιούμε γενικευμένα γραμμικά μοντέλα, η παρουσίαση των οποίων ξεφεύγει από τους σκοπούς αυτών των σημειώσεων. 169