Συσχέτιση και Παλινδρόμηση Correlation and Regression. Γρηγόρης Χλουβεράκης, Ph.D. Αναπληρωτής Καθηγητής Βιοστατιστικής

Σχετικά έγγραφα
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Το στατιστικό κριτήριο που μας επιτρέπει να. μιας ή πολλών άλλων γνωστών μεταβλητών. Η σχέση ανάμεσα στις μεταβλητές που μελετώνται

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Αναλυτική Στατιστική

Εισόδημα Κατανάλωση

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

9. Παλινδρόμηση και Συσχέτιση

Στατιστική Ι. Ανάλυση Παλινδρόμησης

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

Εκπαιδευτική Έρευνα: Μέθοδοι Συλλογής και Ανάλυσης εδομένων Συσχέτιση

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

Ελένη Κανδηλώρου Αναπλ. Καθηγήτρια. Γραμμικά Μοντέλα. Λύσεις Ασκήσεων

Μοντέλα Πολλαπλής Παλινδρόμησης

H ΑΝΑΛΥΣΗ ΣΥΣΧΕΤΙΣΗΣ (PEARSON s r)

Απλή Ευθύγραµµη Συµµεταβολή

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Ποσοτική & Ποιοτική Ανάλυση εδομένων Συσχέτιση. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη,

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Στατιστική: Δειγματοληψία X συλλογή δεδομένων. Περιγραφική στατιστική V πίνακες, γραφήματα, συνοπτικά μέτρα

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

Χ. Εμμανουηλίδης, 1

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

Γ. Πειραματισμός Βιομετρία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Απλή Παλινδρόμηση και Συσχέτιση

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ: ΑΣΚΗΣΕΙΣ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 6. Συσχέτιση

Μοντέλα Παλινδρόμησης. Άγγελος Μάρκος, Λέκτορας ΠΤ Ε, ΠΘ

Εισαγωγή στη Βιοστατιστική

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Ύλη 1 ης Εβδομάδας. Σχέσεις Μεταβλητών ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ. Σχέση μεταξύ Μεταβλητών Παραδείγματα. 2 η Διάλεξη

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

Παιδαγωγικά II. Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας Ευαγγελία Παυλάτου, Αν. Καθηγήτρια ΕΜΠ Νίκος Καλογερόπουλος, ΕΔΙΠ ΕΜΠ

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

σ = και σ = 4 αντιστοίχως. Τότε θα ισχύει

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Πολλαπλή παλινδρόμηση (Multivariate regression)

Kruskal-Wallis H

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

Στατιστική Επιχειρήσεων Ι

Εφαρμοσμένη Στατιστική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 16. Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

HMY 799 1: Αναγνώριση Συστημάτων

Στατιστική Επιχειρήσεων Ι

Απλή Γραμμική Παλινδρόμηση II

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

ΕΞΕΤΑΣΗ ΤΗΣ ΣΧΕΣΗΣ ΔΥΟ ΜΕΤΑΒΛΗΤΩΝ

Γ. Πειραματισμός - Βιομετρία

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα

Θέμα: Ενδεικτικό Θέμα εξετάσεων: Μέτρα θέσης Παλινδρόμηση

ΠΑΛΙΝ ΡΟΜΗΣΗ..Π.Μ.Σ. Μαθηµατικά των Υπολογιστών και των Αποφάσεων. Πάτρα, 27 Ιανουαρίου 2011

Κεφάλαιο 3 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 3.1 Συσχέτιση δύο τ.µ.

Κεφάλαιο 4 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 4.1 Συσχέτιση δύο τ.µ.

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Κλινική Επιδηµιολογία

Περιεχόμενα. Πρόλογος... 15

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Πολλαπλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 7 (συνέχεια)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

Transcript:

Συσχέτιση και Παλινδρόμηση Correlation and Regression Γρηγόρης Χλουβεράκης, Ph.D. Αναπληρωτής Καθηγητής Βιοστατιστικής

Συσχέτιση μεταξύ δυο μεταβλητών Η συσχέτιση (correlation) ή συνάφεια (association) μεταξύ δύο ή περισσοτέρων μεταβλητών αναφέρεται στην κατεύθυνση και στην ένταση της μεταξύ τους σχέσης. τιμή - ποιότητα διατροφή στεφ. νόσος ηλικία - ύψος κάπνισμα καρκίνος καιρικές συνθήκες ατυχήματα άγχος επίδοση τεστ παλαιότητα ενός ακινήτου τιμή εβδομάδα κύησης βάρος εμβρύου

Συσχέτιση μεταξύ δυο μεταβλητών Ορολογία - Συμβολισμός Τα δεδομένα που λαμβάνουμε για την εξέταση της σχέσης μεταξύ δύο μεταβλητών λέγονται διμεταβλητά (bivariate data). Είναι δηλαδή της μορφής (Χ, Υ). Ησχέσηαυτή, αν μοντελοποιηθεί στατιστικά, μπορεί να να χρησιμοποιηθεί για να προβλέψουμε την τιμή της μίας μεταβλητής, Υ, (μεταβλητή απόκρισης response variable) από την άλλη, Χ (μεταβλητή πρόβλεψης - predictor variable). ορισμένες φορές η μία μεταβλητή θεωρείται ως το αίτιο (cause) και η άλλη το αιτιατό (effect). Η πρώτη ονομάζεται ανεξάρτητη (independent) και η δεύτερη εξαρτημένη (dependent) μεταβλητή.

Παράδειγμα 1. βάρος και επιμήκυνση ελατηρίου Weight (kg) Length (cm) 0 0.00 2 0.12 4 0.21 6 0.31 8 0.40 10 0.50

Ύψος και βάρος 10 τυχαία επιλεγμένων φοιτητών α/α Ύψος (cm) Βάρος (kg) 1 165 75 2 178 79 3 185 101 4 170 80 5 175 65 6 185 100 7 183 84 8 173 70 9 173 93 10 188 108 Με ποιο τρόπο θα δείξουμε και πως θα εκφράσουμε ποσοτικά τη σχέση που υπάρχει μεταξύ βάρους και ύψους Ποιό χαρακτηριστικό παρουσιάζει μεγαλύτερη ανομοιογένεια?

Συσχέτιση μεταξύ δυο μεταβλητών Το διάγραμμα διασποράς ή σκεδασμού (scatterplot) μας δίνει μια καλή και γρήγορη εικόνα για τη φορά, την ένταση και το είδος της σχέσης: θετική σχέση αρνητική σχέση καμία (γραμμική) σχέση άλλου είδους σχέση είναι επίσης χρήσιμο για τον εντοπισμό «ύποπτων» παρατηρήσεων με ακραίες μετρήσεις που ενδεχομένως αλλοιώνουν ή και ακυρώνουν την πραγματική σχέση. LENGHT 60 50 40 30 20 10 0-10 -2 0 WEIGHT 2 4 6 8 10 12 WEIGHT 190 180 170 160 60 HEIGHT 70 80 90 100 110

ιάγραμμα ιασποράς (Scatterplot) Υ Μεταβλητή απόκρισης y Οι τιμές 2 μεταβλητών, Χ και Υ, μετρημένες στο ίδιο υποκείμενο x Οριζόντιος Χ η μεταβλητή πρόβλεψης (Predictor)

Παράδειγμα 1. βάρος και επιμήκυνση ελατηρίου Weight (kg) Length (cm) 0 0.00 2 0.12 4 0.21 6 0.31 8 0.40 10 0.50 LENGHT 60 50 40 30 20 10 0-10 -2 0 2 4 6 8 10 12 WEIGHT

Παράδειγμα2: Σχέση μεταξύ ηλικίας και μέσου ύψους σε παιδιά 18-32 μηνών

Παραδείγματα διαγραμμάτων διασποράς Σχέση ηλικίας συζύγων Σχέση ύψους συζύγων Οι ηλικίες των ζευγαριών είναι πιο στενά συσχετισμένες από ότι τα ύψη τους

Παραδείγματα διαγραμμάτων διασποράς Όριο ταχύτητας και θανατηφόρα ατυχήματα

Το διάγραμμα διασποράς είναι ένα πολύ χρήσιμο εργαλείο για την ανίχνευση της σχέσης μεταξύ δύο ποσοτικών μεταβλητών Εκτός της εικόνας, χρειαζόμαστε και ένα αριθμητικό δείκτη που να εκφράζει την ένταση και τη φορά της σχέσης.

Η z-τιμή ή τυπική τιμή μιας μέτρησης μας περιγράφει με ακρίβεια τη θέση που έχει στην κατανομή δείχνοντας αν η μέτρηση είναι μικρότερη, ίση ή μεγαλύτερη του ΜΟ Πόσες τυπικές αποκλίσεις μακριά από τον ΜΟ είναι z-τιμή = (Χ - ΜΟ)/s 1. Αφαιρούμε από τη μέτρηση τον ΜΟ (Απόκλιση της μέτρησης) 2. Διαιρούμε με την τυπική απόκλιση ο μέσος όρος των z-τιμών είναι ίσος με 0. Σz = 0 η τυπική απόκλιση είναι ίση με 1. Σz 2 / (n-1) = 1

AA X Y z X z Y z X. z Y 1 X 1 Y 1 z x1 z y1 2 X 2 Y 2 z x2 z y2 3 X 3 4 X 4 n X n Y 3 Y 4 Y n z x3 z xn z y3 z yn X = ΣΧ/n, s x = sd(x) Y = ΣΥ/n, s y = sd(y) r = ΣΖ Χ Ζ Υ /n-1

Συσχέτιση μεταξύ δυο μεταβλητών Οι αριθμητικοί δείκτες που ποσοτικοποιούν την ισχύ της σχέσης μεταξύ των μεταβλητών λέγονται μέτρα (measures) ή συντελεστές (coefficients) συσχέτισης (correlation) ή συνάφειας (association). Στην περίπτωση δύο ποσοτικών μεταβλητών οδείκτης που χρησιμοποιείται για την αξιολόγηση της σχέσης είναι ο συντελεστής συσχέτισης r του Pearson. Η αξιολόγηση γίνεται πάντα σε συνδυασμό με το διάγραμμα διασποράς. r = ( X ( X i i X X )( Y ) 2 i Y ) ( Y i Y ) 2

r = ( X ( X i i X )( Yi Y ) 2 X ) ( Y Y i ) 2 Το r λαμβάνει τιμές στο διάστημα [-1, +1]. -1 = πλήρης ή τέλεια αρνητική γραμμική συσχέτιση 0 = πλήρης έλλειψη γραμμικής συσχέτισης + 1= πλήρης ή τέλεια θετική γραμμική συσχέτιση 8 7 8 7 6 6 5 4 5 4 3 3 2 2 1 1 0 7 8 9 10 11 12 13 14 15 0 7 8 9 10 11 12 13 14 15

Διαγράμματα διασποράς 90 80 r=0 70 60 50 40 Y 30 0 1 2 3 4 5 6 7 8 X

r = -1 r = -0,87 r = 1 r = 0,87 Το τετράγωνο του r, λέγεται συντελεστής προσδιορισμού (determination coefficient) και εκφράζει το ποσοστό της διακύμανσης του Υ που εξηγείται από τη σχέση του με το Χ. r = 0,50 r = 0,50

Παράδειγμα: ησχέσητουgrip strength με arm strength. r =0.63

Ιδιότητες r Pearson, r, δείχνει την ένταση της σχέσης μεταξύ δύο ποσοτικών μεταβλητών X, Y. λαμβάνει τιμές από -1 (αντιστρόφως ανάλογη) έως 1 (ανάλογη) η τιμή του δεν επηρεάζεται από την κλίμακα μέτρησης των ΧκαιΥ Η συσχέτιση μεταξύ Χ και Υ είναι ίση με αυτήν μεταξύ Υ και Χ. (συμμετρία) η τιμή του μπορεί να επηρεαστεί από το εύρος των μετρήσεων

«Ποιοτική» αξιολόγηση της συσχέτισης Ισχυρή Ασθενής Ασθενής Ισχυρή -1.0-0.80-0.60-0.40-0.20 0.0 0.20 0.40 0.60 0.80 1.0 Πολύ ισχυρή Μέτρια Αδύνατη ή ανύπαρκτη Μέτρια Πολύ ισχυρή

Περιορισμός εύρους (Restriction in range) A B Το διάγραμμα Β περιέχει μερικά από τα σημεία του Α. Το r στο Β < r στο Α. Άρα: συσχέτιση μεταξύ των X and Y ίσως να διαφέρει σε διαφορετικούς πληθυσμούς.

Ιδιότητες r Σημαντική συσχέτιση ΕΝ σημαίνει κατ ανάγκη στενή σχέση - ακόμα και αδύνατες σχέσεις μπορεί να βγουν σημαντικές με μεγάλο δείγμα Μη σημαντικές συσχετίσεις δεν σημαίνουν κατ ανάγκη έλλειψη σχέσης ησημαντικότης(ή ημη) αναφέρεται στο ότι απορρίπτουμε (ή δεν) την Ηο: ρ=0 υψηλή συσχέτιση ΕΝ σημαίνει κατ ανάγκη και σχέση αιτίου-αιτιατού.

Outliers ιδιαίτερη προσοχή χρειάζεται στο πώς μεταχειριζόμαστε τα outliers αν τα outliers είναι ορθά τις περισσότερες φορές δεν πρέπει να τα αγνοούμε ορθά outliers μπορεί να δώσουν λάθος συσχέτιση (ειδικά σε μικρά δείγματα)

Outliers and influential points (example 3) (ακραία σημεία και σημεία επιρροής) 14 12 10 outlier 16 14 12 Outlier and influential 8 6 4 2 10 8 6 4 2 Outlier, not influential Y1 0 0 2 4 6 8 10 12 Y2 0 0 2 4 6 8 10 12 14 16 X1 X2

x y1 y2 y3 10,00 8,04 9,14 7,46 8,00 6,95 8,14 6,77 13,00 7,58 8,74 12,74 9,00 8,81 8,77 7,11 11,00 8,33 9,26 7,81 14,00 9,96 8,10 8,84 6,00 7,24 6,13 6,08 4,00 4,26 3,10 5,39 12,00 10,84 9,13 8,15 7,00 4,82 7,26 6,42 5,00 5,68 4,74 5,73 Y1 Y2 11 10 9 8 7 6 5 4 2 X1 10 9 8 7 6 5 4 3 2 X2 4 4 6 6 8 8 10 10 12 12 14 14 16 16 Y2 Y3 14 12 10 8 6 4 2 X3 10 9 8 7 6 5 4 3 2 X2 4 4 6 6 8 8 10 10 12 12 14 14 16 16 r(x, Y1) = r(x, Y2) = r (X, Y3) = 0.816

Παραδείγματα διαγραμμάτων διασποράς Όριο ταχύτητας και θανατηφόρα ατυχήματα r=0.55 Πως αλλάζει το r αν βγάλουμε την Ιταλία; Πως αλλάζει το r αν βγάλουμε και την Βρεττανία;

Παράδοξο του Simpson (example 4) 20 20 18 18 16 16 14 14 12 12 10 10 8 8 Y 6 2 4 6 8 10 12 14 16 Y 6 2 4 6 8 10 12 14 16 X X

Συσχέτιση και αιτιώδης συνάφεια υψηλές συσχετίσεις σε δεδομένα από μελέτες παρατήρησης δεν μπορεί από μόνες τους να θεμελιώσουν σχέση αιτίας-αιτιατού

Ερμηνείες της συσχέτισης 1. Σχέση αιτίου και αιτιατού 2. Κρυφή μεταβλητή 3. Confounding

Συσχέτιση και αιτιώδης συνάφεια το Χ προκαλεί το Υ το Υ προκαλεί το Χ Η Ζ προκαλεί το Χ και Υ Χ και Υ μεταβάλλονται με το χρόνο η συσχέτιση μπορεί να είναι εντελώς τυχαία

Regression models (Μοντέλα παλινδρόμησης) Ο όρος παλινδρόμηση (regression) περικλείει μια μεγάλη γκάμα στατιστικών μοντέλων. Όλα προσπαθούν να περιγράψουν αλγεβρικά τη σχέση μεταξύ της μεταβλητής απόκρισης Υ, και μίας η περισσοτέρων μεταβλητών πρόβλεψης Χ1, Χ2 κλπ. Τα κυριότερα είναι: γραμμική παλινδρόμηση (η μεταβλητή απόκρισης είναι συνεχής) λογιστική παλινδρόμηση (η μεταβλητή απόκρισης είναι δυαδική) παλινδρόμηση Cox (μοντέλα για ανάλυση επιβίωσης)

Μοντέλο απλής γραμμικής παλινδρόμησης Y Y i Y= a + bx ε i Y i = a + bx i + ε i X i Τα a και b υπολογίζονται έτσι ώστε το Σε 2 να είναι min. X

Ηευθείαy = a + bx, λέγεται ευθεία παλινδρόμησης του Υ στο Χ. Τα a και b είναι άγνωστα και εκτιμούνται από τα δεδομένα έτσι ώστε οι αποστάσεις των σημείων από την ευθεία να είναι η ελάχιστη δυνατή (ευθεία ελαχίστων τετραγώνων Least square line) Το a είναι η σταθερά (constant, intercept) α = Y bx Το b είναι η κλίση b=r(s y /s x ). Αν r=0 τοτε και b=0. οι αποστάσεις μεταξύ της ευθείας και των σημείων λέγονται υπόλοιπα (residual) και η μελέτη τους μας πληροφορεί για το πόσο καλή είναι η προσαρμογή του μοντέλου στα δεδομένα.

Linear Regression Assumptions 1. Η σχέση μεταξύ του Υ και του Χ είναι γραμμική 2. Η κατανομή του Υ για κάθε τιμή του Χ είναι κανονική 3. Οι διακυμάνσεις του Υ για κάθε τιμή του Χ είναι ίσες (homoschedasticity)

X=20 X=30 X=40 Y=birthweight (g) 20 30 40 X=gestation time (weeks)

Y=baby weights (g) Y/X=40 weeks ~ N(4000, σ 2 ) Y/X=30 weeks ~ N(3000, σ 2 ) Y/X=20 weeks ~ N(2000, σ 2 ) 20 30 40 X=gestation times (weeks)

Η διακύμανση του Υ για δεδομένο Χ είναι η μέση μεταβλητότητα των τιμών Υ γύρω από τη γραμμή παλινδρόμησης και υποθέτουμε ότι παραμένει σταθερή (ομοσκεδαστικότητα Homoschedasticity). Y=baby weights (g) S y/x S y/x S y/x S y/x S y/x S y/x 20 30 40 X=gestation times (weeks)

Y _ SST = (Y i - Y) 2 Ανάλυση της διακύμανσης ^ Yi Y i SSE = (Y i - Y i ) 2 _ SSR = (Y i - Y) 2 ^ Y i = a + bx i _ Y X i X

SSR Due to regression SST SST = SSR + SSE SSE Random/unexplained. r 2 = SSR / SST = ποσοστό της διακύμανσης του Y, που εξηγείται απο τη σχέση που υπάρχει με το Χ

Residuals- Υπόλοιπα Παρατηρηθείσα τιμή τιμή πρόβλεψης = σφάλμα πρόβλεψης = υπόλοιπο ( residual). Το residual plot δείχνει τη σχέση μεταξύ των υπολοίπων και της μεταβλητής πρόβλεψης (X). Το residual plot είναι χρήσιμο διαγνωστικό εργαλείο για το πόσο καλά ταιριάζει το μοντέλο της παλινδρόμησης στα δεδομένα.

Ιδιότητες των Residuals Ο μέσος όρος των residuals είναι 0. Στο residual plot δεν πρέπει να διαφαίνεται κάποια σχέση (no pattern) και η γραμμή παλινδρόμησης να είναι σχεδόν οριζόντια. Αν δεν είναι, τότε μάλλον η γραμμική παλινδρόμηση δεν είναι ο καταλληλότερος τρόπος μοντελοποίησης των δεδομένων.

Έλεγχος προυποθέσεων 1. Linear relationship Check the scatterplots of Y vs Xs Check the scatterplots of the residuals vs Xs 2. Constant variance Check the scatterplot of residuals vs predicted values of Y 3. Normally distributed residuals Check normal probability plot of the residuals

Διαστήματα Εμπιστοσύνης χρησιμοποιώντας τη γραμμική παλινδρόμηση ΔΕ για τη μέση τιμή του Υ για δεδομένο Χ κάτω και πάνω όριο, γύρω από το σημειακό εκτιμητή του Υ, γιατημέσητιμήτουυ. ΔΕ για μία ατομική τιμή του Υ για δεδομένο Χ κάτω και πάνω όριο, γύρω από το σημειακό εκτιμητή του Υ, για ατομική τιμή του Υ.

Έλεγχος Υποθέσεων Βοηθά η Χ στην πρόβλεψη της Υ; H 0 : b=0 (η Χ είναι ΔΕΝ βοηθά στην πρόβλεψη του Υ) vs. H A : b 0 (η Χ με βοηθά να προβλέψω καλύτερα την Υ) t c = b/se(b) ΣΤΑΤΙΣΤΙΚΑ ΣΗΜΑΝΤΙΚΗ ΣΧΕΣΗ ΔΕΝ ΣΗΜΑΙΝΕΙ ΚΑΤ ΑΝΑΓΚΗ ΚΑΙ ΚΛΙΝΙΚΑ ΣΠΟΥΔΑΙΑ Ή ΧΡΗΣΙΜΗ ΣΧΕΣΗ

Επεκτάσεις του απλού γραμμικού μοντέλου Αν δεν ισχύει η γραμμικότητα στη σχέση των δύο μεταβλητών Μετασχηματισμός (π.χ. Λογαριθμικός) μεταβλητών Μπορούμε να επεκτείνουμε το μοντέλο για περιγραφή πιο πολύπλοκων σχέσεων, για παράδειγμα y = b 0 + b 2 x + b 3 x 2. Μοντέλα πολλαπλής παλινδρόμησης y = b 0 + b 1 x 1 + b 2 x 2 + + b k x k. Πόσεςκαιποιέςμεταβλητέςπρέπεινασυμπεριληφθούν;