4.6 Σςζσέηιζη και γπαμμική παλινδπόμηζη Η ζπζρέηηζε (correlaton) κεηαμύ δύν ή πεξηζζόηεξσλ πνζνηηθώλ κεηαβιεηώλ απνηειεί έλα από ηα ζεκαληηθόηεξα αληηθείκελα ζηε ζηαηηζηηθή. Μαο ελδηαθέξεη λα κειεηήζνπκε ηελ ύπαξμε ζρέζεο κεηαμύ δύν ραξαθηεξηζηηθώλ, γηα παξάδεηγκα κεηαμύ ησλ σξώλ δηαβάζκαηνο θαη ηεο ζρνιηθήο επίδνζεο ελόο αηόκνπ, ηνπ δείθηε λνεκνζύλεο θαη ηεο ηθαλόηεηαο επεμεξγαζίαο αξηζκεηηθώλ ελλνηώλ, ηεο θιεξνλνκηθόηεηαο θαη ηεο επθπΐαο. Σηελ πεξίπησζε πνπ δηαπηζησζεί ε ύπαξμε ηέηνηαο ζρέζεο κεηαμύ δύν κεηαβιεηώλ, επηρεηξνύκε λα ηελ πξνζεγγίζνπκε κε ηελ πην απιή κνξθή ζρέζεο, ηε γξακκηθή. Αλ X θαη Y είλαη δύν πνζνηηθέο κεηαβιεηέο, ηόηε ε γξακκηθή ζρέζε πνπ ζπλδέεη ηα X θαη Y είλαη ηεο κνξθήο Y a b X, όπνπ a θαη b είλαη δύν ζηαζεξέο ηηο νπνίεο ζέινπκε λα πξνζδηνξίζνπκε. Σπλήζσο ε δηεξεύλεζε γηα ηελ ύπαξμε γξακκηθήο ζρέζεο μεθηλά κε έλα δηάγξακκα ζθεδαζκνύ (scatter dagram). Παράδειγμα 17 (Σσζτέηιζη) Τα δεδνκέλα Β Λςκείος 10 11.5 12 15.5 18 19 20 Γ Λςκείος 10.5 12 14.5 14.5 17 18.5 20 παξηζηάλνπλ ηελ επίδνζε ησλ γξαπηώλ ησλ απνιπηήξησλ εμεηάζεσλ ζηα καζεκαηηθά θαηεύζπλζεο ηεο Β ιπθείνπ (κεηαβιεηή X ) θαη ζηα καζεκαηηθά θαηεύζπλζεο ηεο Γ ιπθείνπ (κεηαβιεηή Y ) επηά καζεηώλ. Παξαηεξώληαο ηα δεδνκέλα νδεγνύκαζηε ζην εξεπλεηηθό εξώηεκα γηα ύπαξμε ζρέζεο κεηαμύ ησλ κεηαβιεηώλ X θαη Y, δηόηη ηα δεύγε ηηκώλ XY, 10,10.5, 11.5,12, 12,14.5, 15.5,14.5, 18,17, 19,18.5, 20,20 πνπ αλαπαξηζηνύλ ηνπο βαζκνύο ηνπ θάζε καζεηή, δείρλνπλ όηη νη δύν βαζκνί δελ δηαθέξνπλ ζεκαληηθά κεηαμύ ηνπο. Ίδηεο ελδείμεηο καο δίλεη ην δηάγξακκα ζθεδαζκνύ κεηαμύ ησλ X θαη Y, πνπ απεηθνλίδεηαη ζην Σρήκα 22. Κάζε ζεκείν ηνπ δηαγξάκκαηνο αληηζηνηρεί ζην δεύγνο ηηκώλ XY, κε ηηο βαζκνινγίεο ηεο Β θαη ηεο
Γ Λπθείνπ. Γηα παξάδεηγκα, ην ζεκείν πνπ βξίζθεηαη θάησ αξηζηεξά θαη παξηζηάλεηαη κε κπιε ηεηξαγσλάθη, αληηζηνηρεί ζηε ζηήιε ηνπ πίλαθα, δειαδή ζην δεύγνο 10,10.5. Παξαηεξνύκε όηη νη δύν επηδόζεηο ζπζρεηίδνληαη, θαζώο όζν κεγαιώλεη ε ηηκή ηεο Β ηόζν κεγαιώλεη ε αληίζηνηρε ηηκή ηεο Γ, πνπ κπνξεί λα εθθξαζζεί από κηα γξακκηθή ζρέζε, πνπ αληηζηνηρεί γξαθηθά ζε κε κηα επζεία γξακκή. Σρήκα 22. Γηάγξακκα ζθεδαζκνύ θαη ε αληίζηνηρε επζεία γξακκηθήο παιηλδξόκεζεο γηα ηα δεδνκέλα ηνπ Παξαδείγκαηνο 17. Πέξα όκσο από ηελ νπηηθό εληνπηζκό γξακκηθήο ζρέζεο κεηαμύ δύν κεηαβιεηώλ ππάξρεη ν ζπληειεζηήο ηνπ Pearson πνπ είλαη έλα αξηζκεηηθό κέηξν εληνπηζκνύ ηεο ύπαξμεο γξακκηθήο ζρέζεο κεηαμύ δύν κεηαβιεηώλ. Ο ζπληειεζηήο ζπζρέηηζεο ηνπ Pearson ελλνηνινγηθά κπνξεί λα πεξηγξαθεί σο εμήο: βαζκόο ζπκκεηαβνιήο X θαη Y γηλόκελν βαζκώλ κεηαβιεηόηεηαο ηνπ X θαη Y. Έηζη, ν ζπληειεζηήο γξακκηθήο ζπζρέηηζεο δύν κεηαβιεηώλ X θαη Y κε βάζε έλα δείγκα δεπγώλ x, y, όπνπ 1,2,,, ζπκβνιίδεηαη κε r θαη δίλεηαη από ηνλ ηύπν: r ( x x)( y y) ( x x)( y y) 1 1 ( x x) ( x x) ( y y) ( y y) 2 2 2 2 1 1
ή ζπληνκνγξαθηθά r ( x x)( y y) ( x x) ( y y) 2 2 Ο αξηζκεηήο ζηνλ παξαπάλσ ηύπν εθθξάδεη ηε ζπλδηαθύκαλζε (covarance) ησλ κεηαβιεηώλ X θαη Y. Η ζπλδηαθύκαλζε είλαη νπζηαζηηθά έλαο αξηζκόο πνπ εθθξάδεη ην βαζκό αιιειεπίδξαζεο, δειαδή ζπκκεηαβνιήο, ησλ δύν κεηαβιεηώλ. Πξέπεη λα ζεκεησζεί ε αληηζηνηρία ηνπ ηύπνπ ηεο ζπλδηαθύκαλζεο κε ην ηύπν ηεο δηαθύκαλζεο κηαο κεηαβιεηήο πνπ έρνπκε νξίζεη ζηελ ελόηεηα 4.2. Γηα ιόγνπο απινπνίεζεο ησλ ηύπσλ, ζεσξνύκε όηη θάζε ηηκή δειαδή 1, ηόηε 2 2 1 1 1 1. x εκθαλίδεηαη κόλν κία θνξά, 1 1 s ( x x) ( x x) ( x x) Οπζηαζηηθά, αλ εμαηξέζνπκε ηε ζηαζεξά πξνθύπηεη κε ηελ αληηθαηάζηαζε ελόο από ηα δύν. 1, ν ηύπνο ηεο ζπλδηαθύκαλζεο 1 x από ην y. Ο παξνλνκαζηήο 1 ζηνλ ζπληειεζηή ηνπ Pearson, αλ εμαηξέζνπκε θαη πάιη ηηο ζηαζεξέο 1, εθθξάδεη ηηο δύν δεηγκαηηθέο ηππηθέο απνθιίζεηο ησλ X θαη Y, πνπ εθθξάδεη ην βαζκό ηεο κεηαβιεηόηεηάο ηνπο. Από ηνλ νξηζκό ηνπ r πξνθύπηεη όηη όηαλ νη ηηκέο x παίξλνπλ ηηκέο πάλσ από ην κέζν όξν x, ηόηε ε παξάζηαζε ( x x) είλαη ζεηηθή. Αλ ην ίδην ζπκβαίλεη γηα ην ( y y) ηόηε ην γηλόκελν ( x x)( y y) είλαη ζεηηθό όπσο επίζεο θαη ην r, θαζώο ν παξνλνκαζηήο είλαη πάληα ζεηηθόο. Γειαδή όηαλ ζε κεγάιεο ηηκέο ηεο κεηαβιεηήο X αληηζηνηρνύλ κεγάιεο ηηκέο ηεο κεηαβιεηήο Y, ηόηε ν ζπληειεζηήο ζπζρέηηζεο είλαη ζεηηθόο θαη νη αληίζηνηρεο κεηαβιεηέο θεηικά ζςζσεηιζμένερ. Αληίζηνηρα, όηαλ νη ηηκέο x παίξλνπλ ηηκέο θάησ από ην κέζν όξν x, ηόηε ε παξάζηαζε ( x x) είλαη αξλεηηθή. Αλ ην ίδην ζπκβαίλεη γηα ην ( y y) ηόηε ην γηλόκελν ( x x)( y y) είλαη ζεηηθό όπσο επίζεο θαη ην r. Γειαδή όηαλ ζε κηθξέο ηηκέο ηεο κεηαβιεηήο X αληηζηνηρνύλ κηθξέο ηηκέο ηεο κεηαβιεηήο Y, ηόηε ν ζπληειεζηήο ζπζρέηηζεο είλαη ζεηηθόο θαη νη αληίζηνηρεο κεηαβιεηέο ζεηηθά ζπζρεηηζκέλεο. Αληίζεηα όηαλ κεγάιεο ηηκέο ηεο X αληηζηνηρνύλ ζε κηθξέο ηηκέο ηεο Y, ηόηε ν ζπληειεζηήο ζπζρέηηζεο
είλαη αξλεηηθόο θαη νη αληίζηνηρεο κεηαβιεηέο απνηηικά ζςζσεηιζμένερ. Τν εύξνο ηηκώλ ηνπ ζπληειεζηή ζπζρέηηζεο είλαη από ην 1 έσο θαη ην 1. Τν κεδέλ αληηπξνζσπεύεη κεδεληθή ζρέζε κεηαμύ ησλ δύν κεηαβιεηώλ, ην 1 ηέιεηα ζεηηθή ζρέζε, ελώ ην 1 κηα ηέιεηα αξλεηηθή ζρέζε. Μεηαμύ ηνπ 1 θαη ηνπ 1, πξνηείλνληαη νη εμήο θαηεγνξηνπνηήζεηο ζηε βηβιηνγξαθία (Καηζήο θ. ζπλ. 2011, ζει. 112) σο πξνο ηελ απόιπηε ηηκή ηνπ r : 0.00 0.20 κεδεληθή ζρέζε 0.21 0.40 κηθξή ζρέζε 0.41 0.60 κέηξηα ζρέζε 0.61 0.80 ηζρπξή ζρέζε 0.81 1.00 πνιύ ηζρπξή ζρέζε. Έηζη, ζην Σρήκα 22 ηνπ Παξαδείγκαηνο 17 θαίλεηαη όηη έρνπκε ηζρπξή ζεηηθή ζπζρέηηζε, ε νπνία επηβεβαηώλεηαη από ην ζπληειεζηή ζπζρέηηζεο ηνπ Pearson πνπ ηζνύηαη κε 0.959. Οη ζρεηηθνί αξηζκεηηθνί ππνινγηζκνί κέζσ ηεο R, μεθηλνύλ κε ηελ εηζαγσγή ησλ δεδνκέλσλ: > maths.b <- c(10, 11.5, 12, 15.5, 18, 19, 20) > maths.c <- c(10.5, 12, 14.5, 14.5, 17, 18.5, 20) θαη νινθιεξώλνληαη κε ηελ εληνιή > cor(maths.b, maths.c) [1] 0.958549 Αληίζεηα, ζην Σρήκα 23Α ηα δεδνκέλα είλαη αζπζρέηηζηα ( r 0.135 ) θαη ζην Σρήκα 23Β αξλεηηθώο ζπζρεηηζκέλα ( r 0.967 ).
Σρήκα 23. Α. Γηάγξακκα ζθεδαζκνύ γηα αζπζρέηηζηα δεδνκέλα. Β. Γηάγξακκα ζθεδαζκνύ θαη ε αληίζηνηρε επζεία γξακκηθήο παιηλδξόκεζεο γηα αξλεηηθώο ζπζρεηηζκέλα δεδνκέλα. Ωο ινγηθό επόκελν ηεο ύπαξμεο γξακκηθήο ζρέζεο κεηαμύ δύν κεηαβιεηώλ πξνθύπηεη ν θαζνξηζκόο ελόο ζπγθεθξηκέλνπ ηύπνπ ηεο κνξθήο Y a b X πνπ λα ηελ εθθξάδεη επαθξηβώο. Θέινπκε δειαδή λα πξνζδηνξίζνπκε ηελ θόθθηλε επζεία ζην Σρήκα 22 πνπ αλαθέξεηαη ζηα δεδνκέλα ηνπ Παξαδείγκαηνο 17. Ωο κεηαβιεηέο έρνπκε νξίζεη ηελ X, πνπ ζπκβνιίδεη ηελ επίδνζε ζηα καζεκαηηθά ηεο Β Λπθείνπ, ε νπνία απνθαιείηαη ανεξάπηηηη μεηαβληηή θαη σο Y ηελ επίδνζε ζηα καζεκαηηθά ηεο Γ Λπθείνπ ε νπνία απνθαιείηαη εξαπηημένη μεηαβληηή. Η νξνινγία απηή βαζίδεηαη θπξίσο ζηε ρξήζε ηεο γξακκηθήο παιηλδξόκεζεο σο μονηέλο ππόβλετηρ ησλ ηηκώλ ηεο Y όηαλ νη ηηκέο ηεο X είλαη γλσζηέο. Γηα λα πξνζδηνξίζνπκε ηελ επζεία παιηλδξόκεζεο πξέπεη λα βξνύκε ηα a, b πνπ ιέγνληαη ζπληειεζηέο παιηλδξόκεζεο. Ο ζπληειεζηήο a, ν νπνίνο νλνκάδεηαη ζηαζεξόο όξνο (constant term ή ntercept), εθθξάδεη ηελ ηηκή ηεο εμαξηεκέλεο κεηαβιεηήο Y όηαλ ε αλεμάξηεηε κεηαβιεηή X είλαη ίζε κε ην κεδέλ. Ο ζπληειεζηήο b αληηπξνζσπεύεη ηελ θιίζε ηεο επζείαο παιηλδξόκεζεο. Αλ ην b είλαη ζεηηθό ηόηε ηα δεδνκέλα καο είλαη ζεηηθά ζπζρεηηζκέλα, ελώ αλ είλαη αξλεηηθό ηα δεδνκέλα είλαη αξλεηηθά ζπζρεηηζκέλα. Δπηπιένλ, ην b δείρλεη ηε κεηαβνιή ηεο Y όηαλ ε X κεηαβιεζεί θαηά κία κνλάδα. Γηα παξάδεηγκα, αλ ζηελ επζεία παιηλδξόκεζεο Y 23 X ζέζνπκε X 0 πξνθύπηεη Y 2 θαη αλ ζέζνπκε X 1 πξνθύπηεη Y 5. Γειαδή, όηαλ ε κεηαβιεηή X απμάλεηαη θαηά κία κνλάδα ηόηε ε κεηαβιεηή Y απμάλεηαη θαηά 3 κνλάδεο. Ο πην εύθνινο ηξόπνο γηα λα γίλεη ε εθηίκεζε ησλ a θαη b είλαη ε κέζνδνο
ησλ ειαρίζησλ ηεηξαγώλσλ. Σπγθεθξηκέλα, ζεσξνύκε όηη ε επζεία πνπ ζα πξνζαξκόζνπκε ζηα δεδνκέλα καο δελ ζα δηέξρεηαη από όια ηα ζεκεία ηνπ δηαγξάκκαηνο ζθεδαζκνύ. Σε απηή ηελ πεξίπησζε ζα είρακε απνιύησο ζπλεπζεηαθά δεδνκέλα πνπ δελ επηηπγράλεηαη ζηελ πξάμε. Δπνκέλσο, ε επζεία παιηλδξόκεζεο ζα παξνπζηάδεη θάπνην ζθάικα πξνζαξκνγήο γηα θάζε δεύγνο x, y ην νπνίν δελ αλήθεη ζηελ επζεία παιηλδξόκεζεο. Αλ y ˆ είλαη ε εθηηκώκελε ηηκή (ftted value) γηα ην Y όηαλ ζέζνπκε ζηελ επζεία παιηλδξόκεζεο όπνπ X ην x, δειαδή yˆ a b x, ηόηε ηθαλνπνηείηαη ε ζρέζε: y a b x y ( a b x ) y yˆ, όπνπ 1,2,,. Δίλαη ινηπόλ εύινγν λα επηιέμνπκε σο θξηηήξην γηα ηελ επηινγή ηεο επζείαο παιηλδξόκεζεο εθείλα ηα a θαη b ηα νπνία ειαρηζηνπνηνύλ ην ζπλνιηθό ζθάικα πξνζαξκνγήο πνπ είλαη y a b x 2. 2 2 2 1 Χξεζηκνπνηνύκε ηα ηεηξάγσλα ησλ ζθαικάησλ γηα λα εμαζθαιίζνπκε όηη απηά ζα είλαη κεγαιύηεξα ή ίζα κε ην κεδέλ. Θα κπνξνύζακε λα πηνζεηήζνπκε σο ζπλνιηθό ζθάικα πξνζαξκνγήο ην άζξνηζκα ησλ, δειαδή ηελ πνζόηεηα. 1 Σε απηή ηελ πεξίπησζε, επεηδή ηα είλαη θαη ζεηηθά θαη αξλεηηθά, ζα κπνξνύζακε λα βξνύκε πνιύ κηθξό ζπλνιηθό ζθάικα πνπ δελ ζα αληαπνθξίλνληαλ ζηελ πξαγκαηηθόηεηα, επεηδή νη ζεηηθέο ηηκέο ζα αθπξώλνπλ ηηο αξλεηηθέο. Η ειαρηζηνπνίεζε ηνπ ζπλνιηθνύ ζθάικαηνο πξνζαξκνγήο γίλεηαη κε καζεκαηηθέο κεζόδνπο, νη νπνίεο θαηαιήγνπλ ζηα εμήο απνηειέζκαηα (Mood et al., 1974, ζει. 499), γηα ηνπο εθηηκεηέο ησλ a θαη b πνπ ζπκβνιίδνληαη κε θαπειάθηα: bˆ aˆ y bˆ x ( x x)( y y) x x 2 Παράδειγμα 17 (Σσνέτεια - Εσθεία γραμμικής παλινδρόμηζης) Η εθαξκνγή ησλ παξαπάλσ ηύπσλ κε ηελ R, γίλεηαη κε ηελ εληνιή lm ε νπνία δέρεηαη ηνλ ηύπν ηεο γξακκηθήο παιηλδξόκεζεο ζηε κνξθή Y ~ ζπληειεζηέο a 2.8762 θαη ηνλ ζπληειεζηή ηνπ X πνπ είλαη b 0.8195. X θαη καο δίλεη ηνπο
> lm(maths.c ~ maths.b) Call: lm(formula = maths.c ~ maths.b) Coeffcents: (Intercept) maths.b 2.8762 0.8195 Τν απνηέιεζκα αληηζηνηρεί ζηελ επζεία παιηλδξόκεζεο Y 2.8762 0.8195 X. Με βάζε απηόλ ηνλ ηύπν ζρεκαηίδνπκε ηνλ πίλαθα κε ζηήιεο x, y, πνπ αλαθέξνληαη ζηα δεδνκέλα, ηηο εθηηκώκελεο ηηκέο y ˆ θαη ηέινο ηα ζθάικαηα πξνζαξκνγήο (resduals). x y y ˆ 10 10.5 11.07-0.57 11.5 12 12.30-0.30 12 14.5 12.71 1.79 15.5 14.5 15.58-1.08 18 17 17.63-0.63 19 18.5 18.45 0.05 20 20 19.27 0.73 Με ηελ R κπνξνύκε λα έρνπκε ηηο δύν ηειεπηαίεο ζηήιεο ηνπ πίλαθα, σο εμήο: > lm(maths.c ~ maths.b)$ftted.values 1 2 3 4 5 6 7 11.07116 12.30041 12.71016 15.57839 17.62713 18.44663 19.26612 > lm(maths.c ~ maths.b)$resduals 1 2 3 4 5 6 7-0.57116383-0.30040771 1.78984433-1.07839140-0.62713121 0.05337287 0.73387695 Η επζεία παιηλδξόκεζεο καδί κε ηα θαηαθόξπθα επζύγξακκα ηκήκαηα πνπ παξηζηάλνπλ ηα ζθάικαηα πξνζαξκνγήο Σρήκα 24. Η ζρέζε Y 2.8762 0.8195 X, γηα θάζε καζεηή απεηθνλίδνληαη ζην καο δίλεη ηε δπλαηόηεηα πξόβιεςεο ηνπ βαζκνύ ζηα καζεκαηηθά ηεο Γ Λπθείνπ αλ είλαη γλσζηόο ν αληίζηνηρνο βαζκόο ηεο Β. Γηα παξάδεηγκα, αλ X 15, ηόηε πξνβιέπνπκε, κεηά από ζηξνγγπινπνίεζε ηνπ απνηειέζκαηνο, όηη Y 2.8762 0.8195 15 15.17.
Σρήκα 24. Η επζεία γξακκηθήο παιηλδξόκεζεο ησλ δεδνκέλσλ ηνπ Παξαδείγκαηνο 17. Τα θαηαθόξπθα επζύγξακκα ηκήκαηα αληηζηνηρνύλ ζηα ζθάικαηα πξνζαξκνγήο.