Άσκηση Ο επόμενος πίνακας δίνει τους βαθμούς φοιτητών (Χ i ) στις εισαγωγικές εξετάσεις ενός κολεγίου και τους αντίστοιχους βαθμούς τους (Υ i ) στο τέλος της πρώτης χρονιάς φοίτησης στο συγκεκριμένο κολέγιο. i β. ου έτους (Υ i ) β. εισαγωγής (Χ i ) 3. 5.5.3 4.8 3 3. 4.7 4.9 3.9 5.5 4.5 6 3.7 6. 7 3.4 6. 8.6 5. 9.8 4.7.6 4.3. 4.9.9 5.4 3.3 5. 4 3. 6.3 5.8 4.6 6.4 4.3 7. 5. 8 3.8 5.9 9. 4..5 4.7 Να γίνει το διάγραμμα διασποράς (scatterplt) μεταξύ των Χ, Υ. Να κάνετε μελέτη του μοντέλου Υ = β + β Χ + ε. Συγκεκριμένα: α. Δώστε την φυσική ερμηνεία των β, β, R. β. Κάνετε τους ελέγχους σε ε.σ. α=5% και α=%: Η : β =, Η : β, και Η : β =, Η : β > Η : β =, Η : β, και Η : β =, Η : β > Η : β =.8, Η : β.8, Η : β.8, Η : β >.8, Η : β.8, Η : β <.8 Η : β =, Η : β, και σχολιάστε τα αποτελέσματα. γ. Δώστε δ.ε. με σ.ε. 95% και 99% για τα β, β και σχολιάστε τα αποτελέσματα. δ. Κάνετε το διάγραμμα διασποράς των δεδομένων (Χ,Υ) μαζί με την προσαρμοσμένη ευθεία και τις ζώνες εμπιστοσύνης (για ατομική και μέση πρόβλεψη) με σ.ε. 95% και 99%. ε. Ποιο βαθμό αναμένεται να λάβει στο ο έτος σπουδών του κάποιος που έχει βαθμό εισαγωγής 5; (να γίνει σημειακή εκτίμηση και να δοθεί το δ.ε. με σ.ε. 95% και 99%). Να δοθεί επίσης το δ.ε. συντελεστού 95% για την ατομική πρόβλεψη. Ποιος είναι περίπου ο βαθμός εισαγωγής ενός φοιτητή που είχε βαθμό ου έτους 3.5; στ. Σε ποίο σημείο Χ βρίσκουμε το μικρότερο δ.ε. για την μέση πρόβλεψη και γιατί; ποιο είναι εδώ αυτό το δ.ε.; ζ. Να κατασκευάσετε τον πίνακα ανάλυσης διασποράς (ΑNOVA) και να κάνετε τον έλεγχο του μοντέλου μέσω του F-τεστ.
Απαντήσεις. Να γίνει το διάγραμμα διασποράς (scatterplt) μεταξύ των Χ, Υ. (/Graphs/Scatter ή /Graphs/Interactive/Scatterplt) 4, 3,5 3,,5,,5, 3,5 4, 4,5 5, 5,5 6, 6,5 X Να κάνετε μελέτη του μοντέλου Υ = β + β Χ + ε. (/Analyze/Regressin/Linear, +/statistics/cnf. intervals) Mdel Summary Mdel R R Square Adjusted R Square Std. Errr f the Estimate,89,654,635,435 a Predictrs: (Cnstant), X ANOVA Mdel Sum f df Mean F Sig. Squares Square Regressin 6,434 6,434 33,998, Residual 3,46 8,89 Ttal 9,84 9 a Predictrs: (Cnstant), X b Dependent Variable: Unstandardized Standardized t Sig. 95% Cnfidence Interval fr B Mdel B Std. Errr Beta Lwer Bund Upper Bund (Cnstant) -,7,77 -,338,3-3,6 -,73 X,84,44,89 5,83,,537,43 a Dependent Variable: α. Δώστε την φυσική ερμηνεία των β, β, R. T μοντέλο που χρησιμοποιούμε είναι: Υ = β + β Χ + ε και άρα Ε(Υ) = β + β Χ. Συνεπώς, Μέσος Βαθμός ου έτους = β + β Βαθμός εισαγωγής Επομένως, το β μπορεί να ερμηνευθεί ως η (μέση) αύξηση του Βαθμού ου έτους όταν αυξηθεί ο Βαθμός εισαγωγής κατά μία μονάδα. Αντίστοιχα, το β μπορεί να θεωρηθεί ως ο (μέσος) Βαθμός ου έτους για κάποιον που (θεωρητικά) είχε μηδενικό βαθμό εισαγωγής. Τέλος, το R μπορεί να θεωρηθεί ως το ποσοστό της μεταβλητότητας των Βαθμών του ου έτους που ερμηνεύεται από το μοντέλο Υ = β + β Χ + ε. β. Κάνετε τους ελέγχους σε ε.σ. α=5% και α=%: Η : β =, Η : β, Για τον συγκεκριμένο έλεγχο λαμβάνουμε από τον πίνακα των ότι το αντίστοιχο p-value είναι (περιοχή απόρριψης: T > T )
p T > T ) T > 5.83). οπότε απορρίπτουμε την υπόθεση Η σε ε.σ. α=5% και α=% (. < α =.5,.). Η : β =, Η : β > Το αντίστοιχο p-value είναι (περιοχή απόρριψης: T > T ) P( T > T) T > 5.83) T > 5.83) = p. οπότε απορρίπτουμε την υπόθεση Η σε ε.σ. α = 5% και α = % (. < α =.5,.). Εναλλακτικά, αν α = 5% απορρίπτουμε όταν T > tn = t8 (.5) =.73 και αν α = % όταν T > tn = t8 (.) =.55 Επειδή T = 5,83 απορρίπτουμε και στις δύο περιπτώσεις. Η : β =, Η : β, Για τον συγκεκριμένο έλεγχο λαμβάνουμε από τον πίνακα των ότι το αντίστοιχο p-value είναι (περιοχή απόρριψης: T > T ) p T > T ) T >.338).3 οπότε απορρίπτουμε την υπόθεση Η : σε ε.σ. α = 5% (.3 < α =.5) ενώ δεν μπορούμε να απορρίψουμε την Η όταν το ε.σ. είναι α = % (.3 > α =.). Η : β =, Η : β > Το αντίστοιχο p-value είναι (περιοχή απόρριψης: T > T ) P( T > T) T >.338) = P( T >,338) = p.3 =.9845 οπότε δεν μπορούμε να απορρίψουμε την Η σε ε.σ. α = 5% και α = %. Εναλλακτικά, αν α = 5% απορρίπτουμε όταν T > tn = t8 (.5) =.73 και αν α = % όταν T > t a) = t (.) =.55 n ( 8 Επειδή T =.338 δεν μπορούμε να απορρίψουμε και στις δύο περιπτώσεις. Η : β =.8, Η : β.8, Ο έλεγχος αυτός δεν γίνεται αυτόματα από το πακέτο. Για το λόγο αυτό θα πρέπει να μετασχηματίσουμε τα δεδομένα ώστε να καταλήξουμε σε έλεγχο της μορφής β =. Συγκεκριμένα λαμβάνοντας β = β.8 προκύπτει το μοντέλο = β β ε β β + + ε = β + β + X + = + (.8) X.8X X + ε Θέτοντας λοιπόν =.8X (/Transfrm/Cmpute) και εφαρμόζοντας το μοντέλο β β = + X + ε (/Analyze/Regressin/ Linear) λαμβάνουμε τον πίνακα Unstandardized Standardized t Sig. Mdel B Std. Errr Beta (Cnstant) -,7,77 -,338,3 X 3,99E-,44,65,77,785 a Dependent Variable: Παρατηρούμε ότι το αντίστοιχο p-value είναι
p T > T ) T >,77).785 οπότε δεν μπορούμε να απορρίψουμε την H β = β. 8 σε ε.σ. α = 5% και α = %. : = Η : β.8, Η : β >.8, Το αντίστοιχο p-value είναι (περιοχή απόρριψης: T > T ) P( T > T) T >.77) T >.77).785 =.395 οπότε δεν μπορούμε να απορρίψουμε την Η σε ε.σ. α=5% και α=%. Εναλλακτικά, αν α = 5% απορρίπτουμε όταν T > tn a) = t (.5) =. 73 και αν α = % όταν ( 8 T > tn = t8 (.) =.55. Επειδή T =.77 δεν μπορούμε να απορρίψουμε και στις δύο περιπτώσεις. Η : β.8, Η : β <.8 Το αντίστοιχο p-value είναι (περιοχή απόρριψης: T < T ) P( T < T) T <.77) = P( T >.77) = p.785 =.675 οπότε δεν μπορούμε να απορρίψουμε την Η σε ε.σ. α = 5% και α = %. Εναλλακτικά, αν α = 5% απορρίπτουμε όταν T < tn = t8(.5) =.73 και αν α = % όταν T < tn = t8(.) =.55 Επειδή T =.77 δεν μπορούμε να απορρίψουμε και στις δύο περιπτώσεις. Η : β =, Η : β, Θέτουμε β = β όποτε προκύπτει το μοντέλο + = β + β X + ε = β + β X + ε + = β + β X + ε Θέτοντας λοιπόν = + (/Transfrm/Cmpute) και εφαρμόζοντας το μοντέλο β = + βx + ε (/Analyze/Regressin/ Linear) λαμβάνουμε τον πίνακα Unstandardized Standardized t Sig. Mdel B Std. Errr Beta (Cnstant) -,7,77 -,963,349 X,84,44,89 5,83, a Dependent Variable: Παρατηρούμε ότι το αντίστοιχο p-value είναι.349 οπότε δεν μπορούμε να απορρίψουμε την H β = β = σε ε.σ. α = 5% και α = %. : γ. Δώστε δ.ε. με σ.ε. 95% και 99% για τα β, β. Τα δ.ε. 95% δίνονται αυτόματα από το πακέτο (/Analyze/Regressin/Linear,+/statistics/cnf. intervals ) και περιέχονται στον πίνακα των cefficients: Unstandardized Standardized t Sig. 95% Cnfidence Interval fr B Mdel B Std. Errr Beta Lwer Bund Upper Bund (Cnstant) -,7,77 -,338,3-3,6 -,73 X,84,44,89 5,83,,537,43 a Dependent Variable: Άρα ένα δ.ε. 95% για το β είναι το (3.6,.73) και ένα δ.ε. 95% για το β είναι το (.537,.43). Παρατηρούμε ότι τα δ.ε. δεν περιέχουν το και συνεπώς μπορούμε να απορρίψουμε τις υποθέσεις
y Η :β = και Η :β = έναντι των αμφίπλευρων Η :β και H :β αντίστοιχα σε ε.σ. 5% (όπως έχουμε ήδη κάνει στο προηγούμενο ερώτημα). Τα αντίστοιχα δ.ε. % δεν δίνονται αυτόματα από το πακέτο και άρα θα τα υπολογίσουμε μέσω των τύπων βˆ ± s ( βˆ ) t ( a / ) =.7 ±.77 t (.5) =.7 ±.77.878 = ( n 8 3.79,.39) βˆ ˆ ± s ( β) t ( a / ) =.84 ±.44 t8(.5) =.84 ±.44.878 = (.45,.54) n (π.χ. χρησιμοποιούμε την functin IDF.T(.995,8) = t 8(.5) στο Transfrm/cmpute). Παρατηρούμε ότι το δ.ε. για το β δεν περιέχει το και συνεπώς μπορούμε να απορρίψουμε την υπόθεση Η :β = έναντι της H :β σε ε.σ. %. Αντίθετα, το δ.ε. για το β περιέχει το και συνεπώς δεν μπορούμε να απορρίψουμε την υπόθεση Η :β = έναντι της H :β σε ε.σ. %. δ. Κάνετε το διάγραμμα διασποράς των δεδομένων (Χ,Υ) μαζί με την προσαρμοσμένη ευθεία και τις ζώνες εμπιστοσύνης (για ατομική και μέση πρόβλεψη) με σ.ε. 95% και 99%. α-τρόπος: (Graphs/interactive/scatterplt, Fit: regressin, cnf. Interval 95%) 4, Linear Regressin with 95.% Mean Predictin Interval and 95.% Individual Predictin Interval 3, y = -.7 +.84 x R-Square =.65,, 4, 4,5 5, 5,5 6, x β-τρόπος: Graphs/Scatter/simple, και κάνοντας διπλό κλικ επάνω στο σχήμα που θα δημιουργηθεί, α- νοίγει ο SPSS Chart editr του σχήματος και επιλέγουμε Chart/ptins, Fit line:ttal, Fit ptins:linear regressin, Regressin predictin lines: Mean, Individual, 95%) 4, 3,5 3,,5,,5, Rsq =,6538 3,5 4, 4,5 5, 5,5 6, 6,5 X Όμοια εργαζόμαστε και για την περίπτωση που έχουμε σ.ε. 99%.
ε. Ποιο βαθμό αναμένεται να λάβει στο ο έτος σπουδών του κάποιος που έχει βαθμό εισαγωγής 5; (να γίνει σημειακή εκτίμηση και να δοθεί το δ.ε. με σ.ε. 95% και 99%). Να δοθεί επίσης το δ.ε. συντελεστού 95% για την ατομική πρόβλεψη. Ποιος είναι περίπου ο βαθμός εισαγωγής ενός φοιτητή που είχε βαθμό ου έτους 3.5; Εδώ ζητείται εκτίμηση του E( ) = β + βx όταν X = 5, δηλαδή του β + 5β. Η σημειακή ε- κτίμησή του θα είναι β ˆ ˆ + 5β =.7 + 5.84 =.5. Για να πάρουμε δ.ε. 95% για τη μέση πρόβλεψη εισάγουμε το 5 στην η γραμμή της στήλης του Χ στον SPSS data editr (αφήνοντας την η γραμμή στη στήλη του Υ κενή). Στη συνέχεια εκτελούμε τη διαδικασία της παλινδρόμησης /Analyze/Regressin/Linear επιλέγοντας στο save τα Unstandardized predicted values ( ˆ = β ˆ ˆ + βx ), Predictin Intervals (Mean & Individual, 95%). Στην η γραμμή λαμβάνονται τα αποτελέσματα: σημειακή εκτίμηση:,5 (όπως έχουμε ήδη βρεί και παραπάνω) δ.ε. 95% για την μέση πρόβλεψη: (.9564,.7436) δ.ε. 95% για την ατομική πρόβλεψη: (.5635, 3.4365) Για να πάρουμε δ.ε. 99% για τη μέση πρόβλεψη εργαζόμαστε ανάλογα. Στην η γραμμή λαμβάνεται το δ.ε. (.,.77999). Αν ο φοιτητής είχε βαθμό ου έτους 3.5, ο βαθμός εισαγωγής εκτιμάται από το βˆ 3.5 +.7 X = = 6.9. βˆ,84 στ. Σε ποίο σημείο Χ βρίσκουμε το μικρότερο δ.ε. για την μέση πρόβλεψη και γιατί; ποιο είναι ε- δώ αυτό το δ.ε.; Το δ.ε. για την μέση πρόβλεψη έχει τη μορφή με εύρος ˆ ˆ ˆ ˆ ( X X ) ± s( ) tn( a / ) = β + βx ± s + tn( a / ), n S ( X X ) s + tn( a / ) n S XX το οποίο προφανώς θα είναι ελάχιστο όταν X = X. Από την διαδικασία Descriptive Statistics βρίσκουμε ότι X = 5. Το αντίστοιχο δ.ε. έχει υπολογιστεί στο προηγούμενο ερώτημα. ζ. Να κατασκευάσετε τον πίνακα ανάλυσης διασποράς (ΑNOVA) και να κάνετε τον έλεγχο του μοντέλου μέσω του F-τεστ. ANOVA Mdel Sum f df Mean F Sig. Squares Square Regressin 6,434 6,434 33,998, Residual 3,46 8,89 Ttal 9,84 9 a Predictrs: (Cnstant), X b Dependent Variable: Ο έλεγχος του μοντέλου μέσω του F-test μας οδηγεί στην απόρριψη της H : β = διότι το αντίστοιχο p- value p value = P F > F F ~ F n ) F > 33,998 F ~ F ) είναι ίσο με.. (,, 8 XX